ベイズ統計学 (ベイズとうけいがく、英 : Bayesian statistics )は、確率のベイズ的解釈 に基づく統計学 (および理論 )を指す。
この確率のベイズ的解釈 では、対象の変数 に関する確率 (分布 )は事象 における直観的信頼度 (仮説モデルの信頼度)を表す。したがってパラメーター 変数に対しても確率であるとし固定値と捉えない特徴を持つ。
さらにこの確率は新たに集めた現実の情報・データを取り込むことでより尖鋭型へ更新され、したがって事実を忠実に反映する働きと捉える[ 1] 。直観的信頼度は、以前の実験の結果や事象に関する個人的信頼度といった事象に関する事前知識に基づいてよい。
上記は数多くの他の確率の解釈 (英語版 ) に基づく統計学 理論とは異なる。例えば、頻度主義の解釈 では、確率を多数の試行後の事象の相対的頻度の極限 と見なす[ 2] 。またパラメーター 変数は固定値と捉えることを原則とする。
ベイズ統計的手法は、新たなデータを得た後に確率を計算および更新するためにベイズの定理 を用いる。ベイズの定理は、データに基づく事象の条件付き確率 や事象に関する事前情報または直観的信頼度、事象に関連した条件を説明する。例えば、ベイズ推定 において、ベイズの定理を確率分布 または統計モデル のパラメータを見積るために使うことができる。ベイズ統計学は確率を直感的信頼度として扱うため、ベイズの定理はパラメータまたはパラメータのセットに対して、信頼度を定量化する確率分布を直接的に割当てることができる[ 2] 。
ベイズ統計学という名称は、1763年に発表された論文 (英語版 ) においてベイズの理論の特殊な場合を定式化したトーマス・ベイズ に因む。18世紀末から19世紀初頭にわたるいくつかの論文において、ピエール=シモン・ラプラス は確率のベイズ的解釈を発展させた。ラプラスは、数多くの統計問題を解くためにベイズ的手法と現在は見なされるであろう手法を用いた。多くのベイズ的手法は後の執筆者らによって発展されたが、この用語は1950年代までこういった手法を言い表すためには一般的に用いれらなかった。20世紀の大半、ベイズ的手法は哲学的および実践的判断により多くの統計学者によって好まれなかった。多くのベイズ的手法は完了するのに多くの計算を必要とし、20世紀に広く用いられたほとんどの手法は頻度主義的解釈に基づいていた。しかしながら、強力な計算機とマルコフ連鎖モンテカルロ法 のような新たなアルゴリズム の出現によって、ベイズ的手法は21世紀に入り統計学内において利用の増加が見られてきている[ 2] [ 3] 。
ベイズの定理
ベイズの定理はベイズ統計学における基本定理である。ベイズの定理は新たなデータを得た後に確率(直感的信頼度)を更新するためにベイズ的手法によって用いられる。2つの事象
A
{\displaystyle A}
と
B
{\displaystyle B}
を考えると、
B
{\displaystyle B}
が真であると仮定したと時の
A
{\displaystyle A}
の条件付き確率は以下の式で表わされる[ 4] (
P
(
B
)
≠ ≠ -->
0
{\displaystyle P(B)\neq 0}
)。
P
(
A
∣ ∣ -->
B
)
=
P
(
B
∣ ∣ -->
A
)
P
(
A
)
P
(
B
)
{\displaystyle P(A\mid B)={\frac {P(B\mid A)P(A)}{P(B)}}}
ベイズの定理は確率論 の基本的結果であるものの、ベイズ統計学においては明確な解釈を持つ。上記の式において、
A
{\displaystyle A}
は大抵は命題 (硬貨が50%の確率で表面から着地するとする宣言といったようなもの)、
B
{\displaystyle B}
は考慮に入れられるべき証拠(エビデンス)または新たなデータ(一連のコイン投げの結果といったようなもの)を表わす。
P
(
A
)
{\displaystyle P(A)}
は
A
{\displaystyle A}
の事前確率 であり、証拠が考慮に入れられる前の
A
{\displaystyle A}
に関する直感的信頼を表わす。
P
(
B
∣ ∣ -->
A
)
{\displaystyle P(B\mid A)}
は尤度関数 であり、
A
{\displaystyle A}
が真であると仮定した時の証拠
B
{\displaystyle B}
の確率と解釈することができる。この尤度は、証拠
B
{\displaystyle B}
が命題
A
{\displaystyle A}
を支持する度合いを定量する。
P
(
A
∣ ∣ -->
B
)
{\displaystyle P(A\mid B)}
は事後確率 であり、証拠
B
{\displaystyle B}
を考慮に入れた後の命題
A
{\displaystyle A}
の確率である。原則的に、ベイズの定理は新たな証拠
B
{\displaystyle B}
を考慮した後に事前の直感的信頼度
P
(
A
)
{\displaystyle P(A)}
を更新する[ 2] 。
証拠の確率
P
(
B
)
{\displaystyle P(B)}
は全確率の公式 (英語版 ) を使って計算できる。
{
A
1
,
A
2
,
… … -->
,
A
n
}
{\displaystyle \{A_{1},A_{2},\dots ,A_{n}\}}
が標本空間 (実験の全ての結果 一式)の分割 であるとすると、以下のようになる[ 2] [ 4] 。
P
(
B
)
=
P
(
B
∣ ∣ -->
A
1
)
P
(
A
1
)
+
P
(
B
∣ ∣ -->
A
2
)
P
(
A
2
)
+
⋯ ⋯ -->
+
P
(
B
∣ ∣ -->
A
n
)
P
(
A
n
)
=
∑ ∑ -->
i
P
(
B
∣ ∣ -->
A
i
)
P
(
A
i
)
{\displaystyle P(B)=P(B\mid A_{1})P(A_{1})+P(B\mid A_{2})P(A_{2})+\dots +P(B\mid A_{n})P(A_{n})=\sum _{i}P(B\mid A_{i})P(A_{i})}
無限の数の結果が存在する時、全確率の公式を使って
P
(
B
)
{\displaystyle P(B)}
を計算するためには全ての結果にわたって積分 する必要がある。しばしば、この計算は評価に多大な時間を必要とする加算または積分を含むため、
P
(
B
)
{\displaystyle P(B)}
は計算が難しく、そのためしばしば事前確率と尤度の積のみが考慮される。これは、証拠が同じ分析中では変化しないためである。事後分布はこの積に比例する[ 2] 。
P
(
A
∣ ∣ -->
B
)
∝ ∝ -->
P
(
B
∣ ∣ -->
A
)
P
(
A
)
{\displaystyle P(A\mid B)\propto P(B\mid A)P(A)}
事後確率の最頻値 であり、しばしば数理最適化 手法を使ってベイズ統計学において計算される最大事後確率 は同じままである。事後確率はマルコフ連鎖モンテカルロ法または変分ベイズ法 (英語版 ) といった手法を使うことで
P
(
B
)
{\displaystyle P(B)}
の厳密値を計算せずに近似することができる[ 2] 。
ベイズ的手法の概要
一般的な統計的技術は多くの活動に分割することができ、それらの多くが特別なベイズ統計版を有する。
ベイズ推定
ベイズ推定は、推定における不確かさが確率を使って定量化される統計的推定 を指す。古典的な頻度主義的推定 (英語版 ) では、モデルのパラメータと仮説は固定と見なされる。確率は頻度主義的推定においてはパラメータまたは仮説に割り当てられない。例えば、頻度主義的推定においては、公正な硬貨を次に投げた時の結果といった一度しか起こりえない事象へ直接的に確率を割り当てることは意味をなさない。しかしながら、表が出る割合が硬貨投げ の回数が増加するにつれて2分の1に近付く と述べることは意味をなす[ 5] 。
統計モデル は、いかに標本データが生成されるかを表わす一連の統計的仮定および過程を規定する。統計モデルは修正可能な数多くのパラメータを持つ。例えば、硬貨はベルヌーイ分布 からの標本として表わすことができ、これは2つの可能な結果をモデル化している。ベルヌーイ分布は一方の結果の確率に等しい単一のパラメータを有し、ほとんどの場合これは表が着地する確率である。データに対するよいモデルを考案することがベイズ推計において中心となる。ほとんどの場合において、モデルは真の過程を近似するだけであり、データに影響する特定の因子を考慮に入れない[ 2] 。ベイズ推計において、確率はモデルのパラメータに割り当てることがでできる。パラメータは確率変数 として表わすことができる。ベイズ推計はより多くの証拠が得られたまたは知られた後に確率を更新するためにベイズの定理を用いる[ 2] [ 6] 。
統計モデリング
ベイズ統計学を用いた統計モデルの定式化は、あらゆる未知のパラメータについて事前確率 の指定を必要とする特徴を有する。実際、事前分布のパラメータそれら自身が事前分布を持ちうる(これが階層ベイズモデル につながる[ 7] )、あるいはそれら自身が相互に関係しうる(これがベイジアンネットワーク につながる)。
実験計画法
ベイズ実験計画法 (英語版 ) は「事前信念の影響(influence of prior beliefs)」と呼ばれる概念を含む。この手法は次の実験の設計においてそれ以前の事件の結果を含めるために逐次分析 (英語版 ) 技術を用いる。これは、事前および事後分布の使用により「直感的信頼度(beliefs、信念)」を更新することによって達成される。これにより、実験計画法は全ての種類の資源を有効に利用することが可能となる。この一例が多腕バンディット問題 である。
統計グラフィックス
統計グラフィックス (英語版 ) は、データ探索、モデル検証、その他の目的のための手法を含む。ベイズ推定のためのある計算技術、具体的に言うと様々な種類のマルコフ連鎖モンテカルロ法 を使用すると、必要な事後分布を表わすうえでこういった計算の妥当性のチェックが必要となり、これはしばしば視覚的(グラフィカル)な形式で行われる。
出典
^ “What are Bayesian Statistics? ”. deepai.org . 2019年2月22日 閲覧。
^ a b c d e f g h i Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Bayesian Data Analysis, Third Edition . Chapman and Hall/CRC. ISBN 978-1-4398-4095-5
^ Fienberg, Stephen E. (2006). “When Did Bayesian Inference Become "Bayesian"?” . Bayesian Analysis 1 (1). https://projecteuclid.org/euclid.ba/1340371071 .
^ a b Grinstead, Charles M.; Snell, J. Laurie (2006). Introduction to probability (2nd ed.). Providence, RI: American Mathematical Society. ISBN 978-0-8218-9414-9
^ Wakefield, Jon (2013). Bayesian and frequentist regression methods . New York, NY: Springer. ISBN 978-1-4419-0924-4
^ Congdon, Peter (2014). Applied Bayesian modelling (2nd ed.). Wiley. ISBN 978-1119951513
^ Hajiramezanali, E. & Dadaneh, S. Z. & Karbalayghareh, A. & Zhou, Z. & Qian, X. Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. 32nd Conference on Neural Information Processing Systems (NIPS 2018), Montréal, Canada. https://arxiv.org/pdf/1810.09433.pdf
関連文献
外部リンク
英語版ウィキバーシティに本記事に関連した学習教材があります。