2010.09.18

      今朝の朝日新聞で勝間和代がベイズ統計の話をしていたので、採りあげる。
  (この人はちょっと胡散臭いのであまり信用していないが。。。)

  ベイズ統計でのベイズの定理は
  θというパラメータで事象 x の確率分布が決まっていて、
  それが p(x|θ) であるとする場合についてである。

  事象 x が生じる確率は θに依存しているから、
  そもそもθが生じる確率が判らないと x が生じる確率も計算できない。
  (ベイズ統計以前では そもそも θを確率変数としては考えないので問題ない。)
  今、θが生じる確率を w(θ)とする。(これが事前確率である。)
  このとき、事象 x が生じてしまった後で、θが生じる確率を推定して w'(θ|x)
  とすると、それは、

w'(θ|x)=w(θ)p(x|θ)/∫w(θ)p(x|θ)dθ

となる。

      以下彼女の文章を引用する。
  「単純な例を考えて見ましょう。区別のつかない3つの袋の中に、それぞれ「赤・赤」
  「赤・白」「白・白」の2つの球が入っているとします。袋を一つ選んで、
  その中から球を一つ取り出したところ、赤球であった場合、残りのもう一つの球が、
  白球である確率はどれくらいでしょうか?私たちは直感的にもともとの球の数が
  同数なのだから、最初に赤を選んだ場合、次が白である確率は1/2だと思いがちです。
  最初が赤球だった場合、「赤・赤」または「赤・白」からとったわけですから、
  残りの赤球と白球は同数ではありません。赤球2、白球1から白球を選ぶわけですから、
  確率は1/3です。ポイントは最初に赤をとった段階で「白・白」が母集団から
  除かれているということで、このことを即座に理解できないと、自分に不利な決定を
  してしまうことになります。」

      最初私が「直感的に」考えたのは、3つの袋があって等確率で選んだと考えれば、
  「赤・赤」「赤・白」を等確率で選び、どちらかである確率は 1/2だから、
  のこりが白である確率は1/2、というものであったが、ちょっとおかしい。
  というのは、取り出したのが実際に赤だったということが入っていない。
  そう考えると、これは等確率ではなく、1/3 と 1/6 なのである。
  その内で残りが白である確率は (1/6)/{(1/3)+(1/6)} =1/3 で
  これが正しいベイズの定理の応用となっている。
  この場合θはどの袋か?であり、x が赤白を表現している。袋を順にA,B,Cとすれば、
  p(赤|A)=1、p(赤|B)=1/2、p(赤|C)=0 であり、w(A)=w(B)=w(C)=1/3。
  分母はこれらの内積になっていて、積の積分と同じ事である。
  分子は w(B)×p(赤|B) であるが、これは、Bから1個赤を取り出したときには、
  白が出る確率が 1 だからである。要するにBであった確率 w'(B|赤)を求めている。

      私が最初に直感的に間違えたのは、勝間さんの説明がおかしいと思ったからである。
  「残りのもう一つの球」というように、
  問題は「赤を取ったのと同じ袋に残っている球の色」なのだから、
  残った球の総数で議論するのは間違っているのであって、
  あくまでもどの袋を取ったか、を議論すべきなのである。
  そもそも袋を区別しなければ、残りは赤2つ白3つだから 3/5 というのが正しい。

  勝間さんの説明で間違った結論になる例は幾らでも作れる。
      例えば、今度は、袋が4つ(A,B,C,D)あって、
  「赤・赤・赤」「赤・赤・白」「赤・白・白」「白・白・白」だったとしよう。
  w(A)=w(B)=w(C)=w(d)=1/4。
  p(赤|A)=1、p(赤|B)=2/3、p(赤|C)=1/3、p(赤|D)=0 。
  最初に赤を選んだという条件で残るのは、3つの袋(A,B,C)であり、
  その確率は、1/4、1/6、1/12 である。
  それぞれの場合で白が生じる確率を考える為には、ベイズの定理を使って、
  どの袋だったかという確率w'(A|赤)、w'(B|赤)、w'(C|赤) を計算する。
  w'(A|赤)=1/2、w'(B|赤)=1/3、w'(C|赤)=1/6 である。
  ちょっとややこしいが、それぞれの場合に白が出る確率は 0、1/2、1 である。
  従って、最初に赤を取り出した袋から白の出る確率はこれらの場合の和となって、

  {0×1/4+1/2×1/6+1×1/12}/{1/4+1/6+1/12}=1/3

が正しい。
  しかし、勝間さんの説明では、袋 D を除いて赤を1つ除くだけだから、
  赤総数5、白総数3から残りから白の出る確率は 3/8 になってしまう。

      それはともかくとして、ベイズ統計が重宝される理由としてはよく判る。

  <一つ前へ>  <目次へ>