6. 二項分布

 二項分布とは、結果が二値(二項)である独立した試行をn回行った時の、結果の確率分布のことです。

 結果が二項というのは、yes-no, (コインの)表と裏, ある病気である-ない, 成功-失敗といったものをイメージしてください。

以下に、いくつか例を挙げます。

例1

 あなたは、コイントスをして裏が出たら10円もらえ、表が出たら10円引かれるというゲームをしています。

 コイントスをして、表が出るか裏が出るかは五分五分(確率1/2)です。しかし、このゲームの主催者は、お金をできるだけ節約するためイカサマをしているかもしれません。すなわち、重心が偏ったコインを使っていて、例えば10回投げた(試行した)時に、表が7回も出るかもしれません。しかし、試行数が10回だったのでたまたま表がちょっとだけ多く出て、200回投げたら確率1/2になったかも知れません。二項分布は、10回試行して7回表が出るのがどの程度レアな(起こりにくい)ことなのか(イカサマをしていないか)について統計学的に教えてくれます。

例2

 あなたは学校の先生で、生徒に単元終了時に○×クイズを出します。生徒は、○×で回答しますので、あてずっぽうで回答しても1/2は正解する可能性があります。では、20問問題を出したとして、いったい、何問以上正解できたら、生徒はあてずっぽうでなく、分かって答えているといえるでしょうか?11問でしょうか?12問でしょうか?それとも、18問でしょうか?二項分布は、こういった疑問についても統計的に教えてくれます。

例3

 あなたは、人口10万人のA市の保健担当者です。Bという病気(B症)の発症率は人口の5%とされています(話を簡単にするために、年齢性別など関係なく同じ率とします)。A市でもB症の発症率を調べて、一般的な発症率よりも明らかに多ければ、原因を突き止め、予防策などを講じる必要があります。ただ、全住民を調べるには費用と時間がかかります。

 そこで、A市の人口構成と同じような住民100名に協力を得て調査した結果、100名中B症を発症している住民は8名(8%)でした。一般的な発症率に比べて3%多いので、A市のB症発症率は高いので、何らかの対策が必要と結論づけていいでしょうか。二項分布は、こういった疑問についても統計的に教えてくれます。


では、これらの例に答えるために二項分布について詳しく説明していきます。

 二項分布では、期待値において一番起きる確率が高く、そこから離れるに従って起きる可能性が低くなります。期待値とは、コインの表裏や○×であれば0.5ですし、例3のような発症率であればその発症率(例3の場合は、0.05)です。そこを中心としてどのように可能性が低くなるかというと、正規分布曲線に従って左右対称に減少します。

 言葉での説明では分かりにくいので、二項分布の図をRで描きました。描き方は別のところで触れます。

 下の図は、期待値0.5(コイントスや○×での正誤)の時の、50試行(コイントス50回とか50問とか)行った時の確率分布です。横軸(x軸)が起きる回数で縦軸(y軸)がその時の確率です。例えば、25回表がでる確率は赤線と○が交差する点ですので、約0.11となります。表が50回でる確率はほぼゼロで、表が30回出る確率は0.04くらいです。ここで注意してもらいたいのは、この「確率」はある一回の実験ではなく(50回コイントスをする実験を1回の実験と呼びます)、同じ実験を何十回、何百回行った時に、「表が30回出た」という結果になる実験の確率が0.04(4%)ということです。つまり、50回コイントスをする実験を100回行ったら、表が30回出る結果であるのは、4%=4回ということです。こうしてみると、50回投げて、30/50*100=60%表が出ることは、偏りのないコインであれば、4%とかなりレアケースであることが分かり、イカサマコインである疑いが濃厚であると言えます。

 本来であれば、50回のコイントス×100回の実験=5000回のコイントスをしないとかなりレアケースであることが分からないはずが、50回のコイントス×1回の実験=50回のコイントスで統計学的にかなりレアケースであることが分かる(推測できる)のです。

 ここで、お気づきの方もいるかもしれませんが、上の説明でかなりしつこく"50回"と試行回数を連呼していましたが、これには訳があります。

 下の図を見てください。青点は、上図と同じように50試行の時の二項分布です。グラフ左に寄っている黒点の分布は10試行の時の二項分布を表しています。

 x軸に平行な黒線は、確率0.04のラインを示しています。50試行では、50試行中30回つまり60%ですが、10試行では、10試行中8回つまり80%の辺りに線が引かれています。つまり、試行回数が少ない実験では、より回数多く表が出ないと、「表が出やすい」と結論づけられないということになります。

 このように一回の実験における試行回数が多ければ多いほど、期待値からのずれが少なくなるということが言えます。これを大数の法則といいます。

 一方、試行回数を多くすればするほど、実験に時間がかかります。コイントスのように自分だけが大変な思いをするのであれば、許容できるかもしれませんが、被験者に判断させるような課題ですと、実験時間が数時間に及ぶような実験は現実的ではありません。これについては、また別の場所で詳しく解説したいと思います。

 ここでは、例1に基づいて説明をしたので、6-1では例2、3について説明します。

ほそぴのR統計解析

ほそぴが、フリー統計解析ソフトRのマニュアルを掲載しています

0コメント

  • 1000 / 1000