シリコンバレーのマーケター日記

東京、シンガポールを経てシリコンバレーで働く、マーケター。英語、プログラミング、データ分析は次世代マーケターの必須スキルだと信じて進む。

機械学習の学習を開始する:尤度比検定

11月、12月は機械学習(machine learning)の学習に費やそうと思い、早速、統計の復習から開始しています。

学部時代はオペレーションズリサーチの研究室に所属し、確率と統計に時間を費やしていたのですが、大学院、サラリーマン生活でだいぶ遠くなってしまっていました。

というわけで、以下の本を読み進めています。

統計ソフトRで実際に手を使いながら、読み進められるこの本は本当にオススメです。

学生時代にこの本に出会えてたら良かったなぁ。。

第五章の尤度比検定をまとめます。統計モデルを比較してモデル選択をする。

帰無仮説(null hypothesis)とは「棄却されるための仮説」であり、「無に帰される」ときにのみ、その役目をはたす特殊な統計モデル

 P値( P Value)は、第一種の過誤をおかす確率であり、その扱いは、

  • P値が大きい:これくらいの逸脱度の差(尤度比の対数)はよくあること ー> 帰無仮説棄却できない
  • P値が小さい:この差は珍しい! ー> 帰無仮説を棄却して残ったモデルを正しい!と主張しよう

 ここで、

逸脱度:あてはまりの悪さ

逸脱度の差:ΔD1,2 = -2 * (log L1 - Log L2) 

L1:帰無仮説

L2:対立仮説

逸脱度の差の解釈:対立仮説による改善度。その差が意味のある差か。

第一種の過誤(type 1 error):帰無仮説が真であるにもかかわらず、逸脱度の差が大きいから帰無仮説は正しくないとして、棄却してしまう過誤

 

逸脱度の差が”めったにない差” (=第一種の過誤は起きない可能性大)ー> 意味がある差 ー> 対立モデルが正しい

 

P>=α:帰無仮説は棄却できる

P<α:帰無仮説は棄却できる

ここで、αは、自分で勝手に決める。たとえば、α=0.05ならば20回のうち1回より少ない発生件数だから、”めったにない差”なので”意味のある差”だから、対立モデルによって改善されていると言える。