機械学習の学習を開始する:尤度比検定
11月、12月は機械学習(machine learning)の学習に費やそうと思い、早速、統計の復習から開始しています。
学部時代はオペレーションズリサーチの研究室に所属し、確率と統計に時間を費やしていたのですが、大学院、サラリーマン生活でだいぶ遠くなってしまっていました。
というわけで、以下の本を読み進めています。
統計ソフトRで実際に手を使いながら、読み進められるこの本は本当にオススメです。
学生時代にこの本に出会えてたら良かったなぁ。。
第五章の尤度比検定をまとめます。統計モデルを比較してモデル選択をする。
帰無仮説(null hypothesis)とは「棄却されるための仮説」であり、「無に帰される」ときにのみ、その役目をはたす特殊な統計モデル
P値( P Value)は、第一種の過誤をおかす確率であり、その扱いは、
- P値が大きい:これくらいの逸脱度の差(尤度比の対数)はよくあること ー> 帰無仮説棄却できない
- P値が小さい:この差は珍しい! ー> 帰無仮説を棄却して残ったモデルを正しい!と主張しよう
ここで、
逸脱度:あてはまりの悪さ
逸脱度の差:ΔD1,2 = -2 * (log L1 - Log L2)
L1:帰無仮説
L2:対立仮説
逸脱度の差の解釈:対立仮説による改善度。その差が意味のある差か。
第一種の過誤(type 1 error):帰無仮説が真であるにもかかわらず、逸脱度の差が大きいから帰無仮説は正しくないとして、棄却してしまう過誤
逸脱度の差が”めったにない差” (=第一種の過誤は起きない可能性大)ー> 意味がある差 ー> 対立モデルが正しい
P>=α:帰無仮説は棄却できる
P<α:帰無仮説は棄却できる
ここで、αは、自分で勝手に決める。たとえば、α=0.05ならば20回のうち1回より少ない発生件数だから、”めったにない差”なので”意味のある差”だから、対立モデルによって改善されていると言える。