機械学習の学習を開始する：尤度比検定 - シリコンバレーのマーケター日記

11月、12月は機械学習（machine learning）の学習に費やそうと思い、早速、統計の復習から開始しています。

学部時代はオペレーションズリサーチの研究室に所属し、確率と統計に時間を費やしていたのですが、大学院、サラリーマン生活でだいぶ遠くなってしまっていました。

というわけで、以下の本を読み進めています。

統計ソフトRで実際に手を使いながら、読み進められるこの本は本当にオススメです。

学生時代にこの本に出会えてたら良かったなぁ。。

第五章の尤度比検定をまとめます。統計モデルを比較してモデル選択をする。

帰無仮説（null hypothesis）とは「棄却されるための仮説」であり、「無に帰される」ときにのみ、その役目をはたす特殊な統計モデル

P値( P Value)は、第一種の過誤をおかす確率であり、その扱いは、

P値が大きい：これくらいの逸脱度の差（尤度比の対数）はよくあること　ー＞　帰無仮説棄却できない

P値が小さい：この差は珍しい！　ー＞　帰無仮説を棄却して残ったモデルを正しい！と主張しよう

ここで、

逸脱度：あてはまりの悪さ

逸脱度の差：ΔD1,2 = -2 * (log L1 - Log L2)　

L１：帰無仮説

L２：対立仮説

逸脱度の差の解釈：対立仮説による改善度。その差が意味のある差か。

第一種の過誤（type 1 error）：帰無仮説が真であるにもかかわらず、逸脱度の差が大きいから帰無仮説は正しくないとして、棄却してしまう過誤

逸脱度の差が”めったにない差”　（＝第一種の過誤は起きない可能性大）ー＞　意味がある差　ー＞　対立モデルが正しい

P＞＝α：帰無仮説は棄却できる

P＜α：帰無仮説は棄却できる

ここで、αは、自分で勝手に決める。たとえば、α＝0.05ならば20回のうち１回より少ない発生件数だから、”めったにない差”なので”意味のある差”だから、対立モデルによって改善されていると言える。