ここでは統計的仮説検定の用語と検定方法の概要をまとめます。
統計的仮説検定とは、対象となる集団(母集団)の特性に対する仮説が客観的に妥当であるかどうかを標本(サンプル)に基づいて証明することです。
仮説の妥当性を直接証明する事が非常に難しいため検定では、「仮説は成立しない」という帰無仮説を棄却します(めったに起らないと証明する)。
帰無仮説を棄却する事で、仮説(対立仮説)が正しいことを証明する方法をとります。
用語:第1種と第2種の過誤 / 有意水準 / 統計量・P値 / 検定力 / 無作為標本抽出(ランダムサンプリング) / 検定一覧(パラメトリック・ノンパラメトリック検定)
仮説検定では、「帰無仮説(仮説は成立しない)」を棄却することで仮説を証明しますが、検定が誤ってしまう事が起こります。それには2種類の誤りがあり、「第1種の過誤」と「第2種の過誤」と呼ばれます。
ここでは、2つの集団のある特性に「差がある」という仮説の検定を想定して説明します。
帰無仮説を棄却すると「差がある」ということであり、帰無仮説を採択すると「差がない」となります。
第1種の過誤 |
---|
第1種の過誤とは、「帰無仮説を誤って棄却してしまう」ことです。 本来、対立仮説が偽にも関わらず、真と誤ります。差の検定においては本来は「差が無い」にもかかわらず、「差がある」と誤ってしまうことです。 この第1種の過誤がおこってしまう確率は「α(アルファ)」で表され、有意水準と同じ値を意味します。 |
第2種の過誤 |
第2種の過誤とは、「帰無仮説を誤って採択してしまう」ことです。 本来、対立仮説が真にも関わらず、偽と誤ります。差の検定においては、本来は「差がある」にもかかわらず、「差が無い」と誤ってしまうことです。 この第2種の過誤がおこってしまう確率を「β(ベータ)」で表します。 |
有意水準とは、検定において帰無仮説を棄却する基準となる確率のことであり、「α(アルファ)」で表されます。
有意水準とは「危険率」とも呼ばれ、習慣的な取り決めとして、5%(0.05)や、1%(0.01)が使われます。
有意水準5%と記載されていれば、「5%以下の確率で起こる事象は、まれにしか起こらないことであり、何かしら意味がある(=「有意である」)」と考えて検定したということを表しています。
検定において、帰無仮説が生じる確率(P値)が有意水準より小さい場合は、その帰無仮説を棄却します(まれにしか起こらない)。その結果、「有意な差がある」ということになります。
しかし、確率が有意水準より小さいとしても、本当は有意な差は無く、帰無仮説の棄却が誤りという可能性があります。すなわち、有意水準αは、第1種の過誤(帰無仮説を誤って棄却してしまうこと)が発生する確率αと同じ値を意味します。
統計量とは、データの特徴を要約した数値をさします。「記述統計量」や「検定統計量」といった種類があります。また、母集団を統計学的に推定するための統計量は推定量と呼ばれます。
P値とは、仮説検定において、帰無仮説のもとで検定統計量がその値をとる確率のことです(検定に用いた分布において、検定統計量に対応してp値が決まる)。
P値が小さいほど、検定統計量がその値になることが起こりにくいことを意味します。仮説検定では、統計的に有意であるかを確認するために、P値が有意水準より小さいことを確認します(小さいければ、帰無仮説が棄却され、有意となる)。
例) t検定における検定統計量がt=2.0であり、そのP値がp=0.04であった場合。
有意水準5%では、p値が0.05より小さいため(0.04<5%)、帰無仮説は棄却され、有意な結果となります(対立仮説が証明される)。
検定統計量が「臨界値」より「大きい」ことは、P値が有意水準より「小さい」ことを意味します。つまりこの時、帰無仮説は棄却されます。
検定力とは、母集団に存在する平均の差などを正しく検出する確率を意味します。
有意な結果が得られる確率のことであり(帰無仮説を正しく棄却できる確率)、その値は「1-β」となります。
(100% から第2種の過誤の確率を除いた数値)
無作為標本抽出とは、母集団からその一部をサンプルとして取り出すときに、ランダムに選ぶ方法です。
統計の理論は、無作為標本抽出を前提に組み立てらえているため、厳密にいえば、それ以外の抽出方法では理論は成立しません。
サンプルサイズとは、標本の数(データ数)のことです。
統計的仮説検定には、パラメトリック検定とノンパラメトリック検定があります。
「パラメトリック検定」とは、データが特定の分布に従うことを前提にした検定です。
2つの群の差を比較するときに用いられる「t検定」は、正規分布にしたがうことを前提としたパラメトリック検定の1つです。
「ノンパラメトリック検定」とは、データの分布を仮定しないこと検定です。
代表的なものに、カイ2乗検定(χ2乗)やU検定、メディアン検定があります(下表参照)。
複数の群の差を比較する代表的な検定方法を下表にまとめました。
検定名 | 内容 |
---|---|
< パラメトリック検定 > | |
t検定 | 2つの群に差があるかを検定する方法です。 t分布を用いて、検定を行います。 |
F検定 | 「3つ以上の群」に差があるかを検定する方法です。 F分布を用いて、検定を行います。分散分析で多群の平均値の差の検定や分散の比の検定に利用されます。 |
< ノンパラメトリック検定 > | |
カイ2乗検定(χ2乗) | 質的変数(名義尺度)のデータ間に「連関」(関連性)があるかを検定する方法です。実際の値と理論的に期待される値の差異を評価するための統計量はカイ2乗統計量と呼ばれます。それがカイ2乗分布にしたがう事を用いて検定する方法です。 |
メディアン検定 | 複数群の中央値の差の検定です。各群の測定値をこみにして中央値を求め,各群ごとに中央値を越えるか越えないかについて分割表を作成し,カイ二乗検定を行います。 |
U検定 | マンホイットニーU検定のことであり、特定の分布に従わない2つの群に差があるかを検定する方法です。統計量U値を用いて検定する方法です。順位尺度の検定などに使用されます。 |
ウィルコクソンの順位和検定 (Wilcoxon) |
マンホイットニーU検定と実施的に同じであり、「マン・ホイットニー・ウィルコクソン検定」とも呼ばれます。 |
クラスカルウォリス検定 (Kruskal-Wallis) |
「3つ以上の群」に差があるかを検定する方法です。統計量Hを用いるためH検定とも呼ばれます。 |