用語:相関とは(正・負・無相関) / 相関係数 / ピアソン(Pearson)の積率相関係数 / 順位相関係数 / 相関・因果関係 / 疑似相関 / 偏相関係数・部分相関係数
「相関」とは、2つの変数の関連を示します。2つの変数の直線的な関係ともいえます。
例えば、身長と体重の間には「身長(変数X)が大きい人ほど、体重(変数Y)が多い」という相関があります。
相関の種類には下記の3つがあります。
身長が大きい人ほど体重が多い場合は、身長と体重の間には、「正の相関」があるといえます。
スマートフォンの使用時間が増えるほど睡眠時間は短くなる場合、スマートフォン使用時間と睡眠時間には、「負の相関」があるといえます。
相関係数とは、2変数の相関の強さと方向を表す統計量で「r」で表せられます。
相関係数は、「-1.0」〜「+1.0」の範囲の値をとります。
rが「+」の値は「正の相関」、「-」の時は「負の相関」を意味します。
相関係数rの大きさ(絶対値)は相関の強さを表しますが、
研究分野や目的によって相関係数の評価は異なります。
心理学においては、rの値と相関の強さを下記のように考える場合があります。
相関係数 r | 相関の強さ(心理学) |
---|---|
0.2以下 (-0.2=<r<0,0<r<=0.2) | ほとんど相関がない(r=0の時は無相関) |
0.2から0.4以下 (-0.4=<r<-0.2,0.2<r<=0.4) | 弱い相関がある |
0.4から0.7以下 (-0.7=<r<-0.4,0.4<r<=0.7) | 中程度の相関がある |
0.7から1.0以下 (-1.0=<r<-0.7,0.7<r<=1.0) | 強い相関がある |
相関係数には、倍数関係や等間隔性がありません。
つまり、相関係数0.6は、相関係数0.3の「2倍」の強い関係があるということを意味しません。
同様に、0.3と0.6の差は、0.6と0.9の差と同じであるという事も言えません。
相関係数には、「積率相関係数」と「順位相関係数」がありますが、一般に相関係数とはピアソンの積率相関係数のことを指します。
ピアソンの相関係数は、対象となる2つの変数が「量的変数(間隔尺度・比率尺度)」の場合に用います。
変数xと変数yの2つの相関係数を求めるには、まずxとyを標準化した値であるXとYを求めます(平均値が0で標準偏差が1となるように変換した値)。
「相関係数」は、標準化得点の「XとYの積」をすべて足して、データ数で割った数です(=「XとYの積」の平均値)。
例) 成人5人の身長と体重の調査し、相関係数を算出する。身長と体重を「標準化」した得点は下記の通りであった。
対象となる2変数の散布図の形と、相関係数の値は対応します。
横軸を変数x、縦軸を変数yとして、散布図を作成します。
上記の身長と体重の標準化得点の例でいうと、1人目のデータは(x=1.2, y=1.4)の位置に印をつけ、その他も同様に印をつけるという手順です。
出来上がった散布図の点の形が、1直線の場合は相関係数の絶対値は1.0であり、直線が広がる(太い形になる)ほど値が小さくなります。
ピアソンの相関係数は、対象となる2つの変数が「量的変数(間隔尺度・比率尺度)」の場合に用いました。
2つの変数が、「順位尺度」の場合には、順位相関係数を用います。また、量的変数でも、外れ値があるような場合は、値を量から順位に変換し、順位相関係数を用います。
順位相関係数には、「スピアマン(Spearman)の順位相関係数」と「ケンドール(Kendall)の順位相関係数」があります。
スピアマンの順位相関係数は、「順位に変換した値」に対して、ピアソンの相関係数と同じ算出方法で求めます。
「因果関係」とは、2つ以上の変数の間に原因と結果の関係があることです。
相関関係があっても、因果関係があることを意味しません。
例えば、身長と体重の間には「身長が大きい人ほど、体重が多い」という相関関係があるとします。
しかし、身長が大きさ(原因)が、体重を多くしている(結果)という因果関係があるとは言いきれません。体重を多くしている原因には、食べすぎや運動不足といったものが原因になっていることも考えられるためです。
相関には「疑似相関(見かけの相関)」が生じていることがあります。
疑似相関とは、2つの変数の間には実際は直接関連がないが、別の共通要因によって見かけ上相関がみられることを言います。
例)夏の1カ月間の「a. 電気代」と「b. アイスクリームの購入回数」との間に正の相関関係があったとします。
この時、「a. 電気代」と「b. アイスクリームの購入回数」には直接的な相関があるとは考えにくいです。
これは、「c. 気温」という第3の要因によって疑似相関が生じていると考えられます。
「偏相関係数」とは、「”他の変数からの影響を除いた”2つの変数の間の相関係数」のことです。
例) 上記例の夏の1カ月間の「a. 電気代」と「b. アイスクリームの購入回数」の相関係数「r=0.50」であったとします。この時、第3の要因(他の変数)として「c. 気温」も調べ、相関係数を計算しました。
「c. 気温」の与える「a. 電気代」と「b. アイスクリームの購入回数」への影響を取り除いた時の「a. 電気代」と「b.アイスクリームの購入回数の相関係数」が「偏相関係数」です。
偏相関係数は3つの相関係数「r、r1、r2」を使用して計算されます。
上記の例では「a. 電気代」と「b. アイスクリームの購入回数」の偏相関係数 ≒0.33と計算されます。
「部分相関係数」とは、2つの変数の内、”片方だけ”他の変数からの影響を除いた場合の、2つの変数間の相関係数のことです。
「c. 気温」の与える「a. 電気代」への影響をだけ取り除いた場合の、「a. 電気代」と「b.アイスクリームの購入回数の相関係数」が「部分相関係数」です。
上記の例では「a. 電気代」(c.気温の影響除く)と「b. アイスクリームの購入回数」の部分相関係数 ≒0.29と計算されます。
( 補足: ▼ 偏相関と部分相関係数の計算法 )