「多変量解析」とは、3つ以上の変数からなるデータを統計的に解析する方法を呼びます。
ここでは、重回帰分析、因子分析など代表的な多変量解析についてまとめます。
用語:独立変数・従属変数・剰余変数 / 重回帰分析 / 判別分析 / 因子分析 / 主成分分析 / クラスター分析 / 共分散構造分析(構造方程式モデリング)・パス解析 / 数量化理論 / コレスポンデンス分析(対応分析) / 正準相関分析
ある要因の間に対応関係があることを示す場合、操作する要因(影響を与える変数)を「独立変数」と呼び、独立変数によって値が定まる要因(影響を受ける変数)を「従属変数」と呼びます。
また、独立変数とは関係なく、従属変数に影響を与える他の要因を「剰余変数」と呼びます。
独立変数をX、従属変数をY、剰余変数をzとしたときに、数式では、関数「Y=f(X)+z」が成り立ちます。
例)「1カ月電気料金」を従属変数とした時に、独立変数は「気温」や「エアコン利用時間」などと仮定できる。剰余変数は「他の電化製品利用時間」など。
「1カ月電気料金」= 係数a1×「気温」+係数a2×「エアコン利用時間」+ 「他の電化製品利用時間」+ その他
独立変数、従属変数には別の表現がいくつかあるので留意が必要です。
代表的な多変量解析を下表にまとめます。各解析方法に関連する用語は後ほど説明しています。
重回帰分析 |
---|
重回帰分析とは、ある量的変数を、複数の量的変数で説明や予測するための分析方法です。従属変数の予測値は「重回帰式」と呼ばれる線形一次式で表わされ、独立変数がその式を構成します。 例) 夏の「1カ月電気料金」を従属変数Yとし、独立変数を「気温」と「エアコン利用時間」とします。 重回帰式は、「1カ月電気料金」=『係数a1×「気温」+係数a2×「エアコン利用時間」+[その他の要因] 』となります。 関連用語:偏回帰係数、標準偏回帰係数、重相関係数と決定係数、多重共線性 |
判別分析 |
判別分析とは、独立変数が「量的変数」の場合に、「あり・なし」といった質的変数をとる従属変数が、どちらの値となるか(どちらの群に属するか)を判別する分析方法です。 例)メタボリック症候群の判別「Yes・No」を、独立変数「胴回り(cm)」、「運動量(kcal)」、「食事量(kcal)」から判別します。 |
因子分析 |
因子分析とは、多変量のデータの背後にある共通の潜在因子(変数)を抽出する方法です。データと抽出される因子は「量的変数」となります。 パーソナリティ特性の5因子(O,C,E,A,N)は、質問紙を因子分析した結果得られたものです。 例)「数学の成績」と「論文の成績」を因子分析し得られた潜在変数には「論理的思考力」という共通能力があると考えた。 関連用語:バリマックス法、プロマックス法、因子負荷量、ヘイウッドケース |
主成分分析 |
主成分分析とは、お互いに相関がある複数の「量的変数」を集約して、全体を表すような相関のない少数の変数を合成する方法のことです。 例) 高校の教科(国語、数学、歴史など)を主成分分析を行った結果、「文系」と「理系」を得た。 |
クラスター分析 |
クラスター分析とは、「量的変数」のデータの類似性の度合いによって、幾つかのグループ(クラスター)を作成する方法です。 クラスター分析の1つである階層クラスターを行うと、類似性の度合いが高いものが同士が結ばれ、クラスターが作成され、デンドログラムとよばれる樹形図が得られます(試合のトーナメント表に似た図)。 例)お寿司のネタをクラスター分析した結果、大トロ・中とろが結ばれ、それがその上の階層で赤身と結ばれ、マグロという分類を得た。また、さばといわしが結ばれ、それが上の階層でアジと結ばれ、光ものという分類を得た。 |
共分散構造分析(構造方程式モデリング) |
共分散構造分析とは、変数間の関係を表すモデルを検討し、モデルとデータとの当てはまり度合い(適合度)から、変数の関係を評価する分析方法です。 観測した変数と潜在的な変数(構成概念)を扱うことができます。 例) 子供の小学校時代の「理科と算数」と、その後の高校時代の「物理と数学」の成績データを得た。理科と算数は「数理能力」という潜在変数を介して、物理と数学に影響を与えるというモデルに対して共分散構造分析を行った結果、測定データとモデルとの適合度は高かった。 関連用語:パス解析、GFI |
数量化理論 |
数量化理論は、独立変数が「質的変数」の場合に、従属変数を分析する方法です。 従属変数が量的変数の場合、「数量化理論I」と呼ばれ、”重回帰分析”に対応します。 従属変数が質的変数の場合、「数量化理論II」と呼ばれ、”判別分析”に対応します。 「数量化理論III」は、質的変数から潜在変数を分析します。”因子分析”に対応します。 数量化理論Iの例)量的データである「1カ月電気料金」を従属変数とすると、質的データであ、独立変数は「暑さ(酷暑・猛暑・夏日)」、「エアコン利用時間(短い・普通・長い)」となります。 |
コレスポンデンス分析(対応分析) |
コレスポンデンス分析とは、クロス表を元に質的変数である2変量の関係を分析する方法です。スコア化されたカテゴリの関係を散布図から視覚的に把握できます。
本質的には数量化理論IIIと同等です。 |
正準相関分析 |
正準相関分析とは、複数の変数の集合群と、他の複数の集合群との相関を分析する方法です。 例) 身長、体重、胸囲という集合群と、手のサイズ、足のサイズの集合群との関係を正準相関分析によって調べる。 |
以下では、重回帰分析、因子分析、共分散構造分析に関する用語の補足説明をします。
夏の「1カ月電気料金」を従属変数Yとし、独立変数を「気温」と「エアコン利用時間」として重回帰分析をおこなった結果、
「1カ月電気料金」=『60×「気温」+20×「エアコン利用時間」+[その他の要因] 』であったとします。
重回帰式で表現された独立変数の係数を「偏回帰係数」と呼びます。それを標準化した係数を「標準偏回帰係数」と呼びます。標準偏回帰係数βは、0<β<1.0の範囲の値となります。
上記の例でいうと、気温の係数「60」とエアコン利用時間の係数「20」が偏回帰係数です。
「重相関係数(R)」とは、従属変数(=目的変数・基準変数・応答変数・結果変数)である「観測値」と「重回帰式による予測値」との相関係数を意味します。
上記の例では、1カ月電気料の「実際の金額」と「式で計算された予測の金額」との2つの値の相関係数です。
「決定係数」または「寄与率」とは重相関係数Rを二乗した値であり、独立変数が従属変数をどれくらいを説明できるかの「割合」を表します。
多重共線性とは、ある独立変数と別の独立変数の間の相関関係が強い時に重回帰分析で生じる問題です。偏回帰係数の誤差が大きくなったり、符号が逆になるなどの現象を言います。
多重共線性が生じる場合は、相関関係が強い変数の1つを除いて分析します。
因子分析とは、多変量のデータの背後にある共通の潜在因子(変数)を抽出する方法です。
小学校の5教科(国語・算数・理科・社会)を因子分析した結果、「言語能力」と「計算能力」という2つの潜在変数(5教科に共通する因子)が得られたとします。
因子回転とは、潜在因子を抽出しやすくするために最初の分析で得られた結果(解)を別の解に変換することです。
「バリマックス法」とは、潜在因子の間で相関がないように因子回転をする方法(=直交回転)の1つです。上記の例では、言語能力と計算能力との間に相関がない場合です。
「プロマックス法」とは、潜在因子の間で相関を認めて因子回転をする方法(=斜交回転)の1つです。因子の抽出が容易であり、多くの場合はこの方法が用いられています。
因子負荷量とは、因子分析の結果、潜在因子が各変数に与える影響の強さを示した値です(範囲:-1.0〜1.0)。
例えば、算数と理科の「計算能力」に対する因子負荷量が0.4と0.1の場合、算数は潜在因子である計算能力からの影響を強く受けていることがわかります。
プロマックス法では、因子負荷量を要素とした行列を「パターン行列」といいます。また、各変数と各因子(潜在因子)との相関係数を要素とする行列を「因子構造(行列)」といいます。
「ヘイウッドケース」とは、因子分析において因子負荷量が1.0を超える現象のことです。別の言い方をすると潜在因子以外の独自因子の分散の推定値が負になる現象です。
共分散構造分析では、変数間の関係を表すモデルを検討し、モデルとデータとの当てはまり度合い(適合度)を評価しますが、その適合度の指標の1つが「GFI」です。
GFIは、0から1までの値を取り、高い値(1に近い値)であるほど説明力のあるモデルだと判断します。
その他の指標として、0に近いほど適合度が高いとされる「RMR」や「RMSEA」(0.05以下で適合度が良い、0.1以上で悪いと判断)、相対的な比較に用いる「AIC」(低いほど適合度が良い)などがあります。
「パス解析」とは、変数の因果関係や相互関係を図(パス図)によって表現し、共分散構造分析などを用いて変数間の関係を分析する方法です。
例)職場におけるストレス調査のパス解析の結果、「労働時間」から「ストレス反応」への標準パス係数は正の値で有意となり、「同僚のサポート」から「ストレス反応」への標準パス係数は負の値で有意となった。この結果から、ストレス反応に対して、職場のストレッサーは正の影響、同僚からのサポート負の影響があることが示唆された。
パス解析における「非逐次モデル」とは、ある変数を起点にパスをたどっていくと元の変数に戻ってくるような変数が含まれているモデルのことを呼びます。
一方、「逐次モデル」とは、 元に戻る変数が1つも含まれていないモデルの事を呼びます。