ある集団の特徴を記述する指標としては、ある集団の標準を表す値の1つが「代表値」(最頻値、中央値、平均値)でした。
代表値以外の指標として、「散布度」があります。
散布度とは、「ある集団内の値の散らばり度合い、集団内の個人差」を表す指標です。
ここでは、散布度の代表として「分散」、「標準偏差(SD)」、「四分位偏差」をまとめます。
用語:分散 / 標準偏差(SD) / 四分位偏差
分散・標準偏差は、いずれも「平均値」によって算出される値であり、集団内の散らばり度合いを表します。
「各データと平均値との差を2乗した値」を合計したものを「平方和」と呼びます。
分散とは「平方和」を「値の個数(データ数)」で割った値のことです。
例)国語の小テストを受けた5人の結果が、「5点、5点、10点、30点、50点」だった時の分散を求めます。
( 補足: ▼ 不偏分散とは )
標準偏差は「SD(Standard Deviation)」と表現されます。2SDと表記されたら、標準偏差の2倍の値を意味します。
標準偏差は「分散」の平方根(ルート)の値です(分散は、標準偏差の2乗)。
前述の国語の小テストの例では「分散=310」であり標準偏差は分散の平方根のため、
「標準偏差 ≒ 17.6」(17.6の2乗≒310)です。
標準偏差の値は、約17.6点というテストの「点」をつけて単位を表記できますが、分散の単位は「点」ではありません。
(強いてするなら、分散は、310「点の2乗」という単位)
他の散布度の代表例には、中央値に基づいた「四分位偏差(しぶんいへんさ)」があります。
データに外れ値(極端に大きい・小さい値)がある場合は、分散・標準偏差は影響を受けますが、四分位偏差は、外れ値の影響が受けにくい事が特徴です。
(外れ値によって、平均値は影響を受けるため、平均値によって計算される分散・標準偏差も影響を受けてしまいます。)
四分位点とは、昇順に並べたデータを4等分したときの3つの分割点のことであり、第1四分位点(Q1)、第2四分位点(Q2)、第3四分位点(Q3)があります。
「四分位偏差」とは、第3四分位点(Q3)から第1四分位点(Q1)を引いた値の 1/2 の値です。
例)数学の小テストを受けた7人の結果が、「5点、10点、20点、30点、40点、50点、60点」とした時の四分位偏差を求めます。