要約統計量
出典: フリー百科事典『ウィキペディア(Wikipedia)』
要約統計量(ようやくとうけいりょう)とは、標本の分布の特徴を代表的に(要約して)表す統計学上の値の事で、統計量の一種。記述統計量、基本統計量、代表値ともいう。
正規分布の場合は、平均と、分散または標準偏差で分布を記述できる。正規分布からのずれを知るためには、尖度や歪度などの高次モーメントから求められる統計量を用いる。
正規分布から著しく外れた場合には、より頑健な中央値、四分位点、最大値・最小値や最頻値が用いられる。「頑健」とは分布の非対称性や外れ値などの影響を受けにくい事を意味する統計用語である。例えば、労働者一人あたりの年収を例に採れば、最も収入が少ない場合であっても0以下にはならないのに対し、収入が多い場合数十億という年収を稼ぎ出す少数者があり得る。この場合の分布は少数者が上側にいる事で、上側に極端に尾を引いた非対称な分布となる。平均値はこれらの極端な高値の影響を受け、分布の代表値として適切でないものとなってしまう。中央値や最頻値はいかに飛び抜けた値であっても1例は1例としてカウントされるため、より大多数の実感に近い値を示す事が出来る。
目次 |
[編集] 要約統計量の例
[編集] モーメントから求められる要約統計量
以下、N 個のデータ に対する統計量を考える。また、m 次モーメント μ'm と、平均値 μ に対する中心化 m 次モーメント μm を
で定義する。
- 平均
- 1次モーメントから求められる統計量。分布の中心を表す。μ = μ'1 / N。
- 分散、標準偏差
- 2次モーメントから求められる統計量。分布の広がりを表す。分散は σ2 = μ2 / N2、標準偏差は 。
- 歪度
- 3次モーメントから求められる統計量。分布の左右非対称の度合いを表す。γ1 = μ3 / (Nσ)3。
- 尖度
- 4次モーメントから求められる統計量。分布の峰の鋭さ(裾野の広さ)を表す。γ2 = μ4 / (Nσ)4 − 3。
[編集] ソート結果から求められる要約統計量
以下、昇順にソートされた N 個のデータ に対する統計量を考える。
- 中央値
- メジアン、メディアン (median) ともいう。データの大きさに関してちょうど中央に当たるデータ x(N + 1) / 2 。ただし、非整数の添数に対する x は線形補間で定義する。
- 四分位点
- 集団を値の大きさで4等分するとき、その境界となる値。x(N + 3) / 4 を第1四分位点、x(3 N + 1) / 4 を第3四分位点という。x(2 N + 2) / 4 、つまり第2四分位点は中央値である。
- 最小値・最大値
- 集団に含まれる最も小さい値 x1 と、最も大きい値 xN 。
これらの統計量を視覚化するために、箱ひげ図が用いられる。
[編集] 度数分布から求められる要約統計量
- 最頻値
- モード (mode)、並み数 ともいう。データのうち、度数分布において最も高い度数を示す値、つまり最も多く現れているデータの値。