記述統計とはなんでしょうか?
データを分析するときには、まずどのようなことを知ろうかと考えるわけです。
たとえば、日本人20代男性の身長、東京のサラリーパーソンの収入などなど。
そこで、対象全体を母集団と定めて、そこからデータを良い感じで選び出し、
どのようなデータであるかを調べるわけです。
そこで、データの特徴を把握するために、データの「真ん中」あたりはどこか、
データの散らばり具合はどうか、その他にもデータの形状を表す数値を計算したり
、データの様子を視覚的に確認するために様々なグラフを描くことになります。
このような作業を記述統計と呼びます。
このような場合、基本はMEANSプロシジャの利用です。
このプロシジャは、データの中心的傾向を表す平均や中央値、ばらつきを表す
標準偏差や分散、その他いくつかの統計量を計算します。
統計量とは、得られた標本(サンプル)から計算される数値のことです。
特に何も設定を与えない場合、デフォルトでは、非欠損オブザベーションの数、
平均、標準偏差、最小値、最大値が全ての数値変数について計算されます。
proc print data=sashelp.class(obs=5);
run;
/*
Obs Name Sex Age Height Weight
1 Alfred M 14 69.0 112.5
2 Alice F 13 56.5 84.0
3 Barbara F 13 65.3 98.0
4 Carol F 14 62.8 102.5
5 Henry M 14 63.5 102.5
*/
proc means data=sashelp.class;
run;
/*
変数 ラベル N 平均 標準偏差 最小値 最大値
--------------------------------------------------------------------------------------------
Age 年齢 19 13.3157895 1.4926722 11.0000000 16.0000000
Height 身長(インチ) 19 62.3368421 5.1270752 51.3000000 72.0000000
Weight 体重(ポンド) 19 100.0263158 22.7739335 50.5000000 150.0000000
--------------------------------------------------------------------------------------------
*/
その他の統計量を計算するためには、統計キーワードをPROC MEANSステートメントで
指定しなくてはなりません。このとき、指定したキーワードに対する統計量のみが
計算されます。すなわち、上のプログラムで自動的に計算されていた統計量も、
キーワードを指定しておかないと出力されません。
また、特定の変数に対してのみ統計量を計算するには、それらの変数をVARステートメントで
列挙します。
下のプログラムは、データセットsashelp.classの変数ageとweightに対して
非欠損オブザベーション数、平均、中央値、標準偏差、分散、下側四分位点(25パーセント点)、
および上側四分位点(75パーセント点)を計算するものです。
proc means data=sashelp.class n mean median std var q1 q3;
var height weight;
run;
/*
変数 ラベル N 平均 中央値 標準偏差 分散 下側四分位点 上側四分位点
----------------------------------------------------------------------------------------------------------------------------
Height 身長(インチ) 19 62.3368421 62.8000000 5.1270752 26.2869006 57.5000000 66.5000000
Weight 体重(ポンド) 19 100.0263158 99.5000000 22.7739335 518.6520468 84.0000000 112.5000000
----------------------------------------------------------------------------------------------------------------------------
*/
MEANSプロシジャで計算できる統計量は、SAS9.1.3では以下の通りです。
N 非欠損オブザベーション数
NMISS 欠損オブザベーション数
SUM 合計
SUMWGT 重みの合計
MEAN 平均
MEDIAN 中央値
VAR 分散
STDDEV 標準偏差
CV 変動係数
CSS 平均で修正した平方和、修正平方和
USS 2乗和、無修正平方和
SKEWNESS 歪度、歪み
KURTOSIS 尖度、尖り
MIN 最小値
MAX 最大値
RANGE 範囲(最大値から最小値を引いたもの)
P1 1パーセント点
P5 5パーセント点
P10 10パーセント点
Q1|P25 25パーセント点、下側四分位点、第一四分位点
MEDIAN|P50 50パーセント点、中央値、メディアン
Q3|P75 75パーセント点、上側四分位点、第三四分位点
P90 90パーセント点
P95 95パーセント点
P99 99パーセント点
QRANGE 四分位範囲(75パーセント点から25パーセント点を引いたもの)
STDERR 平均に対する標準誤差
CLM 平均に対する両側信頼区間
UCLM 平均に対する上側信頼区間
LCLM 平均に対する下側信頼区間
T 母平均=0を帰無仮説とした検定のt値
PROBT|PRT 前項のt値に基づく両側検定のp値