連続データの記述統計量を計算しよう(その1)

Last-modified: 2008-06-04 (水) 23:22:42

記述統計とはなんでしょうか?

データを分析するときには、まずどのようなことを知ろうかと考えるわけです。
たとえば、日本人20代男性の身長、東京のサラリーパーソンの収入などなど。
そこで、対象全体を母集団と定めて、そこからデータを良い感じで選び出し、
どのようなデータであるかを調べるわけです。

そこで、データの特徴を把握するために、データの「真ん中」あたりはどこか、
データの散らばり具合はどうか、その他にもデータの形状を表す数値を計算したり
、データの様子を視覚的に確認するために様々なグラフを描くことになります。
このような作業を記述統計と呼びます。

このような場合、基本はMEANSプロシジャの利用です。
このプロシジャは、データの中心的傾向を表す平均や中央値、ばらつきを表す
標準偏差や分散、その他いくつかの統計量を計算します。
統計量とは、得られた標本(サンプル)から計算される数値のことです。

特に何も設定を与えない場合、デフォルトでは、非欠損オブザベーションの数、
平均、標準偏差、最小値、最大値が全ての数値変数について計算されます。

proc print data=sashelp.class(obs=5);
run;

/*
Obs     Name      Sex    Age    Height    Weight

  1    Alfred      M      14     69.0      112.5
  2    Alice       F      13     56.5       84.0
  3    Barbara     F      13     65.3       98.0
  4    Carol       F      14     62.8      102.5
  5    Henry       M      14     63.5      102.5
*/

proc means data=sashelp.class;
run;

/*

変数      ラベル           N            平均        標準偏差          最小値          最大値
--------------------------------------------------------------------------------------------
Age       年齢            19      13.3157895       1.4926722      11.0000000      16.0000000
Height    身長(インチ)    19      62.3368421       5.1270752      51.3000000      72.0000000
Weight    体重(ポンド)    19     100.0263158      22.7739335      50.5000000     150.0000000
--------------------------------------------------------------------------------------------

*/

その他の統計量を計算するためには、統計キーワードをPROC MEANSステートメントで
指定しなくてはなりません。このとき、指定したキーワードに対する統計量のみが
計算されます。すなわち、上のプログラムで自動的に計算されていた統計量も、
キーワードを指定しておかないと出力されません。

また、特定の変数に対してのみ統計量を計算するには、それらの変数をVARステートメントで
列挙します。

下のプログラムは、データセットsashelp.classの変数ageとweightに対して
非欠損オブザベーション数、平均、中央値、標準偏差、分散、下側四分位点(25パーセント点)、
および上側四分位点(75パーセント点)を計算するものです。

proc means data=sashelp.class n mean median std var q1 q3;
  var height weight;
run;

/*

変数      ラベル           N            平均          中央値        標準偏差            分散    下側四分位点    上側四分位点
----------------------------------------------------------------------------------------------------------------------------
Height    身長(インチ)    19      62.3368421      62.8000000       5.1270752      26.2869006      57.5000000      66.5000000
Weight    体重(ポンド)    19     100.0263158      99.5000000      22.7739335     518.6520468      84.0000000     112.5000000
----------------------------------------------------------------------------------------------------------------------------

*/

MEANSプロシジャで計算できる統計量は、SAS9.1.3では以下の通りです。

N          非欠損オブザベーション数
NMISS      欠損オブザベーション数
SUM        合計
SUMWGT     重みの合計
MEAN       平均
MEDIAN     中央値
VAR        分散
STDDEV     標準偏差
CV         変動係数
CSS        平均で修正した平方和、修正平方和
USS        2乗和、無修正平方和
SKEWNESS   歪度、歪み
KURTOSIS   尖度、尖り
MIN        最小値
MAX        最大値
RANGE      範囲(最大値から最小値を引いたもの)

P1         1パーセント点
P5         5パーセント点
P10        10パーセント点
Q1|P25     25パーセント点、下側四分位点、第一四分位点
MEDIAN|P50 50パーセント点、中央値、メディアン
Q3|P75     75パーセント点、上側四分位点、第三四分位点
P90        90パーセント点
P95        95パーセント点
P99        99パーセント点
QRANGE     四分位範囲(75パーセント点から25パーセント点を引いたもの)

STDERR     平均に対する標準誤差
CLM        平均に対する両側信頼区間
UCLM       平均に対する上側信頼区間
LCLM       平均に対する下側信頼区間
T          母平均=0を帰無仮説とした検定のt値
PROBT|PRT  前項のt値に基づく両側検定のp値