基本統計量キーワード

Last-modified: 2008-06-14 (土) 18:23:59

記述統計処理を行ういくつかのプロシジャにおいて,求めたい基本統計量を指定するのに,以下の基本統計量キーワードを使います.指定の仕方はプロシジャによって,ステートメントオプションとして指定するもの,特別な形式で記述するものがありますので,詳しくは各プロシジャの説明をみてください.また,プロシジャによって扱えない統計量もあります.

基本統計量キーワード一覧

  • NMISS 欠損値の数
  • N 非欠損値の数
  • SUMWGT 重みの総和
  • MEAN 平均
  • SUM 総和
  • MIN 最小値
  • MAX 最大値
  • RANGE 範囲,レンジ (=MAX-MIN)
  • USS 偏差平方和
  • CSS 修正偏差平方和
  • VAR 分散
  • STDDEV|STD 標準偏差
  • STDERR | STDMEAN 標準誤差
  • CV 変動係数
  • SKEWNESS | SKEW 歪度
  • KURTOSIS | KURT 尖度
  • CLM LCLM UCLM 信頼区間
  • MEDIAN 中央値 see also クォンタイル
  • P1 P5 P10 P25 P50 P75 P90 P95 P99 パーセンタイル,百分位 see also クォンタイル
  • Q1 Q3 クォタイル,四分位 see also クォンタイル
  • QRANGE クォタイルレンジ (=Q3-Q1)
  • MODE 最頻値
  • T t統計量
  • PROBT tの有意確率

P25とQ1,P75とQ3はそれぞれ同じです.MEDIANとP50は同じです.なお,Q2というキーワードはありません.

TABULATEプロシジャでの使用例

基本統計量キーワードは,TABLEステートメントのテーブル表現式の中に記述されます.

proc tabulate data=sashelp.class formchar="           " noseps missing;
  class sex;
  var height;
  table height*(
        NMISS
        N
        SUMWGT
        SUM
        MEAN
        MIN
        MAX
        RANGE
        USS
        CSS
        VAR
        STDDEV
        STDERR
        CV
        SKEWNESS
        KURTOSIS
         LCLM UCLM
        MEDIAN
        P1 P5 P10 P90 P95 P99 Q1 Q3 QRANGE
        T
        PROBT
		)
       ,all sex;
run;
/*

                                                            Sex

                                        All           F            M

 Height           NMiss                     0.00         0.00         0.00
                  N                        19.00         9.00        10.00
                  SumWgt                   19.00         9.00        10.00
                  Sum                    1184.40       545.30       639.10
                  Mean                     62.34        60.59        63.91
                  Min                      51.30        51.30        57.30
                  Max                      72.00        66.50        72.00
                  Range                    20.70        15.20        14.70
                  USS                   74304.92     33240.59     41064.33
                  CSS                     473.16       201.47       219.45
                  Var                      26.29        25.18        24.38
                  StdDev                    5.13         5.02         4.94
                  StdErr                    1.18         1.67         1.56
                  CV                        8.22         8.28         7.73
                  Skewness                 -0.26        -0.72         0.04
                  Kurtosis                 -0.14        -0.35        -0.93
                  95_LCLM                  59.87        56.73        60.38
                  95_UCLM                  64.81        64.45        67.44
                  Median                   62.80        62.50        64.15
                  P1                       51.30        51.30        57.30
                  P5                       51.30        51.30        57.30
                  P10                      56.30        51.30        57.40
                  P90                      69.00        66.50        70.50
                  P95                      72.00        66.50        72.00
                  P99                      72.00        66.50        72.00
                  Q1                       57.50        56.50        59.00
                  Q3                       66.50        64.30        67.00
                  QRange                    9.00         7.80         8.00
                  t                        53.00        36.22        40.93
                  Probt                     <.01         <.01         <.01
 */

MEANSプロシジャでの使用例

基本統計量キーワードは,PROC MEANSステートメントのオプションとして指定します.
この書き方は,SUMMARYプロシジャでも使用できます.その場合,PRINTオプションも同時に指定する必要があります.

proc means data=sashelp.class
        NMISS
        N
        SUMWGT
        SUM
        MEAN
        MIN
        MAX
        RANGE
        USS
        CSS
        VAR
        STDDEV
        STDERR
        CV
        SKEWNESS
        KURTOSIS
        CLM LCLM UCLM
        MEDIAN
        P1 P5 P10 P90 P95 P99 Q1 Q3 QRANGE
        T
        PROBT
  ;
  class sex;
  var height;
run;

/*

MEANS プロシジャ

                   分析変数 : Height

     オブザべーション
Sex                数  欠損値の数     N      重みの合計
-------------------------------------------------------
F                   9           0     9       9.0000000


M                  10           0    10      10.0000000

-------------------------------------------------------

                       分析変数 : Height

     オブザべーション
Sex                数          合計          平均        最小値
---------------------------------------------------------------
F                   9   545.3000000    60.5888889    51.3000000


M                  10   639.1000000    63.9100000    57.3000000

---------------------------------------------------------------

                       分析変数 : Height

     オブザべーション
Sex                数        最大値          範囲  無修正平方和
---------------------------------------------------------------
F                   9    66.5000000    15.2000000      33240.59


M                  10    72.0000000    14.7000000      41064.33

---------------------------------------------------------------

                       分析変数 : Height

     オブザべーション
Sex                数  修正済平方和          分散      標準偏差
---------------------------------------------------------------
F                   9   201.4688889    25.1836111     5.0183275


M                  10   219.4490000    24.3832222     4.9379370

---------------------------------------------------------------

                       分析変数 : Height

     オブザべーション
Sex                数      標準誤差      変動係数          歪度
---------------------------------------------------------------
F                   9     1.6727758     8.2825871    -0.7238643


M                  10     1.5615128     7.7263919     0.0409592

---------------------------------------------------------------

                  分析変数 : Height

     オブザべーション                  平均の下側 95%
Sex                数          尖度          信頼限界
-----------------------------------------------------
F                   9    -0.3464949        56.7314609
                                           56.7314609

M                  10    -0.9348760        60.3776126
                                           60.3776126
-----------------------------------------------------

                  分析変数 : Height

     オブザべーション  平均の上側 95%
Sex                数        信頼限界          中央値
-----------------------------------------------------
F                   9      64.4463169      62.5000000
                           64.4463169
-----------------------------------------------------

MEANS プロシジャ

                  分析変数 : Height

     オブザべーション  平均の上側 95%
Sex                数        信頼限界          中央値
-----------------------------------------------------
M                  10      67.4423874      64.1500000
                           67.4423874
-----------------------------------------------------

                       分析変数 : Height

     オブザべーション  1 パーセント  5 パーセント   10 パーセン
Sex                数            点            点          ト点
---------------------------------------------------------------
F                   9    51.3000000    51.3000000    51.3000000


M                  10    57.3000000    57.3000000    57.4000000

---------------------------------------------------------------

                       分析変数 : Height

     オブザべーション   90 パーセン   95 パーセン   99 パーセン
Sex                数          ト点          ト点          ト点
---------------------------------------------------------------
F                   9    66.5000000    66.5000000    66.5000000


M                  10    70.5000000    72.0000000    72.0000000

---------------------------------------------------------------

                       分析変数 : Height

     オブザべーション
Sex                数  下側四分位点  上側四分位点    四分位範囲
---------------------------------------------------------------
F                   9    56.5000000    64.3000000     7.8000000


M                  10    59.0000000    67.0000000     8.0000000

---------------------------------------------------------------

            分析変数 : Height

     オブザべーション
Sex                数     t 値    Pr > |t|
------------------------------------------
F                   9    36.22      <.0001


M                  10    40.93      <.0001

------------------------------------------

 */

SUMMARYプロシジャでの使用例

基本統計量キーワードは,OUTPUTステートメントのオプションである出力統計量指定の中で使用されます.

OUTPUT OUT=出力SASデータセット名 出力統計量指定1 出力統計量指定2 ..;
出力統計量指定 :: 基本統計量キーワード()=
出力統計量指定 :: 基本統計量キーワード(分析変数名1 分析変数名2.. )=
出力統計量指定 :: 基本統計量キーワード(分析変数名1 分析変数名2.. )=出力変数名 出力変数名2 ..

なお,この書き方は,MEANSプロシジャでも使用できます.

proc summary data=sashelp.class nway missing;
  class sex;
  var height;
  output out=sum
        NMISS()=nmiss
        N()=n
        SUMWGT()=sumwgt
        SUM()=sum
        MEAN()=mean
        MIN()=min
        MAX()=max
        RANGE()=range
        USS()=uss
        CSS()=css
        VAR()=var
        STDDEV()=stddev
        STDERR()=stderr
        CV()=cv
        SKEWNESS()=skew
        KURTOSIS=kurt
        LCLM()=lclm UCLM()=uclm
        MEDIAN()=median
        P1()=p1 P5()=p5 P10()=p10 P90()=p90 P95()=p95 P99()=p99 Q1()=q1 Q3()=q3 QRANGE()=qr
        T()=t
        PROBT()=pt
  ;
run;
proc print;run;

/*
OBS Sex _TYPE_ _FREQ_ nmiss  n sumwgt  sum    mean   min  max

 1   F     1      9     0    9    9   545.3 60.5889 51.3 66.5
 2   M     1     10     0   10   10   639.1 63.9100 57.3 72.0

OBS range    uss     css     var    stddev  stderr    cv

 1   15.2 33240.59 201.469 25.1836 5.01833 1.67278 8.28259
 2   14.7 41064.33 219.449 24.3832 4.93794 1.56151 7.72639

OBS   skew     kurt     lclm    uclm  median  p1   p5   p10

 1  -0.72386 -0.34649 56.7315 64.4463  62.50 51.3 51.3 51.3
 2   0.04096 -0.93488 60.3776 67.4424  64.15 57.3 57.3 57.4

OBS  p90   p95   p99   q1    q3    qr     t         pt

 1  66.5  66.5  66.5  56.5  64.3  7.8  36.2206  3.6989E-10
 2  70.5  72.0  72.0  59.0  67.0  8.0  40.9283  1.5458E-11

 */