SAS入門6

Last-modified: 2008-04-04 (金) 17:07:45

記述統計と推測統計のいくつかを紹介

SASのそもそもの名前の由来がStatistical Analysis Systemであるように,
データの分析には非常に多くのプロシジャが用意されています.
主に記述統計は,Base SASに,基本的な推測統計は,SAS/STATに,それ以外は,
それぞれ分野ごとにSAS/XXXというサブプロダクトに収められています.
ここでは,よく使われるもののうち記述統計と推測統計のいくつかを紹介します.

FREQプロシジャ度数分布
UNIVARIATEプロシジャ単変量
MEANSプロシジャ記述統計量
CORRプロシジャ相関係数
PLOTプロシジャ散布図
REGプロシジャ回帰分析
FASTCLUSプロシジャクラスタ分析

ヘルプメニュー>SASヘルプとドキュメント>目次>SASプロダクト>Base SAS>SASプロシジャ>プロシジャ
の中のFREQ,UNIVARIATE,MEANS,CORR,PLOTプロシジャ

ヘルプメニュー>SASヘルプとドキュメント>目次>SASプロダクト>SAS/STATSAS/STAT使用の手引き
の中のREG,FASTCLUSプロシジャ

当然のことですが,分析用のプロシジャを使う時は,おおまかでよいので,その分析手法を理解しておかなければなりません.
そうでないと,プロシジャの使い方も出力結果も理解することができませんから.
逆に,細かい手法までいちいち理解しなくてもだいたいは問題ありません.
SASを動かしながらその結果から学べることも多いはずです.

3種類のあやめのデータサンプル

options nocenter compress=yes;
libname mydata "c;\";
data iris;
 length class $ 9;
 input sepalL /*がくの長さ unit=cm*/
       sepalW /*がくの幅 unit=cm*/
       petalL /*花びらの長さ unit=cm*/
       petalW /*花びらの幅 unit=cm*/
       class $ /*あやめの種類*/
               @@; /*データ行を改行しない*/
cards;
5.1 3.5 1.4 0.2 setosa  7.0 3.2 4.7 1.4 versicolor      6.3 3.3 6.0 2.5 virginica
4.9 3.0 1.4 0.2 setosa  6.4 3.2 4.5 1.5 versicolor      5.8 2.7 5.1 1.9 virginica
4.7 3.2 1.3 0.2 setosa  6.9 3.1 4.9 1.5 versicolor      7.1 3.0 5.9 2.1 virginica
データを省略(詳細は「SASのエディタWINDOWでコピペして使えます」を参照)
;
proc print;run;

FREQプロシジャ

変数の値毎の度数表を出力します.
2元度数表とともにカイ2乗による独立性の検定も行えます

proc freq data=iris;
 tables class petalL;       /*classとpetalLの度数表を指示*/
 tables class*petalL/chisq; /*classXpetalLの度数表とカイ2乗検定を指示*/
 format petalL 4.;          /*petalLを整数4桁で扱う*/
run;
SAS システム                                     2007年04月03日 火曜日 午前01時05分26秒   4
	FREQ プロシジャ
	                                         累積         累積
	class          度数      パーセント      度数      パーセント
	-------------------------------------------------------------
	setosa             50       33.33            50       33.33
	versicolo          50       33.33           100       66.67
	virginica          50       33.33           150      100.00
	                                      累積         累積
	petalL      度数      パーセント      度数      パーセント
	----------------------------------------------------------
	     1          23       15.33            23       15.33
	     2          27       18.00            50       33.33
	     3           3        2.00            53       35.33
	     4          26       17.33            79       52.67
	     5          43       28.67           122       81.33
	     6          24       16.00           146       97.33
	     7           4        2.67           150      100.00
	表 : class * petalL
	class          petalL
	度数          |
	パーセント    |
	行のパーセント|
	列のパーセント|       1|       2|       3|       4|       5|       6|       7|   合計
	--------------+--------+--------+--------+--------+--------+--------+--------+
	setosa        |     23 |     27 |      0 |      0 |      0 |      0 |      0 |     50
	              |  15.33 |  18.00 |   0.00 |   0.00 |   0.00 |   0.00 |   0.00 |  33.33
	              |  46.00 |  54.00 |   0.00 |   0.00 |   0.00 |   0.00 |   0.00 |
	              | 100.00 | 100.00 |   0.00 |   0.00 |   0.00 |   0.00 |   0.00 |
	--------------+--------+--------+--------+--------+--------+--------+--------+
	versicolo     |      0 |      0 |      3 |     26 |     21 |      0 |      0 |     50
	              |   0.00 |   0.00 |   2.00 |  17.33 |  14.00 |   0.00 |   0.00 |  33.33
	              |   0.00 |   0.00 |   6.00 |  52.00 |  42.00 |   0.00 |   0.00 |
	              |   0.00 |   0.00 | 100.00 | 100.00 |  48.84 |   0.00 |   0.00 |
	--------------+--------+--------+--------+--------+--------+--------+--------+
	virginica     |      0 |      0 |      0 |      0 |     22 |     24 |      4 |     50
	              |   0.00 |   0.00 |   0.00 |   0.00 |  14.67 |  16.00 |   2.67 |  33.33
	              |   0.00 |   0.00 |   0.00 |   0.00 |  44.00 |  48.00 |   8.00 |
	              |   0.00 |   0.00 |   0.00 |   0.00 |  51.16 | 100.00 | 100.00 |
	--------------+--------+--------+--------+--------+--------+--------+--------+
	合計                23       27        3       26       43       24        4      150
	                 15.33    18.00     2.00    17.33    28.67    16.00     2.67   100.00
	class * petalL の統計量
	統計量                         自由度          値      p 値
	-----------------------------------------------------------
	カイ 2 乗値                        12    235.5349    <.0001
	尤度比カイ 2 乗値                  12    269.9963    <.0001
	Mantel-Haenszel のカイ 2 乗値       1    130.4834    <.0001
	ファイ係数                                 1.2531
	一致係数                                   0.7816
	Cramer の V 統計量                         0.8861
	 WARNING: セルの 29% において、期待度数が 5 より小さくなって
	          います。カイ 2 乗検定は妥当な検定でないと思われます。
	標本サイズ = 150

UNIVARIATEプロシジャ

数値変数の基本統計量を出力します.平均,標準偏差や極値の分布状況などがレポートされます.

	proc univariate data=iris;
	  var petalL petalW; /*var文 省略するとすべての数値変数が対象になる*/
	run;
	SAS システム                              2007年04月03日 火曜日 午前01時05分26秒   5
	UNIVARIATE プロシジャ
	変数 :  petalL
	                        モーメント
	N                      150    重み変数の合計           150
	平均            3.75866667    合計                   563.8
	標準偏差        1.76442042    分散              3.11317942
	歪度            -0.2744643    尖度              -1.4019208
	無修正平方和          2583    修正済平方和      463.863733
	変動係数        46.9427214    平均の標準誤差    0.14406432
	                 基本統計量
	      位置                   ばらつき
	平均     3.758667     標準偏差        1.76442
	中央値   4.350000     分散            3.11318
	最頻値   1.500000     範囲            5.90000
	                      四分位範囲      3.50000
	                 位置の検定 H0: Mu0=0
	検定                 --統計量---    -------p 値-------
	Student の t 検定    t   26.0902    Pr > |t|    <.0001
	符号検定             M        75    Pr >= |M|   <.0001
	符号付順位検定       S    5662.5    Pr >= |S|   <.0001
	  分位点 ( 定義 5 )
	分位点         推定値
	100% 最大値      6.90
	99%              6.70
	95%              6.10
	90%              5.80
	75% Q3           5.10
	50% 中央値       4.35
	25% Q1           1.60
	10%              1.40
	5%               1.30
	1%               1.10
	0% 最小値        1.00
	               極値
	----最小値---        ----最大値---
	  値      Obs          値      Obs
	 1.0       67         6.4       96
	 1.1       40         6.6       18
	 1.2      106         6.7       54
	 1.2       43         6.7       69
	 1.3      127         6.9       57
	SAS システム                                2007年04月03日 火曜日 午前01時05分26秒   6
	UNIVARIATE プロシジャ
	変数 :  petalW
	                        モーメント
	N                      150    重み変数の合計           150
	平均            1.19866667    合計                   179.8
	標準偏差        0.76316074    分散              0.58241432
	歪度            -0.1049966    尖度              -1.3397542
	無修正平方和         302.3    修正済平方和      86.7797333
	変動係数        63.6674701    平均の標準誤差    0.06231181
	                 基本統計量
	      位置                   ばらつき
	平均     1.198667     標準偏差        0.76316
	中央値   1.300000     分散            0.58241
	最頻値   0.200000     範囲            2.40000
	                      四分位範囲      1.50000
	                 位置の検定 H0: Mu0=0
	検定                 --統計量---    -------p 値-------
	Student の t 検定    t  19.23659    Pr > |t|    <.0001
	符号検定             M        75    Pr >= |M|   <.0001
	符号付順位検定       S    5662.5    Pr >= |S|   <.0001
	  分位点 ( 定義 5 )
	分位点         推定値
	100% 最大値       2.5
	99%               2.5
	95%               2.3
	90%               2.2
	75% Q3            1.8
	50% 中央値        1.3
	25% Q1            0.3
	10%               0.2
	5%                0.2
	1%                0.1
	0% 最小値         0.1
	               極値
	----最小値---        ----最大値---
	  値      Obs          値      Obs
	 0.1      112         2.4      111
	 0.1      103         2.4      123
	 0.1       97         2.5        3
	 0.1       40         2.5       30
	 0.1       37         2.5      135

MEANSプロシジャ

変数毎の基本統計量を集計します.

	proc means data=iris;
	class class;
	run;
	MEANS プロシジャ
	             オブザべーション
	class                      数    変数        N            平均        標準偏差          最小値          最大値
	--------------------------------------------------------------------------------------------------------------
	setosa                     50    sepalL     50       5.0060000       0.3524897       4.3000000       5.8000000
	                                 sepalW     50       3.4180000       0.3810244       2.3000000       4.4000000
	                                 petalL     50       1.4640000       0.1735112       1.0000000       1.9000000
	                                 petalW     50       0.2440000       0.1072095       0.1000000       0.6000000
	versicolo                  50    sepalL     50       5.9360000       0.5161711       4.9000000       7.0000000
	                                 sepalW     50       2.7700000       0.3137983       2.0000000       3.4000000
	                                 petalL     50       4.2600000       0.4699110       3.0000000       5.1000000
	                                 petalW     50       1.3260000       0.1977527       1.0000000       1.8000000
	virginica                  50    sepalL     50       6.5880000       0.6358796       4.9000000       7.9000000
	                                 sepalW     50       2.9740000       0.3224966       2.2000000       3.8000000
	                                 petalL     50       5.5520000       0.5518947       4.5000000       6.9000000
	                                 petalW     50       2.0260000       0.2746501       1.4000000       2.5000000
	--------------------------------------------------------------------------------------------------------------

CORRプロシジャ

相関係数を出力します.

	proc corr data=iris;
	run;
SAS システム                                 2007年04月03日 火曜日 午前01時05分26秒   9
	CORR プロシジャ
	   4  変数 :    sepalL   sepalW   petalL   petalW
	                                        要約統計量
	変数               N          平均      標準偏差          合計        最小値        最大値
	sepalL           150       5.84333       0.82807     876.50000       4.30000       7.90000
	sepalW           150       3.05400       0.43359     458.10000       2.00000       4.40000
	petalL           150       3.75867       1.76442     563.80000       1.00000       6.90000
	petalW           150       1.19867       0.76316     179.80000       0.10000       2.50000
	                 Pearson の相関係数, N = 150
	                H0: Rho=0 に対する Prob > |r|
	              sepalL        sepalW        petalL        petalW
	sepalL       1.00000      -0.10937       0.87175       0.81795
	                            0.1828        <.0001        <.0001
	sepalW      -0.10937       1.00000      -0.42052      -0.35654
	              0.1828                      <.0001        <.0001
	petalL       0.87175      -0.42052       1.00000       0.96276
	              <.0001        <.0001                      <.0001
	petalW       0.81795      -0.35654       0.96276       1.00000
	              <.0001        <.0001        <.0001

PLOTプロシジャ

散布図を出力します.

	proc plot data=iris;
	  plot petalL*petalW;
	run;
	SAS システム                              2007年04月03日 火曜日 午前01時05分26秒  11
	                                          プロット : petalL*petalW   凡例 : A = 1 obs, B = 2 obs, ...
	     petalL |
	            |
	        6.9 +                                                                                                                A
	        6.8 +
	        6.7 +                                                                                                 A         A
	        6.6 +                                                                                                      A
	        6.5 +
	        6.4 +                                                                                                 A
	        6.3 +                                                                                       A
	        6.2 +
	        6.1 +                                                                                            A                   A         A
	        6.0 +                                                                                       A                                  A
	        5.9 +                                                                                                      A         A
	        5.8 +                                                                             A         A                   A
	        5.7 +                                                                                                      A         A         A
	        5.6 +                                                                   A                   A              A    A         B
	        5.5 +                                                                                       B              A
	        5.4 +                                                                                                      A         A
	        5.3 +                                                                                            A                   A
	        5.2 +                                                                                                 A              A
	        5.1 +                                                                        A    A         A    B    A              A    A
	        5.0 +                                                                        A         A         A    A
	        4.9 +                                                                        B              B         A
	        4.8 +                                                                   A                   C
	        4.7 +                                                         A         B    A    A
	        4.6 +                                                              A    A    A
	        4.5 +                                                              A         E    A    A
	        4.4 +                                                         A    A    B
	        4.3 +                                                              B
	        4.2 +                                                         A    B         A
	        4.1 +                                               A              B
	        4.0 +                                               A         A    C
	        3.9 +                                                    A    A         A
	        3.8 +                                                    A
	        3.7 +                                               A
	        3.6 +                                                              A
	        3.5 +                                               B
	        3.4 +
	        3.3 +                                               B
	        3.2 +
	        3.1 +
	        3.0 +                                                    A
	        2.9 +
	        2.8 +
	        2.7 +
	        2.6 +
	        2.5 +
	        2.4 +
	        2.3 +
	        2.2 +
	        2.1 +
	        2.0 +
	        1.9 +       A         A
	        1.8 +
	        1.7 +       A    A    A    A
	        1.6 +       E         A         A
	        1.5 +  D    F    A    C
	        1.4 +  A    H    C
	        1.3 +       D    B    A
	        1.2 +       B
	        1.1 +  A
	        1.0 +       A
	            |
	            ---+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+--
	              0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4  1.5  1.6  1.7  1.8  1.9  2.0  2.1  2.2  2.3  2.4  2.5
	                                                                        petalW

PLOTというプロシジャもあります(SAS/GRAPHプロダクトに収められています)

	proc gplot data=iris;
	  plot petalL*petalW;
	run;

REGプロシジャ

線形回帰分析を行います.

	proc reg data=iris;
	  model petalL=petalW sepalL sepalW;
	run;
	REG プロシジャ
	モデル: MODEL1
	従属変数: petalL
	読み込んだオブザベーション数         150
	使用されたオブザベーション数         150
	                                   分散分析
	                                    平方和           平均
	変動因               自由度                          平方       F 値    Pr > F
	Model                     3      449.08973      149.69658    1479.33    <.0001
	Error                   146       14.77400        0.10119
	Corrected Total         149      463.86373
	誤差の標準偏差        0.31811    R2 乗            0.9682
	従属変数の平均        3.75867    調整済 R2 乗     0.9675
	変動係数              8.46328
	                            パラメータ推定値
	                        パラメータ           標準
	変数         自由度         推定値           誤差       t 値    Pr > |t|
	Intercept         1       -0.25266        0.29652      -0.85      0.3956
	petalW            1        1.44572        0.06713      21.54      <.0001
	sepalL            1        0.73036        0.05815      12.56      <.0001
	sepalW            1       -0.65139        0.06838      -9.53      <.0001

FASTCLUSプロシージャ

クラスタ分析(K-means法)を行います.

	proc fastclus data=iris MAXCLUSTERS=3 out=out;
	  var sepalL sepalW petalL petalW;
	run;
SAS システム                                      2007年04月03日 火曜日 午前01時05分26秒  16
  
FASTCLUS プロシジャ
置き換え=FULL  半径=0  最大クラスター=3  最大反復数=1
 
	                                    初期シード
	クラスター            sepalL            sepalW            petalL            petalW
	----------------------------------------------------------------------------------
	   1             5.800000000       4.000000000       1.200000000       0.200000000
	   2             4.900000000       2.500000000       4.500000000       1.700000000
	   3             7.700000000       3.800000000       6.700000000       2.200000000
	      最終シードによる評価基準 =   0.3712
	                                           クラスターの要約
	                                           シードから
	                         RMS 標準    オブザベーション      半径                              クラスター
	クラスター       頻度        偏差      までの最大距離     超える     最も近いクラスター    重心間の距離
	-------------------------------------------------------------------------------------------------------
	   1               50      0.2788              1.2394                                 2          3.4222
	   2               67      0.4180              1.8532                                 3          1.8341
	   3               33      0.3883              1.2923                                 2          1.8341
	                         変数に対する統計量
	変数            総 STD      群内 STD         R2 乗    R2 乗/(1-R2 乗)
	---------------------------------------------------------------------
	sepalL         0.82807       0.44824      0.710915           2.459187
	sepalW         0.43359       0.32558      0.443729           0.797684
	petalL         1.76442       0.42974      0.941475          16.086593
	petalW         0.76316       0.23898      0.903258           9.336801
	OVER-ALL       1.06880       0.37038      0.881525           7.440564
	     擬似 F 統計量 =   546.88
	             すべての R2 乗の近似期待値 =   0.62721
	    3 次クラスタリング基準 =   24.526
	WARNING: 上記の 2 値は関連した変数に対して適切ではありません。
	                                  クラスター平均
	クラスター            sepalL            sepalW            petalL            petalW
	----------------------------------------------------------------------------------
	   1             5.006000000       3.418000000       1.464000000       0.244000000
	   2             5.947761194       2.761194030       4.452238806       1.453731343
	   3             6.900000000       3.096969697       5.827272727       2.127272727
	                                クラスター標準偏差
	クラスター            sepalL            sepalW            petalL            petalW
	----------------------------------------------------------------------------------
	   1            0.3524896872      0.3810243980      0.1735111594      0.1072095031
	   2            0.4831582365      0.2953966126      0.5360795421      0.3011736428
	   3            0.5012484414      0.2909948974      0.4577613511      0.2401467354
	proc freq data=out;
	  tables class*cluster;
	run;

クラスタリングによって,暗黙に,3つの種が識別された.(17件だけ誤分類)

	class          CLUSTER(Cluster)
	度数          |
	パーセント    |
	行のパーセント|
	列のパーセント|       1|       2|       3|   合計
	--------------+--------+--------+--------+
	setosa        |     50 |      0 |      0 |     50
	              |  33.33 |   0.00 |   0.00 |  33.33
	              | 100.00 |   0.00 |   0.00 |
	              | 100.00 |   0.00 |   0.00 |
	--------------+--------+--------+--------+
	versicolo     |      0 |     50 |      0 |     50
	              |   0.00 |  33.33 |   0.00 |  33.33
	              |   0.00 | 100.00 |   0.00 |
	              |   0.00 |  74.63 |   0.00 |
	--------------+--------+--------+--------+
	virginica     |      0 |     17 |     33 |     50
	              |   0.00 |  11.33 |  22.00 |  33.33
	              |   0.00 |  34.00 |  66.00 |
	              |   0.00 |  25.37 | 100.00 |
	--------------+--------+--------+--------+
	合計                50       67       33      150
	                 33.33    44.67    22.00   100.00

質問・意見

サマリ 質問の要旨を簡潔にお願いします。
お名前
状態
メッセージ

質問・意見一覧

一覧に表示する項目はありません.

以下は、SASのエディタWINDOWでコピペして使えます

/*
SASのそもそもの名前の由来がStatistical Analysis Systemであるように,
データの分析には非常に多くのプロシジャが用意されています.
主に記述統計は,Base SASに,基本的な推測統計は,SAS/STATに,それ以外は,
それぞれ分野ごとにSAS/XXXというサブプロダクトに収められています.
ここでは,よく使われるもののうち記述統計と推測統計のいくつかを紹介します.

FREQプロシジャ 度数分布
UNIVARIATEプロシジャ 単変量
MEANSプロシジャ  記述統計量
CORRプロシジャ  相関係数
PLOTプロシジャ 散布図
REGプロシジャ 回帰分析
FASTCLUSプロシジャ クラスタ分析
ヘルプメニュー>SASヘルプとドキュメント>目次>SASプロダクト>Base SAS
>SASプロシジャ>プロシジャ
の中のFREQ,UNIVARIATE,MEANS,CORR,PLOTプロシジャ
ヘルプメニュー>SASヘルプとドキュメント>目次>SASプロダクト>SAS/STAT
>SAS/STAT使用の手引き
の中のREG,FASTCLUSプロシジャ


当然のことですが,分析用のプロシジャを使う時は,
おおまかでよいので,その分析手法を理解しておかなければなりません.
そうでないと,プロシジャの使い方も出力結果も理解することができませんから.
逆に,細かい手法までいちいち理解しなくてもだいたいは問題ありません.
SASを動かしながらその結果から学べることも多いはずです.
*/


options nocenter compress=yes;
libname mydata "c;\";



/*
3種類のあやめのデータサンプル
*/
data iris;
  length class $ 9;
  input sepalL /*がくの長さ unit=cm*/
        sepalW /*がくの幅 unit=cm*/
        petalL /*花びらの長さ unit=cm*/
        petalW /*花びらの幅 unit=cm*/
        class $ /*あやめの種類*/
                @@; /*データ行を改行しない*/
cards;
5.1 3.5 1.4 0.2 setosa  7.0 3.2 4.7 1.4 versicolor      6.3 3.3 6.0 2.5 virginica
4.9 3.0 1.4 0.2 setosa  6.4 3.2 4.5 1.5 versicolor      5.8 2.7 5.1 1.9 virginica
4.7 3.2 1.3 0.2 setosa  6.9 3.1 4.9 1.5 versicolor      7.1 3.0 5.9 2.1 virginica
4.6 3.1 1.5 0.2 setosa  5.5 2.3 4.0 1.3 versicolor      6.3 2.9 5.6 1.8 virginica
5.0 3.6 1.4 0.2 setosa  6.5 2.8 4.6 1.5 versicolor      6.5 3.0 5.8 2.2 virginica
5.4 3.9 1.7 0.4 setosa  5.7 2.8 4.5 1.3 versicolor      7.6 3.0 6.6 2.1 virginica
4.6 3.4 1.4 0.3 setosa  6.3 3.3 4.7 1.6 versicolor      4.9 2.5 4.5 1.7 virginica
5.0 3.4 1.5 0.2 setosa  4.9 2.4 3.3 1.0 versicolor      7.3 2.9 6.3 1.8 virginica
4.4 2.9 1.4 0.2 setosa  6.6 2.9 4.6 1.3 versicolor      6.7 2.5 5.8 1.8 virginica
4.9 3.1 1.5 0.1 setosa  5.2 2.7 3.9 1.4 versicolor      7.2 3.6 6.1 2.5 virginica
5.4 3.7 1.5 0.2 setosa  5.0 2.0 3.5 1.0 versicolor      6.5 3.2 5.1 2.0 virginica
4.8 3.4 1.6 0.2 setosa  5.9 3.0 4.2 1.5 versicolor      6.4 2.7 5.3 1.9 virginica
4.8 3.0 1.4 0.1 setosa  6.0 2.2 4.0 1.0 versicolor      6.8 3.0 5.5 2.1 virginica
4.3 3.0 1.1 0.1 setosa  6.1 2.9 4.7 1.4 versicolor      5.7 2.5 5.0 2.0 virginica
5.8 4.0 1.2 0.2 setosa  5.6 2.9 3.6 1.3 versicolor      5.8 2.8 5.1 2.4 virginica
5.7 4.4 1.5 0.4 setosa  6.7 3.1 4.4 1.4 versicolor      6.4 3.2 5.3 2.3 virginica
5.4 3.9 1.3 0.4 setosa  5.6 3.0 4.5 1.5 versicolor      6.5 3.0 5.5 1.8 virginica
5.1 3.5 1.4 0.3 setosa  5.8 2.7 4.1 1.0 versicolor      7.7 3.8 6.7 2.2 virginica
5.7 3.8 1.7 0.3 setosa  6.2 2.2 4.5 1.5 versicolor      7.7 2.6 6.9 2.3 virginica
5.1 3.8 1.5 0.3 setosa  5.6 2.5 3.9 1.1 versicolor      6.0 2.2 5.0 1.5 virginica
5.4 3.4 1.7 0.2 setosa  5.9 3.2 4.8 1.8 versicolor      6.9 3.2 5.7 2.3 virginica
5.1 3.7 1.5 0.4 setosa  6.1 2.8 4.0 1.3 versicolor      5.6 2.8 4.9 2.0 virginica
4.6 3.6 1.0 0.2 setosa  6.3 2.5 4.9 1.5 versicolor      7.7 2.8 6.7 2.0 virginica
5.1 3.3 1.7 0.5 setosa  6.1 2.8 4.7 1.2 versicolor      6.3 2.7 4.9 1.8 virginica
4.8 3.4 1.9 0.2 setosa  6.4 2.9 4.3 1.3 versicolor      6.7 3.3 5.7 2.1 virginica
5.0 3.0 1.6 0.2 setosa  6.6 3.0 4.4 1.4 versicolor      7.2 3.2 6.0 1.8 virginica
5.0 3.4 1.6 0.4 setosa  6.8 2.8 4.8 1.4 versicolor      6.2 2.8 4.8 1.8 virginica
5.2 3.5 1.5 0.2 setosa  6.7 3.0 5.0 1.7 versicolor      6.1 3.0 4.9 1.8 virginica
5.2 3.4 1.4 0.2 setosa  6.0 2.9 4.5 1.5 versicolor      6.4 2.8 5.6 2.1 virginica
4.7 3.2 1.6 0.2 setosa  5.7 2.6 3.5 1.0 versicolor      7.2 3.0 5.8 1.6 virginica
4.8 3.1 1.6 0.2 setosa  5.5 2.4 3.8 1.1 versicolor      7.4 2.8 6.1 1.9 virginica
5.4 3.4 1.5 0.4 setosa  5.5 2.4 3.7 1.0 versicolor      7.9 3.8 6.4 2.0 virginica
5.2 4.1 1.5 0.1 setosa  5.8 2.7 3.9 1.2 versicolor      6.4 2.8 5.6 2.2 virginica
5.5 4.2 1.4 0.2 setosa  6.0 2.7 5.1 1.6 versicolor      6.3 2.8 5.1 1.5 virginica
4.9 3.1 1.5 0.1 setosa  5.4 3.0 4.5 1.5 versicolor      6.1 2.6 5.6 1.4 virginica
5.0 3.2 1.2 0.2 setosa  6.0 3.4 4.5 1.6 versicolor      7.7 3.0 6.1 2.3 virginica
5.5 3.5 1.3 0.2 setosa  6.7 3.1 4.7 1.5 versicolor      6.3 3.4 5.6 2.4 virginica
4.9 3.1 1.5 0.1 setosa  6.3 2.3 4.4 1.3 versicolor      6.4 3.1 5.5 1.8 virginica
4.4 3.0 1.3 0.2 setosa  5.6 3.0 4.1 1.3 versicolor      6.0 3.0 4.8 1.8 virginica
5.1 3.4 1.5 0.2 setosa  5.5 2.5 4.0 1.3 versicolor      6.9 3.1 5.4 2.1 virginica
5.0 3.5 1.3 0.3 setosa  5.5 2.6 4.4 1.2 versicolor      6.7 3.1 5.6 2.4 virginica
4.5 2.3 1.3 0.3 setosa  6.1 3.0 4.6 1.4 versicolor      6.9 3.1 5.1 2.3 virginica
4.4 3.2 1.3 0.2 setosa  5.8 2.6 4.0 1.2 versicolor      5.8 2.7 5.1 1.9 virginica
5.0 3.5 1.6 0.6 setosa  5.0 2.3 3.3 1.0 versicolor      6.8 3.2 5.9 2.3 virginica
5.1 3.8 1.9 0.4 setosa  5.6 2.7 4.2 1.3 versicolor      6.7 3.3 5.7 2.5 virginica
4.8 3.0 1.4 0.3 setosa  5.7 3.0 4.2 1.2 versicolor      6.7 3.0 5.2 2.3 virginica
5.1 3.8 1.6 0.2 setosa  5.7 2.9 4.2 1.3 versicolor      6.3 2.5 5.0 1.9 virginica
4.6 3.2 1.4 0.2 setosa  6.2 2.9 4.3 1.3 versicolor      6.5 3.0 5.2 2.0 virginica
5.3 3.7 1.5 0.2 setosa  5.1 2.5 3.0 1.1 versicolor      6.2 3.4 5.4 2.3 virginica
5.0 3.3 1.4 0.2 setosa  5.7 2.8 4.1 1.3 versicolor      5.9 3.0 5.1 1.8 virginica

;
proc print;run;


/*
FREQプロシジャ
変数の値毎の度数表を出力します.
2元度数表とともにカイ2乗による独立性の検定も行えます
*/

proc freq data=iris;
  tables class petalL;       /*classとpetalLの度数表を指示*/
  tables class*petalL/chisq; /*classXpetalLの度数表とカイ2乗検定を指示*/
  format petalL 4.;          /*petalLを整数4桁で扱う*/
run;


/*
SAS システム                                                                                          2007年04月03日 火曜日 午前01時05分26秒   4

FREQ プロシジャ

                                         累積         累積
class          度数      パーセント      度数      パーセント
-------------------------------------------------------------
setosa             50       33.33            50       33.33
versicolo          50       33.33           100       66.67
virginica          50       33.33           150      100.00


                                      累積         累積
petalL      度数      パーセント      度数      パーセント
----------------------------------------------------------
     1          23       15.33            23       15.33
     2          27       18.00            50       33.33
     3           3        2.00            53       35.33
     4          26       17.33            79       52.67
     5          43       28.67           122       81.33
     6          24       16.00           146       97.33
     7           4        2.67           150      100.00


表 : class * petalL

class          petalL

度数          |
パーセント    |
行のパーセント|
列のパーセント|       1|       2|       3|       4|       5|       6|       7|   合計
--------------+--------+--------+--------+--------+--------+--------+--------+
setosa        |     23 |     27 |      0 |      0 |      0 |      0 |      0 |     50
              |  15.33 |  18.00 |   0.00 |   0.00 |   0.00 |   0.00 |   0.00 |  33.33
              |  46.00 |  54.00 |   0.00 |   0.00 |   0.00 |   0.00 |   0.00 |
              | 100.00 | 100.00 |   0.00 |   0.00 |   0.00 |   0.00 |   0.00 |
--------------+--------+--------+--------+--------+--------+--------+--------+
versicolo     |      0 |      0 |      3 |     26 |     21 |      0 |      0 |     50
              |   0.00 |   0.00 |   2.00 |  17.33 |  14.00 |   0.00 |   0.00 |  33.33
              |   0.00 |   0.00 |   6.00 |  52.00 |  42.00 |   0.00 |   0.00 |
              |   0.00 |   0.00 | 100.00 | 100.00 |  48.84 |   0.00 |   0.00 |
--------------+--------+--------+--------+--------+--------+--------+--------+
virginica     |      0 |      0 |      0 |      0 |     22 |     24 |      4 |     50
              |   0.00 |   0.00 |   0.00 |   0.00 |  14.67 |  16.00 |   2.67 |  33.33
              |   0.00 |   0.00 |   0.00 |   0.00 |  44.00 |  48.00 |   8.00 |
              |   0.00 |   0.00 |   0.00 |   0.00 |  51.16 | 100.00 | 100.00 |
--------------+--------+--------+--------+--------+--------+--------+--------+
合計                23       27        3       26       43       24        4      150
                 15.33    18.00     2.00    17.33    28.67    16.00     2.67   100.00


class * petalL の統計量

統計量                         自由度          値      p 値
-----------------------------------------------------------
カイ 2 乗値                        12    235.5349    <.0001
尤度比カイ 2 乗値                  12    269.9963    <.0001
Mantel-Haenszel のカイ 2 乗値       1    130.4834    <.0001
ファイ係数                                 1.2531
一致係数                                   0.7816
Cramer の V 統計量                         0.8861

 WARNING: セルの 29% において、期待度数が 5 より小さくなって
          います。カイ 2 乗検定は妥当な検定でないと思われます。

標本サイズ = 150
*/




/*
UNIVARIATEプロシジャ
数値変数の基本統計量を出力します.平均,標準偏差や極値の分布状況などが
レポートされます.
*/

proc univariate data=iris;
  var petalL petalW; /*var文 省略するとすべての数値変数が対象になる*/
run;

/*
SAS システム                                                                                          2007年04月03日 火曜日 午前01時05分26秒   5

UNIVARIATE プロシジャ
変数 :  petalL

                        モーメント

N                      150    重み変数の合計           150
平均            3.75866667    合計                   563.8
標準偏差        1.76442042    分散              3.11317942
歪度            -0.2744643    尖度              -1.4019208
無修正平方和          2583    修正済平方和      463.863733
変動係数        46.9427214    平均の標準誤差    0.14406432


                 基本統計量

      位置                   ばらつき

平均     3.758667     標準偏差        1.76442
中央値   4.350000     分散            3.11318
最頻値   1.500000     範囲            5.90000
                      四分位範囲      3.50000


                 位置の検定 H0: Mu0=0

検定                 --統計量---    -------p 値-------

Student の t 検定    t   26.0902    Pr > |t|    <.0001
符号検定             M        75    Pr >= |M|   <.0001
符号付順位検定       S    5662.5    Pr >= |S|   <.0001


  分位点 ( 定義 5 )

分位点         推定値

100% 最大値      6.90
99%              6.70
95%              6.10
90%              5.80
75% Q3           5.10
50% 中央値       4.35
25% Q1           1.60
10%              1.40
5%               1.30
1%               1.10
0% 最小値        1.00


               極値

----最小値---        ----最大値---

  値      Obs          値      Obs

 1.0       67         6.4       96
 1.1       40         6.6       18
 1.2      106         6.7       54
 1.2       43         6.7       69
 1.3      127         6.9       57

SAS システム                                                                                          2007年04月03日 火曜日 午前01時05分26秒   6

UNIVARIATE プロシジャ
変数 :  petalW

                        モーメント

N                      150    重み変数の合計           150
平均            1.19866667    合計                   179.8
標準偏差        0.76316074    分散              0.58241432
歪度            -0.1049966    尖度              -1.3397542
無修正平方和         302.3    修正済平方和      86.7797333
変動係数        63.6674701    平均の標準誤差    0.06231181


                 基本統計量

      位置                   ばらつき

平均     1.198667     標準偏差        0.76316
中央値   1.300000     分散            0.58241
最頻値   0.200000     範囲            2.40000
                      四分位範囲      1.50000


                 位置の検定 H0: Mu0=0

検定                 --統計量---    -------p 値-------

Student の t 検定    t  19.23659    Pr > |t|    <.0001
符号検定             M        75    Pr >= |M|   <.0001
符号付順位検定       S    5662.5    Pr >= |S|   <.0001


  分位点 ( 定義 5 )

分位点         推定値

100% 最大値       2.5
99%               2.5
95%               2.3
90%               2.2
75% Q3            1.8
50% 中央値        1.3
25% Q1            0.3
10%               0.2
5%                0.2
1%                0.1
0% 最小値         0.1


               極値

----最小値---        ----最大値---

  値      Obs          値      Obs

 0.1      112         2.4      111
 0.1      103         2.4      123
 0.1       97         2.5        3
 0.1       40         2.5       30
 0.1       37         2.5      135

*/

/*
MEANSプロシジャ
変数毎の基本統計量を集計します.
*/

proc means data=iris;
class class;
run;

/*
MEANS プロシジャ

             オブザべーション
class                      数    変数        N            平均        標準偏差          最小値          最大値
--------------------------------------------------------------------------------------------------------------
setosa                     50    sepalL     50       5.0060000       0.3524897       4.3000000       5.8000000
                                 sepalW     50       3.4180000       0.3810244       2.3000000       4.4000000
                                 petalL     50       1.4640000       0.1735112       1.0000000       1.9000000
                                 petalW     50       0.2440000       0.1072095       0.1000000       0.6000000

versicolo                  50    sepalL     50       5.9360000       0.5161711       4.9000000       7.0000000
                                 sepalW     50       2.7700000       0.3137983       2.0000000       3.4000000
                                 petalL     50       4.2600000       0.4699110       3.0000000       5.1000000
                                 petalW     50       1.3260000       0.1977527       1.0000000       1.8000000

virginica                  50    sepalL     50       6.5880000       0.6358796       4.9000000       7.9000000
                                 sepalW     50       2.9740000       0.3224966       2.2000000       3.8000000
                                 petalL     50       5.5520000       0.5518947       4.5000000       6.9000000
                                 petalW     50       2.0260000       0.2746501       1.4000000       2.5000000
--------------------------------------------------------------------------------------------------------------
*/


/*
CORRプロシジャ
相関係数を出力します.
*/

proc corr data=iris;
run;
/*
SAS システム                                                                                          2007年04月03日 火曜日 午前01時05分26秒   9

CORR プロシジャ

   4  変数 :    sepalL   sepalW   petalL   petalW


                                        要約統計量

変数               N          平均      標準偏差          合計        最小値        最大値

sepalL           150       5.84333       0.82807     876.50000       4.30000       7.90000
sepalW           150       3.05400       0.43359     458.10000       2.00000       4.40000
petalL           150       3.75867       1.76442     563.80000       1.00000       6.90000
petalW           150       1.19867       0.76316     179.80000       0.10000       2.50000


                 Pearson の相関係数, N = 150
                H0: Rho=0 に対する Prob > |r|

              sepalL        sepalW        petalL        petalW

sepalL       1.00000      -0.10937       0.87175       0.81795
                            0.1828        <.0001        <.0001

sepalW      -0.10937       1.00000      -0.42052      -0.35654
              0.1828                      <.0001        <.0001

petalL       0.87175      -0.42052       1.00000       0.96276
              <.0001        <.0001                      <.0001

petalW       0.81795      -0.35654       0.96276       1.00000
              <.0001        <.0001        <.0001
*/

/*
PLOTプロシジャ
散布図を出力します.
*/


proc plot data=iris;
  plot petalL*petalW;
run;

/*
SAS システム                                                                                          2007年04月03日 火曜日 午前01時05分26秒  11

                                          プロット : petalL*petalW   凡例 : A = 1 obs, B = 2 obs, ...

     petalL |
            |
        6.9 +                                                                                                                A
        6.8 +
        6.7 +                                                                                                 A         A
        6.6 +                                                                                                      A
        6.5 +
        6.4 +                                                                                                 A
        6.3 +                                                                                       A
        6.2 +
        6.1 +                                                                                            A                   A         A
        6.0 +                                                                                       A                                  A
        5.9 +                                                                                                      A         A
        5.8 +                                                                             A         A                   A
        5.7 +                                                                                                      A         A         A
        5.6 +                                                                   A                   A              A    A         B
        5.5 +                                                                                       B              A
        5.4 +                                                                                                      A         A
        5.3 +                                                                                            A                   A
        5.2 +                                                                                                 A              A
        5.1 +                                                                        A    A         A    B    A              A    A
        5.0 +                                                                        A         A         A    A
        4.9 +                                                                        B              B         A
        4.8 +                                                                   A                   C
        4.7 +                                                         A         B    A    A
        4.6 +                                                              A    A    A
        4.5 +                                                              A         E    A    A
        4.4 +                                                         A    A    B
        4.3 +                                                              B
        4.2 +                                                         A    B         A
        4.1 +                                               A              B
        4.0 +                                               A         A    C
        3.9 +                                                    A    A         A
        3.8 +                                                    A
        3.7 +                                               A
        3.6 +                                                              A
        3.5 +                                               B
        3.4 +
        3.3 +                                               B
        3.2 +
        3.1 +
        3.0 +                                                    A
        2.9 +
        2.8 +
        2.7 +
        2.6 +
        2.5 +
        2.4 +
        2.3 +
        2.2 +
        2.1 +
        2.0 +
        1.9 +       A         A
        1.8 +
        1.7 +       A    A    A    A
        1.6 +       E         A         A
        1.5 +  D    F    A    C
        1.4 +  A    H    C
        1.3 +       D    B    A
        1.2 +       B
        1.1 +  A
        1.0 +       A
            |
            ---+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+--
              0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4  1.5  1.6  1.7  1.8  1.9  2.0  2.1  2.2  2.3  2.4  2.5

                                                                        petalW
*/

/*
PLOTというプロシジャもあります(SAS/GRAPHプロダクトに収められています)
*/
proc gplot data=iris;
  plot petalL*petalW;
run;


/*
REGプロシジャ
線形回帰分析を行います.
*/

proc reg data=iris;
  model petalL=petalW sepalL sepalW;
run;

/*
REG プロシジャ
モデル: MODEL1
従属変数: petalL

読み込んだオブザベーション数         150
使用されたオブザベーション数         150


                                   分散分析

                                    平方和           平均
変動因               自由度                          平方       F 値    Pr > F

Model                     3      449.08973      149.69658    1479.33    <.0001
Error                   146       14.77400        0.10119
Corrected Total         149      463.86373


誤差の標準偏差        0.31811    R2 乗            0.9682
従属変数の平均        3.75867    調整済 R2 乗     0.9675
変動係数              8.46328


                            パラメータ推定値

                        パラメータ           標準
変数         自由度         推定値           誤差       t 値    Pr > |t|

Intercept         1       -0.25266        0.29652      -0.85      0.3956
petalW            1        1.44572        0.06713      21.54      <.0001
sepalL            1        0.73036        0.05815      12.56      <.0001
sepalW            1       -0.65139        0.06838      -9.53      <.0001
*/


/*
FASTCLUSプロシージャ
クラスタ分析(K-means法)を行います.
*/

proc fastclus data=iris MAXCLUSTERS=3 out=out;
  var sepalL sepalW petalL petalW;
run;

/*
SAS システム                                                                                          2007年04月03日 火曜日 午前01時05分26秒  16

FASTCLUS プロシジャ
置き換え=FULL  半径=0  最大クラスター=3  最大反復数=1

                                    初期シード

クラスター            sepalL            sepalW            petalL            petalW
----------------------------------------------------------------------------------
   1             5.800000000       4.000000000       1.200000000       0.200000000
   2             4.900000000       2.500000000       4.500000000       1.700000000
   3             7.700000000       3.800000000       6.700000000       2.200000000


      最終シードによる評価基準 =   0.3712


                                           クラスターの要約

                                           シードから
                         RMS 標準    オブザベーション      半径                              クラスター
クラスター       頻度        偏差      までの最大距離     超える     最も近いクラスター    重心間の距離
-------------------------------------------------------------------------------------------------------
   1               50      0.2788              1.2394                                 2          3.4222
   2               67      0.4180              1.8532                                 3          1.8341
   3               33      0.3883              1.2923                                 2          1.8341


                         変数に対する統計量

変数            総 STD      群内 STD         R2 乗    R2 乗/(1-R2 乗)
---------------------------------------------------------------------
sepalL         0.82807       0.44824      0.710915           2.459187
sepalW         0.43359       0.32558      0.443729           0.797684
petalL         1.76442       0.42974      0.941475          16.086593
petalW         0.76316       0.23898      0.903258           9.336801
OVER-ALL       1.06880       0.37038      0.881525           7.440564


     擬似 F 統計量 =   546.88


             すべての R2 乗の近似期待値 =   0.62721


    3 次クラスタリング基準 =   24.526

WARNING: 上記の 2 値は関連した変数に対して適切ではありません。


                                  クラスター平均

クラスター            sepalL            sepalW            petalL            petalW
----------------------------------------------------------------------------------
   1             5.006000000       3.418000000       1.464000000       0.244000000
   2             5.947761194       2.761194030       4.452238806       1.453731343
   3             6.900000000       3.096969697       5.827272727       2.127272727


                                クラスター標準偏差

クラスター            sepalL            sepalW            petalL            petalW
----------------------------------------------------------------------------------
   1            0.3524896872      0.3810243980      0.1735111594      0.1072095031
   2            0.4831582365      0.2953966126      0.5360795421      0.3011736428
   3            0.5012484414      0.2909948974      0.4577613511      0.2401467354
*/


proc freq data=out;
  tables class*cluster;
run;

/*
クラスタリングによって,暗黙に,3つの種が識別された.(17件だけ誤分類)

class          CLUSTER(Cluster)

度数          |
パーセント    |
行のパーセント|
列のパーセント|       1|       2|       3|   合計
--------------+--------+--------+--------+
setosa        |     50 |      0 |      0 |     50
              |  33.33 |   0.00 |   0.00 |  33.33
              | 100.00 |   0.00 |   0.00 |
              | 100.00 |   0.00 |   0.00 |
--------------+--------+--------+--------+
versicolo     |      0 |     50 |      0 |     50
              |   0.00 |  33.33 |   0.00 |  33.33
              |   0.00 | 100.00 |   0.00 |
              |   0.00 |  74.63 |   0.00 |
--------------+--------+--------+--------+
virginica     |      0 |     17 |     33 |     50
              |   0.00 |  11.33 |  22.00 |  33.33
              |   0.00 |  34.00 |  66.00 |
              |   0.00 |  25.37 | 100.00 |
--------------+--------+--------+--------+
合計                50       67       33      150
                 33.33    44.67    22.00   100.00
*/

*****************************************************************
END
*****************************************************************;