記述統計と推測統計のいくつかを紹介
SASのそもそもの名前の由来がStatistical Analysis Systemであるように,
データの分析には非常に多くのプロシジャが用意されています.
主に記述統計は,Base SASに,基本的な推測統計は,SAS/STATに,それ以外は,
それぞれ分野ごとにSAS/XXXというサブプロダクトに収められています.
ここでは,よく使われるもののうち記述統計と推測統計のいくつかを紹介します.
FREQプロシジャ | 度数分布 |
UNIVARIATEプロシジャ | 単変量 |
MEANSプロシジャ | 記述統計量 |
CORRプロシジャ | 相関係数 |
PLOTプロシジャ | 散布図 |
REGプロシジャ | 回帰分析 |
FASTCLUSプロシジャ | クラスタ分析 |
ヘルプメニュー>SASヘルプとドキュメント>目次>SASプロダクト>Base SAS>SASプロシジャ>プロシジャ
の中のFREQ,UNIVARIATE,MEANS,CORR,PLOTプロシジャヘルプメニュー>SASヘルプとドキュメント>目次>SASプロダクト>SAS/STAT>SAS/STAT使用の手引き
の中のREG,FASTCLUSプロシジャ
当然のことですが,分析用のプロシジャを使う時は,おおまかでよいので,その分析手法を理解しておかなければなりません.
そうでないと,プロシジャの使い方も出力結果も理解することができませんから.
逆に,細かい手法までいちいち理解しなくてもだいたいは問題ありません.
SASを動かしながらその結果から学べることも多いはずです.
3種類のあやめのデータサンプル
options nocenter compress=yes; libname mydata "c;\"; data iris; length class $ 9; input sepalL /*がくの長さ unit=cm*/ sepalW /*がくの幅 unit=cm*/ petalL /*花びらの長さ unit=cm*/ petalW /*花びらの幅 unit=cm*/ class $ /*あやめの種類*/ @@; /*データ行を改行しない*/ cards; 5.1 3.5 1.4 0.2 setosa 7.0 3.2 4.7 1.4 versicolor 6.3 3.3 6.0 2.5 virginica 4.9 3.0 1.4 0.2 setosa 6.4 3.2 4.5 1.5 versicolor 5.8 2.7 5.1 1.9 virginica 4.7 3.2 1.3 0.2 setosa 6.9 3.1 4.9 1.5 versicolor 7.1 3.0 5.9 2.1 virginica データを省略(詳細は「SASのエディタWINDOWでコピペして使えます」を参照) ; proc print;run;
FREQプロシジャ
変数の値毎の度数表を出力します.
2元度数表とともにカイ2乗による独立性の検定も行えます
proc freq data=iris; tables class petalL; /*classとpetalLの度数表を指示*/ tables class*petalL/chisq; /*classXpetalLの度数表とカイ2乗検定を指示*/ format petalL 4.; /*petalLを整数4桁で扱う*/ run;
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 4
FREQ プロシジャ
累積 累積 class 度数 パーセント 度数 パーセント ------------------------------------------------------------- setosa 50 33.33 50 33.33 versicolo 50 33.33 100 66.67 virginica 50 33.33 150 100.00
累積 累積 petalL 度数 パーセント 度数 パーセント ---------------------------------------------------------- 1 23 15.33 23 15.33 2 27 18.00 50 33.33 3 3 2.00 53 35.33 4 26 17.33 79 52.67 5 43 28.67 122 81.33 6 24 16.00 146 97.33 7 4 2.67 150 100.00
表 : class * petalL
class petalL
度数 | パーセント | 行のパーセント| 列のパーセント| 1| 2| 3| 4| 5| 6| 7| 合計 --------------+--------+--------+--------+--------+--------+--------+--------+ setosa | 23 | 27 | 0 | 0 | 0 | 0 | 0 | 50 | 15.33 | 18.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 33.33 | 46.00 | 54.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | | 100.00 | 100.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | --------------+--------+--------+--------+--------+--------+--------+--------+ versicolo | 0 | 0 | 3 | 26 | 21 | 0 | 0 | 50 | 0.00 | 0.00 | 2.00 | 17.33 | 14.00 | 0.00 | 0.00 | 33.33 | 0.00 | 0.00 | 6.00 | 52.00 | 42.00 | 0.00 | 0.00 | | 0.00 | 0.00 | 100.00 | 100.00 | 48.84 | 0.00 | 0.00 | --------------+--------+--------+--------+--------+--------+--------+--------+ virginica | 0 | 0 | 0 | 0 | 22 | 24 | 4 | 50 | 0.00 | 0.00 | 0.00 | 0.00 | 14.67 | 16.00 | 2.67 | 33.33 | 0.00 | 0.00 | 0.00 | 0.00 | 44.00 | 48.00 | 8.00 | | 0.00 | 0.00 | 0.00 | 0.00 | 51.16 | 100.00 | 100.00 | --------------+--------+--------+--------+--------+--------+--------+--------+ 合計 23 27 3 26 43 24 4 150 15.33 18.00 2.00 17.33 28.67 16.00 2.67 100.00
class * petalL の統計量
統計量 自由度 値 p 値 ----------------------------------------------------------- カイ 2 乗値 12 235.5349 <.0001 尤度比カイ 2 乗値 12 269.9963 <.0001 Mantel-Haenszel のカイ 2 乗値 1 130.4834 <.0001 ファイ係数 1.2531 一致係数 0.7816 Cramer の V 統計量 0.8861
WARNING: セルの 29% において、期待度数が 5 より小さくなって います。カイ 2 乗検定は妥当な検定でないと思われます。
標本サイズ = 150
UNIVARIATEプロシジャ
数値変数の基本統計量を出力します.平均,標準偏差や極値の分布状況などがレポートされます.
proc univariate data=iris; var petalL petalW; /*var文 省略するとすべての数値変数が対象になる*/ run;
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 5
UNIVARIATE プロシジャ 変数 : petalL
モーメント
N 150 重み変数の合計 150 平均 3.75866667 合計 563.8 標準偏差 1.76442042 分散 3.11317942 歪度 -0.2744643 尖度 -1.4019208 無修正平方和 2583 修正済平方和 463.863733 変動係数 46.9427214 平均の標準誤差 0.14406432
基本統計量
位置 ばらつき
平均 3.758667 標準偏差 1.76442 中央値 4.350000 分散 3.11318 最頻値 1.500000 範囲 5.90000 四分位範囲 3.50000
位置の検定 H0: Mu0=0
検定 --統計量--- -------p 値-------
Student の t 検定 t 26.0902 Pr > |t| <.0001 符号検定 M 75 Pr >= |M| <.0001 符号付順位検定 S 5662.5 Pr >= |S| <.0001
分位点 ( 定義 5 )
分位点 推定値
100% 最大値 6.90 99% 6.70 95% 6.10 90% 5.80 75% Q3 5.10 50% 中央値 4.35 25% Q1 1.60 10% 1.40 5% 1.30 1% 1.10 0% 最小値 1.00
極値
----最小値--- ----最大値---
値 Obs 値 Obs
1.0 67 6.4 96 1.1 40 6.6 18 1.2 106 6.7 54 1.2 43 6.7 69 1.3 127 6.9 57
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 6
UNIVARIATE プロシジャ 変数 : petalW
モーメント
N 150 重み変数の合計 150 平均 1.19866667 合計 179.8 標準偏差 0.76316074 分散 0.58241432 歪度 -0.1049966 尖度 -1.3397542 無修正平方和 302.3 修正済平方和 86.7797333 変動係数 63.6674701 平均の標準誤差 0.06231181
基本統計量
位置 ばらつき
平均 1.198667 標準偏差 0.76316 中央値 1.300000 分散 0.58241 最頻値 0.200000 範囲 2.40000 四分位範囲 1.50000
位置の検定 H0: Mu0=0
検定 --統計量--- -------p 値-------
Student の t 検定 t 19.23659 Pr > |t| <.0001 符号検定 M 75 Pr >= |M| <.0001 符号付順位検定 S 5662.5 Pr >= |S| <.0001
分位点 ( 定義 5 )
分位点 推定値
100% 最大値 2.5 99% 2.5 95% 2.3 90% 2.2 75% Q3 1.8 50% 中央値 1.3 25% Q1 0.3 10% 0.2 5% 0.2 1% 0.1 0% 最小値 0.1
極値
----最小値--- ----最大値---
値 Obs 値 Obs
0.1 112 2.4 111 0.1 103 2.4 123 0.1 97 2.5 3 0.1 40 2.5 30 0.1 37 2.5 135
MEANSプロシジャ
変数毎の基本統計量を集計します.
proc means data=iris; class class; run;
MEANS プロシジャ
オブザべーション class 数 変数 N 平均 標準偏差 最小値 最大値 -------------------------------------------------------------------------------------------------------------- setosa 50 sepalL 50 5.0060000 0.3524897 4.3000000 5.8000000 sepalW 50 3.4180000 0.3810244 2.3000000 4.4000000 petalL 50 1.4640000 0.1735112 1.0000000 1.9000000 petalW 50 0.2440000 0.1072095 0.1000000 0.6000000
versicolo 50 sepalL 50 5.9360000 0.5161711 4.9000000 7.0000000 sepalW 50 2.7700000 0.3137983 2.0000000 3.4000000 petalL 50 4.2600000 0.4699110 3.0000000 5.1000000 petalW 50 1.3260000 0.1977527 1.0000000 1.8000000
virginica 50 sepalL 50 6.5880000 0.6358796 4.9000000 7.9000000 sepalW 50 2.9740000 0.3224966 2.2000000 3.8000000 petalL 50 5.5520000 0.5518947 4.5000000 6.9000000 petalW 50 2.0260000 0.2746501 1.4000000 2.5000000 --------------------------------------------------------------------------------------------------------------
CORRプロシジャ
相関係数を出力します.
proc corr data=iris; run;
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 9
CORR プロシジャ
4 変数 : sepalL sepalW petalL petalW
要約統計量
変数 N 平均 標準偏差 合計 最小値 最大値
sepalL 150 5.84333 0.82807 876.50000 4.30000 7.90000 sepalW 150 3.05400 0.43359 458.10000 2.00000 4.40000 petalL 150 3.75867 1.76442 563.80000 1.00000 6.90000 petalW 150 1.19867 0.76316 179.80000 0.10000 2.50000
Pearson の相関係数, N = 150 H0: Rho=0 に対する Prob > |r|
sepalL sepalW petalL petalW
sepalL 1.00000 -0.10937 0.87175 0.81795 0.1828 <.0001 <.0001
sepalW -0.10937 1.00000 -0.42052 -0.35654 0.1828 <.0001 <.0001
petalL 0.87175 -0.42052 1.00000 0.96276 <.0001 <.0001 <.0001
petalW 0.81795 -0.35654 0.96276 1.00000 <.0001 <.0001 <.0001
PLOTプロシジャ
散布図を出力します.
proc plot data=iris; plot petalL*petalW; run;
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 11
プロット : petalL*petalW 凡例 : A = 1 obs, B = 2 obs, ...
petalL | | 6.9 + A 6.8 + 6.7 + A A 6.6 + A 6.5 + 6.4 + A 6.3 + A 6.2 + 6.1 + A A A 6.0 + A A 5.9 + A A 5.8 + A A A 5.7 + A A A 5.6 + A A A A B 5.5 + B A 5.4 + A A 5.3 + A A 5.2 + A A 5.1 + A A A B A A A 5.0 + A A A A 4.9 + B B A 4.8 + A C 4.7 + A B A A 4.6 + A A A 4.5 + A E A A 4.4 + A A B 4.3 + B 4.2 + A B A 4.1 + A B 4.0 + A A C 3.9 + A A A 3.8 + A 3.7 + A 3.6 + A 3.5 + B 3.4 + 3.3 + B 3.2 + 3.1 + 3.0 + A 2.9 + 2.8 + 2.7 + 2.6 + 2.5 + 2.4 + 2.3 + 2.2 + 2.1 + 2.0 + 1.9 + A A 1.8 + 1.7 + A A A A 1.6 + E A A 1.5 + D F A C 1.4 + A H C 1.3 + D B A 1.2 + B 1.1 + A 1.0 + A | ---+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+-- 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5
petalW
PLOTというプロシジャもあります(SAS/GRAPHプロダクトに収められています)
proc gplot data=iris; plot petalL*petalW; run;
REGプロシジャ
線形回帰分析を行います.
proc reg data=iris; model petalL=petalW sepalL sepalW; run;
REG プロシジャ モデル: MODEL1 従属変数: petalL
読み込んだオブザベーション数 150 使用されたオブザベーション数 150
分散分析
平方和 平均 変動因 自由度 平方 F 値 Pr > F
Model 3 449.08973 149.69658 1479.33 <.0001 Error 146 14.77400 0.10119 Corrected Total 149 463.86373
誤差の標準偏差 0.31811 R2 乗 0.9682 従属変数の平均 3.75867 調整済 R2 乗 0.9675 変動係数 8.46328
パラメータ推定値
パラメータ 標準 変数 自由度 推定値 誤差 t 値 Pr > |t|
Intercept 1 -0.25266 0.29652 -0.85 0.3956 petalW 1 1.44572 0.06713 21.54 <.0001 sepalL 1 0.73036 0.05815 12.56 <.0001 sepalW 1 -0.65139 0.06838 -9.53 <.0001
FASTCLUSプロシージャ
クラスタ分析(K-means法)を行います.
proc fastclus data=iris MAXCLUSTERS=3 out=out; var sepalL sepalW petalL petalW; run;
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 16 FASTCLUS プロシジャ 置き換え=FULL 半径=0 最大クラスター=3 最大反復数=1 初期シード
クラスター sepalL sepalW petalL petalW ---------------------------------------------------------------------------------- 1 5.800000000 4.000000000 1.200000000 0.200000000 2 4.900000000 2.500000000 4.500000000 1.700000000 3 7.700000000 3.800000000 6.700000000 2.200000000
最終シードによる評価基準 = 0.3712
クラスターの要約
シードから RMS 標準 オブザベーション 半径 クラスター クラスター 頻度 偏差 までの最大距離 超える 最も近いクラスター 重心間の距離 ------------------------------------------------------------------------------------------------------- 1 50 0.2788 1.2394 2 3.4222 2 67 0.4180 1.8532 3 1.8341 3 33 0.3883 1.2923 2 1.8341
変数に対する統計量
変数 総 STD 群内 STD R2 乗 R2 乗/(1-R2 乗) --------------------------------------------------------------------- sepalL 0.82807 0.44824 0.710915 2.459187 sepalW 0.43359 0.32558 0.443729 0.797684 petalL 1.76442 0.42974 0.941475 16.086593 petalW 0.76316 0.23898 0.903258 9.336801 OVER-ALL 1.06880 0.37038 0.881525 7.440564
擬似 F 統計量 = 546.88
すべての R2 乗の近似期待値 = 0.62721
3 次クラスタリング基準 = 24.526
WARNING: 上記の 2 値は関連した変数に対して適切ではありません。
クラスター平均
クラスター sepalL sepalW petalL petalW ---------------------------------------------------------------------------------- 1 5.006000000 3.418000000 1.464000000 0.244000000 2 5.947761194 2.761194030 4.452238806 1.453731343 3 6.900000000 3.096969697 5.827272727 2.127272727
クラスター標準偏差
クラスター sepalL sepalW petalL petalW ---------------------------------------------------------------------------------- 1 0.3524896872 0.3810243980 0.1735111594 0.1072095031 2 0.4831582365 0.2953966126 0.5360795421 0.3011736428 3 0.5012484414 0.2909948974 0.4577613511 0.2401467354
proc freq data=out; tables class*cluster; run;
クラスタリングによって,暗黙に,3つの種が識別された.(17件だけ誤分類)
class CLUSTER(Cluster)
度数 | パーセント | 行のパーセント| 列のパーセント| 1| 2| 3| 合計 --------------+--------+--------+--------+ setosa | 50 | 0 | 0 | 50 | 33.33 | 0.00 | 0.00 | 33.33 | 100.00 | 0.00 | 0.00 | | 100.00 | 0.00 | 0.00 | --------------+--------+--------+--------+ versicolo | 0 | 50 | 0 | 50 | 0.00 | 33.33 | 0.00 | 33.33 | 0.00 | 100.00 | 0.00 | | 0.00 | 74.63 | 0.00 | --------------+--------+--------+--------+ virginica | 0 | 17 | 33 | 50 | 0.00 | 11.33 | 22.00 | 33.33 | 0.00 | 34.00 | 66.00 | | 0.00 | 25.37 | 100.00 | --------------+--------+--------+--------+ 合計 50 67 33 150 33.33 44.67 22.00 100.00
質問・意見
質問・意見一覧
一覧に表示する項目はありません.以下は、SASのエディタWINDOWでコピペして使えます
/*
SASのそもそもの名前の由来がStatistical Analysis Systemであるように,
データの分析には非常に多くのプロシジャが用意されています.
主に記述統計は,Base SASに,基本的な推測統計は,SAS/STATに,それ以外は,
それぞれ分野ごとにSAS/XXXというサブプロダクトに収められています.
ここでは,よく使われるもののうち記述統計と推測統計のいくつかを紹介します.
FREQプロシジャ 度数分布
UNIVARIATEプロシジャ 単変量
MEANSプロシジャ 記述統計量
CORRプロシジャ 相関係数
PLOTプロシジャ 散布図
REGプロシジャ 回帰分析
FASTCLUSプロシジャ クラスタ分析
ヘルプメニュー>SASヘルプとドキュメント>目次>SASプロダクト>Base SAS
>SASプロシジャ>プロシジャ
の中のFREQ,UNIVARIATE,MEANS,CORR,PLOTプロシジャ
ヘルプメニュー>SASヘルプとドキュメント>目次>SASプロダクト>SAS/STAT
>SAS/STAT使用の手引き
の中のREG,FASTCLUSプロシジャ
当然のことですが,分析用のプロシジャを使う時は,
おおまかでよいので,その分析手法を理解しておかなければなりません.
そうでないと,プロシジャの使い方も出力結果も理解することができませんから.
逆に,細かい手法までいちいち理解しなくてもだいたいは問題ありません.
SASを動かしながらその結果から学べることも多いはずです.
*/
options nocenter compress=yes;
libname mydata "c;\";
/*
3種類のあやめのデータサンプル
*/
data iris;
length class $ 9;
input sepalL /*がくの長さ unit=cm*/
sepalW /*がくの幅 unit=cm*/
petalL /*花びらの長さ unit=cm*/
petalW /*花びらの幅 unit=cm*/
class $ /*あやめの種類*/
@@; /*データ行を改行しない*/
cards;
5.1 3.5 1.4 0.2 setosa 7.0 3.2 4.7 1.4 versicolor 6.3 3.3 6.0 2.5 virginica
4.9 3.0 1.4 0.2 setosa 6.4 3.2 4.5 1.5 versicolor 5.8 2.7 5.1 1.9 virginica
4.7 3.2 1.3 0.2 setosa 6.9 3.1 4.9 1.5 versicolor 7.1 3.0 5.9 2.1 virginica
4.6 3.1 1.5 0.2 setosa 5.5 2.3 4.0 1.3 versicolor 6.3 2.9 5.6 1.8 virginica
5.0 3.6 1.4 0.2 setosa 6.5 2.8 4.6 1.5 versicolor 6.5 3.0 5.8 2.2 virginica
5.4 3.9 1.7 0.4 setosa 5.7 2.8 4.5 1.3 versicolor 7.6 3.0 6.6 2.1 virginica
4.6 3.4 1.4 0.3 setosa 6.3 3.3 4.7 1.6 versicolor 4.9 2.5 4.5 1.7 virginica
5.0 3.4 1.5 0.2 setosa 4.9 2.4 3.3 1.0 versicolor 7.3 2.9 6.3 1.8 virginica
4.4 2.9 1.4 0.2 setosa 6.6 2.9 4.6 1.3 versicolor 6.7 2.5 5.8 1.8 virginica
4.9 3.1 1.5 0.1 setosa 5.2 2.7 3.9 1.4 versicolor 7.2 3.6 6.1 2.5 virginica
5.4 3.7 1.5 0.2 setosa 5.0 2.0 3.5 1.0 versicolor 6.5 3.2 5.1 2.0 virginica
4.8 3.4 1.6 0.2 setosa 5.9 3.0 4.2 1.5 versicolor 6.4 2.7 5.3 1.9 virginica
4.8 3.0 1.4 0.1 setosa 6.0 2.2 4.0 1.0 versicolor 6.8 3.0 5.5 2.1 virginica
4.3 3.0 1.1 0.1 setosa 6.1 2.9 4.7 1.4 versicolor 5.7 2.5 5.0 2.0 virginica
5.8 4.0 1.2 0.2 setosa 5.6 2.9 3.6 1.3 versicolor 5.8 2.8 5.1 2.4 virginica
5.7 4.4 1.5 0.4 setosa 6.7 3.1 4.4 1.4 versicolor 6.4 3.2 5.3 2.3 virginica
5.4 3.9 1.3 0.4 setosa 5.6 3.0 4.5 1.5 versicolor 6.5 3.0 5.5 1.8 virginica
5.1 3.5 1.4 0.3 setosa 5.8 2.7 4.1 1.0 versicolor 7.7 3.8 6.7 2.2 virginica
5.7 3.8 1.7 0.3 setosa 6.2 2.2 4.5 1.5 versicolor 7.7 2.6 6.9 2.3 virginica
5.1 3.8 1.5 0.3 setosa 5.6 2.5 3.9 1.1 versicolor 6.0 2.2 5.0 1.5 virginica
5.4 3.4 1.7 0.2 setosa 5.9 3.2 4.8 1.8 versicolor 6.9 3.2 5.7 2.3 virginica
5.1 3.7 1.5 0.4 setosa 6.1 2.8 4.0 1.3 versicolor 5.6 2.8 4.9 2.0 virginica
4.6 3.6 1.0 0.2 setosa 6.3 2.5 4.9 1.5 versicolor 7.7 2.8 6.7 2.0 virginica
5.1 3.3 1.7 0.5 setosa 6.1 2.8 4.7 1.2 versicolor 6.3 2.7 4.9 1.8 virginica
4.8 3.4 1.9 0.2 setosa 6.4 2.9 4.3 1.3 versicolor 6.7 3.3 5.7 2.1 virginica
5.0 3.0 1.6 0.2 setosa 6.6 3.0 4.4 1.4 versicolor 7.2 3.2 6.0 1.8 virginica
5.0 3.4 1.6 0.4 setosa 6.8 2.8 4.8 1.4 versicolor 6.2 2.8 4.8 1.8 virginica
5.2 3.5 1.5 0.2 setosa 6.7 3.0 5.0 1.7 versicolor 6.1 3.0 4.9 1.8 virginica
5.2 3.4 1.4 0.2 setosa 6.0 2.9 4.5 1.5 versicolor 6.4 2.8 5.6 2.1 virginica
4.7 3.2 1.6 0.2 setosa 5.7 2.6 3.5 1.0 versicolor 7.2 3.0 5.8 1.6 virginica
4.8 3.1 1.6 0.2 setosa 5.5 2.4 3.8 1.1 versicolor 7.4 2.8 6.1 1.9 virginica
5.4 3.4 1.5 0.4 setosa 5.5 2.4 3.7 1.0 versicolor 7.9 3.8 6.4 2.0 virginica
5.2 4.1 1.5 0.1 setosa 5.8 2.7 3.9 1.2 versicolor 6.4 2.8 5.6 2.2 virginica
5.5 4.2 1.4 0.2 setosa 6.0 2.7 5.1 1.6 versicolor 6.3 2.8 5.1 1.5 virginica
4.9 3.1 1.5 0.1 setosa 5.4 3.0 4.5 1.5 versicolor 6.1 2.6 5.6 1.4 virginica
5.0 3.2 1.2 0.2 setosa 6.0 3.4 4.5 1.6 versicolor 7.7 3.0 6.1 2.3 virginica
5.5 3.5 1.3 0.2 setosa 6.7 3.1 4.7 1.5 versicolor 6.3 3.4 5.6 2.4 virginica
4.9 3.1 1.5 0.1 setosa 6.3 2.3 4.4 1.3 versicolor 6.4 3.1 5.5 1.8 virginica
4.4 3.0 1.3 0.2 setosa 5.6 3.0 4.1 1.3 versicolor 6.0 3.0 4.8 1.8 virginica
5.1 3.4 1.5 0.2 setosa 5.5 2.5 4.0 1.3 versicolor 6.9 3.1 5.4 2.1 virginica
5.0 3.5 1.3 0.3 setosa 5.5 2.6 4.4 1.2 versicolor 6.7 3.1 5.6 2.4 virginica
4.5 2.3 1.3 0.3 setosa 6.1 3.0 4.6 1.4 versicolor 6.9 3.1 5.1 2.3 virginica
4.4 3.2 1.3 0.2 setosa 5.8 2.6 4.0 1.2 versicolor 5.8 2.7 5.1 1.9 virginica
5.0 3.5 1.6 0.6 setosa 5.0 2.3 3.3 1.0 versicolor 6.8 3.2 5.9 2.3 virginica
5.1 3.8 1.9 0.4 setosa 5.6 2.7 4.2 1.3 versicolor 6.7 3.3 5.7 2.5 virginica
4.8 3.0 1.4 0.3 setosa 5.7 3.0 4.2 1.2 versicolor 6.7 3.0 5.2 2.3 virginica
5.1 3.8 1.6 0.2 setosa 5.7 2.9 4.2 1.3 versicolor 6.3 2.5 5.0 1.9 virginica
4.6 3.2 1.4 0.2 setosa 6.2 2.9 4.3 1.3 versicolor 6.5 3.0 5.2 2.0 virginica
5.3 3.7 1.5 0.2 setosa 5.1 2.5 3.0 1.1 versicolor 6.2 3.4 5.4 2.3 virginica
5.0 3.3 1.4 0.2 setosa 5.7 2.8 4.1 1.3 versicolor 5.9 3.0 5.1 1.8 virginica
;
proc print;run;
/*
FREQプロシジャ
変数の値毎の度数表を出力します.
2元度数表とともにカイ2乗による独立性の検定も行えます
*/
proc freq data=iris;
tables class petalL; /*classとpetalLの度数表を指示*/
tables class*petalL/chisq; /*classXpetalLの度数表とカイ2乗検定を指示*/
format petalL 4.; /*petalLを整数4桁で扱う*/
run;
/*
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 4
FREQ プロシジャ
累積 累積
class 度数 パーセント 度数 パーセント
-------------------------------------------------------------
setosa 50 33.33 50 33.33
versicolo 50 33.33 100 66.67
virginica 50 33.33 150 100.00
累積 累積
petalL 度数 パーセント 度数 パーセント
----------------------------------------------------------
1 23 15.33 23 15.33
2 27 18.00 50 33.33
3 3 2.00 53 35.33
4 26 17.33 79 52.67
5 43 28.67 122 81.33
6 24 16.00 146 97.33
7 4 2.67 150 100.00
表 : class * petalL
class petalL
度数 |
パーセント |
行のパーセント|
列のパーセント| 1| 2| 3| 4| 5| 6| 7| 合計
--------------+--------+--------+--------+--------+--------+--------+--------+
setosa | 23 | 27 | 0 | 0 | 0 | 0 | 0 | 50
| 15.33 | 18.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 33.33
| 46.00 | 54.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 100.00 | 100.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
--------------+--------+--------+--------+--------+--------+--------+--------+
versicolo | 0 | 0 | 3 | 26 | 21 | 0 | 0 | 50
| 0.00 | 0.00 | 2.00 | 17.33 | 14.00 | 0.00 | 0.00 | 33.33
| 0.00 | 0.00 | 6.00 | 52.00 | 42.00 | 0.00 | 0.00 |
| 0.00 | 0.00 | 100.00 | 100.00 | 48.84 | 0.00 | 0.00 |
--------------+--------+--------+--------+--------+--------+--------+--------+
virginica | 0 | 0 | 0 | 0 | 22 | 24 | 4 | 50
| 0.00 | 0.00 | 0.00 | 0.00 | 14.67 | 16.00 | 2.67 | 33.33
| 0.00 | 0.00 | 0.00 | 0.00 | 44.00 | 48.00 | 8.00 |
| 0.00 | 0.00 | 0.00 | 0.00 | 51.16 | 100.00 | 100.00 |
--------------+--------+--------+--------+--------+--------+--------+--------+
合計 23 27 3 26 43 24 4 150
15.33 18.00 2.00 17.33 28.67 16.00 2.67 100.00
class * petalL の統計量
統計量 自由度 値 p 値
-----------------------------------------------------------
カイ 2 乗値 12 235.5349 <.0001
尤度比カイ 2 乗値 12 269.9963 <.0001
Mantel-Haenszel のカイ 2 乗値 1 130.4834 <.0001
ファイ係数 1.2531
一致係数 0.7816
Cramer の V 統計量 0.8861
WARNING: セルの 29% において、期待度数が 5 より小さくなって
います。カイ 2 乗検定は妥当な検定でないと思われます。
標本サイズ = 150
*/
/*
UNIVARIATEプロシジャ
数値変数の基本統計量を出力します.平均,標準偏差や極値の分布状況などが
レポートされます.
*/
proc univariate data=iris;
var petalL petalW; /*var文 省略するとすべての数値変数が対象になる*/
run;
/*
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 5
UNIVARIATE プロシジャ
変数 : petalL
モーメント
N 150 重み変数の合計 150
平均 3.75866667 合計 563.8
標準偏差 1.76442042 分散 3.11317942
歪度 -0.2744643 尖度 -1.4019208
無修正平方和 2583 修正済平方和 463.863733
変動係数 46.9427214 平均の標準誤差 0.14406432
基本統計量
位置 ばらつき
平均 3.758667 標準偏差 1.76442
中央値 4.350000 分散 3.11318
最頻値 1.500000 範囲 5.90000
四分位範囲 3.50000
位置の検定 H0: Mu0=0
検定 --統計量--- -------p 値-------
Student の t 検定 t 26.0902 Pr > |t| <.0001
符号検定 M 75 Pr >= |M| <.0001
符号付順位検定 S 5662.5 Pr >= |S| <.0001
分位点 ( 定義 5 )
分位点 推定値
100% 最大値 6.90
99% 6.70
95% 6.10
90% 5.80
75% Q3 5.10
50% 中央値 4.35
25% Q1 1.60
10% 1.40
5% 1.30
1% 1.10
0% 最小値 1.00
極値
----最小値--- ----最大値---
値 Obs 値 Obs
1.0 67 6.4 96
1.1 40 6.6 18
1.2 106 6.7 54
1.2 43 6.7 69
1.3 127 6.9 57
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 6
UNIVARIATE プロシジャ
変数 : petalW
モーメント
N 150 重み変数の合計 150
平均 1.19866667 合計 179.8
標準偏差 0.76316074 分散 0.58241432
歪度 -0.1049966 尖度 -1.3397542
無修正平方和 302.3 修正済平方和 86.7797333
変動係数 63.6674701 平均の標準誤差 0.06231181
基本統計量
位置 ばらつき
平均 1.198667 標準偏差 0.76316
中央値 1.300000 分散 0.58241
最頻値 0.200000 範囲 2.40000
四分位範囲 1.50000
位置の検定 H0: Mu0=0
検定 --統計量--- -------p 値-------
Student の t 検定 t 19.23659 Pr > |t| <.0001
符号検定 M 75 Pr >= |M| <.0001
符号付順位検定 S 5662.5 Pr >= |S| <.0001
分位点 ( 定義 5 )
分位点 推定値
100% 最大値 2.5
99% 2.5
95% 2.3
90% 2.2
75% Q3 1.8
50% 中央値 1.3
25% Q1 0.3
10% 0.2
5% 0.2
1% 0.1
0% 最小値 0.1
極値
----最小値--- ----最大値---
値 Obs 値 Obs
0.1 112 2.4 111
0.1 103 2.4 123
0.1 97 2.5 3
0.1 40 2.5 30
0.1 37 2.5 135
*/
/*
MEANSプロシジャ
変数毎の基本統計量を集計します.
*/
proc means data=iris;
class class;
run;
/*
MEANS プロシジャ
オブザべーション
class 数 変数 N 平均 標準偏差 最小値 最大値
--------------------------------------------------------------------------------------------------------------
setosa 50 sepalL 50 5.0060000 0.3524897 4.3000000 5.8000000
sepalW 50 3.4180000 0.3810244 2.3000000 4.4000000
petalL 50 1.4640000 0.1735112 1.0000000 1.9000000
petalW 50 0.2440000 0.1072095 0.1000000 0.6000000
versicolo 50 sepalL 50 5.9360000 0.5161711 4.9000000 7.0000000
sepalW 50 2.7700000 0.3137983 2.0000000 3.4000000
petalL 50 4.2600000 0.4699110 3.0000000 5.1000000
petalW 50 1.3260000 0.1977527 1.0000000 1.8000000
virginica 50 sepalL 50 6.5880000 0.6358796 4.9000000 7.9000000
sepalW 50 2.9740000 0.3224966 2.2000000 3.8000000
petalL 50 5.5520000 0.5518947 4.5000000 6.9000000
petalW 50 2.0260000 0.2746501 1.4000000 2.5000000
--------------------------------------------------------------------------------------------------------------
*/
/*
CORRプロシジャ
相関係数を出力します.
*/
proc corr data=iris;
run;
/*
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 9
CORR プロシジャ
4 変数 : sepalL sepalW petalL petalW
要約統計量
変数 N 平均 標準偏差 合計 最小値 最大値
sepalL 150 5.84333 0.82807 876.50000 4.30000 7.90000
sepalW 150 3.05400 0.43359 458.10000 2.00000 4.40000
petalL 150 3.75867 1.76442 563.80000 1.00000 6.90000
petalW 150 1.19867 0.76316 179.80000 0.10000 2.50000
Pearson の相関係数, N = 150
H0: Rho=0 に対する Prob > |r|
sepalL sepalW petalL petalW
sepalL 1.00000 -0.10937 0.87175 0.81795
0.1828 <.0001 <.0001
sepalW -0.10937 1.00000 -0.42052 -0.35654
0.1828 <.0001 <.0001
petalL 0.87175 -0.42052 1.00000 0.96276
<.0001 <.0001 <.0001
petalW 0.81795 -0.35654 0.96276 1.00000
<.0001 <.0001 <.0001
*/
/*
PLOTプロシジャ
散布図を出力します.
*/
proc plot data=iris;
plot petalL*petalW;
run;
/*
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 11
プロット : petalL*petalW 凡例 : A = 1 obs, B = 2 obs, ...
petalL |
|
6.9 + A
6.8 +
6.7 + A A
6.6 + A
6.5 +
6.4 + A
6.3 + A
6.2 +
6.1 + A A A
6.0 + A A
5.9 + A A
5.8 + A A A
5.7 + A A A
5.6 + A A A A B
5.5 + B A
5.4 + A A
5.3 + A A
5.2 + A A
5.1 + A A A B A A A
5.0 + A A A A
4.9 + B B A
4.8 + A C
4.7 + A B A A
4.6 + A A A
4.5 + A E A A
4.4 + A A B
4.3 + B
4.2 + A B A
4.1 + A B
4.0 + A A C
3.9 + A A A
3.8 + A
3.7 + A
3.6 + A
3.5 + B
3.4 +
3.3 + B
3.2 +
3.1 +
3.0 + A
2.9 +
2.8 +
2.7 +
2.6 +
2.5 +
2.4 +
2.3 +
2.2 +
2.1 +
2.0 +
1.9 + A A
1.8 +
1.7 + A A A A
1.6 + E A A
1.5 + D F A C
1.4 + A H C
1.3 + D B A
1.2 + B
1.1 + A
1.0 + A
|
---+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+--
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5
petalW
*/
/*
PLOTというプロシジャもあります(SAS/GRAPHプロダクトに収められています)
*/
proc gplot data=iris;
plot petalL*petalW;
run;
/*
REGプロシジャ
線形回帰分析を行います.
*/
proc reg data=iris;
model petalL=petalW sepalL sepalW;
run;
/*
REG プロシジャ
モデル: MODEL1
従属変数: petalL
読み込んだオブザベーション数 150
使用されたオブザベーション数 150
分散分析
平方和 平均
変動因 自由度 平方 F 値 Pr > F
Model 3 449.08973 149.69658 1479.33 <.0001
Error 146 14.77400 0.10119
Corrected Total 149 463.86373
誤差の標準偏差 0.31811 R2 乗 0.9682
従属変数の平均 3.75867 調整済 R2 乗 0.9675
変動係数 8.46328
パラメータ推定値
パラメータ 標準
変数 自由度 推定値 誤差 t 値 Pr > |t|
Intercept 1 -0.25266 0.29652 -0.85 0.3956
petalW 1 1.44572 0.06713 21.54 <.0001
sepalL 1 0.73036 0.05815 12.56 <.0001
sepalW 1 -0.65139 0.06838 -9.53 <.0001
*/
/*
FASTCLUSプロシージャ
クラスタ分析(K-means法)を行います.
*/
proc fastclus data=iris MAXCLUSTERS=3 out=out;
var sepalL sepalW petalL petalW;
run;
/*
SAS システム 2007年04月03日 火曜日 午前01時05分26秒 16
FASTCLUS プロシジャ
置き換え=FULL 半径=0 最大クラスター=3 最大反復数=1
初期シード
クラスター sepalL sepalW petalL petalW
----------------------------------------------------------------------------------
1 5.800000000 4.000000000 1.200000000 0.200000000
2 4.900000000 2.500000000 4.500000000 1.700000000
3 7.700000000 3.800000000 6.700000000 2.200000000
最終シードによる評価基準 = 0.3712
クラスターの要約
シードから
RMS 標準 オブザベーション 半径 クラスター
クラスター 頻度 偏差 までの最大距離 超える 最も近いクラスター 重心間の距離
-------------------------------------------------------------------------------------------------------
1 50 0.2788 1.2394 2 3.4222
2 67 0.4180 1.8532 3 1.8341
3 33 0.3883 1.2923 2 1.8341
変数に対する統計量
変数 総 STD 群内 STD R2 乗 R2 乗/(1-R2 乗)
---------------------------------------------------------------------
sepalL 0.82807 0.44824 0.710915 2.459187
sepalW 0.43359 0.32558 0.443729 0.797684
petalL 1.76442 0.42974 0.941475 16.086593
petalW 0.76316 0.23898 0.903258 9.336801
OVER-ALL 1.06880 0.37038 0.881525 7.440564
擬似 F 統計量 = 546.88
すべての R2 乗の近似期待値 = 0.62721
3 次クラスタリング基準 = 24.526
WARNING: 上記の 2 値は関連した変数に対して適切ではありません。
クラスター平均
クラスター sepalL sepalW petalL petalW
----------------------------------------------------------------------------------
1 5.006000000 3.418000000 1.464000000 0.244000000
2 5.947761194 2.761194030 4.452238806 1.453731343
3 6.900000000 3.096969697 5.827272727 2.127272727
クラスター標準偏差
クラスター sepalL sepalW petalL petalW
----------------------------------------------------------------------------------
1 0.3524896872 0.3810243980 0.1735111594 0.1072095031
2 0.4831582365 0.2953966126 0.5360795421 0.3011736428
3 0.5012484414 0.2909948974 0.4577613511 0.2401467354
*/
proc freq data=out;
tables class*cluster;
run;
/*
クラスタリングによって,暗黙に,3つの種が識別された.(17件だけ誤分類)
class CLUSTER(Cluster)
度数 |
パーセント |
行のパーセント|
列のパーセント| 1| 2| 3| 合計
--------------+--------+--------+--------+
setosa | 50 | 0 | 0 | 50
| 33.33 | 0.00 | 0.00 | 33.33
| 100.00 | 0.00 | 0.00 |
| 100.00 | 0.00 | 0.00 |
--------------+--------+--------+--------+
versicolo | 0 | 50 | 0 | 50
| 0.00 | 33.33 | 0.00 | 33.33
| 0.00 | 100.00 | 0.00 |
| 0.00 | 74.63 | 0.00 |
--------------+--------+--------+--------+
virginica | 0 | 17 | 33 | 50
| 0.00 | 11.33 | 22.00 | 33.33
| 0.00 | 34.00 | 66.00 |
| 0.00 | 25.37 | 100.00 |
--------------+--------+--------+--------+
合計 50 67 33 150
33.33 44.67 22.00 100.00
*/
*****************************************************************
END
*****************************************************************;