AIC (赤池情報量規準,Akaike's Information Criterion)
赤池弘次により提案された統計モデル選択規準.
K個の自由パラメータpをもつ統計モデルMと観測データDが与えられた時,
AIC = -2 x (最大対数尤度 - K)
と定義される.ここで,
最大対数尤度 = log (MAXp Prob(D|p))
D : 観測データ
p : 統計モデルMのパラメータセット
K : パラメータセットの独立なパラメータの個数
尤度とは,想定したモデルから,観測値が得られる確率.
対数尤度とは,尤度の自然対数をとったもの.
である.
観測データDに対し,複数のモデルがあった場合,各モデルのAICを比較し,
もっとも値の小さなモデルを,最適モデルとして採択するのに用いられる.
一般に,モデルの自由パラメータ数が多いほど,より観測データにフィットしやすくなる.
そこで,自由パラメータ数が多いほどペナルティを大きくすることによって,
複雑なモデルのデータへの過大なフィッティングに対する補正を行った指標といえる.
サンプルプログラム
以下に,実際に自由パラメータ数分だけ,過大なフィッティングが起こっていることをシミュレーションにて
例示する
******************************************************;
* AIC.sas *;
* 1995.11.02 翔 *;
* AICのシミュレーション *;
******************************************************;
/*
n回コインを投げ,表の出る回数xの
真の分布が,表の出る確率 p*(pstar)とする.
K-L情報量の後半の項である平均対数尤度を,
pが未知パラメータとして観測値から最尤法で求め,
その最尤モデルの平均対数尤度eと,最大対数尤度lを
比較する.差は自由パラメータ数の1だけあることがわかる.
*/
options nocenter;
data tmp;
do t=1 to 1000;
pstar=0.4;
n=100;
x=0;
do i=1 to n;
if ranuni(0)<pstar then x+1;
end;
l=x*log(x/n)+(n-x)*log(1-x/n);
e=n*pstar*log(x/n)+n*(1-pstar)*log(1-x/n);
d=l-e;
output;
end;
run;
proc print data=tmp(obs=10);run;
proc means;var x l e d;run;
proc univariate;var d;run;
/*
SAS システム 2003年 2月12日 水曜日 13:03 42
OBS t pstar x i l e d
1 1 0.51 7 11 -6.10864 -7.71851 1.60987
2 2 0.51 4 11 -6.73012 -7.17613 0.44601
3 3 0.51 6 11 -6.73012 -7.09504 0.36492
4 4 0.51 8 11 -5.00402 -9.02428 4.02025
5 5 0.51 3 11 -6.10864 -7.88797 1.77933
6 6 0.51 7 11 -6.10864 -7.71851 1.60987
7 7 0.51 5 11 -6.93147 -6.93147 0.00000
8 8 0.51 7 11 -6.10864 -7.71851 1.60987
9 9 0.51 4 11 -6.73012 -7.17613 0.44601
10 10 0.51 6 11 -6.73012 -7.09504 0.36492
SAS システム 2003年 2月12日 水曜日 13:03 43
MEANS プロシジャ
変数 N 平均値 標準偏差 最小値 最大値
-----------------------------------------------------------------------------
x 10000 5.1066000 1.5814824 0 10.0000000
l 9973 -6.4145273 0.7102801 -6.9314718 -3.2508297
e 9973 -7.5113881 0.8945844 -12.2594505 -6.9314718
d 9973 1.0968607 1.6011239 0 9.0086208
-----------------------------------------------------------------------------
SAS システム 2003年 2月12日 水曜日 13:03 44
UNIVARIATE プロシジャ
変数 : d
モーメント
標本数 9973 重み変数の合計 9973
平均値 1.09686071 合計 10938.9919
標準偏差 1.60112388 分散 2.56359767
歪度 2.66575544 尖度 8.53081807
無修正平方和 37562.7464 修正平方和 25564.196
変動係数 145.973309 平均の標準誤差 0.0160329
基本統計量
位置 ばらつき
平均値 1.096861 標準偏差 1.60112
中央値 0.446012 分散 2.56360
最頻値 0.000000 範囲 9.00862
四分位範囲 1.24495
位置の検定 : μ 0=0
検定 --統計量--- -------p 値-------
Student の t 統計量 t 68.41313 Pr > |t| <.0001
符号検定 M 3742 Pr >= |M| <.0001
符号付順位検定 S 14004435 Pr >= |S| <.0001
パーセント点 ( 定義 5)
パーセント点 推定値
100% 最大値 9.008621
99% 8.569176
95% 4.297513
90% 4.020254
75% Q3 1.609866
50% 中央値 0.446012
25% Q1 0.364919
10% 0.000000
5% 0.000000
1% 0.000000
0% 最小値 0.000000
極値のオブザベーション
------
最小値から- ----最大値から---
値 Obs 値 Obs
0 9995 9.00862 9648
0 9993 9.00862 9657
0 9987 9.00862 9769
0 9983 9.00862 9781
0 9976 9.00862 9986
欠損値
-------割合 (%)-------
欠損値 度数 データ全体 欠損値
. 27 0.27 100.00
*/