AIC

Last-modified: 2008-11-09 (日) 22:28:32

AIC (赤池情報量規準,Akaike's Information Criterion)

赤池弘次により提案された統計モデル選択規準.
K個の自由パラメータpをもつ統計モデルMと観測データDが与えられた時,

AIC = -2 x (最大対数尤度 - K)

と定義される.ここで,
最大対数尤度 = log (MAXp Prob(D|p))
D : 観測データ
p : 統計モデルMのパラメータセット
K : パラメータセットの独立なパラメータの個数
尤度とは,想定したモデルから,観測値が得られる確率.
対数尤度とは,尤度の自然対数をとったもの.
である.

観測データDに対し,複数のモデルがあった場合,各モデルのAICを比較し,
もっとも値の小さなモデルを,最適モデルとして採択するのに用いられる.
一般に,モデルの自由パラメータ数が多いほど,より観測データにフィットしやすくなる.
そこで,自由パラメータ数が多いほどペナルティを大きくすることによって,
複雑なモデルのデータへの過大なフィッティングに対する補正を行った指標といえる.

サンプルプログラム

以下に,実際に自由パラメータ数分だけ,過大なフィッティングが起こっていることをシミュレーションにて
例示する

******************************************************;
* AIC.sas                                            *;
* 1995.11.02 翔                                      *;
* AICのシミュレーション                              *;
******************************************************;
/*
n回コインを投げ,表の出る回数xの
真の分布が,表の出る確率 p*(pstar)とする.
K-L情報量の後半の項である平均対数尤度を,
pが未知パラメータとして観測値から最尤法で求め,
その最尤モデルの平均対数尤度eと,最大対数尤度lを
比較する.差は自由パラメータ数の1だけあることがわかる.
*/



options nocenter;

data tmp;
  do t=1 to 1000;
  pstar=0.4;
  n=100;
  x=0;
  do i=1 to n;
    if ranuni(0)<pstar then x+1;
  end;
  l=x*log(x/n)+(n-x)*log(1-x/n);
  e=n*pstar*log(x/n)+n*(1-pstar)*log(1-x/n);
  d=l-e;
  output;
  end;
run;

proc print data=tmp(obs=10);run;

proc means;var x l e d;run;

proc univariate;var d;run;

/*

SAS システム                                                                                                                                                                                                                     2003年 2月12日 水曜日 13:03  42

  OBS     t    pstar    x     i        l           e          d

    1     1     0.51    7    11    -6.10864    -7.71851    1.60987
    2     2     0.51    4    11    -6.73012    -7.17613    0.44601
    3     3     0.51    6    11    -6.73012    -7.09504    0.36492
    4     4     0.51    8    11    -5.00402    -9.02428    4.02025
    5     5     0.51    3    11    -6.10864    -7.88797    1.77933
    6     6     0.51    7    11    -6.10864    -7.71851    1.60987
    7     7     0.51    5    11    -6.93147    -6.93147    0.00000
    8     8     0.51    7    11    -6.10864    -7.71851    1.60987
    9     9     0.51    4    11    -6.73012    -7.17613    0.44601
   10    10     0.51    6    11    -6.73012    -7.09504    0.36492

SAS システム                                                                                                                                                                                                                     2003年 2月12日 水曜日 13:03  43

MEANS プロシジャ

変数        N          平均値        標準偏差          最小値          最大値
-----------------------------------------------------------------------------
x       10000       5.1066000       1.5814824               0      10.0000000
l        9973      -6.4145273       0.7102801      -6.9314718      -3.2508297
e        9973      -7.5113881       0.8945844     -12.2594505      -6.9314718
d        9973       1.0968607       1.6011239               0       9.0086208
-----------------------------------------------------------------------------

SAS システム                                                                                                                                                                                                                     2003年 2月12日 水曜日 13:03  44

UNIVARIATE プロシジャ
変数 :  d

                        モーメント

標本数                9973    重み変数の合計          9973
平均値          1.09686071    合計              10938.9919
標準偏差        1.60112388    分散              2.56359767
歪度            2.66575544    尖度              8.53081807
無修正平方和    37562.7464    修正平方和         25564.196
変動係数        145.973309    平均の標準誤差     0.0160329


                 基本統計量

      位置                   ばらつき

平均値   1.096861     標準偏差        1.60112
中央値   0.446012     分散            2.56360
最頻値   0.000000     範囲            9.00862
                      四分位範囲      1.24495


                  位置の検定 : μ 0=0

検定                   --統計量---    -------p 値-------

Student の t 統計量    t  68.41313    Pr > |t|    <.0001
符号検定               M      3742    Pr >= |M|   <.0001
符号付順位検定         S  14004435    Pr >= |S|   <.0001


 パーセント点 ( 定義 5)

パーセント点       推定値

100%  最大値     9.008621
99%              8.569176
95%              4.297513
90%              4.020254
75% Q3           1.609866
50%  中央値      0.446012
25% Q1           0.364919
10%              0.000000
5%               0.000000
1%               0.000000
0%  最小値       0.000000


       極値のオブザベーション

------
最小値から-        ----最大値から---

値      Obs              値      Obs

 0     9995         9.00862     9648
 0     9993         9.00862     9657
 0     9987         9.00862     9769
 0     9983         9.00862     9781
 0     9976         9.00862     9986


                   欠損値

                      -------割合 (%)-------
欠損値        度数    データ全体      欠損値

     .          27          0.27      100.00
*/