クォンタイル

Last-modified: 2008-09-10 (水) 02:20:01

メディアン(MEDIAN,中央値),パーセンタイル(PERCENTILE,百分位),クォタイル(QUARTILE,四分位)などのことを,まとめてクォンタイル(QUANTILE,分位)といいます.
1%タイルとは,Nオブザベーションのデータを値の小さいほうから並べてちょうど0.01N番目の値をいいます.1000オブザベーションであれば10番目の値ですが,995オブザベーションであれば,9.5番目の値ということになり,きりよく値が求まりません.そこで何通りかの計算方式の定義が用意されており,クォンタイル統計量を求める際にPROC MEANSステートメント,PROC SUMMARYステートメント,PROC TABULATEステートメントのQNTLDEF=オプションで指定することができます.
see also 基本統計量キーワード

変数Xの6個の値について,クォンタイルを求める場合を考えます.
変数Xの値を小さい順に,X1=10,X2=20,X3=30,X4=40,X5=50,X6=60とし,
求めるクォンタイルをP10,P25,P50,P75,P90とします.
求める値の順位は,データの件数n=6ですから,
P10: n*0.10= 0.6番目
P25: n*0.25= 1.5番目
P50: n*0.50= 3番目
P75: n*0.75= 4.5番目
P90: n*0.90= 5.4番目
となります.

この順位を整数部(i)と小数部(j)の和( i+j)として表わすと,各クォンタイルは,区間 [i,i+1)に入ります.
これで,定義を説明する準備ができました.

  • QNTLDEF=1 加重平均方式
    区間[i,i+1)の位置に応じて,XiとXi+1の値を加重平均します.
    クォンタイル = (1-j)Xi + jXi+1
  • QNTLDEF=2 近接値方式
    区間[i,i+1)の位置に応じて,XiとXi+1の近いほうの値とします.ちょうどj=0.5ならば,偶数番目の値とします.
    クォンタイル = Xi (j<0.5か,j=0.5で,iが偶数)
    クォンタイル = Xi+1 (j>0.5か,j=0.5で,iが奇数)
  • QNTLDEF=3 経験分布方式
    区間[i,i+1)のちょうど i の位置,すなわち j=0 であれば,Xi,そうでなければ,Xi+1とします.
    クォンタイル = Xi (j=0)
    クォンタイル = Xi+1 (j>0)
  • QNTLDEF=5 経験分布平均方式
    区間[i,i+1)のちょうど i の位置,すなわち j=0 であれば,(Xi+Xi+1)/2,そうでなければ,Xi+1とします.
    クォンタイル = (Xi +Xi+1)/2(j=0)
    クォンタイル = Xi+1 (j>0)
10=  10   20   30   40   50   60 = Xi (X0はX1と同じ値とします)
+----+----+----+----+----+----+
0    1    2    3    4    5    6   =  i
   ↑  ↑      ↑     ↑   ↑
  0.6  1.5     3     4.5   5.4    =  i+j
  P10  P25    P50    P75   P90
  10   15      30    45    54      QNTLDEF=1
  10   20      30    40    50      QNTLDEF=2
  10   20      30    50    60      QNTLDEF=3
  10   20      35    50    60      QNTLDEF=5
  • QNTLDEF=4 n+1で加重平均方式
    この方式は,QNTLDEF=1と同じですが,データの件数を n でなく n+1とし,順位をそれを元に計算します.
    区間[i,i+1)の位置に応じて,XiとXi+1の値を加重平均します.
    クォンタイル = (1-j)Xi + jXi+1
    ただし,各クォンタイルの順位(i+j)は以下のとおり
    P10: (n+1)*0.10= 0.7番目
    P25: (n+1)*0.25= 1.75番目
    P50: (n+1)*0.50= 3.5番目
    P75: (n+1)*0.75= 5.25番目
    P90: (n+1)*0.90= 6.3番目
10=  10   20   30   40   50   60  =60  = Xi (X0,X7はそれぞれX1,X6と同じ値とします)
+----+----+----+----+----+----+----+
0    1    2    3    4    5    6    7    =  i
   ↑   ↑       ↑       ↑    ↑
   0.7 1.75      3.5     5.25  6.3      = i+j
   P10  P25      P50     P75   P90
   10  17.5      35      52.5   60       QNTLDEF=4
  • WEIGHTステートメントがある場合
    WEIGHTステートメントで,重み変数が指定されてる場合,データ件数 n,各クォンタイルの順位(i+j)が重みつきで計算されます.その上で,QNTLDEF=5 と同じ方式(経験分布平均方式)が適用されます.