メディアン(MEDIAN,中央値),パーセンタイル(PERCENTILE,百分位),クォタイル(QUARTILE,四分位)などのことを,まとめてクォンタイル(QUANTILE,分位)といいます.
1%タイルとは,Nオブザベーションのデータを値の小さいほうから並べてちょうど0.01N番目の値をいいます.1000オブザベーションであれば10番目の値ですが,995オブザベーションであれば,9.5番目の値ということになり,きりよく値が求まりません.そこで何通りかの計算方式の定義が用意されており,クォンタイル統計量を求める際にPROC MEANSステートメント,PROC SUMMARYステートメント,PROC TABULATEステートメントのQNTLDEF=オプションで指定することができます.
see also 基本統計量キーワード
変数Xの6個の値について,クォンタイルを求める場合を考えます.
変数Xの値を小さい順に,X1=10,X2=20,X3=30,X4=40,X5=50,X6=60とし,
求めるクォンタイルをP10,P25,P50,P75,P90とします.
求める値の順位は,データの件数n=6ですから,
P10: n*0.10= 0.6番目
P25: n*0.25= 1.5番目
P50: n*0.50= 3番目
P75: n*0.75= 4.5番目
P90: n*0.90= 5.4番目
となります.
この順位を整数部(i)と小数部(j)の和( i+j)として表わすと,各クォンタイルは,区間 [i,i+1)に入ります.
これで,定義を説明する準備ができました.
- QNTLDEF=1 加重平均方式
区間[i,i+1)の位置に応じて,XiとXi+1の値を加重平均します.
クォンタイル = (1-j)Xi + jXi+1
- QNTLDEF=2 近接値方式
区間[i,i+1)の位置に応じて,XiとXi+1の近いほうの値とします.ちょうどj=0.5ならば,偶数番目の値とします.
クォンタイル = Xi (j<0.5か,j=0.5で,iが偶数)
クォンタイル = Xi+1 (j>0.5か,j=0.5で,iが奇数)
- QNTLDEF=3 経験分布方式
区間[i,i+1)のちょうど i の位置,すなわち j=0 であれば,Xi,そうでなければ,Xi+1とします.
クォンタイル = Xi (j=0)
クォンタイル = Xi+1 (j>0)
- QNTLDEF=5 経験分布平均方式
区間[i,i+1)のちょうど i の位置,すなわち j=0 であれば,(Xi+Xi+1)/2,そうでなければ,Xi+1とします.
クォンタイル = (Xi +Xi+1)/2(j=0)
クォンタイル = Xi+1 (j>0)
10= 10 20 30 40 50 60 = Xi (X0はX1と同じ値とします)
+----+----+----+----+----+----+
0 1 2 3 4 5 6 = i
↑ ↑ ↑ ↑ ↑
0.6 1.5 3 4.5 5.4 = i+j
P10 P25 P50 P75 P90
10 15 30 45 54 QNTLDEF=1
10 20 30 40 50 QNTLDEF=2
10 20 30 50 60 QNTLDEF=3
10 20 35 50 60 QNTLDEF=5
- QNTLDEF=4 n+1で加重平均方式
この方式は,QNTLDEF=1と同じですが,データの件数を n でなく n+1とし,順位をそれを元に計算します.
区間[i,i+1)の位置に応じて,XiとXi+1の値を加重平均します.
クォンタイル = (1-j)Xi + jXi+1
ただし,各クォンタイルの順位(i+j)は以下のとおり
P10: (n+1)*0.10= 0.7番目
P25: (n+1)*0.25= 1.75番目
P50: (n+1)*0.50= 3.5番目
P75: (n+1)*0.75= 5.25番目
P90: (n+1)*0.90= 6.3番目
10= 10 20 30 40 50 60 =60 = Xi (X0,X7はそれぞれX1,X6と同じ値とします)
+----+----+----+----+----+----+----+
0 1 2 3 4 5 6 7 = i
↑ ↑ ↑ ↑ ↑
0.7 1.75 3.5 5.25 6.3 = i+j
P10 P25 P50 P75 P90
10 17.5 35 52.5 60 QNTLDEF=4
- WEIGHTステートメントがある場合
WEIGHTステートメントで,重み変数が指定されてる場合,データ件数 n,各クォンタイルの順位(i+j)が重みつきで計算されます.その上で,QNTLDEF=5 と同じ方式(経験分布平均方式)が適用されます.