統計学 sience of statistics
関数を探す喜び
統計学は全体をその一部のデータから予測する道具
もっと言えば母集団から標本抽出して取り出した標本から(本当に知りたい)全体を推論する。推論の道具である。
- 母集団
本来調査したい、もともとの関心の対象であるデータ全体
- 標本
その一部を取り出したデータ
記述統計
度数分布
同じものがいくつあるかをまとめたものが度数分布
横軸を階級、縦軸を度数として度数分布表をグラフ化したものをヒストグラム histogram と呼ぶ。ヒストグラムを見ると全体的な特徴が見えてくる。
データの刻み1つ1つを階級 bin 、刻みの幅を階級の幅、階級の個数を階級数と言う。度数 frequency はその階級にあてはまるデータがいくつあるかを表す。
期待値
たくさんのデータは要約した値を使ったほうが楽である。比較する対象。その要約した値が期待値
期待値=『確率×その時の値』の合計
分散
データが期待値からどれほど離れているか、ばらつきを表す指標として分散 variance が用いられる。
- 不偏分散
偏りのない分散のこと - 標準偏差
不偏分散の平方根(ルート)を取ったもの。標準偏差の値が大きいほど、そのデータの散らばりが大きいことを意味します。 - 標準誤差
サンプルサイズを加味した標準偏差。標準偏差をサンプルサイズ(の平方根)で割っています
標準誤差は、標本平均の標準偏差として解釈されます。分散/サンプルサイズ
- 標準化
平均と標準偏差がある特定の値になるようにすべてのデータの値を同じ式を使って変換する。 - 偏差値
平均50、標準偏差10になるように標準化したやつ
相関分析の基礎
相関 correlation は正と負と無に分けられる。正の相関は片方の特性の値xが上がると他方の特性の値yも上がる様な相関性、負の相関はxが上がるとyが下がるような相関性である。この相関性が弱くなると無相関に近づいていく。
この傾向を計量的に把握するために相関係数 correlation coefficient がよく用いられる。相関係数が1に近いときxとyの間には正の相関がある。-1に近ければ負の相関があり、0に近ければ相関は無い。
相関係数の計算方法はいくつかあるが普通はピアソンの積率相関係数である。他にスピアマンの順位相関係数、ケンドールの順位相関係数がある。なんかヤバい扉を開いた気分だ。
相関係数は因果関係ではない
確率分布と確率密度関数
関数を知る喜び
確率分布
起こり得る不連続的な事象、確率的に変化する値、結果に再現性がなく実際に結果が得られるまでどのような値が得られるかが事前に予知できず確率Pに従って出現するとみなす変数、これを確立変数 random variableと言う。一般にX,Y,Zで表現する。
そしてデータが出てくる確率の一覧を確率分布 probability distribution と言う。これはある確率変数がどのような値をどのような確率で取るかということを表しているということである。
統計学においては「データから確率分布が計算できた」のではなく、「確率分布に従ってデータが発生した」と考える(重要)。
得られたデータを「ある特定の確率分布に従う確率変数」とみなす。即ち、ある確率変数Xの実現値がある確率分布Aにもとづいて決まる場合、「確率変数Xは確率分布Aに従う」という表現をする。あたまよさそう
その発生確率は確率質量P[X]、これらの関係を示すグラフを確率質量分布と称する。
確率密度関数
確率、あるいは確率密度を計算する関数のこと
確率密度を積分すると、確率になります。
確率密度を使う理由は、それ単体では確率が常に0になる状況を扱うためです。
正規分布
頂上が一つ、左右対称、中心から離れるにつれて確率が急速減少する形状の分布
そして確率変数xの確率密度関数が
で与えられる分布、これを正規分布 normal distribution という。μとσは正規分布の中心を決めるパラメータである。
またしょっちゅうN(μ,σ²)と記される。μとσ²は正規分布の期待値と分散である。特にN(0,1)を標準正規分布 standard normal distribution と呼称する。
中心極限定理
正規分布が重要な理由は「中心極限定理」と呼ばれる定理にある。
「正規分布以外の分布を含む様々な確率分布においても、そこからサンプリングした標本の期待値、あるいは合計値は、サンプルサイズを大きくすれば、正規分布に近づく」
平均からずれるという事象がnが大きくなるにつれて急激に起こりにくくなる。
元となる分布が有限の期待値と分散を持つ限り、どんなものでもサンプルサイズの大きな標本をとると正規分布するのである。