2019年4月29日月曜日

[Statistics] I 統計学の基礎 7. 統計量の計算

Pythonで学ぶあたらしい統計学の教科書のまとめやコードを実行してみた際のメモです.
7. 統計量の計算
標本
サンプルサイズをNとした時,標本は以下のように表記される.
$\{ x_{I} \} = \{ x_1, x_2, \cdots x_N \}$

平均値
標本の平均値$\mu$は以下のように計算できる.
$\mu = \cfrac{1}{N} \Sigma_{i = 1}^{N} x_{I}$
これは正確に言うと算術平均と呼ばれる平均値.

期待値
離散型の変数の場合,期待値$\mu$は 確率 $\times$ その時の値の合計値 として計算される.
$\mu = \Sigma_{i = 1}^{N} P(x_{I}) \cdot x_{I}$

母平均:母集団の平均値のこと.
標本平均:標本の平均値のこと.

本来は,母平均を推定したい所だが,これがわからないので標本平均で代用する.母平均と標本平均は少しズレていることが普通だが,偏りはない.言い換えるとプラスのズレとマイナスのズレがほぼ半々で起こるということである.

分散(標本平均)
分散は データが平均値(期待値)とどれだけ離れているか を表した指標.
$\sigma^{2} = \cfrac{1}{N} \Sigma_{i = 1}^{N} ( x_{i} - \mu)^{2}$
$(x_{I})$を偏差という.偏差の2乗和,すなわち$ \sigma_{i = 1}^{N} ( x_{i} - \mu)^{2}$を偏差平方和という.上式は,確率$P(x_{i})$を使うことで
$\sigma^{2} = \Sigma_{i = 1}^{N} P(x_{i}) \cdot ( x_{i} - \mu)^{2}$
のように表すこともできる.

期待値とデータが離れていれば離れているほど$(x_{i} - \mu)^{2}$は大きな値を取る.$(x_{i} - \mu)^{2}$は期待値とデータとの距離だと見做すことができる.そのため,分散はデータと期待値との距離の期待値であるとみなすことができる.

分散(不偏分散)
標本分散だと母集団の分散,すなわち母分散と比べて分散を過小評価してしまう偏りがある.これを修正したものを不偏分散という.
$ s^{2} = \cfrac{1}{N-1} \Sigma_{i = 1}^{N} (x_{i} - \mu)^{2}$
不偏分散は分母が$N-1$と少し小さくなるので,標本分散よりも大きな値となる.

標準偏差
分散の平方根をとったもので,分散としては不偏分散を使うことが一般的である.Standard Derivation を略してSDと呼ばれることもある.
$\sigma = \sqrt{\Sigma^{2}} = \sqrt{\cfrac{1}{N-1} \sigma ( x_{I} - \mu^{2})}$
2錠してから平方根を取るので,絶対値を使えば良いという見方もあるが,絶対値は四則演算だけでも止められないことと,微分できないことから絶対値は使わない.

Pythonで学ぶあたらしい統計学の教科書に関する過去の投稿は以下です.
I 統計学の基礎
 1. 統計学,2. 標本が得られるプロセス,3. 標本が得られるプロセスの抽象化4. 記述統計の基礎,6. 確率質量関数と確率密度関数,7. 統計量の計算

0 件のコメント :

コメントを投稿