2019年5月1日水曜日

[Statistics] I 統計学の基礎 9. 確率変数と確率分布

Pythonで学ぶあたらしい統計学の教科書のまとめやコードを実行してみた際のメモです.
離散型の確率分布と確率質量関数
離散型の確率変数$X$のそれぞれに割り当てられる確率$P(X=x_{i})$が関数$f(x_{i})$によって
$P(X=x_{i}) = f(x_{i})$
と表される時,$X$は離散型の確率分布を持つと良い,この時の関数$f(x_{i})$を確率質量関数(値を指定すると,その値が得られる確率が計算できる関数)という.

確率質量関数$f(x_{i})$は
$0 \leq f(x_{i})$
$\sum_{i=1}^{\infty} f(x_{i}) = 1$
を満たす.

確率密度
実数値をとる変数$X$が$x \leq X \leq x + \Delta x$をとる確率を考えた時,$\Delta x \rightarrow 0$の時
$P(x) \cdot \Delta x$
で確率が計算されるならば,$P(x)$を$x$の確率密度と呼ぶ.

連続型の変数だと,例えば 4.0 ぴったりに成る確率は零になる.そこで限りなくゼロに近いが,ゼロでない値$\Delta x$を使って,もの凄く狭い範囲内に変数が治る確率を考えるということ.
確率密度は確率とは異なり,確率密度は1よりも大きな値となることがある.

連続型の確率分布と確率密度関数
連続型の確率変数$X$のとる値が,関数$f(x)$によって
$P( a \leq X \leq b) = \int_{a}^{b} f(x) dx$
と表される時,$X$は連続型の確率分布を持つといい,この時の関数$f(x)$を確率密度関数という.
連続型の確率変数の場合は,ある特定の値になる確率が常に零となる.そのため,ある特定の範囲に治る確率を確率密度関数を積分することにより求めている.

確率密度関数$f(x)$は以下を満たす
$0 \leq f(x)$
$\int_{- \infty}^{\infty} f(x) dx = 1$

確率の合計・確率密度の積分
離散型のデータ(確率変数)は様々な事象が起こる確率を確率の合計値として計算できる.連続型の確率変数の場合は,確率密度の積分により計算できる.

積分と面積の関係
区間と無限個に区切った時の足し算を積分と呼び,以下のように定義する.
$\lim_{n \to \infty} \sum_{i=1}^{n} f(x_{i}) \times \Delta x = \int_{a}^{b} f(x) dx$
離散型の変数であれば,足し算と,連続型の変数であれば積分を使うという使い分けになる.

正規分布の確率密度関数
正規分布の確率密度関数は以下のようになる.
$ \mathcal{N} ( x | \mu, \sigma^2 ) = \cfrac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left( - \cfrac{(x - \mu)^{2}}{2 \sigma^{2}} \right)$
正規分布の特徴は以下のようになる.
  1. $- \infty$ $\sim$ $\infty$の実数値を取る.
  2. 平均値付近の確率密度が大きい(平均値の近くにデータが集まりやすい).
  3. 平均値から離れるほど確率密度が小さくなる.
  4. 確率密度の大きさは,平均値を中心として左右対称
ある確率変数$X$が平均(期待値)$\mu$,分散$\sigma^{2}$の正規分布にしたがっていることを明示的に示す時は以下のように表記される.

独立で同一な確率分布
独立で同一な確率分布に従うことを i.i.d. (independent and identically distributed) と略することもある.

正規分布の確率密度関数から確率を計算する方法
e.g. 魚の体調が4cm以上,5cm以下となる確率
$ P (4 \leq X \leq 5) = \int_{- \infty}^{5} \mathcal{N} ( x | \mu, \sigma^2 ) dx - \int_{- \infty}^{4} \mathcal{N} ( x | \mu, \sigma^2 ) dx =  \int_{- \infty}^{5} \cfrac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left( - \cfrac{(x - \mu)^{2}}{2 \sigma^{2}} \right) dx - \int_{- \infty}^{4} \cfrac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left( - \cfrac{(x - \mu)^{2}}{2 \sigma^{2}} \right) dx$

確率密度から期待値を計算する方法
期待値は [確率 $times$ その時の値] の合計値として計算される.連続型の変数の場合は,合計の計算の代わりに積分計算を使う.
$\mu = \int_{- \infty}^{\infty} f(x) \cdot x dx = \int_{- \infty}^{\infty} \mathcal{N} ( x | \mu, \sigma^2 ) \cdot x dx$
正規分布の場合には,この計算は母数$\mu$と一致する.

0 件のコメント :

コメントを投稿