Memorandum: [Statistics] I 統計学の基礎 4. 記述統計の基礎，6. 確率質量関数と確率密度関数

Pythonで学ぶあたらしい統計学の教科書のまとめやコードを実行してみた際のメモです．
4. 記述統計の基礎
数値型の変数（量的データ）：データが定量的な数値として得られるもの．
離散型の変数：数値型の変数の値．あたいは整数しかとらない．
連続型の変数：数値型の変数のうち，連続的に変化するもの．
カテゴリ型の変数：定量的な数値で表されないもの．
階数：数値型の変数において，それが取り得る値をいくつかの範囲に区切る時の区切りのこと．
度数分布：階級に対応する頻度の一覧のこと．
相対度数：全体を1とした時の度数の占める割合のこと．
累積度数：階数を小さいものから順番に並べて度数の累積値をとったもの．
累積相対度数：相対度数の累積値をとったもの．
ヒストグラム：度数分布を図示したもの．横軸に階数を，縦軸に度数をとったグラフになる．
統計量：データを集計した値のこと
平均値（$\mu$）：手持ちのデータ（標本）を代表する値．すなわち，代表値である．
期待値（$\mu$）：まだ手に入れていない道のデータであっても適用（予測）できる平均値のこと．
期待値の定義上，標本においては，平均値と期待値は全く同じになる．
分散（$\sigma^{2}$）：データが平均値（期待値）とどれだけ離れているかを表した指標．例えば，平均値（期待値）の近くにデータが集まって入れば，分散は小さい．逆にデータが平均値（期待値）から遠く離れているようであれば分散は大きくなる．

6. 確率質量関数と確率密度関数
確率質量関数：データを引数にとると確率が計算結果として出てくる関数．
確率密度：連続型の変数の値として対応した確率のようなもの．
確率密度関数：確率密度が計算結果として出てくる関数のこと．
正規分布の特徴：
1. $- \infty \ \sim \ \infty$の実数をとる．
2. 平均値付近の確率密度が大きい（平均値の近くにデータが集まりやすい）．　
3. 平均値から離れるほど確率密度が小さくなる．
4. 確率密度の大きさは，平均値を中心として左右対称．
母数：確率分布を特徴付ける値であり，確率分布のパラメタ（サンプルサイズとは異なる）．

正規分布の母数は平均（期待値）$\mu$と分散$\sigma^{2}$の二つ．正規分布の確率分布の確率密度関数は確率変数を$x$とすると$N(x)$と表記される．$N(x)$を計算すると，ある確率変数における確率密度が得られる．

確率分布のパラメタを明示的に示して$N (x | \mu, \sigma^{2})$と表されることがある．

母集団の分布を推定するという行為は
1. 分布の形を決める．
2. 母数（確率分布のパラメタ）を決める．
という2つの作業で達成することができる．例えば，母集団の分布に正規分布を仮定すれば「母集団の分布の推定」という作業を「正規分布の母数の推定」という作業で置き換えることができる．
母数を推定する最も簡単なアイデアは「標本の統計量を母集団分布の回数だと考える」ことである．

母数を推定するアイデアとして「標本の統計量を母集団分布の母数だと考える」こと自体は間違っていない．しかし，標本の統計量と母数には（少しの）ズレがあるのが普通です．よって，推定された母数には推定誤差があることを認めなければならない．
推定誤差を加味した母数の推定を行う際は，区間推定などの考え方が用いられる．また，推定誤差があるなかで主張したいことがある時には，統計的仮説検定と行った枠組みを用いることがある．

Pythonで学ぶあたらしい統計学の教科書に関する過去の投稿は以下です．
I 統計学の基礎
1. 統計学，2. 標本が得られるプロセス，3. 標本が得られるプロセスの抽象化，4. 記述統計の基礎，6. 確率質量関数と確率密度関数

Memorandum

2019年4月28日日曜日

[Statistics] I 統計学の基礎 4. 記述統計の基礎，6. 確率質量関数と確率密度関数

0 件のコメント :

コメントを投稿