2019年4月28日日曜日

[Statistics] I 統計学の基礎 4. 記述統計の基礎,6. 確率質量関数と確率密度関数

Pythonで学ぶあたらしい統計学の教科書のまとめやコードを実行してみた際のメモです.
4. 記述統計の基礎
数値型の変数(量的データ):データが定量的な数値として得られるもの.
離散型の変数:数値型の変数の値.あたいは整数しかとらない.
連続型の変数:数値型の変数のうち,連続的に変化するもの.
カテゴリ型の変数:定量的な数値で表されないもの.
階数:数値型の変数において,それが取り得る値をいくつかの範囲に区切る時の区切りのこと.
度数分布:階級に対応する頻度の一覧のこと.
相対度数:全体を1とした時の度数の占める割合のこと.
累積度数:階数を小さいものから順番に並べて度数の累積値をとったもの.
累積相対度数:相対度数の累積値をとったもの.
ヒストグラム:度数分布を図示したもの.横軸に階数を,縦軸に度数をとったグラフになる.
統計量:データを集計した値のこと
平均値($\mu$):手持ちのデータ(標本)を代表する値.すなわち,代表値である.
期待値($\mu$):まだ手に入れていない道のデータであっても適用(予測)できる平均値のこと.
期待値の定義上,標本においては,平均値と期待値は全く同じになる.
分散($\sigma^{2}$):データが平均値(期待値)とどれだけ離れているかを表した指標.例えば,平均値(期待値)の近くにデータが集まって入れば,分散は小さい.逆にデータが平均値(期待値)から遠く離れているようであれば分散は大きくなる.

6. 確率質量関数と確率密度関数
確率質量関数:データを引数にとると確率が計算結果として出てくる関数.
確率密度:連続型の変数の値として対応した確率のようなもの.
確率密度関数:確率密度が計算結果として出てくる関数のこと.
正規分布の特徴
  1. $- \infty \ \sim \ \infty$の実数をとる.
  2. 平均値付近の確率密度が大きい(平均値の近くにデータが集まりやすい). 
  3. 平均値から離れるほど確率密度が小さくなる.
  4. 確率密度の大きさは,平均値を中心として左右対称.
母数:確率分布を特徴付ける値であり,確率分布のパラメタ(サンプルサイズとは異なる).

正規分布の母数は平均(期待値)$\mu$と分散$\sigma^{2}$の二つ.正規分布の確率分布の確率密度関数は確率変数を$x$とすると$N(x)$と表記される.$N(x)$を計算すると,ある確率変数における確率密度が得られる.

確率分布のパラメタを明示的に示して$N (x | \mu, \sigma^{2})$と表されることがある.

母集団の分布を推定するという行為は
  1. 分布の形を決める.
  2. 母数(確率分布のパラメタ)を決める.
という2つの作業で達成することができる.例えば,母集団の分布に正規分布を仮定すれば「母集団の分布の推定」という作業を「正規分布の母数の推定」という作業で置き換えることができる.
母数を推定する最も簡単なアイデアは「標本の統計量を母集団分布の回数だと考える」ことである.

母数を推定するアイデアとして「標本の統計量を母集団分布の母数だと考える」こと自体は間違っていない.しかし,標本の統計量と母数には(少しの)ズレがあるのが普通です.よって,推定された母数には推定誤差があることを認めなければならない.
推定誤差を加味した母数の推定を行う際は,区間推定などの考え方が用いられる.また,推定誤差があるなかで主張したいことがある時には,統計的仮説検定と行った枠組みを用いることがある.

Pythonで学ぶあたらしい統計学の教科書に関する過去の投稿は以下です.
I 統計学の基礎
 1. 統計学,2. 標本が得られるプロセス,3. 標本が得られるプロセスの抽象化4. 記述統計の基礎,6. 確率質量関数と確率密度関数

0 件のコメント :

コメントを投稿