晴耕雨読

working in the fields on fine days and reading books on rainy days

確率統計 公式一覧

高専4年の数学の教科書として使用した「新 確率統計」(大日本図書) の公式などを備忘録としてまとめたものです。

1. 確率

条件付き確率 (ベイズの定理)

$A$が起こったという条件のもとで$B$の起こる条件つき確率

\[P_A(B) = \frac{P(A \cap B)}{P(A)}\] \[P(B|A) = \frac{P(A|B)P(B)}{P(A)}\]
反復試行の確率

試行 $T$ を1回行うとき、$A$ の起こる確率を $p$ とする。この試行を独立に $n$ 回行うとき、$A$ が $k$ 回起こる確率は次式で求まる。

\[{}_nC_k p^k q^{n-k} \;\;(q = 1 - p,\, k = 0,1,2,...,n)\]


2. データの整理

1次元のデータ

平均
\[\overline{x} = \frac{1}{n} \sum_{i=1}^n x_i\]
分散
\[\begin{aligned} v_x &= \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2 \\ &= \overline{x^2} - \overline{x}^2 \end{aligned}\]
標準偏差
\[s_x = \sqrt{v_x}\]

2次元のデータ

共分散
\[\begin{aligned} s_{xy} &= \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x}) (y_i - \overline{y}) \\ &= \overline{xy} - \overline{x}\,\overline{y} \end{aligned}\]
相関係数
\[r = \frac{s_{xy}}{s_x s_y} = \dfrac{ \displaystyle\sum_{i=1}^n (x_i - \overline{x}) (y_i - \overline{y}) }{ \sqrt{\displaystyle\sum_{i=1}^n (x_i - \overline{x})^2} \sqrt{\displaystyle\sum_{i=1}^n (y_i - \overline{y})^2} }\]
回帰直線

($y = ax + b$)

\[a = \frac{s_{xy}}{s_x{}^2} ,\;\; b = \overline{y} - a\overline{x}\]


3. 確率分布

確率変数と確率分布

確率変数と確率分布

  離散型 連続型
確率分布 $P(X=x_i) = p_i$ $P(a \le X \le b) = \displaystyle\int_a^b f(x)\,dx$
平均 $\mu = E[X]$ $\displaystyle\sum_{i=1}^n x_i p_i$ $\displaystyle\int_{-\infty}^{\infty} xf(x)\,dx$
分散 $\sigma^2 = V[X]$ $\displaystyle\sum_{i=1}^n (x_i - \mu)^2 p_i$ $\displaystyle\int_{-\infty}^{\infty} (x - \mu)^2 f(x)\,dx$
平均と分散の性質
\[E[aX + b] = aE[x] + b,\;\; V[aX + b] = a^2 V[X]\] \[V[X] = E[X^2] - (E[X])^2\]
主な離散型確率分布
\[\begin{array}{lll} \text{二項分布} B(n,p) & P(X=k) = {}_nC_k p^k q^{n-k} & \text{平均}\; np, \text{分散}\; npq \\ \text{ポアソン分布} P_o(\lambda) & P(X=k) = e^{-\lambda} \dfrac{\lambda^k}{k!} & \text{平均}\; \lambda, \text{分散}\; \lambda \end{array}\]
確率密度関数と分布関数
\[\int_{-\infty}^{\infty} f(x)\,dx = 1\] \[F(x) = \int_{-\infty}^x f(x)\,dx = P(X \le x) \;\;\;\text{... 分布関数}\]
正規分布 $N(\mu, \sigma^2)$
\[f(x) = \frac{1}{\sqrt{2\pi} \sigma} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right)\]

$X$ は $N(\mu,\sigma^2)$ に従う $\Longrightarrow$ $X$ の標準化 $Z = \frac{X-\mu}{\sigma}$ は標準正規分布 $N(0,1)$ に従う

二項分布の正規分布による近似

$X$ は $B(n,p)$、$Z$ は $N(0,1)$ に従うとき、$n$が十分に大きいならば

\[P(a \le X \le b) \simeq P\left( \frac{a - 0.5 - np}{\sqrt{npq}} \le Z \le \frac{b + 0.5 - np}{\sqrt{npq}} \right)\]

統計量の標本分布

統計量

無作為標本 $X_1, X_2, …, X_n$ の関数

標本平均

\[\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i\]

標本分布

\[S^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \overline{X})^2\]

不偏分散

\[U^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2 = \frac{n}{n-1} S^2\]
標本平均の平均と分散
\[E[\overline{X}] = \mu, \;\;\; V[\overline{X}] = \frac{\sigma^2}{n}\]
正規母集団 $N(\mu,\sigma^2)$ の標本分布

大きさ$n$の無作為標本の標本平均 $\overline{X}$ は $N(\mu,\frac{\sigma^2}{n})$ に従う

中心極限定理

母平均 $\mu$、母分散 $\sigma^2$ の母集団から大きさ $n$ の無作為標本を抽出

$\Longrightarrow$ $n$ が大きいとき、$\overline{X}$ は近似的に正規表現 $N(\mu,\frac{\sigma^2}{n})$ に従う

$\chi^2$ 分布

上限 $\alpha$ 点 $\chi_n^2(\alpha)$ $\iff$ $P(X \ge \chi_n^2(\alpha)) = \alpha$

正規母集団 $N(\mu,\sigma^2)$ から大きさ $n$ の無作為標本を抽出

$\Longrightarrow$ $\dfrac{(n-1)U^2}{\sigma^2}$ は自由度 $n-1$ の $\chi^2$ 分布に従う

$t$ 分布

上限 $\alpha$ 点 $t_n(\alpha)$ $\iff$ $P(X \ge t_n(\alpha)) = \alpha$

正規母集団 $N(\mu,\sigma^2)$ から大きさ $n$ の無作為標本を抽出

$\Longrightarrow$ $\dfrac{\overline{X}-\mu}{\sqrt{U^2/n}}$ は自由度 $n-1$ の $t$ 分布に従う

$F$ 分布

上限 $\alpha$ 点 $F_{m,n}(\alpha)$ $\iff$ $P(X \ge F_{m,n}(\alpha)) = \alpha$

$N(\mu_1,\sigma^2),\, N(\mu_2,\sigma^2)$ から大きさ $n$ の無作為標本を抽出

$\Longrightarrow$ $\dfrac{U_1^2}{U_2^2}$ は自由度 $(n_1-1, n_2-1)$ の $F$ 分布に従う


4. 推定と検定

母平均の区間推定

正規母集団で母分散 $\sigma^2$ が既知のとき(ただし,$z_{\alpha/2}$ は標準正規分布の上側 $\alpha / 2$ 点)(正規母集団でなくても $n$ が大きければ、$\sigma^2$ に不偏分散 $u^2$ を代入しても良い)

\[\overline{x} - z_{\alpha/2} \sqrt{\frac{\sigma^2}{n}} \le \overline{x} \le \overline{x} + z_{\alpha/2} \sqrt{\frac{\sigma^2}{n}}\]

正規母集団で母分散 $\sigma^2$ が未知のとき

\[\overline{x} - t_{n-1}(\alpha/2) \sqrt{\frac{u^2}{n}} \le \overline{x} \le \overline{x} + t_{n-1}(\alpha/2) \sqrt{\frac{u^2}{n}}\]
母分散の区間推定

正規母集団のとき

\[\frac{(n-1)u^2}{\chi_{n-1}^2(\alpha/2)} \le \sigma^2 \le \frac{(n-1)u^2}{\chi_{n-1}^2(1-\alpha/2)}\]
母比率の区間推定

二項母集団で $n$ は大きいとき

\[\hat{p} - z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \le p \le \hat{p} + z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

統計的検定

仮説と検定
  1. 有意水準(危険率)$\alpha$ を定める。
  2. 帰無仮説 $H_0$ と対立仮説 $H_1$ を設定する。
    • $H_0$ : $\theta = \theta_0$
    • $H_1$ : $\theta \ne \theta_0$ (両側検定) $\theta > \theta_0$ (右側検定) $\theta < \theta_0$ (左側検定)
  3. $H_0$ を仮定して、検定統計量 $X$ の実現値 $x$ を求める。
  4. $p$ 値または棄却域の方法により、$H_0$ を棄却するかどうかを判断する。
    • $p$ 値 … $X$ が $x$ より外れる確率($\alpha$ より小さければ棄却)
    • 棄却域 … 棄却域に入る確率が $\alpha$ となる $X$ の範囲
  $H_0$ が真 $H_0$ が偽 ($H_1$ が真)
$H_0$ を受容 正しい判断 第2種の誤り
$H_0$ を棄却 第1種の誤り 正しい判断
色々な検定
検定 前提条件 検定統計量 確率分布
母平均 正規母集団で
母分散が既知
\(Z = \dfrac{\overline{X}-\mu}{\sqrt{\sigma^2/n}}\) 標準正規分布
母平均 正規母集団で
母分散が未知
\(T = \dfrac{\overline{X}-\mu}{\sqrt{U^2/n}}\) 自由度 $n-1$ の $t$ 分布
母平均 $n$ が大きい \(Z = \dfrac{\overline{X}-\mu}{\sqrt{U^2/n}}\) 近似的に標準正規分布
母分散 正規母集団 \(X = \dfrac{(n-1)U^2}{\sigma_0^2}\) 自由度 $n-1$ の $\chi^2$ 分布
等分散 正規母集団 \(F = \dfrac{U_1^2}{U_2^2},\;F' = \dfrac{U_2^2}{U_1^2}\) 自由度 $(n_1 - 1, n_2 - 1)$
の $F$ 分布
母平均の差 正規母集団で
母分散が既知
\(Z = \dfrac{\overline{X} - \overline{Y}}{\sqrt{\sigma_1^2/n_1 + \sigma_2^2/n_2}}\) 標準正規分布
母平均の差 $n_1, n_2$ が大きい \(Z = \dfrac{\overline{X} - \overline{Y}}{\sqrt{U_1^2/n_1 + U_2^2/n_2}}\) 近似的に標準正規分布
母比率 二項母集団で
$n$ が大きい
\(Z = \dfrac{\hat{P} - p_0}{\sqrt{p_0 q_0 / n}}\) 近似的に標準正規分布