晴耕雨読

working in the fields on fine days and reading books on rainy days

確率統計 公式一覧

高専4年の数学の教科書として使用した「新 確率統計」(大日本図書) の公式などを備忘録としてまとめたものです。

1. 確率

条件付き確率 (ベイズの定理)

AAが起こったという条件のもとでBBの起こる条件つき確率

PA(B)=P(AB)P(A)P_A(B) = \frac{P(A \cap B)}{P(A)} P(BA)=P(AB)P(B)P(A)P(B|A) = \frac{P(A|B)P(B)}{P(A)}
反復試行の確率

試行 TT を1回行うとき、AA の起こる確率を pp とする。この試行を独立に nn 回行うとき、AAkk 回起こる確率は次式で求まる。

nCkpkqnk    (q=1p,k=0,1,2,...,n){}_nC_k p^k q^{n-k} \;\;(q = 1 - p,\, k = 0,1,2,...,n)


2. データの整理

1次元のデータ

平均
x=1ni=1nxi\overline{x} = \frac{1}{n} \sum_{i=1}^n x_i
分散
vx=1ni=1n(xix)2=x2x2\begin{aligned} v_x &= \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2 \\ &= \overline{x^2} - \overline{x}^2 \end{aligned}
標準偏差
sx=vxs_x = \sqrt{v_x}

2次元のデータ

共分散
sxy=1ni=1n(xix)(yiy)=xyxy\begin{aligned} s_{xy} &= \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x}) (y_i - \overline{y}) \\ &= \overline{xy} - \overline{x}\,\overline{y} \end{aligned}
相関係数
r=sxysxsy=i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2r = \frac{s_{xy}}{s_x s_y} = \dfrac{ \displaystyle\sum_{i=1}^n (x_i - \overline{x}) (y_i - \overline{y}) }{ \sqrt{\displaystyle\sum_{i=1}^n (x_i - \overline{x})^2} \sqrt{\displaystyle\sum_{i=1}^n (y_i - \overline{y})^2} }
回帰直線

(y=ax+by = ax + b)

a=sxysx2,    b=yaxa = \frac{s_{xy}}{s_x{}^2} ,\;\; b = \overline{y} - a\overline{x}


3. 確率分布

確率変数と確率分布

確率変数と確率分布

  離散型 連続型
確率分布 P(X=xi)=piP(X=x_i) = p_i P(aXb)=abf(x)dxP(a \le X \le b) = \displaystyle\int_a^b f(x)\,dx
平均 μ=E[X]\mu = E[X] i=1nxipi\displaystyle\sum_{i=1}^n x_i p_i xf(x)dx\displaystyle\int_{-\infty}^{\infty} xf(x)\,dx
分散 σ2=V[X]\sigma^2 = V[X] i=1n(xiμ)2pi\displaystyle\sum_{i=1}^n (x_i - \mu)^2 p_i (xμ)2f(x)dx\displaystyle\int_{-\infty}^{\infty} (x - \mu)^2 f(x)\,dx
平均と分散の性質
E[aX+b]=aE[x]+b,    V[aX+b]=a2V[X]E[aX + b] = aE[x] + b,\;\; V[aX + b] = a^2 V[X] V[X]=E[X2](E[X])2V[X] = E[X^2] - (E[X])^2
主な離散型確率分布
二項分布B(n,p)P(X=k)=nCkpkqnk平均  np,分散  npqポアソン分布Po(λ)P(X=k)=eλλkk!平均  λ,分散  λ\begin{array}{lll} \text{二項分布} B(n,p) & P(X=k) = {}_nC_k p^k q^{n-k} & \text{平均}\; np, \text{分散}\; npq \\ \text{ポアソン分布} P_o(\lambda) & P(X=k) = e^{-\lambda} \dfrac{\lambda^k}{k!} & \text{平均}\; \lambda, \text{分散}\; \lambda \end{array}
確率密度関数と分布関数
f(x)dx=1\int_{-\infty}^{\infty} f(x)\,dx = 1 F(x)=xf(x)dx=P(Xx)      ... 分布関数F(x) = \int_{-\infty}^x f(x)\,dx = P(X \le x) \;\;\;\text{... 分布関数}
正規分布 N(μ,σ2)N(\mu, \sigma^2)
f(x)=12πσexp((xμ)22σ2)f(x) = \frac{1}{\sqrt{2\pi} \sigma} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right)

XXN(μ,σ2)N(\mu,\sigma^2) に従う \Longrightarrow XX の標準化 Z=XμσZ = \frac{X-\mu}{\sigma} は標準正規分布 N(0,1)N(0,1) に従う

二項分布の正規分布による近似

XXB(n,p)B(n,p)ZZN(0,1)N(0,1) に従うとき、nnが十分に大きいならば

P(aXb)P(a0.5npnpqZb+0.5npnpq)P(a \le X \le b) \simeq P\left( \frac{a - 0.5 - np}{\sqrt{npq}} \le Z \le \frac{b + 0.5 - np}{\sqrt{npq}} \right)

統計量の標本分布

統計量

無作為標本 X1,X2,,XnX_1, X_2, …, X_n の関数

標本平均

X=1ni=1nXi\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i

標本分布

S2=1ni=1n(XiX)2S^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \overline{X})^2

不偏分散

U2=1n1i=1n(XiX)2=nn1S2U^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2 = \frac{n}{n-1} S^2
標本平均の平均と分散
E[X]=μ,      V[X]=σ2nE[\overline{X}] = \mu, \;\;\; V[\overline{X}] = \frac{\sigma^2}{n}
正規母集団 N(μ,σ2)N(\mu,\sigma^2) の標本分布

大きさnnの無作為標本の標本平均 X\overline{X}N(μ,σ2n)N(\mu,\frac{\sigma^2}{n}) に従う

中心極限定理

母平均 μ\mu、母分散 σ2\sigma^2 の母集団から大きさ nn の無作為標本を抽出

\Longrightarrow nn が大きいとき、X\overline{X} は近似的に正規表現 N(μ,σ2n)N(\mu,\frac{\sigma^2}{n}) に従う

χ2\chi^2 分布

上限 α\alphaχn2(α)\chi_n^2(\alpha)     \iff P(Xχn2(α))=αP(X \ge \chi_n^2(\alpha)) = \alpha

正規母集団 N(μ,σ2)N(\mu,\sigma^2) から大きさ nn の無作為標本を抽出

\Longrightarrow (n1)U2σ2\dfrac{(n-1)U^2}{\sigma^2} は自由度 n1n-1χ2\chi^2 分布に従う

tt 分布

上限 α\alphatn(α)t_n(\alpha)     \iff P(Xtn(α))=αP(X \ge t_n(\alpha)) = \alpha

正規母集団 N(μ,σ2)N(\mu,\sigma^2) から大きさ nn の無作為標本を抽出

\Longrightarrow XμU2/n\dfrac{\overline{X}-\mu}{\sqrt{U^2/n}} は自由度 n1n-1tt 分布に従う

FF 分布

上限 α\alphaFm,n(α)F_{m,n}(\alpha)     \iff P(XFm,n(α))=αP(X \ge F_{m,n}(\alpha)) = \alpha

N(μ1,σ2),N(μ2,σ2)N(\mu_1,\sigma^2),\, N(\mu_2,\sigma^2) から大きさ nn の無作為標本を抽出

\Longrightarrow U12U22\dfrac{U_1^2}{U_2^2} は自由度 (n11,n21)(n_1-1, n_2-1)FF 分布に従う


4. 推定と検定

母平均の区間推定

正規母集団で母分散 σ2\sigma^2 が既知のとき(ただし,zα/2z_{\alpha/2} は標準正規分布の上側 α/2\alpha / 2 点)(正規母集団でなくても nn が大きければ、σ2\sigma^2 に不偏分散 u2u^2 を代入しても良い)

xzα/2σ2nxx+zα/2σ2n\overline{x} - z_{\alpha/2} \sqrt{\frac{\sigma^2}{n}} \le \overline{x} \le \overline{x} + z_{\alpha/2} \sqrt{\frac{\sigma^2}{n}}

正規母集団で母分散 σ2\sigma^2 が未知のとき

xtn1(α/2)u2nxx+tn1(α/2)u2n\overline{x} - t_{n-1}(\alpha/2) \sqrt{\frac{u^2}{n}} \le \overline{x} \le \overline{x} + t_{n-1}(\alpha/2) \sqrt{\frac{u^2}{n}}
母分散の区間推定

正規母集団のとき

(n1)u2χn12(α/2)σ2(n1)u2χn12(1α/2)\frac{(n-1)u^2}{\chi_{n-1}^2(\alpha/2)} \le \sigma^2 \le \frac{(n-1)u^2}{\chi_{n-1}^2(1-\alpha/2)}
母比率の区間推定

二項母集団で nn は大きいとき

p^zα/2p^(1p^)npp^+zα/2p^(1p^)n\hat{p} - z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \le p \le \hat{p} + z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

統計的検定

仮説と検定
  1. 有意水準(危険率)α\alpha を定める。
  2. 帰無仮説 H0H_0 と対立仮説 H1H_1 を設定する。
    • H0H_0 : θ=θ0\theta = \theta_0
    • H1H_1 : θθ0\theta \ne \theta_0 (両側検定) θ>θ0\theta > \theta_0 (右側検定) θ<θ0\theta < \theta_0 (左側検定)
  3. H0H_0 を仮定して、検定統計量 XX の実現値 xx を求める。
  4. pp 値または棄却域の方法により、H0H_0 を棄却するかどうかを判断する。
    • pp 値 … XXxx より外れる確率(α\alpha より小さければ棄却)
    • 棄却域 … 棄却域に入る確率が α\alpha となる XX の範囲
  H0H_0 が真 H0H_0 が偽 (H1H_1 が真)
H0H_0 を受容 正しい判断 第2種の誤り
H0H_0 を棄却 第1種の誤り 正しい判断
色々な検定
検定 前提条件 検定統計量 確率分布
母平均 正規母集団で
母分散が既知
Z=Xμσ2/nZ = \dfrac{\overline{X}-\mu}{\sqrt{\sigma^2/n}} 標準正規分布
母平均 正規母集団で
母分散が未知
T=XμU2/nT = \dfrac{\overline{X}-\mu}{\sqrt{U^2/n}} 自由度 n1n-1tt 分布
母平均 nn が大きい Z=XμU2/nZ = \dfrac{\overline{X}-\mu}{\sqrt{U^2/n}} 近似的に標準正規分布
母分散 正規母集団 X=(n1)U2σ02X = \dfrac{(n-1)U^2}{\sigma_0^2} 自由度 n1n-1χ2\chi^2 分布
等分散 正規母集団 F=U12U22,  F=U22U12F = \dfrac{U_1^2}{U_2^2},\;F' = \dfrac{U_2^2}{U_1^2} 自由度 (n11,n21)(n_1 - 1, n_2 - 1)
FF 分布
母平均の差 正規母集団で
母分散が既知
Z=XYσ12/n1+σ22/n2Z = \dfrac{\overline{X} - \overline{Y}}{\sqrt{\sigma_1^2/n_1 + \sigma_2^2/n_2}} 標準正規分布
母平均の差 n1,n2n_1, n_2 が大きい Z=XYU12/n1+U22/n2Z = \dfrac{\overline{X} - \overline{Y}}{\sqrt{U_1^2/n_1 + U_2^2/n_2}} 近似的に標準正規分布
母比率 二項母集団で
nn が大きい
Z=P^p0p0q0/nZ = \dfrac{\hat{P} - p_0}{\sqrt{p_0 q_0 / n}} 近似的に標準正規分布

参考文献