統計学 t検定の仕組み


仮説検定において,分散が未知の場合には,「t検定」を使います.
t検定の仕組みをまとめます.

目次【本記事の内容】

t検定

母集団の平均\(\mu\)を仮説検定で検証する場合,母集団から\(n\)個のデータを取り出し,
サンプル標本\(\bar{x}\)を計算します.
$$\bar{x} = \displaystyle \frac{1}{n} \displaystyle \sum_{i=1}^{n}x_i$$
中心極限定理より,サンプル平均は正規分布に従います.$$\bar{x}\sim N\left (\mu,\displaystyle \frac{\sigma^2}{n}\right )$$これを標準化することで統計量を\(z\)として,$$z=\displaystyle \frac{\bar{x}-\mu}{\sqrt{\frac{\sigma^2}{n}}}\sim N(0,1)$$

これにより,母集団の平均\(\mu\)の検定をサンプル平均\(\bar{x}\)から行えます.

しかし,母集団の分散\(\sigma^2\)が今,分かりません.

仕方がないので,母集団の分散をサンプルから推定します.

不偏分散\(S^2 = \displaystyle \frac{1}{n-1} \displaystyle \sum_{i=1}^{n}(x_i-\bar{x})^2\)は分散\(\sigma^2\)の不偏推定量です.

これを用いることで,\(\sigma^2\)を\(S^2\)で置き換えると,$$t=\displaystyle \frac{\bar{x}-\mu}{\sqrt{\frac{S^2}{n}}}\sim t(n-1)$$\(t\)は自由度\(n-1\)の\(t\)分布に従います.

なぜt分布に従うか?

t分布の定義より,うまく\(\sigma^2\)を消しているところがポイントです.

まずt分布の定義は以下です.

定義(t分布)確率変数\(Z\)と\(W\)が独立で,\(Z\sim N(0,1),W\sim \chi^2 (p)\)とする.このとき,\(X = \displaystyle \frac{Z}{\sqrt{\frac{W}{p}}}\)が従う分布を自由度\(p\)のt分布という.

ここで,\(\chi^2\)はカイ2乗分布です.
t分布は上記のような標準正規分布とカイ2乗分布によって作られる確率変数の分布として計算されています.

そして,不偏分散から分散を区間推定する際に有用な次の定理があります.

定理\(S^2\)を不偏分散とする.$$\displaystyle \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$$

これらにより,標準化した統計量\(z\)から未知の\(\sigma^2\)をうまく消して,不偏分散\(S^2\)で代用することが可能です.

今,
確率変数\(Z\)として,\(\displaystyle \frac{\bar{x}-\mu}{\sqrt{\frac{\sigma^2}{n}}}\sim N(0,1)\),
確率変数\(W\)として,\(\displaystyle \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\)
とすると,$$t = \displaystyle \frac{Z}{\sqrt{\frac{W}{n-1}}}=\displaystyle \frac{ \frac{\bar{x}-\mu}{\sqrt{\frac{\sigma^2}{n}}}}{\sqrt{\frac{S^2}{\sigma^2}}}=\displaystyle \frac{\bar{x}-\mu}{\sqrt{\frac{S^2}{n}}}\sim t(n-1)$$このように,うまく\(\sigma^2\)が消えて,t分布に従うことが分かりました.

==================================

にほんブログ村ランキングに参加しています.

クリックで応援よろしくお願いします.

にほんブログ村 科学ブログ 数学へ

にほんブログ村

==================================

2件のコメント

    1. 通りすがりさん

      ありがとうございます。
      最後のpとなっていた部分をn-1に修正させていただきました。

通りすがり へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です