統計検定準1級に合格するには,短い時間内に大量の処理をする必要があります.
それには過去問を素早く解く練習が適しています.
問題を解く際に覚えておくべき期待値,分散,共分散,相関係数,変動係数の基本公式をまとめました.
合格にはまずはこれらを公式として暗記しすぐに計算できるようにします.
定義(期待値,分散)
期待値(連続):\(E[X]=\displaystyle \int_{-\infty}^{\infty}xf(x)dx (=\mu)\)
分散(離散):\(V[X]=E\left [(X-\mu)^2 \right ]=\displaystyle \sum_{i=1}^{n}(x_i-\mu)^2p_i (=\sigma^2)\)
分散(連続):\(V[X]=E\left [(X-\mu)^2\right ]=\displaystyle \int_{-\infty}^{\infty}(x-\mu)^2f(x)dx (=\sigma^2)\)
標準偏差:\(\sigma = \displaystyle \sqrt{V[X]}=\displaystyle \sqrt{\sigma^2}\)
基本は常に定義に戻れるように暗記する.
機械的に覚えるというより,定義の意味を覚える.
期待値は,起こり得るデータ(値)とその発生確率をかけて和をとったもの.
これは1回の試行で得られるデータ(値)の平均値を表す.
分散は,データのばらつきの期待値です.
“ばらつき”というのは,平均(期待値)とどれだけずれているかで表現するが,\(X-\mu\)としてしまうと,正のばらつき,負のばらつきが打ち消しあってしまうため,二乗\((X-\mu)^2\)とする.
標準偏差は,分散のルートをとったもの.
ルートを取ることにより,2乗していた次元を落とし,元のデータや期待値と単位を合わせることができる.
分散の計算には次を使う.
これは証明とともにおさえる.
証明:
$$V[X]=E\left [(X-\mu)^2 \right ]$$$$=E\left [X^2-2\mu X+\mu^2 \right ]$$$$=E[X^2]-2\mu E[X]+\mu^2E[1]$$$$=E[X^2]-2\mu^2+\mu^2$$$$=E[X^2]-\mu^2$$ここで,\(E[1]\)は全ての確率の和なので,全事象1である.
■
定義(共分散,相関係数)
共分散:\(Cov(X,Y)=E\left [(X-\mu_X)(Y-\mu_Y)\right ]=\displaystyle \frac{1}{n}\displaystyle \sum_{i=1}^{n}(x-\mu_x)(y-\mu_y) (=\sigma_{xy})\)
相関係数:\(\rho = \displaystyle \frac{Cov(X,Y)}{\sqrt{V[X]}\sqrt{V[Y]}}=\displaystyle \frac{\sigma_{xy}}{\sigma_x\sigma_y}\)
共分散の定義より,
データ\(X,Y\)が両方ともに期待値より正に大きくずれることが多い場合,共分散は大きな正の値になる.
データ\(X\)が期待値より正(負)に大きくずれ,データ\(Y\)が逆に期待値より負(正)に大きくずれることが多い場合,共分散は大きな負の値になる.
つまり,共分散は,2組の対応のあるデータ\((X,Y)\)の動きのが同じかどうかを見る指標となり,相関関係があるかどうかと言える.
共分散\(Cov(X,Y)\)が正に大きい\(\Leftrightarrow\)\(X\)が大きいとき,\(Y\)も大きい\(\Leftrightarrow\)正の相関がある.
共分散\(Cov(X,Y)\)が負に大きい\(\Leftrightarrow\)\(X\)が大きいとき,\(Y\)は小さい\(\Leftrightarrow\)負の相関がある.
共分散\(Cov(X,Y)\)の絶対値が小さい\(\Leftrightarrow\)\((X,Y)\)に相関がない.
ただし,共分散は相対的な値になるため,実際に相関を調べるには,相関係数を用いる.
相関係数は,共分散を\(X\),\(Y\)の標準偏差で割っており,単位はない(無次元).
また次が成り立つ.$$-1\leq \rho \leq 1$$
共分散の計算方法3つおさえる
共分散の計算方法は3つおさえておく.
問題に合わせて選択する.定義通りに計算することは稀である.
変動係数
問題でたまに変動係数を聞かれることがあるので覚えておく.
変動係数は,標準偏差を平均で割ったもので,平均で割ることで,異なる集団のばらつきを比較できる.
さいごに
これらの定義,公式は過去問を解きながら慣れましょう.全てはここからです.