会社の同僚の方とたまに自然科学研究会なるものを開催しております。
自然科学のあるテーマに沿って自由にプレゼンするものです。
第二回では私は「生活の中の数学」というテーマでプレゼンしました。
今回は,視聴率の計算に使われている統計学の話をします.
視聴率って,全世帯のテレビを調査している訳ではありませんよね.なぜ一部の世帯だけの調査で良いのか,その精度はどのくらいなのか,統計学に基づく理論を分かりやすく解説します.
視聴率とは番組を見る人の割合
視聴率とはその番組を見ている人の割合です.
なので,全世帯を調査してそのうち見た人を集計すれば良いわけです.
ところが,関東地方だけでも1,600万世帯ほどあるそうです.
全ての世帯を調査しようとすると,お金も時間もかかってしょうがありません.
そこで,全世帯から一部のサンプルを取って,そのサンプルの中で見ている世帯の割合を視聴率としております.
正規分布
ここで,多くのデータには発生する確率の分布というものがあります.
例えば,日本人20歳代の男性の身長はどのくらいか?と言われると,何となく170cmくらいだと考えられ,150cm未満や190cmより大きい人は稀だと予想できます.
つまり,この身長の分布は170を中心に左右になだらかな分布になりそうです.
これが正規分布というものです.
正規分布を式で書くと,$$f(x) = \frac{1}{\sqrt{2\pi} \sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$
\(x\):データ
\(\mu\):平均
\(\sigma\):標準偏差
\(e\):ネイピア数(定数)
標準偏差とは,データのばらつき具合のことです.
正規分布は平均値と標準偏差によって定まる分布です.
サンプルとして,適当に平均身長170cm,標準偏差5cmとして身長の分布を表してみます.
このような分布のモデルは,もちろん確率的なものなので,実際のデータとは誤差が生じます.それでも,大まかには正しいわけです.
つまり現実的には,この正規分布でデータのばらつきを理解するには事足りるということです.
正規分布は社会の多くのデータの分布をうまく表現しています.
視聴率も正規分布に従う
では,視聴率が従う分布はどのような分布なのでしょうか.
ここで,統計学で重要とされる,次の事実があります.
それは中心極限定理というものです.
これは驚くべき定理で,噛み砕いていうと,どんな分布に従っているか分からないデータでも,それらの平均値は,正規分布に従ってしまうというものです.
視聴率とは,観ている人の平均でした.観た人が何人いるかの分布は分からなくても,その平均(=視聴率)は正規分布に従っていると言えます.
また,正規分布は平均と標準偏差が分かれば定まる分布だったので,視聴者のサンプルから,擬似的な平均(=視聴率)と標準偏差(=データのばらつき)を計算し(これは簡単に計算できる),本来知りたい全体(関東1,600万世帯)の視聴率の分布を得ることができます.
信頼区間
ところが,この考えはランダムなサンプルから計算された(仮の)平均と標準偏差を使っています.そのため,サンプルの偏りにより真の平均との誤差が生じてしまいます.
そこで統計学では,信頼区間という考えを使います.信頼区間が95%とは,真の平均(母集団の視聴率)が,サンプルから作った正規分布の95%区間の間に入っているというものです.
正規分布を作ると,この中の95%信頼区間が見えてきます.この青斜線の中に真の平均(母集団の視聴率)があるだろうと言っています.
真の視聴率(関東1,600万世帯の視聴率)を\(p\)とすると,今,サンプルの世帯から擬似的に視聴率を計算しているので,それを\(\hat{p}\)とします.すると,
このような正規分布が得られます.ただしこの正規分布の平均値と標準偏差は,サンプルによって計算されたものです.
このように,取ったサンプルによって,正規分布に違いが生じてしまいますが,95%の確率では,この区間の間に,真の平均値も入っているということです.
サンプル数をいくつにすればよいか?
以上のように,視聴率とはサンプルから計算された正規分布の95%信頼区間にあるだろうという計算なのですが,サンプルの数が増えれば増えるほど,当然サンプルの平均値も真の値に近づきます.
では具体的にどのくらいのサンプル数であれば,よいのかを計算してみます.
まず,正規分布(正確には標準化した正規分布)から真の値\(p\)の95%信頼区間を求めます.
真の平均を\(p\),サンプル平均を\(\hat{p}\),サンプルの数を\(n\)とすると,標準偏差は,$$\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$となります.
次に,サンプル平均\(\hat{p}\)を標準化すると,$$\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}$$であり,これが期待値 0,標準偏差 1の標準正規分布に従います.標準正規分布の95%信頼区間は,$$-1.96 〜 1.96$$であることが計算されています.したがって,誤差は次で計算されます.
$$誤差 \hat{p} -p = \pm 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$
ここで,二次関数の最大値を考えると,\(\hat{p}(1-\hat{p}) \leq 0.25\)と評価することができます.
よって,視聴率の誤差を\(\pm\)最大4%に抑えようとすると,次のようなサンプル数が必要ということがわかります.
$$誤差 \hat{p} -p = 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$$$\leq 1.96 \sqrt{\frac{0.25}{n}} \leq 0.04$$$$∴ n \geq \left( \frac{1.96×\sqrt{0.25}}{0.04}\right)^2 = 600.25$$
よって,600世帯をサンプリングすれば,\(\pm\)最大4%で視聴率を計算することができるというわけです.
さいごに
ビデオリサーチ社の視聴率調査では,視聴率の許容する最大誤差を4%と設定して,600世帯をサンプリングしているようです.
統計学は,少ないサンプルで母集団をどのように計測するかの学問です.視聴率や政治の支持率,投票の出口調査など社会でも密接に関わりがありますし,自然科学でも活用されております.