There are more than 15,000,000 families in Tokyo area. TV viewer survey is performed with 600 families as samples in this region. One wonders whether 600 families are enough as representative of Tokyo area
Statistics tells us the TV viewer survey should be understood with an error bar. The error bar can be calculated with the following equation;
error bar = ±1.96×( p×(1-p)/n)^(0.5) with 95% confidence level(CL),
or
error bar = ±2.58×( p×(1-p)/n)^(0.5) with 99% CL,
where n is a number of effective samples and p is the rate. If we put n=600 and p=0.2, then the rate should be understood (20±3.2)% with 95%CL, which means that the rate is located between 16.8% and 23.2% in the probability of 95%. It is interesting that the case of 50% rate has the largest error of ±4.0%.
Now one can understand that why 600 families are picked up. If one likes to have 10 times better accurate rate, number of sampled families should be increased 100 times, then 60,000 families have to be surveyed. It costs much.
Sampling of 600 families seems to be so tiny, but the result from 600 families has enough meaning with an error bar of 3% or 4%. Conversely, it is stupid to assign great value to the difference of the rate in a few-percent level.
TV viewer rate has another good example of the error bar has important role to read the data. One needs to pay attention to the error bar more. It even has an essential role for physicists to see the results from experiments.
関東には1500万世帯以上が住んでいますが、テレビ視聴率はなんと600世帯からのデータで計算されています。600世帯の調査で、1500万世帯の動向がわかるなんて、どういうこと?と思いますよね。
ところが統計学に基づくと600世帯で十分意味があることがわかります。というのも、視聴率はその誤差を伴って初めて意味があるということです。その視聴率の誤差は次の公式で計算できることがわかっています。
誤差の大きさ= ±1.96×( p×(1-p)/n)^(0.5) (ただし、95%の信頼度で) ,
または、
誤差の大きさ= ±2.58×( p×(1-p)/n)^(0.5) (ただし、99%の信頼度で),
ここで、nが有効回答数、あるいは視聴率の場合は調査対象となった世帯数に対応し、p はその調査の結果得られた視聴率を表します。もし視聴率が20%でしたという報告があったとき、上の式にしたがって計算すると、95%の信頼度で、視聴率は(20±3.2)%と誤差棒つきで考えることとなります。その意味するところは、600世帯のセットを変えて、100回の調査を実行したら、そのうちの95回の結果は16.8%から23.2%の間に入ってくるでしょう、という予測をしているということです。この式で面白い点は、視聴率が50%のときが4%と一番誤差棒が大きくなるということです。
この式を見ると、何故600世帯が代表と考えられるのかがわかります。もし誤差棒を10分の1に縮めたかったとすると、それまでのサンプリング数を100倍にして調査を行う必要が起きてしまいます。というのも、式の中でサンプリング数が平方根の中に入っているからです。すると6万世帯に自動聞き取り装置を設置しないといけなくなり、たいへんコストがかかってしまい、現実的ではない、となるわけです。
誤差棒が3~4%ついているのだと理解して視聴率を眺めれば、600世帯を対象とした調査にも十分な意味があることです。前回少し誤差棒の重要性に触れましたが、データを見るとき、もっと誤差棒に注目する必要があります。物理学者にとっては結果の中央値よりも誤差棒の大きさ、また、どの理由からその誤差棒がついているか、の点に意識を払っています。