2013年2月13日水曜日

サンプルは母集団の代表か?(閑話休題)

しばらく、統計学のやや込み入った話が続いていますので、今回は「25件のサンプルの話」から少し離れた話題を取り上げます。

第1回目で、サンプルが母集団(Population)の代表とならない(偏ったサンプルの)例として、毎朝校門の前で行う大学生の出身地のアンケート調査を取り上げました。今回は、偏ったサンプルとして有名な、米国の大統領選挙の例をご紹介します。


■ 1936年 大統領選の予想

1936年の米国大統領選挙は、フランクリン・ルーズベルト(民主党)  とアルフレッド・ランドン(共和党)の一騎打ちとなりました。当時、大手雑誌であった「リテラリー・ダイジェスト」は、230万人の世論調査を行い、ランドンの当選(ルーズベルトの落選)を予想しました。

しかし、予想に反してルーズベルトが再選を果たしたのです。「リテラリー・ダイジェスト」の予想はなぜ外れたのでしょうか? この理由としては、「リテラリー・ダイジェスト」が選挙予想に用いたサンプルに問題があったと考えられています。


■ 偏ったサンプル

選挙が行われた1936年といえば、1929年に始まった世界大恐慌の最中です。このような厳しい経済情勢下で、「リテラリー・ダイジェスト」を購読している読者層というのはかなりの富裕層であったはずです。同社は選挙の予想に際して、購読者名簿を利用するとともに、電話や車を持っている人達も対象として(サンプル)調査を行いました。電話を持っている人には、電話による聞き取り調査が行われたようです。しかし、当時の電話の普及率は40%程度でしたから、電話を持っている層は主に富裕層だったはずです。さらに、車の所有者となればさらに裕福な人達だったはずです。結局、購読者を含め、富裕層を中心としたサンプルが集められたわけです。

「リテラリー・ダイジェスト」はこうした方法によって230万人もの膨大なサンプルを集め、このサンプルに基づいて当落予想を行いました。しかし、いくら沢山のサンプルを集めたといっても、同社が集めたサンプルは大半が富裕層という偏ったものでした。そして、富裕層には共和党支持者が多かったため、ランドンに有利な(ルーズベルトに不利な)調査結果になってしまったというわけです。集めたサンプルが米国の有権者(母集団)を代表していなかったわけです。


■ ギャラップ調査

これに対し、ルーズベルト再選を予想した会社がありました。ギャラップ調査で有名な「ギャラップ」社です。ギャラップ社は、サンプルの偏りが少なくなるように科学的方法を用いました。すなわち、所得、居住地、性別などの項目ごとに有権者を幾つかの(重ならない)グループに分けて、かつ、サンプルが偏らないようにして調査を行ったのです。結果、「リテラリー・ダイジェスト」社の1%にも満たないサンプル数で、的確な予想を行うことができたのです。

この結果を受け、ギャラップ社は一躍脚光を浴びることになり、以後、ギャラップは世論調査の代名詞となりました。一方、予測を外した「リテラリー・ダイジェスト」の評判は失墜し、経営難に陥った後に他社に買収されてしまいました。

「サンプルを何件集めるか」ということも重要ですが、(1)母集団を代表する(偏りのない)サンプルをどのような方法で集めるのか、あるいは、(2)集めたサンプルが本当に母集団を代表しているのかということも、非常に重要な検討項目です。

今回は以上です。


清水公認会計士事務所(Shimizu CPA Office

0 件のコメント:

コメントを投稿