世論調査は外れたのか?: 2020年アメリカ大統領選挙

今月初頭に行われたアメリカ大統領選挙において、4年前同様世論調査がトランプへの投票を過少に予測していたのではないかという指摘がされている。

英語ではそれなりに詳細な論考が出始めているが、日本語では (当然だが) 同様のものは見たことがない。

そこで、アメリカの世論を題材に博士論文を書こうとしている者として、自分の考えるところを少し記しておこうと思う。

世論調査は外れていた?

まず、接戦州における世論調査によるトランプへの支持と実際の得票率を比べてみる。
f:id:ike_og:20201116080631p:plain 上の表の1列目はEmerson Collegeによる選挙戦最終週の世論調査結果、隣の列はその標本誤差 (のようなもの) である。¹

表の3-4列目は、選挙戦最終週に各州でおこなわれた世論調査の重みづけ平均値及びその80%信頼区間である。² 世論調査の平均値を見るのは、仮に一つ一つの調査結果が外れていても、ズレが体系的でないならば複数の調査結果の平均値を見ることで真値に近い推定値を得られるからである。

最後に、表の5-7列目にはトランプの11月15日時点での実際の得票率及び世論調査による予測値との差をまとめた。³

上の表から、接戦州すべてでトランプの得票率が過小評価されていたことがわかる。多くは標本誤差内だが、接戦州すべてで得票を少なく見積もる確率はかなり低いので、何らかのバイアスがかかっている可能性が高い。

また、フロリダ、アイオワ、オハイオ、ウィスコンシンでは標本誤差を考慮しても世論調査結果と得票率との差が大きい。

以上から、残念ながら今回も世論調査は外れていたといわざるを得ないだろう。

なぜ世論調査は外れるのか

国勢調査などとは異なりすべての人から回答を得るわけではないため世論調査の結果は必然的に「外れている」わけだが、こうしたズレはサンプリングがきちんとした手続きにより行われているのであればどちらか一方に働くことはない。

では、なぜトランプへの支持が体系的に低く推定されたのだろうか?

メディアなどでは○○という集団の動向を捉えられなかった、などという説明がされることが多いが、ここではもう少し抽象的に方法上の問題を考えてみる。

非回答バイアス/回答者の偏り: 世論調査の回収率は近年非常に低くなっており、アメリカでは電話調査だと10%を下回ることが多い。また、選挙世論調査においても調査会社の登録者パネルのような便宜的なサンプルを用いることも多い。このような場合、世論調査に回答した人がそうでない人と比べ体系的に異なる意見を持っている可能性がある。
Likely Voter: アメリカの選挙世論調査では、投票する確率が高い有権者 (likely voter) における支持の分布に注目する。Likely voterの推定については様々な方法上の改善はされているだろうが、今回のように投票率が予想外に高い選挙においては誰が投票に行くかをうまく捉えれらない可能性がある。
投票先未定者: 有権者の中には投票日直前に誰に投票するかを決める人もいる。選挙前の世論調査は彼らの選好を捉えるのが難しい。
隠れトランプ支持: 世論調査回答者が社会的な望ましさなどの理由から真の選好を隠す場合がある。
選挙予測の副作用: これは調査方法自体の問題ではないが、世論調査や選挙予測の結果を見て投票行動を変化させる有権者がいる可能性がある(e.g., Rothschild and Malhotra 2014; Westwood et al. 2020) 。

上記の中で最も深刻なのは非回答バイアスだろう。投票先未定者については2016年の世論調査が外れた理由の一つと考えられている (AAPOR 2016) が、今回は投票先を決めていない世論調査回答者の割合が低かったことが指摘されている (Cohn 2020)。隠れトランプ支持については、リスト実験を用いた研究により否定的な結果が報告されていること (Coppock 2017)、またトランプが3年以上大統領を務めた後で彼への支持を隠す理由が薄いことなどから、あまり有力な説明とはいえないだろう。

補正の難しさ

世論調査結果がズレていても、事後的に補正できるのでばそれほど問題ではない。

非回答バイアスに対処するためには、ウェイトを用いることが多い。ただし、ウェイトによる補正は必ずしもうまくいくとは限らない。

Bailey (2019) によると、ウェイトによる補正は世論調査に回答するか否かが調査への (潜在的な) 回答内容と無関係である必要がある。⁴ 例えば、若年層における世論調査の回収率は低くなる傾向がある。もし調査に回答した若者がそうでない若者と同じ程度トランプを支持しているのならば、ウェイトを使うことで非回答バイアスに対処できる。しかし、世論調査に回答してくれる若者は「変わった」人たちであり、調査に回答しない若者とトランプについて異なる意見を持っている可能性も高い。その場合、ウェイトを使うと「変わった」若者の重みを大きくすることでバイアスを強化してしまう危険性がある。

ではウェイトを使った補正がうまくいくのか、実際に見てみる。以下の表は今年の10月上旬から中旬にかけて行われたNPR/PBS NewsHour/Marist Pollの結果を示したものである。⁵

実際の選挙ではバイデンが51%弱、トランプが47%強の票を獲得していることを考えると、ウェイトをかけることでトランプへの得票がより過少に推定されてしまうことがわかる。

ウェイトによる補正の難しさは州レベルの世論調査においても同様である。最近行われた州レベルの調査の個票データが入手できなかったので、ここでは2016年の選挙前にフロリダ、ノースカロライナ、ペンシルヴァニアの各州で行われたNew York Times/Siena College Pollのデータを用いる。⁶ ウェイトはAmmerican Community Survey (ACS) 及びCurrent Population Survey (CPS) に基づき筆者が作成した。⁷

上の表を見ると、ウェイトをかけることですべての州でトランプへの支持が上方修正されているのがわかる。ただし、フロリダではトランプへの支持が過大に推定されてしまっている。また、ウェイトを用いてもペンシルヴァニアではトランプへの支持はクリントンへの支持よりも少ないままである。

ここで示したのは一例だが、調査回答者の偏りの事後補正がそれほど簡単ではないことがわかると思う。

ではどうしたらいい?

現在のところ非回答バイアスへの有効な対処法は残念ながらないように思われる。

ただし世論調査の質にかかわる問題なだけに、今後研究が発展していくことが予測される。

おそらく事後的な補正を可能にするため、何らかの方法で実験的に回答者に誘因を与えるような設計 (Bailey 2019はその一例) をする必要があるだろう。

いずれにせよ世論調査データを用いるものとして、注目していきたいと思う。

Emerson Collegeの世論調査を選んだのは、データの質に一定の評価があること、及び接戦州すべてで選挙戦最終週に調査を行っていたこと、の2点による。データはEmerson College Pollのホームページより取得した。なお、「のようなもの」と書いたのは、Emerson Collegeの調査は一部の回答者が通常の方法でサンプリングされておらず、代わりにAmazon’s Mechanical Turkを用いて集められているため、厳密な意味で標本誤差を計算することができないからである。↩
データはFiveThirtyEightの選挙予測特設サイトから取得した。FiveThirtyEightは世論調査のみならず失業率など他の要因も含めて選挙予測を行っているが、選挙戦最終週の予測は世論調査結果にのみ基づいていることから、FiveThirtyEightの予測値を世論調査の平均値として扱う。↩
選挙結果はDecision Desk HQのホームぺージより取得した。↩
Bailey, Michael. 2019. Designing Surveys to Account for Endogenous Non-Response. Unpublished Manuscript.↩
データはRoper CenterのiPollデータベースよりタウンロードした。↩
データはここからダウンロードした。↩
ウェイトの作成に当たっては、性別、年齢、人種、及び教育程度を考慮した。またACSとCPSのデータはIPUMS NHGISのサイトから入手した。↩

ikeの日記

しがない研究者の雑記。

世論調査は外れたのか?: 2020年アメリカ大統領選挙

世論調査は外れていた?

なぜ世論調査は外れるのか

補正の難しさ

ではどうしたらいい?