陌上美国
Telegram加群(下载app修改privacy设置;拷贝群地址用浏览器打开(微信打开无效);点击“join/进入”)
https://t.me/joinchat/AAAAAE-W0yNiS6DIlGHsKA

Telegram channel,欢迎订阅:
https://t.me/MoshangUS
自从今年6月份美国的疫情在经历了3个月的恐怖蔓延之后逐渐趋于平稳,于是,美国的大选也进入了紧张的广告宣传和集会造势阶段,其中,各种民调结果发布扮演着重要的推波助澜的角色。
然而,由于2016年美国民调机构在大选预测中出现普遍的失误,因而,很多人对2020年的民调结果普遍抱有怀疑的态度,当然,也有一部分人出于支持民主党的立场,继续挺民调结果,造成人们对此问题的进一步认知混乱。
为此,本文主要从社会调查的技术角度来分析2016年的民调为什么会失误?以及这些造成这些失误的原因是否已经得到消除?是否还存在其他系统性误差?
01.民调的历史
据资料显示,最早的民意调查大概可以追溯至19世纪初。1824年7月,美国哈里斯堡的《宾夕法尼亚人报》在读者中进行了第一次“无党派偏见的”大选模拟投票。结果显示,安德鲁.杰克逊获得335票,亚当斯159票,克雷获得19票,克劳福德获得9票。不久,北卡罗来纳州的《罗利星报》也进行了一次类似的调查,得到相似的结果,而这和3个月后的总统大选结果完全一致,只不过获得最多普选票的杰克逊最后并没有当上总统(与2016年希拉里的情况相似)。
自此之后,民意调查逐渐流行起来。4年后(1828年)总统大选再次举行时,各州报纸都开始刊登自己的民意调查,对选情进行预测和报道。对报纸来说,民意调查是一个全新的新闻金矿,从中可以挖掘出无穷无尽的报道资源,并且,这些新闻都兼具戏剧性与客观性,非常符合读者的胃口。因此,在19世纪,报纸都致力于举办和报道民意调查,以此来增加读者群和广告收入。
《宾夕法尼亚人报》开创的民意调查方式被称为straw poll。Straw既有稻草的意思,也常用来暗示风向,因而,有人把straw poll翻译为“草根民调”。草根民调的参与者都是地方报纸的读者,因而不可避免地具有片面性和不准确性。例如,1896年,芝加哥的一份报纸进行了一次总统竞选的意向投票,报纸发行地区的选民均可以邮寄问卷的方式参加。报社最后回收了25万份问卷,统计结果预测麦金利获胜。此次“草根民调”在芝加哥的预测值与实际值只有0.04%的偏差,但在芝加哥以外的地区预测都失败了——这也就是政治学中的一个定理,政治具有本地化特征。
民调历史中还有一个标志性的事件发生在1936年,那年,民主党候选人罗斯福对战共和党候选人阿尔夫·兰登。《文学文摘》杂志此前曾准确预测过5次总统选举结果(1916年伍德罗·威尔逊当选、1920年沃伦·哈丁当选、1924年卡尔文·柯立芝当选,1928年赫伯特·胡佛当选、1932年富兰克林·罗斯福当选)。所以,在1936年大选期间,《文学文摘》根据各地的电话号码簿共邮寄出1000万份问卷,回收了230万份,样本数量确实很大,由此,《文学文摘》做出预测,共和党候选人阿尔夫·兰登将会战胜罗斯福当选总统。但结果却是罗斯福获得了压倒性的胜利——在48个州中胜出46个,普选票也拿到了60%多。
问题出在哪里?原来是《文学文摘》的抽样框出了问题,因为《文学文摘》的抽样框使用的电话号码簿(俗称黄页),而当时美国的电话普及率不到40%,当年能装得起电话的往往都是较富裕的阶层,同时持保守立场的共和党选民,而支持罗斯福的广大工人群体基本被排除在调查范围之外,由此,在样本上就造成了显著偏差。《文学文摘》遭到这样的惨败和羞辱,不久之后就宣告破产了。
与此同时,成立于1935年的盖洛普只用了5万个样本,就得出了完全相反的结果。其采用的办法就是分层随机抽样,使调查样本更符合当时美国的人口统计学特征,从而使它的大选预测结果更为准确,盖洛普也由此一举成名,逐步成长为美国知名的民调机构。盖洛普创始人乔治·盖洛普也被视为民调科学化的代表性人物,其本人更是留下这样的名言:“抽样民意调查就是那根给‘民主脉搏’把脉的手指”,而民意调查作为一项社会学和政治学的实证研究手段也由此逐渐发展和成熟起来。
02.影响民调准确性的因素
一次成功的民意调查取决于很多因素,其中,各种误差的存在就会对调查结果产生重大影响。从民调操作的程序上说,它一般分为三个阶段:1、研究设计阶段;2、调查实施阶段;3、统计分析阶段,与此相对应的就是存在三种误差:抽样误差、访问误差、统计误差。
1、在研究设计阶段,主要是进行抽样设计和问卷设计,其中,抽样设计是最关键的,因为,它决定了整个民调究竟是遵循等概率抽样原则,还是实行非概率抽样方法,从而也就决定了调查结果能否推断总体。从社会调查和统计学的角度来说,只有等概率抽样的随机调查结果,才可以进行总体推断;而非概率抽样的偶遇调查结果,是不可以推断总体的,因为,非概率抽样会造成样本偏差,美国称之为“覆盖错误”,也就是中国常说的抽样误差。
民意调查中传统的等概率抽样方法,就是盖洛普在1936年发明使用的分层随机抽样方法,它后来也成为民调的基本方法,如在入户调查时演变成为多阶段混合抽样方式(PPS)。但是,自从大规模采用电话调查以来,等概率抽样设计就表现为在电话号码簿(俗称黄页)或手机用户数据库中进行等距抽样, 或采用随机数字拨号方法(RDD)。如今,当网上调查兴起的时候,等概率抽样设计就比较困难,在大多数情况下,只能采用事先的配额表来进行筛选访问或自愿填答。但是,总的来说,由于现代人们对民意调查越来越漠然,民意调查的拒访率越来越高,导致精密的等概率抽样设计根本无法实现。
例如,在对2016年的美国民调失误进行反思时,很多调查机构发现,在他们调查的样本中,被访者的文化程度普遍高于人口普查资料中实际的文化程度分布情况。由于假设受教育程度越高的人,越容易倾向民主党,因而,导致民调结果都偏向希拉里。而之所以出现样本偏差,就是在一开始,各民调机构没有考虑到由于在调查实施阶段的高拒访率,导致那些愿意接受访问的高文化程度者大量进入了访问过程。
为此,2020年在进行民调数据处理和统计时,各民调机构开始在文化程度变量上对原始数据进行事后加权,试图校正抽样误差。问题在于,为了校正抽样误差,民调机构越来越喜欢采用事后加权的方法,导致进入加权的变量从最初的性别、年龄、族裔3个变量,逐渐增加到12个变量。例如,盖洛普与《纽约时报》和锡耶纳学院(SienaCollege)合作的民意调查就分别对8-10个变量进行了调整,而皮尤研究中心的民意调查会针对12个变量进行调整。于是,民调不再是纯粹的社会调查,而变成了一种“调味”的艺术,失去了它最真实的原始意义。
2、在调查实施阶段,这时,最重要的目标就是要保证访问的成功率,以及数据的完整性(不得漏答)和真实性(必须真实反映被访者意愿),而一旦这些目标出现失控,就会发生访问误差,美国称之为“无回应样本数”。在访问误差中,目前民调机构面临的最大问题,就是拒访率不断上升。根据皮尤中心的数据,美国1997年接听电话调查的比例在37%,20年后已经跌到区区7%。由于拒访率太高,等概率的抽样原则及其调查方法已经无法实现。
https://www.pewresearch.org/fact-tank/2019/02/27/response-rates-in-telephone-surveys-have-resumed-their-decline/
于是,一方面,传统的调查方式逐渐演进,从邮寄问卷调查,到入户调查,到定点拦截调查,到电话调查,到网上调查,就是希望采用更加便捷,更加节约成本、更加有效的方式接近被访者,以便获得成功的样本。目前,美国的民调机构主要采用电话调查和网上调查相结合的方式。但是,由于每种调查手段所对应的抽样框(符合条件的目标受访者的全体数据库)存在局限性,就将导致访问误差不可避免。例如,民调机构采用电话进行调查,这就需要固定电话(或手机)的普及率必须达到一定的程度;如果采用网上调查,也必须保证网民的普及率达到一定的程度,否则,就会有一部分符合投票资格的选民不能进入被访者的随机调查过程,造成样本出现偏差。而实际上美国目前还没有实现农村地区全面通网。
另一方面,由于拒访率实在太高,很多民调机构为了保证获得足够的成功样本数,不得不采用偶遇调查法,或者以配额表选取样本的调查方式,来完成整个调查过程,然后再辅助以事后加权的方法。但是,正如前面所说,这种调查方式会造成样本偏差,因为在日常生活经验中,只有那些“闲人”或“好事者”愿意积极参与民意调查,而那些大忙人或害羞者就会拒绝或躲避民意调查,从而造成样本偏差。同时,由于采用事后加权方法,如果所使用的经验参数(权数)没有经过历史检验,也有可能导致加权失误,于是,民意调查结果也将随之发生偏差。
3、在统计分析阶段,这时,主要是对调查原始数据进行清理和逻辑检验,以保证数据的干净和有效性。问题在于,如果成功访问的样本数量没有达到最初设计的要求,或者最初设计的样本数量过小,就会发生统计误差,美国称之为度量错误。一般来说,一次全国性的民调所需的样本数为1076个,即假定置信度为95%,离散度为50%,误差率为3%。一些比较注重质量的民调机构为了保证调查的准确性,往往会在1076样本的基础上进行翻倍,即达到2200个样本。问题在于,很多小型的民调机构为了省钱,实际调查的样本并没有达到1000个,因而,其调查结果的统计误差是很大的。正因为如此,皮尤研究中心的康妮·肯尼迪在 2020年8月5日的《Factank》上撰文说,如果考虑到各种误差,“最近的一些研究表明,民意测验估计中的平均误差可能接近6个百分点,而不是典型误差幅度所隐含的3个百分点。”
所以,要做到一次成功的民意调查,真的是很难的,而且,即使不断通过改进抽样方法和调查方法,也仍然会存在一些另外的误差。例如,2020年大多数民调机构都对被访者的文化程度进行了事后加权,但这也只是校正了一部分的抽样误差,它仍然没有解决访问误差和统计误差的问题。所以,与各种误差作斗争将始终是民意调查机构不得不面对的任务。
03. 2016年美国民调失误的原因
2016年,由于对美国大选结果的预测失败,美国民调行业的形象陷入整体性崩塌,人们把民调开始称之为“不着调”。当然,在大选之后,各民调机构也在纷纷进行反思,试图找出失误的原因。
美国的民意调查由两部分组成:一是几百家民意调查机构和市场调查机构——包括主流媒体所设立的民意调查部门和大专院校中的民意调查研究所。其中,比较著名的机构包括:盖洛普、皮尤研究中心、美国民调公司、CNN、Fox News、《华盛顿邮报》与乔治梅森大学“沙尔政策与政府学院”的合作项目、哈佛大学“美国政治研究中心”与哈里斯民意观察(Harvard CAPS-Harris Poll)的合作项目、《华尔街日报》与NBC新闻联合民调(NBC News-Wall Street Journal poll)的合作项目,等等。实际上,从专业角度来说,真正能够反映和体现民调机构实力的,还是要看各民调机构独立的调查结果,就如1936年盖洛普所做的民调和预测那样。
二是美国有2家综合民调机构,一家是成立于2008年的538网站(FiveThirtyEight),取义来自美国有538个选举人。一家是成立于2000年的明鉴政治网站,简称RCP(Real Clear Politics)——网站创始人称,他们的目标是给读者提供“意识形态的多样性”。
这两个综合民调机构一般自己不开展独立的实地民调,而是对各家民调机构的数据进行收集和进一步的加工处理,从而得到最终的民调结果并进行发布,在某种意义上说,RCP和538发布的民调结果就相当于民调行业指数。
但是,RCP与538也有区别,例如,RCP在计算处理各民调机构的民调数据时,采用的是算术平均数;而538则会根据各家民调机构的历史表现、党派属性、民调方式(含样本数量、调查方式等)等因素赋予不同权重,再进行加权平均数的统计。但是,一般来说,算术平均数与加权平均数在结果上还是有一些差异的,这主要取决于样本中某个敏感样本的权重。
实际上,由于美国的民调机构大多具有党派属性和倾向,一些调查机构通过“设问引导”等方式来诱导被访者对本调查做出有利的回答,因而各种民调结果之间差异很大。为了解决这个问题,RCP和538采用平均数的方法,就是要对极端民调结果进行相互冲抵,从而减少或修正民调结果偏差。然而,由于美国民调机构总体上大多偏向民主党,所以,538公布的民调结果也就偏向民主党。例如,在2016年大选的前一天,538还在预测希拉里有91%的胜算,闹了个超级笑话——当然,这与538自己的民主党建制派立场也有关系。值得说明的是,立场一贯比较中立的盖洛普没有参加2016年的大选民调,所以,在538的2016年民调数据汇总时,也就不会有盖洛普的数据,从而也就失去了校正的机会。
所以,在美国,一方面,民调的成功率既取决于各民调机构自身调查的准确性,包括前面所叙述的抽样误差、访问误差和统计误差等;另一方面,民调的成功率也取决于RCP和538后期的数据处理方法和技术。当然,除了这两个方面的原因之外,美国针对大选进行的民调还存在着另外两个系统性误差。
第一,由于美国民调机构所进行的全国性民意调查,在样本数量设计时,往往采用1000-3000个的样本,因而,这样的样本量无法再对各州进行二级抽样设计,即它只能保证总样本量结构与各州人口比例相一致,却无法保证各州都拥有等量的样本来进行相互的比较分析。因为,按照统计学的要求,同级单位的抽样必须保证相同的样本量,从而才可以在相同的置信度、离散度和误差率情况下,对调查结果直接进行对比分析。
正是这样的抽样方法,这就使得全国性调查结果可以推断全国普选票的得票率,却不能推断各州的得票率。而美国大选结果的最终确定,却恰恰是由各州的选举人票数决定的,而这个选举人票数又是由各州选民的投票结果决定的。所以,从理论上说,全国性的民调只能反映全国的民意,但却不能反映各州的民意结果;如果研究者要了解各州的民意结果,只能进行单独抽样和调查。
第二、在美国,从法律上说,只要年满18岁的公民,都可以有资格参加总统选举,但是,美国各州(除北达科他州)又规定,选民必须事先办理注册登记手续,方能参加投票。于是,这就产生了一个问题:民意调查的抽样框究竟是以普通公民为基准,还是以注册选民为基准?根据统计数字显示,美国有3亿多人口,其中,18岁以上的成年人有2亿多,而注册选民只有1.3亿人(2016年有1亿多人参加了投票)。这样,在民调操作过程中,如果直接在注册选民中进行随机性的抽样调查,那么,调查结果的准确性就有可能较高;反之,如果就是在普通公民中进行随机性的抽样调查,那么,调查结果就有可能出现偏差。其中的原因在于:普通公民与具有政治倾向的注册选民在候选人选择上可能存在着某些差异,如人物形象偏好、族裔性别偏好,等等。
04民调的出
正是因为随着民调的难度越来越大,民调的结果也就越来越具有不确定性。一些为2016年民调失误辩护的人说,其实,2016年的民调并不算失败,因为,从普选票上来看,大选1周前538的加权平均数是希拉里领先川普3.2个百分点,而最后实际结果是2.1个百分点(希拉里得票65853514票,占48.2%,川普获62984828票,占46.1%),所以,这个结果并不证明民调失败。
问题在于,538的这个结果是在对差异较大的各民调结果进行加权和冲抵后的统计结果,它与单次民调所存在的3%统计误差关系不大。所以,当最后的结果出现失误时,这只能说明,各个民调机构本身的调查出现了问题。从理论上说,当各个民调机构的民调结果都出现了问题,那么,建立在这之上的综合民调机构的民调结果也一定会出现问题,这就是系统性误差问题,绝不是靠什么相互冲抵可以来予以辩解的,因为这种辩解毫无意义。
既然民调存在着很大的不确定性,那么,如何预测大选的结果呢?从目前的情况来看,那些研究美国大选的人,已经有越来越多的人开始使用预测模型来预测大选结果,而抛弃了民调结果,因为,建立预测模型需要更多的变量和历史数据更多,因而,预测结果也更为稳定和准确。
今年初以来,网上就流传着很多依靠预测模型来预测大选结果的文章,其中,有美国的学者,有英国的学者,还有中国的学者。有一个中国的学者,他建立的预测模型主要选取了这样一些变量,如各州人口、选民数量、两党党员数量、历史得票率、历史投票率等,然后进行综合评估。他在自己的微博上贴出了预测结果,以及他对2016年实际投票结果进行的比对,显示出一定的准确性。
所以,对于已经存在了200年的民意调查来说,一方面,它需要随着社会环境和人们生活方式的变化,不断完善其自身的抽样方法、调查方法和统计方法,从而使民意调查能够跟上时代发展的步伐。另一方面,人们对民调手段及其结果也不必再抱有迷信的态度,完全可以使用预测模型来研究大选中的民意呈现,使我们对大选的过程的认识更加多视角,多维度,也使得认知的结论更贴近事实。
2016年美国大选结束后,橡树基金资本创始人霍华德·马克斯曾撰文指出,从统计学角度看,大选民调其实根本没有显著的准确性。显然,他是悲观的态度。同样,对于2020年大选结果的预测,瞭望智库驻华盛顿研究员徐剑梅认为:“综合全美和摇摆州民调,2020年美国大选有一定可能再现4年前结局。”而复旦大学社会科学高等研究院的王中原在《2020,我们还能相信民调吗》一文中也认为,2020年的民调结果仍然可能跑偏。他们也是悲观的态度,但是,本文作者还是抱有乐观的期待,毕竟全世界应该有几百万人在研究和从事民调这个行业,他们有智慧来解决目前遇到的问题。
当然,在民调未来的发展过程中,还有一个重要问题,就是民调不应成为政治斗争的工具,这样,民调的结果就会离真实结果越近;否则,就会离真实结果越远。这就需要从事民调行业的人始终保持客观、中立、科学的态度和立场,不能丧失了自身的独立性,而沦为政治斗争的工具,从而使民调的公信力也丧失殆尽。
文章首发“陌上美国”的微信公号和电报频道,版权由“陌上美国”所有,未经许可严禁转载其他平台。违者将追究法律责任。
欢迎请小编喝杯🍵 
前文导读
艺术的庇护所
美国首席博主:警醒主义对自由民主制的空前挑战
”自由而无用”:毕业季最精彩演讲之一
拔丝学堂|癌症治疗中的常见问题和误区
有时候,道义比输赢更重要
从共和国到合众国
奠基复旦“学术独立,思想自由”灵魂的李登辉
参议员Tim Scott演讲:“我家从奴役苦工到国会议员,我相信美国现在和未来比从前更好!”
纽约客:一个时代的终结
刺激2020,绑架女州长
陌上美国客观快捷的时评,和美国生活资讯。欢迎扫码或者点击开头蓝字关注。如何联系我们?
工作号微信ID: moshangUS
收藏网址:
https://matters.news/@moshangUS
Telegram加群(下载app修改privacy设置;拷贝群地址用浏览器打开(微信打开无效);点击“join/进入”)
https://t.me/joinchat/AAAAAE-W0yNiS6DIlGHsKA
点击左下角“阅读原文”
继续阅读
阅读原文