“慈善发展机构乐施会调查表明:世界上最富有的85个人的财富总和,等于世界上最贫穷人口的财富总和的一半。”
这是《卫报》2014年1月的头条新闻。一时间公众哗然,许多媒体纷纷跟风,相继报道,大家都对这样的数据对比感到非常震惊。
三年后,乐施会又对那份调查报告进行了重大的修改,标题从“85位亿万富翁”变成“8位亿万富翁”。
难道贫富不均真的又严重了10倍?是亿万富翁的财富增长了10倍,还是穷人的财富无故缩水了90%?
作 者:蒂姆·哈福德 英国皇家统计学会荣誉会员
来 源:《拼凑真相》中信出版社
世界财富到底掌握在多少人手中?
乐施会这样的宣传让贫富不均现象一下子激起了民众的愤慨,使民众再也无法冷静地辨别与反思数据的真伪。
在没有重大经济危机发生的三年间,乐施会的调查数据改动如此之大,不禁让人质疑最初这份报告研究贫富不均究竟是否有据可依。
事实上,乐施会的目的就是吸引大众眼球,至于事实真相,对他们而言是次要的问题。
而其他媒体的争相转载,更是将这个数据推向错误的解读,其中《独立报》称“世界上最富有的85个人的财富与世界其余人口财富的总和一样”。这一说法直接将“贫困人口财富的一半”和“非亿万富翁的财富”混为一谈,体现在数字上是不到2万亿美元和200多万亿美元的差别,没有反复核实的结论就会造成这样相差百倍的严重谬误。
这种荒谬的错误提醒我们,人们在面对一些数据时,很容易会被激怒、丧失理智。这个世界确实存在着不公平,但当我们在看到这些数据时只盯着这些不公平现象时,就意味着我们开始感情用事了。
其实这样错误已经很荒唐了,本应该是很容易被发现的。但当我们一旦对某事昏了头而不是用了心,就会出现这样无法分辨是非,感性而非理性占据上风的情况。
在纷乱的信息时代,人们好像已经失去一种认知和辨别能力,被动地接受着各种数据的信息“攻击”。虽然统计数据很容易撒谎,但没有统计数据,撒谎更容易。
那么如何从充满虚假信息、不良研究和糟糕动机的世界中挖掘可贵的数据?我们从《拼凑真相》这本书摘取了五大法则,教会大家正确运用统计数据,让“用数据沟通”变得更可信。
法则一:不乱于心,不困于情
学习的第一步可以从学会控制情绪开始。学会观察和反省自己的情绪。当你看到数据结果时,注意自己的反应。如果看到那些统计结果,无论是感到愤怒还是欣喜,或不敢相信,你都要停顿一下,反思一下。你不用成为一个没有感情的人,但既然可以用心感受,也一定可以用脑子思考。
当我们遇到某个世界问题的统计数据,想着要不要在社交媒体上点赞转发,或者激烈驳斥时,停一下,先问自己这样一个问题:“我的情绪为何如此激动?”我们这样做不仅仅是为了自己,还有一种社会责任在里面。我们已经看到社会压力在我们的观念和思考问题的方式方面的影响有多大。
我们要慢点下定论,学会先控制自己的情绪和抛开立场,只关注事实本身,这样我们不仅可以更清醒地思考问题,也为他人提供了正确的思考问题模式,即我们不是以某个政治派别的成员的立场,而是以持不偏不倚态度的个体身份思考和推理问题的。我想形成这样的习惯。我希望这也是你的愿望。
情绪能左右人的思考。所以当解读统计数据时,专业知识和技术固然重要,但如果不给情绪这匹野马套上缰绳,任由它带着我们时信时疑,我们终将会马失前蹄。
法则二:蠕虫视角和鸟瞰视角结合
试着学会从两个角度看问题:蠕虫视角和鸟瞰视角。
两个视角会给你展示一些不同的东西,这可能也成为你的难题:这两种景象孰真孰假?这样的疑问会让你踏上探究之旅。我们在后面会发现有时统计数据会误导我们。有时,我们自己的眼睛欺骗了我们;有时,一旦我们明白了事情的缘由,数字和眼睛所见的不符也就可以理解了。
人们容易把从自己的视角看到的东西理解成事情的全貌,心理学家把这叫作“天真的现实主义”,即认为自己看到的是没有任何偏差的实情。这种一叶障目的天真的现实主义会严重误导我们。
天真的现实主义会让人对很多事物产生错误理解。比如莫里民意调查机构就一系列社会问题对38个国家的近3万人做了调查。结果发现这些人—可以代表我们中的大多数人—对事情的了解与可靠的统计数据严重不符,以下就是列子:
我们对谋杀犯罪率的理解是错的。我们以为自2000年以来杀人案一直在上升,但在大多数接受调查的国家,这一比例一直在下降。
我们以为在过去15年里死于恐怖主义的人数比15年前的要高,其实人数下降了。
我们认为28%的囚犯是移民。莫里调查估算,所有受访国家的真实比例应为15%。
我们以为每年会有20%的少女生育。这个数字其实从生物学的角度没有多少可信度。从具有生育能力的12岁开始算,一个18岁的女孩已有6次20%的生育概率,那么大多数18岁少女应该至少有一个孩子了。我们看看身边的情况,这是真的吗?莫里调查统计得出,正确的数字是每年只有2%的少女生育。
我们以为34%的人患有糖尿病,而真正的数字是8%。
我们以为75%的人用脸书。2017年调查时,这个数字是46%。
新闻报道的事件,在某种程度上也是数据,它们虽然不是代表性的数据,却实实在在地影响了我们对世界的看法。用卡尼曼的话说,它们就是“快数字”—让人一下子就能得出结论的数字。
鸟瞰视角提供的数字枯燥严谨,但全面深刻,蠕虫视角看到的数据鲜活,但较为片面,要平衡两个视角不是容易的事。我们要经常提醒自己,在了解这些东西的同时也可能忽视了另一些东西。统计学和其他学科一样,严谨的逻辑和个人经历要相辅相成,相互纠偏,只有将两者有机地结合起来才是最理想的方法。
法则三:看清数据的定义
当我们要理解任何统计结果的时候,我们先要想一想,这个结果实际上的含义是什么。新冠肺炎暴发引发了类似的问题。
2020年4月9日,媒体报道说在过去的24小时里,英国本土有887人死于新冠,但我碰巧知道这个数字是错误的。苏格兰统计学家希拉·伯德做了周密调查,他告诉我,真实数字很可能到了1500人左右。5为什么数字差异如此大?部分原因是一些人死在家里,而官方只统计了那些死在医院里的人,但主要是因为那些因新冠扩容的医院来不及更新死亡人数报告,往往会滞后几天。
今天,星期四,宣布的死亡数据可能是星期天或星期一的死亡人数。由于这几天死亡人数激增,告诉我们三天前的数据容易让人低估目前情况的严峻性。
许多问题都是因为人们在一开始就走错了方向。他们执迷于统计上的技术问题,比如询问抽样误差和误差幅度,辩论数字算上升还是下降,相信、怀疑、分析、剖析各种数字,就是没花时间去理解那个首要的,也是最该问的问题:统计对象是什么?用的什么标准?
我们首先要弄清楚数据的统计对象是什么,其次才是数学计算。
法则四:学会在宏观局面下看数据
拉开距离看问题能让你有宏观感受。每次看到一个统计数据,你可以想想,这是一个很大的数字吗?
我们以美国前总统特朗普在美墨边境建墙为例,来说说宏观感受是什么。建墙将耗资250亿美元。这个数字大吗?这听起来确实有点大,但要真正理解这个数字,你需要一些东西作为参照。
例如,美国每年的国防预算将近7000亿美元,即每天20亿美元。所以建墙费用相当于美军两周的军事开支。
或者,美国约有3.25亿人,250亿美元除以3.25亿人,这堵墙的造价约为每人负担75美元。这个数字是大是小,你可以自己判断,但我猜有了这些比较,你的判断会更合理。拉开距离看问题能让你有宏观感受。
如果可以记住一些具有标尺意义的数字,它们能给你带来很多方便。你可以用数字进行比较(一篇1万字的报告似乎很长,但一本普通的小说要长10倍),也可以算平均数(美国的国防预算是每人每年2000多美元)。
这些标尺性数字,无论是你脑子已经记住的,还是你查的,都可以用来做做算数,或者按计算器也行。这是件简单的事情,但很有启发性。
法则五:了解统计样本是否覆盖全面
其实我们必须常问:“数据里少了谁?漏了什么?
在数据方面,规模并不意味着一切。要处理好两个问题:样本误差和抽样。
偏差样本误差反映的是这样一种情况:有时纯属偶然,被随机抽样的人没有反映民众的真实意见。“误差范围”就是指这种风险,但是样本越大,误差会越小。1000人的随机采访对任何目的的民意测验都算大样本。
民意调查还有一个更大的陷阱要避免,即抽样偏差。抽样误差是指随机挑选的样本恰巧没有反映真实状况,而抽样偏差是抽样没有覆盖全样本类型。
社会有多少明目张胆的种族主义者和性别歧视者,你看看四周就知道了。但总的来说,我们统计了什么,或漏掉了谁,都是由自己选择时的粗心、不甚严重的偏见和一些无心之过造成的。
除非我们亲力亲为地收集数据,否则对统计漏失能做的有限。但至少,在别人给我们提供数据时,我们可以,也应该记得问一下,哪些人或哪些内容可能遗漏了。
大数据看起来很全面,也可能用途很广,但“一个都不少”是一种容易让人上当的错觉:一切尽在自己掌握中。
其实我们必须常问:“数据里少了谁?漏了什么?”这只是我们对待大数据要谨慎的原因之一。大数据代表着数据收集和统计方式的巨大变化,这种变化的影响还有待我们去审视。
点击图片购买《拼凑真相》
IOS系统如果无法购买,点击下方阅读原文购买
继续阅读
阅读原文