各位同学这几天是不是觉得朋友圈微信群里突然出现了很多关于本福特定律(Benford‘s law)讨论?
目前广泛传播的主要有两个版本:
一个是密歇根的选举数据。图片比较了拜登的曲线和川普的曲线,认为川普的曲线更符合本福特定律的分布,得出结论拜登舞弊。
第二个图看起来更高级,有多张柱状图,并且有样本数量(475个),还有“拟合曲线”。结论也是一样,所有其他候选人的票数分布都符合本福特定律,除了拜登。所以拜登肯定作弊了。
中文网友表示,喊没作弊的人肯定看不懂,中间选民
理科男懂数学、统计学
,肯定是个明白人。

这个预设有没有毛病就先不说了(女人不配看统计?),数据来源是4chan,类似于国内的百度贴吧。基于目前在研究本福特定律的基本都是草根网民,这几个问题我们就不多纠结了。

本福特定律是什么鬼
李永乐老师发了一篇深入浅出扫盲本福特定律的文章, [拜登选票不符合本福特定律?如何识别数据造假?]。在这里我们对本福特定律是什么就不多纠结了。
李老师应该也是不想趟浑水,标题立了flag暗示“拜登舞弊”蹭流量,文章结果却没有下定论到底有没有作弊,最后被骂得很惨也怪不了谁。
本福特定律基本上就是把领头的数字取下来,看他们的分布
虽然李老师也强调了,本福特定律其实到目前为止还没有一个公认的证明,本身也并非一个严格意义上的定律,只是在很多数据模型上是符合的,但同样也有不符合的情况。但是这些都被急着要找答案的网友忽略了。
我们觉得李老师这里主要是有点标题党了,的确以前有人用过本福特定律来研究u国选举,
但本福特不适用于验证美国选举数据是否造假 
。本福特定律主要被用来的描述对象是自然产生的数据,比如电费,地址门牌号,股票价格,存款的增长等等。

而美国的选举是对人口中进行非自然划分(大县小县红县蓝县摇摆县),数据生成后并不存在转换后的均匀性。
包括李老师的文章中还提到了一点,符合本福特定律的一个重要特征是:【单位时间内的增长量正比于存量】。
而在推特和朋友圈被广泛传播的图,其实是按各ward选票被上报时间的增量。我们看直播选举的都知道,拜登的邮寄选票进来很多县的增量都70%-90%偏拜登,而且来得一阵一阵的(几个大county票点完不报就洗洗睡了,掖着第二天报),所以并不符合单位时间内的增长量正比于存量的假设。
也就是说,娇气的本福特能不能用,不仅要看基数大增长数量也大,也要求有大量的数据。通俗点来说,一只兔子生两只兔子,两只兔子生四只兔子的同时,你最起码要有成千上万只兔子。。。
我们之前看到的截图,每个选人只有475个样本。
被鞭打的数据
Github上有位热心中国同学把美国选票重新按全国的county算了一遍,发现两个候选人的选票分布都符合本福特定律。会读python的朋友们可以去看看,并不是很复杂。  [Github链接 https://tinyurl.com/yywarofb] 
趣味数学题大牛 @万精油墨绿 和微博网友@猄油开背虾
用密歇根数据自己重新做了一个图,发现其实两个候选人的本福特曲线分布都是乱七八糟的。

(上图是拜登的,下图是川普的,图来源@猄油开背虾)
制图数据:https://shimo.im/sheets/QW9yVxVRddVRpv9v/
这是因为微博上广为传播的图bi-axis并不是对等的,把拜登的曲线用宽区间,川普的曲线用窄区间。当放在同一个标准化的区间进行比较,他们的选票数据都不符合本福特定律。
做数据工作的都知道,“只要你正确鞭打数据,总能得到你想要的结果”。因为你用的数据来源、数据处理和标准化的方式和都会影响最后的读数结果。做图调整一下区间也能改变数据的走向。
统计学大牛George Box 曾经说过,“所有数据模型都是错误的,一些是有用的”(all models are wrong, some are useful)数据分析的结果往往不是决定性的,应该是被你拿来结合其他各种情况,弄清assumptions和caveats后,帮助你做出最后决定的。
换句话说,退一万步,就算本福特定律可以被用于大选中,也不能马上作出舞弊的结论,只能说有造假嫌疑舞弊与否,还是需要实际的证据,请上书最高法院裁决。
专家怎么说?
@万精油墨绿 的微博上还引援了专门研究本福特、上过Netflix(Connected 第四集)的Jen Globeck博士。她都快用喊的了——本福特定律对证明大选作假没用!
博士还挂出了一篇2011年俄勒冈大学和加州理工大学学者发布的论文。大家可以看摘要就知道中心思想了:本福特定律没法证明大选作假,问题太多。有兴趣的同学也可以去翻翻lit review应该也能学到不少。
结果川普支持者非常愤怒,去推特举报了博士是”spam“。
感想
去跟人纠结本福特能不能证明大选作弊的另一个难度是辟谣性价比,对方只是转个图的精力,你就不是跑断腿,还要去查文献、研究理论、搞不好还要自己跑数据包做图验证。
但是,这种“基于科学”看似很复杂的谣言,反而造成的负面影响更大。大多数人之前都没见过本福特定律,极少数能看懂,指出来就说是用错了,也没人听,让人不明觉厉就对了(微博 @茨威格的时代1903)。韩寒代笔时的贝叶斯公式乱入就是一个很好的例子。
看到本福特定律成了关键词,一些连基本函数也搞不清的推特网友瞬间成为了统计专家。让美国人觉得学数学也挺酷也算是进步吧。
另外,想跟大家推一下最近辟谣跑断腿的公众号们。希望你可以收藏以下几篇文章,下次看到“密歇根县城6000张未记选票、跑python的发现120岁老人投票/死人投票,选举工作人员在视频里划选票,USPS乱丢邮件,亚利桑那川普支持者被忽悠用了错误的记号笔等等“,去这几篇文章里看一下,可能几天前就被辟过了。
继续阅读
阅读原文