虽然2020美国大选现在还未出正式结果,但其跌宕起伏的剧情,注定会写入历史,成为长盛难衰的争议话题。目前,在推特等社交媒体上,就开始涌现一种说法,认为经分析统计各候选人在某地所有选区的得票数,发现特朗普一切正常,而拜登的得票情况不符合“本福特定律”,涉嫌舞弊。
在国内,“拜登得票数偏离‘本福特定律’”的话题也冲上了网络热搜榜。
需要明确的是,社交媒体的上述说法缺少法律和相关专业背书,听听就好,不过牵扯出的“本福特定律”确实大有来头,它已经在会计信息、统计资料、税收和金融等领域发光发热,做统计和审计的小伙伴应该都听说过它。
1、让人情有独钟的数字
1935年,美国通用电气公司的科学家弗兰克.本福特在图书馆翻阅数学对数表时,偶然发现头几页被更多的人翻阅,显得比后面的更脏一些,这一现象引起了他的极大兴趣。
本福特经过进一步的研究发现,只要统计的样本数量足够多,同时数据又没有特定的上限和下限,那么数据中以1开头的数字出现的频率是最高的,达到30%,以2开头的数字出现频率为17.6%,以3开头的数字为12.5%,也就是说,随着数字的增大,出现的频率依次减少,具体见下图。
本福特将这一规律推导成一个公式F(d=lg[1+1/d],公式中F代表使用频率,d代表待求证数据的第一个数字。这就是著名的“本福特定律”,又叫“第一数字定律”。
后来,本福特对其它类型的数据进行了研究,包括人口、死亡率、物理和化学常数、半衰期放射性同位素、物理课本中的答案、素数数字以及斐波那契数列,发现都有这一定律的身影。简单说,只要是由度量单位制获得的数据,都符合“本福特定律”。
2、造假账者胆战心惊
“本福特定律”面世后,应用最广的领域是统计、审计领域,因为造假账者总是试图在账目中隐藏数据,结果使假账中的数字分布不符合“本福特定律”,从而露出马脚。
2001年,美国最大的能源交易商、全球500强企业排行榜名列第7的安然公司突然宣布破产,接着传出该公司涉嫌做假账的丑闻。事后,有人发现,安然公司在2001年度到2002年度公布的每股盈利数字完全不符合“本福特定律”,说明安然公司的管理层确实改动过数据。
美国安然公司从资本市场消失,成为华尔街最大的丑闻。
无独有偶,2001年在A股掀起轩然大波的“银广夏骗局”事件,也可以用“本福特定律”发现蛛丝马迹。根据银广夏2000年到2009年间的财务数据,制作出“本福特定律”相关系数(见下图),结果发现在2000、2001、2005和2008四年,相关系数仅为 0.76 左右,据此可以推断该公司在这几年间的财务造假活动较为猖狂。
2002年,在证监会对银广夏财务造假做出行政处罚后,2003和2004年的财务数据和“本福特定律”的相关系数又上升到0.9左右。这一发现尽管不能保证财务数据的真实,但也说明公司造假不敢像之前那样猖獗。
但由于“江山易改,本性难移”,银广夏又陆续传出在2005年和2008年财务造假丑闻,反映到表上就是,“本福特定律”相关系数从超过0.9,再次下降到略超0.76。
当年关于银广夏的报道
从以上例子可以发现,使用“本福特定律”能在被审计单位人员毫不知情的情况下,发现异常财务数据,防止反侦察行为,使财务造假不那么容易隐藏,所以在审计领域用处较大。
3、能否预测彩票中奖号码
就像世界上没有真正的万能钥匙一样,“本福特定律”也有其应用局限。一方面,这一定律要求数据样本量适中,至少要大于200,但最多又不能超过10000;另一方面,这一定律发现的数据异常,只能提供一个数据错误或舞弊的线索,而非铁证,要得到真正的证据,还需要进一步调查分析。换句话说,“本福特定律”只是一种发现数据错误或舞弊的辅助手段,而非取证工具。
那么,预测彩票中奖号码上,“本福特定律”能否助一臂之力呢?据说,有不少数学家仔细研究了彩票中奖号码,发现里面没有体现“本福特定律”的规律存在(仿佛看到彩票中心长舒一口气)。另外,电话号码、汽油价格、人的身高或体重,这些数据也不符合“本福特定律”表现出的规律。
回到前文社交媒体爆热的选举是否舞弊的问题,剑桥大学出版社官网的一篇论文《“本福特定律”和侦查选举舞弊》算是给出了答案,论文认为,通过生成一系列的人工模拟数据后,论文作者们认为“本福特定律”无法为可能存在的选举欺诈提供法律依据。
剑桥大学出版社官网截图
有一名网民在推特上发布质疑拜登得票情况不符“本福特定律”的推特和图表后,随后又评论了自己的推文:“好吧,‘本福特定律’并不适用于选举,我的锅!”
所以,逆风翻盘是不大可能了。
——END——
继续阅读
阅读原文