摘要

Leo Breiman的《统计建模:两种文化》对任何想解决实际问题的统计学者都是一笔宝贵的财富。Breiman讨论了传统统计模型和基于算法的模型两种文化,但我认为以原理和技术来划分统计建模的文化更为本质。在统计教育和研究中仅仅关注技术是危险的。在这点我赞同Breiman的呼吁:统计研究应该不忘初心。
关键词:Leo Breiman;因果建模;统计哲学

我的观点是如何演化的

Leo Breiman的《统计建模:两种文化》在出版20年之后仍然是一篇非常鼓舞人心的文章。我最感激的一点是Breiman详细而坦率地叙述了他在职业生涯中对统计的看法是如何改变的。对于像我这样不久前才走上学术生涯的年轻人来说,这是一波宝贵的财富。
我一共读过Breiman的文章三次。第一次是在2013年,还是我博士早期。当时Jerome Friedman教授在一个研讨会上对Breiman深情致敬。他回忆了在20世纪80年代,他和Breiman在统计领域中推进机器学习(或“算法建模”文化,参照Breiman文章中的术语)中的种种困难。他还感叹到,如果Breiman没有在2005年去世,之后就能看到机器学习的爆炸式发展。那样Breiman将会是多么的高兴!坦率地讲,我并没有从第一次读Breiman的文章中收获很多。Breiman文章中的大部分想法对我来说都很自然。斯坦福大学统计系深受Breiman思想的影响,对我来说,算法建模似乎才是统计的“主流”。
2016年完成博士学位后,我又读了Breiman的文章。那时我已经了解了因果推断的一些知识并被其中独特的想法给迷住了。当时,因果推断还是一个小众的研究领域;至少我周围很少有人对它感兴趣。我很努力地寻找因果推断和“主流” 统计之间的联系,但我只找到了一个巧合:Friedman用来解释黑盒算法的部分依赖图(partial dependence plot)与因果识别的混杂因素调整(或后门调整)公式完全相同。参照Breiman文章的术语,我们可能应该把这个要小得多的领域称之为“因果建模” 文化;据我估计,在2016年“因果建模”人数与Breiman在2001年对“算法建模”人数的大致相当:“2%的是统计学者,大部分在其他领域”。由于我当时已经看过很多关于将传统统计模型套用在数据中(Breiman称之为“数据建模”)的糟糕案例,我这次得以更好地理解Breiman的观点。
最近阅读Breiman的文章当然是在我为《观察性研究》写这篇评论之时。这一次我对因果推断有了更深的理解,并且刚刚在剑桥大学完成了对本科生的统计建模和对研究生的因果推断的课程教学。这些经历帮助我更批判性地看待Breiman的观点。尽管我依然同意文章中的许多观点(特别是Breiman呼吁统计学“不忘初心”),但我也开始对另外一些观点保留意见。下面我将阐述一些我赞同或不赞同Breiman的地方。

技术与原理

Breiman的二分---“数据建模”和“算法建模”---是深刻的,并且直到今天仍然反映在教科书和文献中。虽然人们的观点一般是连续的,但我非常理解为什么Breiman选择对比两个极端。然而,随着机器学习在统计学中越来越普及,将统计建模分为“数据”与“算法”变得不再有帮助。即使这两种文化之间还存在界限,我认为也已非常模糊了。
我认为一个更基本的对统计建模的二分是其原理与技术。中国人会把前者称为道 (“路线”、“原理”或“整体思想”),而把后者称为术(“技术”、“技巧”或“方法”)。想要准确地描述统计建模的这两个方面并不容易。以下是我的大致想法:
  1. 术:在这种观念下,统计分析始于一些由其他人准备好的数据集。我们的目标是尽可能好地分析数据集,但具体的任务通常取决于分析方法的复杂程度。这个方法可以是一个简单的线性回归或者一个有十亿个参数的神经网络。
  2. 道:在这种观念下,统计分析始于科学、工程或商业问题。我们的目标是了解问题背后的机理,并利用统计结论来更好地进行决策。这个问题可能是估计某种干预的因果效应,或是理解已有数据集的局限性。
我来尝试举一个更具体的例子。我定期在我们实验室组织的“统计诊所”服务,那里为剑桥大学的成员提供免费的统计咨询。在诊所里,很多人都需要关于统计方法的帮助。通常客户会首先问我:“我如何将这个模型用到我的数据集上?”我的回答是:“你为什么要套用这个模型?”之后我会要求客户描述他们的科学问题。令人惊讶的是,他们经常告诉我他们的合作者或主管只是给了他们数据集,并希望他们使用那个模型。偶尔,我能更好地理解他们的问题,并最终向他们提出一个不同的模型。但不幸的是,我的客户很少对更好的模型感兴趣。这通常是因为这些模型没有软件可以立即使用。但这恰恰是因为我建议的模型是为他们的问题量身定制的。这得有多讽刺啊!
我怀疑大多数的试图处理实际问题的统计学者都有类似的经历。似乎大多数数据分析师都更强调技术,而不是原理。但是好的技术需要有良好的原理指导,并且它们需要被应用于合适的问题。从根本上说,技术驱动的文化将统计建模视为为数据选择最佳模型,而原理驱动的文化将统计建模视为做出更好决策的手段。这些目标并不总是相互冲突的(例如,如果一个更好的决定等同于更好的预测下一个数据点)。然而,大多数情况下,这两种心态会导致非常不同的模型和分析。

统计建模之循环

技术驱动的建模文化可能相当危险,尤其是对高风险问题。一个很好的例子是去年对新冠疫情大流行的早期分析。关于这个我写过几篇文章和评论。一个特别著名的例子是,一些非常具影响力的论文甚至没有能正确估计指数增长曲线的速率。一个简单的泊松对数线性回归可以很好地达到这一目的,但绝大部分传染病研究者使用的是动态系统模型(compartmental dynamic models)。这种模型能很方便的做出预测,但当只有早期爆发的数据时,这些模型通常会过度识别(over-identified)。为了解决这个问题,大多数分析师会对一些模型中的参数进行粗略的估计,但它们一般会忽略这些估计中的不确定性。这通常会导致糟糕的拟合、过窄的置信区间、甚至荒谬的结果。一个声名狼藉的例子是牛津大学传染病进化生态学小组的一项研究。在论文的一种假设中,感染者中重疾的比例被设为一个非常小的值0.1% (而当时中国和意大利的数据已经表明感染死亡率远高于0.1%)。论文从此推断在2020年3月19日英国可能已经有一半的人口被感染了。事后看来,这个结论显然极为荒谬的,但当时这项研究立即登上了各大媒体的新闻头条。它在全球大流行的关键时刻造成了不必要的混乱,并被“被动群体免疫”(通过病毒感染而不是疫苗获得的免疫)的支持者用来批评政府的公共卫生措施。
顺便提一句,这项研究可能在一定程度上也是由先入之见和政治驱动的。作者选择性公布了他们极其初步的结果,并在之后联合公布了臭名昭彰的大巴林顿宣言(Great Barrington Declaration)。每个统计学者都知道有选择地报告和分析数据是多么的容易和危险,尤其是当我们已有了一个预想的结论时。我希望这永远不会成为统计建模中的一种“文化”。
Box在1957年的下述评论非常有助于理解统计建模的技术与原理之二分:
科学研究通常是一个迭代的过程。“猜想-设计-实验-分析”的循环周而复始。在考虑统计问题时,牢牢记住这个科学方法的全景图极有帮助。虽然这个循环在研究过程中会重复多次,但实验环境和适合设计和分析的技术往往会随着研究的进行而更新。
所以,原理或道在统计建模中帮助我们对统计研究有全面的认识,并可以用来指导技术。另一方面,统计建模中的技巧或术也同样重要,因为它们帮助我们实践统计建模的原理并改进这些原理。

不忘初心

从表面上看,我似乎是在批评Breiman对“算法建模”文化的推广。毕竟,决策树和神经网络只是比线性回归、逻辑回归和Cox模型更有效的预测方法。然而,我认为原理与技术之二分通常在不同的时间会有不同的形式。2001年,统计学中最明显的对立是在“数据建模”和“算法建模”文化之间,但这在过去20年间发生了巨大变化。对于我这一代的统计学者来说,一些来自机器学习的想法已经比来自经典统计学的想法更有影响力。一些我的同龄人已经把线性和逻辑回归等“数据模型”当成过时的技术,并把神经网络作为处理实际问题的默认选择。
但Breiman的文章绝不仅仅是“数据模型”与“算法模型”的对立或经典统计学与机器学习的对立。在文章最后的讨论中,他明确表示他“并不反对数据模型本身……但模型需要重点关注问题和数据本身。”在文章最后一段,他总结道:“统计学的根源就和科学一样,在于与处理数据并用数据验证科学理论。我希望我们的领域在本世纪能回到它的根源。”我完全同意这些观点。
目前,机器学习领域正在进行在一场何去何从的争论。少数研究人员呼吁进行一场 “因果革命”。这点在统计学中反而争议不那么大。我遇到的大多数统计学者都认识到因果推断的重要性,并很有兴趣学习因果推断。当然,由于因果关系在这个统计学的教育中都是缺失的,从头学习因果推断在当下并不容易。
一个更大、更基本的问题是,大多数职业的统计学者(包括我)在博士阶段接受的都是有关开发新技术的训练,并且大多数数据分析师在学校里接受的也是应用这些技术的训练。这不仅仅是一个当代的问题。事实上,Tukey在60年前就已经注意到了:
涉及统计和定量方法的研究问题……是一个存在于高等教育和文化人类学中的问题:为什么仅有如此之少的人能学会很好地分析数据?
Tukey建议,每个社会和行为科学的博士都应该经历Box的统计研究周期,最明智的顺序是 “分析-猜想-设计-实验-分析”。我同意这一点,但也想说,大多数发表在顶级统计期刊的论文并不是这样被撰写或评估的。
最后,我想以中国古代文化的经典《道德经》的首句来结束:“道可道,非常道”(可以说清楚的道,不是恒久之道)。我认为这句话同样适用于统计建模,因为从来没有绝对正确的统计实践或教学。但这也正是为什么统计建模会如此令人着迷吧。

赵卿元博士毕业于斯坦福大学,目前是剑桥大学数学和数理统计学院统计实验室的助理教授。研究兴趣是因果推断、高维推断、应用统计学。
尾注:本文译自赵卿元博士于2021年发表在Observational Studies上的文章Statistical Modeling: Returning to its Roots,https://muse.jhu.edu/article/799739 ,感谢作者的授权和对译文的校正。
—— END ——
征文活动:纪念《统计建模:两种文化》20周年
在Breiman《统计建模:两种文化》20周年之际,我们发起了征文活动,探讨统计学、数据科学的历史与未来、机遇与挑战、思想与技术,以启迪思考、开拓创新。
欢迎各位学界、业界人士共同参与!请联系邮箱:[email protected] 或扫描添加微信号(COStudy)讨论。
数据科学之路 · 文章推荐
继续阅读
阅读原文