昨晚朋友在微信朋友圈贴出统计之都纪念Leo Breiman发表《统计建模:两种文化》20周年的文章,笔者遂在文章下面留言道Breiman这篇文章确实很经典。一小时后朋友发信息来,邀笔者针对Breiman的文章写篇评论,这便是本文的由来。今天碰巧笔者生日,在40周岁当天写一篇纪念Breiman经典论文发表20周年的评述,既觉有趣,又感到有些压力。Breiman的文章写得精彩,而要做到对原文评述得精彩却并不容易。思索半晌,打算结合笔者所作工作来评,讲起来虽不免有夹带私货之嫌,主要目的却是为了言之有物。
下文中,“原文”将代指Leo Breiman发表在Statistical Science, vol.16, pp.199-231, 2001上的论文《统计建模:两种文化》;“本文”代指笔者所写的这篇评述。本文内容框架如下:
第一部分简述笔者对原文历史意义的认识。第二部分讨论 “数据模型”和“算法模型”的关系,斗胆尝试给出一个统一视角。在该视角下,“数据模型”和“算法模型”是 “由一条纽带连接的两个节点”,这条“纽带”代表一个统一文化包络下人们对建模方式方法进行的持续探索,这个“统一文化”便是:“先验(或称为假设)与数据相结合”的建模文化。“纽带”上的每个“节点”即代表一种具体的建模方式方法。该视角下,“数据模型”和“算法模型”的关系不是“两种文化”,而是这个“统一文化”的两种不同实现形式。第三部分将在前两部分讨论基础之上粗浅地展望一下统计学的未来发展。
一、Breiman原文的历史意义
Breiman原文中阐述了两种统计建模文化用于从数据中获取结论,即“数据模型”和“算法模型”。在“数据模型”文化里,人们假定数据产生自给定的统计模型;在“算法模型”文化里,人们认为数据生成机制未知,需用算法计算得出。Breiman在文章中力挺“算法模型”,强调从业人员需要更多关注乃至投身于“算法模型”。考虑到20年前以深度神经网络为代表的“算法模型”还远未流行,个人觉得Breiman原文的最大历史意义便在于其对统计建模未来发展趋势的准确预估和对未来统计建模实践的巨大引领、带动作用。21世纪第一个10年曾流行一时的贝叶斯非参模型(如Dirichlet Process, Beta Process, Indian Buffet Process, Gaussian Process,各种 hierarchical process)和第2个10年延续至今的深度学习,都暗合了“算法模型”这一“文化”。
二、“数据模型”和“算法模型”
其实是同一种文化的两种不同表现形式
虽对Breiman在原文中展现的远见卓识表示由衷赞叹,但个人认为“数据模型”和“算法模型”并非泾渭分明的两种文化。世界上其实只有一种统计建模文化,即先验(或假设)与数据相结合的文化。“数据模型”和“算法模型”只是这种文化的最具代表性的两种表现形式。
具体来说,“数据模型”中假定数据产生自一个给定的统计模型,施加”给定模型”这一行为的对象便是模型设计者。模型设计者根据自己的先验“给定”出模型,此处“模型设计者”是人,如统计学家、算法工程师等。由此可见,“数据模型”强调的是对人的先验认知的利用。而“算法模型”假定数据生成机制未知,此时构建模型的任务由人交给了算法,模型设计者也由人变为了算法。算法基于观测数据调用计算存储资源来构建模型,随着算力的不断提升,算法的威力越来越强,其构建出的模型也越来越复杂、越来越展示出超越“数据模型”的预测性能。“算法模型”强调的是对数据的利用(当然还少不了支撑算法运行的算力和存储资源)。“算法模型”所获成功的案例不断增加,如AlphaGo、AlphaZero、AlphaFold系列等。在这些案例中,“数据模型”显然难以望“算法模型”项背。
但“数据模型”和“算法模型”并非泾渭分明,而是有一条天然“纽带”在连接彼此。这条“纽带”叫做模型的第一推动力。不管是“数据模型”还是“算法模型”,其第一推动力仍然来自于人。虽然在“算法模型”框架内,模型的设计者成了算法,但算法的设计者仍然是人。比如,各种基于贝叶斯非参的数据聚类方法,虽然可让“数据自己说话”决定类别数目,但各种非参先验仍然是由人来指定。而对于深度学习方法,虽然其通过算法替换掉了基于人工的选择特征过程,但深度神经网络的基本架构、非线性激活函数、学习率的设置等等仍然是由人给出的。那有没有可能所有人工操作都交由算法实现,实现所谓的全自动化机器学习(AutoML)?笔者在2018年写了一篇短文回应该问题[1],指出当前针对AutoML的研究工作仅属于狭义范畴,并不能真正实现真正的自动化(相对应的广义AutoML在概念上类似于强人工智能,研究进展缓慢,关于强弱人工智能的讨论也可见[2])。本质上 “数据模型”和“算法模型”的建模过程中都利用了人的先验认知,只是利用方式不同,“数据模型”是直截了当地用,“算法模型”则是隐含地经由算法来用。由于在“数据模型”中,模型由人直接给定,模型的质量直接取决于人对数据产生机制的先验认知。在“算法模型”中,人仅通过先验认知为算法提供“元模型”(比如贝叶斯非参方法中的非参先验、深度学习中的神经网络架构),再由算法辅以强大的算力、海量的数据在一个更广阔的空间中搜索目标模型,最后搜得到的模型预测能力更强,但模型本身也更复杂(甚至复杂到人的先验认知可理解范畴之外,这便带来所谓的“可解释性”问题)。
既然“数据模型”和“算法模型”是同一条“纽带”上的两个“节点”,那这条“纽带”上是否还有其它“节点”?答案是肯定的。从概念来说,笔者觉得由自己提出并发展的一套贝叶斯动态多模型集成(Dynamic Multi-Model Ensembling, DMME)框架便可作为有“其它节点”存在的一个例证。篇幅和时间精力所限,仅对DMME进行简要介绍, 相关论文见[3-9]。DMME调用一个加权的模型集进行动态系统状态估计[3-5, 7]、译码[6]、在线预测[8]或数据融合[9]。模型集中模型单元的结构由人的先验认知给定,但多模型的“合作与交互”方式由算法计算得出。如果把整个模型集看作一个超级模型,则此超级模型中的一部分由人的先验认知给出,另一部分则由算法计算得出。因此,可以说DMME处于“数据模型”和“算法模型”两“节点”之间的一个“中间节点”之上。DMME的第一篇论文发表在2011年[3],2019年由笔者与浙江大学脑机接口团队祁玉博士合作、基于DMME设计的脑机接口非稳态译码方法发表于NeurIPS [6](该文的算法部分主要参考了[3-5])。采用该方法有效解决了“脑神经可塑性引起的神经发放模式不稳定问题”,“相比于基于长短时记忆神经网络和卡尔曼滤波器方案,在解码性能上分别获得7.6%和6.2%的提升,并且性能保持时间更长。该方法已应用于脑控运动系统,极大提升了临床皮层脑机接口的性能”(摘自上述NeurIPS论文合作者之一、浙大脑机接口团队王跃明教授的报告)。
三、展望
人是一切模型的第一推动力,但在统计建模理论技术发展的道路之上,一条愈加清晰的“脉络”开始展现,即人对模型的掌控力逐渐趋弱,原因在于作为模型设计者的人多了一个助手,即算法,辅以大算力、大数据,算法在统计建模过程中的作用日益凸显,Breiman的伟大之处便在于其在20多年前便早早发现、并向大家揭示了这一“脉络”。
从以追求严谨理论的数理科学范式,到图灵提出图灵测试,到当前机器学习社区普遍采用的借助测试数据集(或验证数据集)来作模型评价和模型选择,也在一个更宏观的维度展示了上述“脉络”的成长过程。这种以数据为主、人的先验认知为辅的建模方式,好比对各种可能理论、假设做了一个Marginalization,避免了单一理论、假设的狭隘性,这也是本文取题为“海纳百川,有容乃大”的用意之一。我们对模型所作的假设、约束越小,给数据“自己讲话”的机会越大,让模型“有容”,模型的实际效用才会“乃大”。第二层含义是指统计学的发展道路也要“海纳百川”,需要有人持续耕耘数理基础理论,这部分工作定义了“统计学”这一学科,也是“统计学”区别于其它学科的根本所在;同时也需要有更多人走进大数据、大计算、深度神经网络等等。如此“有容”,统计学的发展前景“乃大”。
(本文写于2021年11月4日)
参考文献:
[1] Liu, B., A very Brief and Critical Discussion on AutoML, arXiv preprint arXiv:1811.03822.
[2] Liu, B., “Weak AI” is Likely to Never Become “Strong AI”, So What is its Greatest Value for us? arXiv preprint arXiv:2103.15294
[3] Liu, B., Instantaneous Frequency Tracking under Model Uncertainty via Dynamic Model Averaging and Particle Filtering, IEEE Trans. on Wireless Communications, vol.10, no.6, pp.1810-1819, 2011.
[4] Y. Dai and B. Liu, “Robust video object tracking via Bayesian model-averaging based feature fusion,” Optical Engineering, vol. 55, no. 8, pp. 1–11, 2016.
[5] Liu, B., Robust Particle Filter by Dynamic Averaging of Multiple Noise Models, ICASSP 2017, pp.4034-4038, 2017.
[6] Qi, Y., Liu, B., Wang, Y. and Pan, G., Dynamic Ensemble Modeling Approach to Nonstationary Neural Decoding in Brain-Computer Interfaces, NeurIPS 2019, pp.6089-6098, 2019.
[7] Liu, B., Data-Driven Model Set Design for Model Averaged Particle Filter, ICASSP 2020, pp.5835-5839, 2020.
[8] Liu, B., Chen, K. and Qi, Y., Sequential Online Prediction in the Presence of Outliers and Change Points: An Instant Temporal Structure Learning Approach, Neurocomputing, vol.413, no.2020, pp.240-258, 2020.
[9] Liu, B., Robust Dynamic Multi-Modal Data Fusion: A Model Uncertainty Perspective, IEEE SPL, vol.28, pp.2107-2111, 2021.
[10] 王跃明,“皮层运动脑机接口中的动态脑信息解析研究”, https://mp.weixin.qq.com/s/Sfp6x5wrvvWglj0w4PS5GA

作者介绍

刘斌,中科院信号与信息处理专业博士毕业(导师为侯朝焕研究员,中科院院士),曾任杜克大学统计系、美国统计与应用数学研究所研究学者(主要合作者James O. Berger,美国国家科学院院士、COPSS奖获得者),卡内基梅隆大学认知与神经基础中心访问学者,现担任之江实验室应用数学与机器智能研究中心研究专家兼中心召集人。也有丰富的工业界从业经历,曾任深圳光启高等理工研究院高级研究员,华为海思北京研究所高级工程师、阿里巴巴高级算法专家。主要从事贝叶斯统计学、机器学习、最优化方法、信号处理等领域的理论及应用研究。在包括IEEE汇刊、NeurIPS、 ICASSP、Astrophysical Journal Supplent Series、Journal of Global Optimization、Neurocomputing、Knowledge Based Systems 等信号处理、数学优化、机器学习、天体物理类期刊会议上累计发表论文60多篇。刘斌老师研究组目前有深度学习、贝叶斯相关博士后、研究员、算法工程师岗位若干开放中。感兴趣的同学欢迎直接与刘老师联系:E-mail: Liubin[AT]zhejianglab.com
—— END ——
征文活动:纪念《统计建模:两种文化》20周年
在Breiman《统计建模:两种文化》20周年之际,我们发起了征文活动,探讨统计学、数据科学的历史与未来、机遇与挑战、思想与技术,以启迪思考、开拓创新。
欢迎各位学界、业界人士共同参与!请联系邮箱:[email protected] 或扫描添加微信号(COStudy)讨论。
数据科学之路 · 文章推荐
继续阅读
阅读原文