——“Breiman访谈录 |《统计建模:两种文化》”的读后感(二)
非常荣幸,上个月被统计之都邀请写个读后感。我有感而发,仓促地完成短文“统计核心是什么?”。因为有大佬的背书,特别是统计之都、小罗同学、和张总的支持,虽然我人言轻微,但它造成的影响力远超过我的预计。这里要感谢所有帮我转贴的朋友们,现在总阅读量已经超过 12 万啦。我有幸发过许多顶刊论文,但是还没有一篇文章有这么大的影响力,说明有许多同仁有共鸣,都在思考统计的未来和我们需要干点啥。这文章的许多地方措辞上可以更准确一些,欢迎大家多提宝贵建议,希望在后面的短文中来不断改进。今天我重读了 Breiman 的访谈录,并且经历最近几件大事的冲击,我参悟了一些新东西,便有了以下新的读后感。
今天讲讲统计学的两个文化到底是什么?
首先,我在这里摘取 Breiman 教授的几句话:
在从数据到结论的过程中,有两种统计建模文化。第一种是数据模型,假设数据是通过给定的随机数据模型生成的。另一种是算法模型,将数据生成机制视为未知。一直以来,统计界几乎完全使用数据模型。这种情况造就了无关紧要的理论、有问题的结论,并使统计学家无法研究广阔、有趣的现实问题。算法建模,都在统计学之外的领域飞速发展。它既可以用于大型复杂的数据集,也可以用于小型数据集。
以下是我对这段话的一些浅显的认知:
这两个不同的文化的本质是什么?
这里面的数据模型到底是什么?其实没有一个明确的定义数据模型到底是什么?统计学里面有许多模型,包含线性模型、广义线性模型、生存分析模型、时间序列模型、潜变量模型、非参数模型、和半参数模型等等。所有这些模型都是为了某些特定的应用而被提出来,并随着在相关应用的广泛使用它们而得到进一步发展,包含相关的理论和可能应用的场景。可以说线性模型是所有这些模型的核心,许多线性模型的相关理论都被推广到其它模型,由此统计学里面许多理论结果都是从线性模型开始。某种程度上(我个人的理解),数据模型可能指就是以线性模型为核心(或者跟线性模型模型复杂度相近)的所有统计模型。难道线性模型有问题吗?这些模型本身没有任何问题,它们都是是从应用中来,被用到应用中去,目前仍然最被广泛使用的模型,每天都给这个世界创造着巨大价值。为什么Breiman要专门提出复杂度大的算法模型?
这里面的算法模型到底是什么? 其实也没有一个明确的定义算法模型到底是什么?Breiman 教授可能认为 CART 相关的模型算是算法模型,如果他在天堂知道深度学习(DL)的发展,不奇怪地,他一定会把 DL 归为算法模型。跟线性模型相比,DL也需要损失函数和优化算法,但是它们都比线性模型复杂许多,无论是能够解决的应用问题,还是底层的理论和对计算力(硬件和软件)的要求。它们都极大推动了数据科学在一大类复杂的模型识别问题的落地,特别是它们跟物联网的结合,它们对传统行业的影响是革命性的,并被政府机构、金融投资机构、和学界的极大认可。从理论上来说,现在的数学工具都没能够深刻地理解这些方法,但是反过来 DL 却推动了统计和应用数学的极大发展,可以说DL是目前处理高维非线性函数逼近最好的方法,没有之一。最近 Deepmind团队开始用DL等工具来解决数学中的一些重要猜想 (Davis et al., 2021, Advancing mathematics by guiding human intuition with AI, Nature)。

最后总结一下我的观点,数据模型是包含与线性模型复杂度类似的所有统计模型, 然而算法模型可能是比线性模型复杂度大许多的所有模型。从模型的角度,它们之间的主要差异是模型的复杂度,然后才是在应用场景、计算力和理论的差别。

什么统计学会有两个不同的文化
我个人认为最重要的差别是统计要解决应用的复杂度和数据的异质性。
为了解决一大类实际问题的需要,统计学家从数学开始,逐渐发展了统计学的理论框架。统计学也开始从数学中分离出来,并抛弃了单纯使用数学的思想,最后加入了使用数据和解决实际问题的核心。现在统计的定义是 "一门收集、分类、处理并且分析事实和数据的科学“,所以应用和数据是统计学的核心,而数学只是统计研究的一种重要工具。 
数据模型可以说在2000年以前还是主流数据分析的工具, 但是从2000年开始,算法模型在模式识别这个重要领域取得了极大的进展,由此逐渐全方面地赶上了数据模型,在社会各个层级得到广泛的认可。在“统计核心是什么?”一文中,我已经系统阐述了算法模型的一系列重大成果,从ImageNet数据集,到深度学习的发展,到AlphaGo的成功,到深度强化学习的成功。在2021年,Deepmind又在多个重要应用领域取得了许多重要的成果,由此极大推动了算法模型的进一步发展,产生了巨大的社会影响力。这个里面的关键在于:
模式识别这种应用的复杂度和 ImageNET 这些数据的异质性远远超过数据模型的复杂度。
在算法模型新的进展中,复杂的应用引导着数据和算法模型的极大发展,然而相关理论几乎不存在。也就是说,好的数据和算法模型可能是最重要的研究工具,而传统的数学工具显得没有那么关键。相反,由于数据模型的模型复杂度的局限,在复杂度大的应用场景上和异质性大的数据上不可能有大的突破,极大限制它的发展和影响力。另外,目前我们也没有强大的数学工具来深刻理解复杂度大的算法模型,更谈不上推动算法模型的发展。

算法模型开启了一条通过大应用,到大数据,再到新算法新的发展模式。 

因此,我再呼吁统计同仁们重视一些大的应用问题,收集和清洗数据, 并搭建有效的数据平台,通过解决实际问题来发展出几个牛掰的统计工具,再逐步建立相关的理论框架,这样统计学就有着辉煌的未来。
最后,我用Breiman教授的一句话结尾:
如果我们的目标是让统计学能够使用数据来解决问题,那么我们需要摆脱对数据模型的完全依赖,采用更多样化的工具。
感谢王学钦教授和唐佳睿的帮助!
END
征文活动:纪念《统计建模:两种文化》20周年
在Breiman《统计建模:两种文化》20周年之际,我们发起了征文活动,探讨统计学、数据科学的历史与未来、机遇与挑战、思想与技术,以启迪思考、开拓创新。
欢迎各位学界、业界人士共同参与!请联系邮箱:[email protected] 或扫描添加微信号(COStudy)讨论。
 数据科学之路 · 文章推荐
继续阅读
阅读原文