——“Breiman访谈录 |《统计建模:两种文化》”的读后感(一)
今天有幸重新拜读Breiman教授的访谈录,跟几年前相比,我在字里行间中体会了许多新东西。这个可能是因为我最近6年的不同于学术生活的经历了,用四个字来形容“人生如梦!”。我从UNC一个高校,到MD Anderson一个顶级癌症医院,到滴滴出行一个创业公司,再回UNC,转了一个大圈子。由此认识了各种背景的人,特别是学界和工业界(含医院和科技公司),我在跟这些同仁的交往之中感受了他们对这个世界的看法和探索的方式是如此的不同。我个人从做数理统计开始,到做生物统计,到神经病研究,到近年做双边市场,再到神经科学,这个过程当中接触了不同层面的问题,使得我在认知水平上的经历了一个巨大的变化。最近我一直思考在新一代数据工业革命这个十字路口,我应该干什么,解决什么样的问题,发展什么样的工具,如何更好探索这个世界。再读这篇访谈录让我在许多问题上参悟得更透了。
今天讲讲统计学的核心到底是什么?
首先,我在这里引用Breiman教授 的几句话:
统计就是"一门收集、分类、处理并且分析事实和数据的科学。    
Fisher相信统计的存在是为了预测、解释和处理数据的。
就统计应用的角度而言,我知道工业机构和政府在发生些什么,但是目前进行的学术研究却似乎离我们无比遥远,好像只是抽象数学的某一分支一样。
这些话从Breiman教授的口中说出来,对我来说,依旧是非常震撼的。Breiman是美国国家科学院院士 (应用数学学部),不仅在概率论、统计、机器学习,做出了许多有巨大影响力的工作,特别他的CART和bagging这些东西已经是科技公司每天都在用的工具;而且在咨询各个行业躬身力行,笃行不怠。可以说他是既懂数学,又懂统计,也懂应用的全才。
我的看法跟Breiman教授的观点几乎一样,我在最近一个讲座里面说:“统计学一开始就从实践中来,通过数据来认识这个世界,最终去解决大的实践问题。” 一言而概之:  
统计学的核心是应用和数据,就是通过分析数据来深刻地探索这个世界。
以下是我对此的一些浅显的认知:
统计学跟数学不一样
虽然统计学要用到数学的许多工具来把整个体系完备化,但是统计学中根本性的0-1大突破一定是从为了解决重大应用问题而产生的。比如,随机梯度算法就是Robbins和Monro (1951,统计年刊)为了做一个实验设计的问题提出来并解决的, 而它现在是深度学习和强化学习最重要的优化工具。那些高深的数学工具大概率不能给统计学的带来革命性的变革。
图1. 什么是统计?(出处未知)
统计不是从工具到应用
我们许多统计学家主要是在做各种统计工具,讨论许多理论性质特别强调数学的美;有的会去找各种数据来试,看看能不能用的起来,只关心能不能发顶刊,根本不关心实际应用中的价值。这也是为什么Breiman说 “统计中吸引人的东西与目前的学术研究已经相去甚远,分道扬镳了”。其实最近20年,统计学在某种程度上是偏离了这个应用的本质。另外一方面,越来越多的智能型数据产品的出现,比如说最近Deepmind在Nature连续发了两篇文章,这些产品对蛋白质结构的预测,用到了好几个最新的分析方法,比如embedding,预训练,知识蒸馏,变换器,和图模型的表示。这些工具就是Breiman教授说 “我与机器学习和神经网络区域的人走得很近,因为他们正在为一些复杂的、困难的预测问题做一些非常重要的应用工作。他们以数据为方向,所做的也与Webster对统计的定义相一致,然而,他们几乎全都不是受过训练的统计学家!”。这些工具已经不能算是传统的统计方法,你可以说在最底层,它们跟统计非常有关系,但是其中有核心的创新是非统计的,是革命性的。这些突破带来不仅仅是学界的认可,它同时会影响政府机构(含各个funding机构)和金融投资机构。比如,美国NSF最近就成立了数十个AI相关的研究中心,但这些和统计社区关系不大,最终可能会进入一个恶性循环的生态环境。
数据问题的重要性
因为物联网的发展直接引导了新型产业的发展,像社交平台、搜索引擎和交易平台等等。由此在时空维度上, 对数据收集、存储和分析都发生了根本的革命。相关公司业务的发展极大地推动计算机软硬件的进步,数据的规模无论从复杂度和多样性都对未来时空数据分析方式提出了许多新的要求。有了数据,原来许多不可能的事情变得可能啦。最近人工智能的落地已经上升到国家层面,是新一代工业革命的核心技术,随着这些落地的进行,我们会看到更多、更大、更复杂的数据。
统计一定是从应用中来,到应用中去

我来说几个例子。

第一个例子是关于ImageNet数据集。最近10年AI的发展,其根源就是数据上的突破,无论从数据的质量、问题的复杂度、还是标注方法的创新, ImageNet都是本世纪数据科学,特别是计算机视觉最重要的一个突破。它给了我们一个公正地评估和训练各种分类和预测方法的平台。一个好的数据是有影响力的统计研究的重要基础。
第二个例子是关于深度学习。现在大家公认深度学习是数据分析方法最近十几年的最大成果,影响深远。它无论对计算机视觉、自然语言处理、非参数模型、反问题、图像处理、偏微分方程数值解等领域都是根本性的革命,可以说现在许多领域里面都替代了传统方法,包含许多应用数学方法, 虽然深度学习的理论研究严重落后于它的应用和算法创新。
第三个例子是关于AlphaGo。AlphaGo的成功反映了一个数据产品要成功,从顶层设计,到数据建设,到硬件,到高超的算法水平,都是缺一不可的。因为深度学习的发展,特别跟软硬件和其它方法的融合,极大地推动了智能数据产品的落地,比如说,AlphaZero和AlphaGo的开发,把现代数据科学可解决问题的深度和广度都推到了历史新高度,并在各个领域里面发挥了越来越重大的影响,特别在学术界和政府,现在已经上升到国家层面的核心生产力,成为新一代工业革命的核心技术。国家层面对AI的投入可以说是一个巨大的蛋糕。这也反映了我们未来要重视智能数据产品的开发和落地,不能只做整个问题中很小的一步,特别要培养统计专业学生的工程能力是非常关键的。
第四个例子是强化学习。AlphaGo和物联网的成功也带动了强化学习的复兴,强化学习已经从一个小众的分支,变成机器学习的头号分支。今年ICRL和neurIPS的顶会里面最多的文章都跟强化学习相关,现在强化学习已经从游戏,到机器人,到精准医疗,到各个市场的落地。我们在滴滴的团队一直用强化学习来优化平台的策略,都取得了很多成果。由于时空平台会越来越大而多,强化学习一定会成为主流数据分析工具。
第五个例子是因果推断。比如今年诺贝尔经济学奖就给了两个做因果推断的人,他们推广了Donald Rubin的因果模型,我认为Don能够做出这样漂亮的统计框架大部分归于他多年咨询工作中积攒的数据和应用相关分析的工作经验,而且随着收集数据能力的极大提升,最近因果模型的相关应用和研究会越来越多和越来越深入。随着收集数据能力特别是时空数据的极大提升,因果模型的相关应用和研究会越来越多和越来越深入,由此相关落地会产生出更大的影响力。
未来一段时间应用的核心

最近机器学习大佬Michael Jordan强调了机器学习与市场的融合。这一代人工智能的发展主要是落地在衣,食,住,行,教育,医疗,人力,和养老等相关的市场,系统地将消费者和商品紧密连接,把人、数据和现实中的问题和需求进行整合,成为一个可以创建经济新业态的平台。统计学必须从收集和提炼信息的阶段来思考如何搭建有效的数据平台,在推动业务发展的过程中逐渐从分析方法上抽象出一套完整的统计学基础理论,来推动人工智能在产业的落地,并产生巨大的社会价值。

因此,我呼吁统计同仁们重视数据和应用,多思考应用的大问题,通过收集和清洗数据,来解决实际问题,进而发展出几个牛掰的统计工具,再证明几个深刻的数学公式,这样统计学就有着辉煌的未来。
最后,我用Breiman教授的一句话结尾:
统计精髓之处是在收集和利用数据,来解决现实世界中有趣而又重要的问题
感谢王学钦教授和唐佳睿的帮助!
——————————————
作者介绍
朱宏图博士是北卡罗来纳大学教堂山分校生物统计学,计算机,和基因终身教授,曾任MD安德森癌症中心的诊断影像学Bao-Shan Jing讲席教授和生物统计学终身教授,滴滴出行首席统计学家。2000年获得香港中文大学统计学博士学位。主要研究领域为统计学习、医疗图像处理、精准医疗、生物统计、人工智能和大数据分析。2011年当选美国统计学会和数理统计学会会士。2016年荣获德克萨斯州癌症预防与研究中心杰出研究奖。2019年因强化学习在网约车出行中的应用荣获Daniel Wagner杰出应用奖。在多个大型医疗研究项目中担任统计分析师,并提供实验设计、数据分析和新方法开发。现有高水平期刊论文290多篇,包括Nature,Science, Cell, Nature Genetics,Nature Communication, Nature Neuroscience,JAMA Psychiatry,PNAS,JMLR, AOS以及JRSSB;高水平会议论文45篇,包括KDD,NIPS,ICDM,AAAI,MICCAI以及IPMI。担任多个国际顶级会议的区域主席,包括Information Processing in Medical Imaging。担任(过)多个国际顶级期刊的编委,包括Statistica Sinica,JRSSB,Biometrics,Annals of Statistics和Journal of American Statistical Association。
END
征文活动:纪念《统计建模:两种文化》20周年
在Breiman《统计建模:两种文化》20周年之际,我们发起了征文活动,探讨统计学、数据科学的历史与未来、机遇与挑战、思想与技术,以启迪思考、开拓创新。
欢迎各位学界、业界人士共同参与!请联系邮箱:[email protected] 或扫描添加微信号(COStudy)讨论。
 数据科学之路 · 文章推荐
继续阅读
阅读原文