本文选自《中国统计》2021年第5期文章,原文已获出版社和作者授权。
大数据时代创造了一个新的科学范式,就是先收集数据,后问问题,利用“捡来”的数据做事。当不考虑被检验的假设时,推论很可能是错误的,也许会导致后续的研究无法重现先前的发现。统计学以往已经证明了它在各类研究中的重要作用,在大数据时代它将继续通过新发展来实现它新的价值。本文将在描述数据科学、机器学习、统计学之间关系的基础上,根据文献资料综合阐述了统计学面临的几个挑战问题。

数据科学、机器学习与统计学

机器学习借助支持向量机、决策树、随机森林、神经网络以及深度神经网络等主要工具取得的成就有目共睹,例如人机对弈、语音识别、自动翻译,人脸识别等方面的成就。我们已经看到,机器学习和数据科学的现在和未来所呈现出的对传统统计学的挑战越来越强劲,越来越迫切。这驱使我们去思考,在大数据和人工智能迅猛发展的新时代,以数据为中心的统计学处于什么位置,如何发挥作用。

统计学经典定义

大不列颠百科全书对统计学有一个很好的定义,统计学是收集数据、整理数据、分析数据的科学与艺术。从这个定义内容来看,统计学就是关于数据的科学,它应该等同于字面意义上的数据科学,虽然数据科学这个名字出现很晚。现在数据科学的真实含义比这要多很多,还包含对数据的存储、提取和运算等方面的技术。

给数据科学来个不一样的定义

写到这,作者突发奇想,如果把对统计学的定义改一个字,也许就可以作为数据科学的一个恰当的定义。各位看官看看是否合适:数据科学是关于收集数据、处理数据、分析数据的科学与艺术。在这个定义中“整理”改为了“处理”,使得包含的面更宽,“处理”包括“整理、存储、提取和运算”。“艺术”好像也可以改为“技术”,但“艺术”似乎更让人受用。
应该指出的是,这不是一个权威性的定义,纯粹是作者此时的想法,请读者们斟酌斧正拍砖。
如果采用这样一个定义,则统计学就真正成为了数据科学的一部分。但成为数据科学的一部分,统计学并不意味着就要消失了,反而是它蓬勃发展的一个良机。就像物理、化学、生物等学科都是自然科学的一部分一样,物理、化学、生物都没有被自然科学吞并,而都独立地存在着。因为数据科学这个领域包含的元素和内容充分多,足够统计学和其它学科在这个领域里纵马驰骋,开疆拓地。由于有多个学科在这个领域里存在,冲突碰撞在所难免,火花燃烧必将更加容易激荡出新的思路和新的理论。

机器学习与统计学的区别

机器学习和统计方法的区别在哪里呐?有人说是否基于模型是区分统计方法和机器学习的原则。机器学习是基于数据学习的方法,不事先假定模型。无论参数模型还是非参数模型,统计学一般情况下是需要模型驱动进行研究的。我们经常在给定数据后和模型后给出点估计、区间估计、假设检验以及随机变量的预测。但数据驱动或探索性数据分析长期以来也一直是统计的一部分。统计学很早也有了从数据中学习的方法,如判别分析、分类、聚类和主成分分析等。虽然有些人把它们归为机器学习,而它们早在大数据和人工智能时代之前已经在传统的统计学中存在。所以,是否基于模型并不是区分它们区别的本质方法。如果愿意,我们当然也可重新划分,基于模型的叫做统计学,不基于模型的叫做机器学习。但这似乎没有抓到本质。
从历史上看,本质的区别在于统计学使用概率或随机化。机器学习使用确定性方法,或者算法。正是因为统计方法使用抽样或随机化这两项假定使得在实际数据获得之前就可以判断统计方法的优良性。比如极大似然估计的相合性、最小方差无偏估计的方差最优性等等。
机器学习算法不需要像统计方法那样多假设。这个论点并不会使概率和随机化这两个原则变得不重要或多余。事实上,因为没有模型,一个算法除了可以通过某个实际数据表明它们在预测方面可能比其它算法表现得更好外,没有任何其它原则可以证明。缺乏模型假设是算法的一个关键缺陷,并潜在地限制了它们的通用性。这引起一个非常重要的问题,就是算法的可再现性。在实际当中忽略抽样和随机化这两个原则的唯一理由:有时我们实际研究的(几乎)是全集。即使这时,我们也必须解决测量误差和可能遵循某些概率定律的错误分类问题。关于全集的数据也可能需要概率驱动的校正,以解决混淆问题,估计真正的因果关系。
有时全集是不存在的,因为历史不会总是重演。就像哲学家赫拉克利特所说“人不能两次踏进同一条河流”。一个人在过去购买了一个产品,未来的购买行为不会完全确定下来。适当的不确定性的假设或者随机化的假设是有必要。例如推荐系统、风险评估或者信用评估。

统计学的光明前途

统计学以往已经证明了它在各类研究的价值,在大数据时代它将继续通过新发展来实现新的价值。如医学中融合多项研究成果的荟萃分析方法以及环境污染、生物信息、社会学研究等领域使用的方法。统计学可以看作是数据科学的一部分,它是一个具有竞争力的领域,与机器学习等其它领域可以提供互补的方法。无论是统计学、机器学习还是其它新的数据科学领域,它们的辉煌成果将一起照亮未来的数据科学。

统计的挑战问题

统计科学在大数据时代面临很多挑战,这些挑战来自数据本身。它们不再是传统统计学的研究对象,无论是数据形式还是数据量都是以前未曾遇到过的。我们下面挑出几个重要的方面加以描述。

人类行为数据

现在许多大数据在某种程度上都与人类的行为有关,如移动通讯数据、出行数据、社交网络数据。传统统计学通常不涉及人类行为的细枝末节。然而,处在一个数据富集的世界里,我们的技术发展不可避免要收集和分析多种类型的数据集。我们需要存储有关人类行为的大数据,并且找到分析方法。虽然隐私会受到影响,但我们仍然希望利用这些数据做更多事情,不仅要研究如何存储这些信息,而且还要研究能够允许做些什么以及能够做些什么。

分析方法的复杂度控制

这是一个关键的问题。一方面,算法复杂性导致其背后的逻辑概念很难用普通人都明白的通俗语言解释。另一方面,复杂的算法与庞大的数据相结合导致结果更加难于理解,特别是难理解背后的原理。显然,做一项重要的决定时,我们特别需要能够控制算法的复杂度,使得可以在可解释性与可预测性中间加以平衡。

数据形式多样性

随着算法复杂度的不断增长,数据的多样性和复杂性也在不断增加。数据集有多种形式,可以是高度非结构化的,包括图像、文本、声音和其它各种新的形式。这些不同类型的观测数据可能一起描述同一个对象,从而产生多模态数据。还可以记录更加复杂的对象。可能是一个三维的形状,例如功能磁共振图像和神经科学的现时脑电图。因此,数据科学要求我们描述这些更形式多样性的数据,并根据它们的内在模式对它们进行建模分析。

个体异质性

经典统计的很多内容都要假定数据来自独立同分布样本,但我们现在面对的数据类型远不能满足这种经典统计假设。这是因为观察数据通常是“捡来”的,或者是从其它采样机制中重新得到的,很可能不是为这个目的而设计实验的。它们可能对应于许多异质群体的混合,总体内的异质性对分析具有挑战性。这样看起来数据很多,但由于异质性的存在,使得信息不够充分。具有高度异质性的总体的分析是另一个重要挑战。认识到异质性并试图从中获益,这在诸如语音识别技术和精确医学等领域中变得越来越重要。在模型中缺乏足够的异质性意味着不可能准确地反映数据中所有潜在的重要结构。

偏倚和缺失

偏倚和缺失是一个特别重要的情况,这将要求我们为数据科学发展一个新的理论。在传统统计中,我们通过指定采样机制和抽样方法来绘制样本。尽管有人声称,“全部”数据的可用性排除了对统计模型或抽样方法的需要,但事实正好相反。
我们努力从再利用或“捡来”的数据中获得信息,在那里我们可以获取关于抽样设计或群体组成的有限信息,更重要的是数据中需要考虑偏倚和缺失。如二战中飞机弹孔分析的精彩例子。但是,当我们放弃精心设计的实验,并开始解决不平衡随机设计的性质时,许多统计理论都不成熟。

数据科学需要坚实的基础

异构、非结构化的数据的复杂性对统计者建模来说是具有挑战性的,并且需要对理论概念和方法发展新的现代统计方法,以及将这些转化为可以实际运用的严格方法。在大数据时代发展的统计理论和方法必须适应现实世界所遇到的数据类型,否则我们将被时代淘汰。鉴于现在能够收集的大量的和多类型的数据,必须产生新的统计思维来帮助我们理解一个非理想抽样模式,得到合理的结论。数据将不仅通过技术,而且还通过政策、商业、隐私和信任影响每个人的日常生活。数据科学需要发展出一个坚实的推理基础,迫切需要为这些场景设计新的建模思想和推理过程,这需要统计思想和理论的创新发展。

作者简介

房祥忠教授 在北京大学数学科学学院曾任概率统计系主任,中国现场统计研究会理事长,IMS-China主席。现兼任教育部统计学类教学指导委员会主任委员,中国统计学会副会长,全国应用统计专业学位研究生教育指导委员会委员,北京企业评价协会理事长等职。研究兴趣包括:生存分析,可靠性,纵向数据,基尼系数,时空统计,人工智能中的统计方法等。在《中国科学》《JRSP》《Reliability on IEEE》等期刊发表论文50余篇。曾获国防科技奖二等奖(2011)、北京市科技进步二等奖(2002)和教育部第六届高等教育国家级教学成果二等奖(2012)。
敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
编辑|李萧纹
继续阅读
阅读原文