编辑部按:本次讲座的题目是“在疑问中生存——和奋进的伙伴们聊天”,由吴喜之老师主讲。吴喜之老师是中国人民大学统计学院教授、博士生导师,北卡罗来纳大学统计学博士,本科毕业于北京大学数学力学系,曾在美国加利福尼亚大学、北卡罗来纳大学、密西根大学以及南开大学、北京大学等多所著名学府执教。主持人孔令仁,录音记录的文字整理由志愿者叉烧、Ruixiao、Carolsun、47、康贺铭、drl、戴诗桐、曾令琴共同完成,Ruixiao 进行订正,感谢各位志愿者的辛勤付出。
谢谢大家。在事先准备的讲稿之前,首先,我会先回答组织者事先收集的同学们的一些问题,这样可能更为妥当,也希望这能够激发更多问题。对这些问题的讨论大约相当于原来讲稿的规模,我尽量控制好时间。

问题范畴一:数据科学

Q1: 数据科学、统计、人工智能、大数据、机器学习、深度学习、数据挖掘、数据分析。学术界和商业界这些名词很容易让初学者疑惑,请问您如何看待这些纷繁的名词以及之间的关系?
A1: 这些名词或者术语是不同领域的人群在不同的历史时期为了不同的目标所发明创造的,其含义随时间与个人而变。不同的人对这些名词的定义和理解都不相同(也不可能相同)。保持这种模糊性对某些人是需要的。
但对于每个人来说,做自己想做的事情本身,比别人对它取什么名字或标签更重要,是不是?
我们最需要的是:1. 纯粹数学的逻辑、2. 目标确定的使命感、3. 熟练的编程能力。实际上,是否学习了具体统计课程(除了有学分要求的课程)的影响并不是很大。
Q2: 学校和企业都在研究和实践数据科学,您曾在多个学校执教,也在企业工作过。您如何看待二者各自的优势和不足?以及两者之间应该如何互动?
A2: 首先,我认为,对于学校来说,不掌握第一手数据、且以发表论文数量及杂志级别为主要考核标准的学校,通常落后于社会需求。实际上,这一点和教师也有关联,有权力、有资源的(只专注显著性统计的)资深教师中,有多少愿意抛弃自己熟悉的套路、而去学习编程,去从事自己所不熟悉的数据分析?从这一点来看,陈旧的(却是最容易通过考核的)教案及教学方式束缚了一些有能力但没有权力和资源的年轻人的手脚。
其次,在其他领域,如金融界、互联网行业、大企业、医学界、政府等,都拥有大量数据,但是,哪些部门又能够充分利用这些数据呢?哪些部门愿意分享这些数据给学校去做学术研究呢?不妨考虑一下,企业、学校等单位的领导普遍最为关心的是什么?
总而言之,最根本也无法绕过的问题,是真正数据科学人才的普遍缺乏。有了人才,也许所有的问题都可以被解决。
Q3: 您认为数据科学的原则是什么?郁彬老师给出的是可预测性、可计算性、稳定性。也有其他学者提到可解释性、泛化性等。
A3: 首先,可预测性是应用的需要,而可计算性和稳定性确保预测精度。
以阿尔法狗为代表的人工智能,其主要目的是预测。如果阿尔法狗下不过一个普通棋手,那么,谈论其“优良性质”是没有意义的,但是现在,阿尔法狗赢了,就没人批评其“不透明”或“没有可解释性”了。
这就类似于不懂机器学习的人喜欢说机器学习是黑匣子,并以此来掩饰自己的无知。我认为,所谓“线性回归可解释性”实际上是皇帝的新衣。我们来看看下面的例子:
例1:通常情况下,人们认为,在多重线性回归中,当其他变量不变时,某变量的系数含义是:该变量增加一个单位时,其对因变量的贡献。
下面展示了数据 mtcars 各自变量单独和多重回归系数的估计。
这个数据有很多变量,如果利用这些变量进行多重回归,就可以得到很多系数(和你们平时所做的那样)。但是,如果单独将每一个变量与相同的因变量做回归、得到相应系数,再对比这两个系数,会发现它们相差甚远。你们可以看看这张图,除了数值大小,有很多甚至连符号都不同。因此,我们通常默认的多重回归的可解释性,完全可能只是个伪命题。除此之外,如果从逻辑上分析,这里所说的“多重回归系数的意义”论述,也具有以下逻辑谬误:
  1. 在自变量中,“其他变量不变”到底指什么?(特别是在基于线性回归的计量经济学数据中),因为这些经济数据里,几乎没有什么变量是相互独立的。
  2. 为什么单独回归和多重回归的系数有如此大的差距?而且,还偏要用多重回归的系数来解释单一变量的贡献程度。
  3. 是不是自变量互相独立时,该论述就成立了?请看下面随机(可随意试不同随机种子)生成了独立自变量数据的人造例子,并用随机数据进行了多重和单独变量回归。
对独立自变量做单独和多重回归的系数比较:
注:红色是多重回归的系数,蓝色是单独回归的系数,可以看到,它们的差距依然相当大。
除了数值大小以外,有些自变量系数甚至连符号都是相反的。有人可能会质疑:这个实验中的随机种子的选取有些怪异。我可以更改,请看下图,我使用了其他的随机种子。
这里是各种不同的随机种子,但是,请大家注意这些变量的系数所对应的红色和蓝色值,它们依然很少有相同的。因此,可以认为,多重线性回归中、单独变量的系数大小,确实是没有任何意义的。大家也可自行探究,若要使单独回归和多重回归中相同变量对应的系数也相同,需要怎样的条件?
我的结论是:这两种回归下系数相同的充分必要条件,是系数矩阵为正交矩阵。但是,这种情况在任何实际应用中都很难遇到。
请大家进一步思考:单独自变量的系数大小在多重回归当中没有意义,这件事说明了什么?
首先,我们会质疑关于系数大小的显著性检验,到底有多大意义?同时,我们也会想到,回归分析的教材里,到底有多少垃圾?我们的大部分回归分析教材都主要在讲显著性检验,而不讲(交叉验证的)预测精度。为什么只沉醉于不存在的“系数可解释性”上?也许是因为(预测精度)并不是被(教材内容的)最原始的创造者所发明的;至于普遍意义下的交叉验证,如果没有计算机,可能根本就无法实现。
Q4: 数据科学和科学的关系是什么?数据科学的弱点和不足是啥?目前看来部分基础学科(数学、物理)的重大成就似乎还没有数据科学的身影,如何看待这一现象?数据科学如何和其他的科学工具更好结合?
A4: 以物理为代表,可以看到,自然科学的任何分支都是以确定的自然规律作为对象的。而数学本身不是科学,是因为它并没有对象,但它是一切领域的工具。不能否认的是,数学很美、也很有用,至于使用者是谁、也许并不重要。因此,数学家的目的不在于“数学是否有用”,他们关心的是数学的美,尽管这对外行人而言通常无法欣赏。但是,数据科学所面对的,很多都是知之甚少的自然规律,比如医学、生物、以及没有统一标准的人文社会科学和经济学。而传统统计不以预测为主要目标,因此,传统统计学在各种以预测为目标的领域内,都不是很显眼。在预测方面基本上都是机器学习方法在起作用,机器学习方法尤其在人工智能等领域内、更是令人瞩目,比如阿法狗这样的应用。但是,这些成就对于研究显著性统计的人而言,对于那些认为自己是数据科学的代表、但是又不懂或不喜欢机器学习的人而言,他们自然不会认为这是他们的成就。

问题范畴二:教育

Q5: 时代变化很快,新知识层出不穷,但高校的教材一般来说比较陈旧,尤其是在前沿应用实践领域方面。请问在校学生应该如何更高效的学习,和时代接轨?
A5: 我觉得任何知识印到教科书上就已经落后了,那些讲了多少年的陈年旧书只能当古董来欣赏。满堂灌的课堂是学不到什么东西的。成功学习最主要的因素是兴趣及自学能力。而不是上了多少课!找最感兴趣的和最需要的来学,最及时的也是最新的知识源泉是网络。一定要在用中学,在公司的好处是有对象(一般非资讯类公司问题面较窄),在学校的缺点是没有目标,优点是没有约束,但须自己寻求目标(你可以自己寻求目标,所以学校的老师有它的优越性)
Q6: 数据科学同时需要理论知识和实践经验,您觉得相关专业的在校学生应该如何看待和处理实习呢?每个阶段(本科低年级、本科、高年级硕士、博士)?
A6: 我注意到有些实习是为了应付评估而把学生当简单劳动力(如抄报表,输入数据之类)而不是头脑和专业。所以关键是进行什么样子的实习,为了政绩而制造的与教学分离的“实习课”不一定比教学中自始至终与真实数据打交道更有效。在学校(数据科学方向)的任何阶段,无论是理论课还是实用课程都要显示目的、应用前景、条件、风险、优缺点等各方面。一些课程要自始至终地要每个学生独立地寻找、展示、分析数据并得出结论。我在很多学校(从人民大学到大理大学都是这样做的,对本科生(>=3)、硕士生和博士生的都是做这么做的,都很成功。以单独模型而不是目标(或数据)为主的课程是最糟糕的(比如目前回归课程主要讲上百种回归之一的线性回归(还以显著性而不是预测为主),无视其他更有效的回归方法的存在),这是不对的。
对于本科(<=2)学生,切忌无目的地演示任何一本书都有的数学推导(数学式的:假定 ⇒ 定义 ⇒ 定理 ⇒ 推论等等)以及死记硬背的概念及说教(无论有没有争议)(如统计的理论基础是什么?统计由几部分组成?统计学的研究方法有几种?统计学的意义是什么?统计史上的大辩论等等。)这种现象在理科里不多,但是在经济统计里就比较普遍。
Q7: 我们看到您之前的演讲中提到您 72 岁仍然能学习 Python。请问您是如何做到活到老,学到老呢?与之相比的是,有些同学在大学阶段仍然不太擅长自主学习,仍然采用高中的刷题刷分模式,对于这些同学,您有什么建议吗?
A7: 我觉得如果念书是为考试、家长、老师、钱权等,或因为从众,那就永远没有希望。只要有兴趣和好奇心(求知欲),没有什么是学不会的,自学什么内容和年龄无关,与上过的课程及专业也无关(可能根本没有交集)。统计之都社区中不乏自学的榜样,从老资格的李舰、刘思喆到新秀夏骁凱,他们这些大神比我强多了!我有很多地方需要他们帮忙,如欲枚举,必有遗漏。
Q8: 数据科学涉及的范围很广。数理基础、 编程技能、统计机器学习、深度学习、具体领域知识等,似乎是要打造一个全能的六边形战士。对于一个天资一般,没那么聪明的学生,很难或者没有时间全都学明白。请问如何更好选择方向才能走的更好?或者如何安排能够更有效的适应数据科学的需求呢?
A8: 我觉得所有这些内容都是一个整体。就像学外语:语法、单词、阅读、会话、文化等看上去五花八门,实际上,只要以外语为工具、文化为载体来交流,没有必要理睬那些细化的花样!数据科学也是一样,除了必要的数学基础之外。通过数据分析的目标来拉动式地学习所有技能(有目的,有兴趣),根本不困难。(避免碎片化、细化的以模型为主的教学)。就像学编程,你不能够去背那些东西,只要动手,一切问题都解决了。
Q9: 现在深度学习、人工智能是非常大的热点,很多统计相关毕业生也纷纷转向互联网大厂。请问目前的在读学生是否应该去追逐热点?如何体现自己的独有优势?
A9: 那些时髦名词下面最根本的内容就是数据导向的思维和动手能力。有了这些能力(目前属于稀缺人才,大多数人不能胜任),不愁找不到合适的工作。至于去什么具体单位,(在不断变化的世界中)很难具体建议(不是科学问题)。关键在于在任何环境下都不断提升自己,永远处于被需要的高端行列,立于不败之地。不要跟别人一样,不要从众,一定要自己努力。

问题范畴三:因果推断篇(近期热点)

Q10: Pearl 因为因果推断获得了图灵奖,最近 2 位诺贝尔经济学奖获得者也因为因果关系的方法论获奖。您对因果关系的发展如何看?
Q11: 我个人用过 Pearl 的因果图,感觉很容易犯错,比如把结果就假设出来。但传统的统计学者注重严谨性,很少获得因果知识。给我的感觉是严谨就很难获得有效的知识,放弃一点严谨性就可以获得很多结果,但这时候又很容易犯错。请问如何平衡?
Q12: Pearl 在《为什么 (Why)》一书中批判了数据科学的现状,他认为只靠数据是不行的,在他的因果框架中,纳入了人类的经验知识。请问您如何看待纯数据驱动的数据科学和夹杂了经验知识的数据科学?
A10-12:针对以上关于因果推断篇的3个问题,我在这里一起回答。
因果关系是我宁愿回避的领域,有两个原因:
1、涉及哲学和标准不确定等非科学问题。简单或复杂的事情都很难搞清。
2、因果关系需要认清所有相关的变量。但人类的认知范围太可怜(比如关于气候变暖问题),根本无法识别如此复杂宇宙(包括人类本身的生理和心理) 的各种变量。
下面给出两个例子:
例1:计量经济学经典说法:挣钱多是消费的原因,完全可以说:为了买东西才去挣钱。
例2:每种药物或治疗方法都被认为能使病减轻或消除,但没有任何一种被证实是因果关系。实际上很多药物仅仅是消除了人体对疾病的反映(如退烧和降压),和治疗疾病无关(用药很可能有害 — 因为降低人本身的免疫功能)
非理性的(往往自以为理性的)人类社会的复杂性是那些用于因果推断的(往往是线性的)数学公式所无法描述的!和受到普遍尊重的诺贝尔科学奖相比,诺贝尔经济奖是最少受到尊重的奖项之一,先后得奖者的观点互相矛盾,而且大都没有后续的实际意义。(比如原来有诺贝尔奖的理论是以人类是理性的为基础,后来又有一个诺贝尔奖获得者说,人类是不理性的,这些都获得诺贝尔奖。)所有诺贝尔奖大部分都是总结一些历史,而且不见得总结的好,这些诺贝尔奖的理论从来没有成功预测过任何一次经济危机或金融危机,基本上好像没多大用处似的。
每个人头脑中的经验是基于其人生年月所获得的数据形成的模型。虽然这些模型没有数学或代码形式,却往往可靠。这里给出两个例子:
例1:小孩儿起初走路不稳,长大走路就稳了,他脑子里实际上有模型,只是写不出来。
例2:中医越老越厉害,是因为中医一生当中都不断的根据数据来改进模型,使得治疗效果越来越好。这是不断的科学实验。只有那些很笨的医生,他犯了错误,还会再犯。一般的聪明人,他如果出错一次,下次就不会错了,之后他的模型就改进了。这些过程没有公开记录,才给人以中医不科学的印象。至于中医怎么解释,那是另外一回事。
贝叶斯统计的先验分布试图包含经验,但却不被频率派统计的信仰所接受。

问题范畴四:数据科学杂谈

Q13: 您欣赏什么风格的数据科学工作?
A13: 我只能回答说,数据首先要数据驱动,解放思想,老老实实动手,当个合格并被需要的工匠。不理会那些人为(和抢占地盘有关) 的标签。你把我说成是搞什么的都可以,我不在乎,说我是统计学家也好,不是也好,没关系,只要我爱干就行。
Q14: 您对数据科学的未来发展有什么憧憬?比如 10 年后、20 年后?
A14: 只能说它依赖于计算机技术的发展分析方法。包括算法的发展,市场需求及人才状态,有的时候市场你根本没有办法预料。出现个新技术,马上情况就都转变了,不是因为别人的竞争,而是因为完全跟你没关系的东西,可能会改变这个需求。

问题范畴五:技术问题

Q15: 对于同一类型同一目的的实验也有不同的统计和检验方法。但是实际应用中我们选取方法的方式一般是按照类似实验的参考文献,参考文献用什么大家就都跟随着使用。我想问的问题是,怎么在实际情况中选取合适的统计方法,有没有什么样的标准?
A15:我认为就是应该以预测精度为标准,用交叉验证来选择模型。如果一个模型预测精度不好,你再去研究它的可解释性或者什么东西,一点儿意义没有。要抛弃统计显著性。那些必须以假定模型参数为基础定义的 bias 没有什么意义。只有以实际为基础的,以数据为主才有意义。数据科学中不同圈子的杂志所刊登文章的类型甚至没有交集。而且重大的创新往往不被那些著名杂志所接受。杂志主编有接受其喜欢的套路(套路不可能有创新) 的倾向。就像 Breiman 的随机森林,还有就是 bootstrap 那些重要的东西,一开始杂志都不发表的,后来才发表。模型驱动的科班出身统计学家,在没有应用背景的主观假定下,创造的可被圈内杂志发表的大量的套路化结论,除了对晋升有利之外,对世界有什么意义?(数学水平大都不超过泰勒展开)对数学没有意义,对科学没有意义,你发表在杂志上又能有什么意义呢。绝大多数著名算法发明者当中,没有统计科班出身的人。计算机出身的也不多,但是数学包括随机过程、概率论、物理和其他科学工程出身的很多。
世界上最重要的计算机算法是谁创造的?就没有从事显著性或者大样本的统计学家。我们下面按顺序来看。
样条、Monte Carlo 模拟、自助法抽样、人工神经网络、决策树、随机森林、adaboost、 svm,深度学习,一个搞统计的都没有。当然你可以说。那些搞随机过程的,或者搞概率论的,算是统计吗?根本不算统计,那个算是数学。你搞大样本或者是显著性是搞出不(世界上最重要的计算机算法)来的。
Q16: 孟德尔随机化如何减小流行病分析中的 bias?
有教授曾说非数学或统计科班出身很难在方法学研究中有很大成果,但因果推断无处不在运用合适的因果推断方法对于生物学或医学生同样重要,他们不应该只是在已有方法中选择,如果方法有偏差,他们也应改进方法,例如优化孟德尔随机化方法从而更好用于遗传流行病学分析,对此您有什么看法和好的建议?
A16: 提问者很对,绝对不能仅仅在已有的方法中选择,必须创新。
另外,关于孟德尔随机化问题。孟德尔随机化(MR) 使用工具变量,其中基因类型作为感兴趣暴露的工具。MR 的准确性取决于许多假定及其他因素:工具变量和因变量之间必须没有直接关系,工具变量和任何可能的混杂变量之间没有直接关系。除了被仪器对疾病的直接影响所误导外,分析人员还可能被未测量的直接因果变异、遗传异质性、多效性(通常检测为遗传相关性) 或群体分层的连锁不平衡所误导。这些假定或条件的核对(即使可能) 往往比 MR 本身更困难,在医学上大量已经确立的因果关系后来又被否定,更不用说社会科学的决策了。每个人都觉得这是因果关系,实际上它不是。所以因果关系是我很害怕的一个领域,我知道很难得到什么成果,也就是很难做,这是我的感觉。
Q17: 机器学习和传统的统计推断,目前在应用领域,基本还是平行发展的。二者之间是否可以有一些融合式发展?之前看过一本书《计算机时代的统计推断:算法、证据和数据科学》,做了一些尝试,我想听听吴老师对这本书的看法,不知道吴老师对这本书有没有了解?【注:这书是 computer age statistical inference 的中译本】
A17: 这本书我浏览过,是今年 3 月才定稿的。这个书跟我 2000 年以来写的一系列教材非常类似。主要是平行地罗列了一些经典方法和机器学习方法,并没有试图去融合两者,这很难融合,因为和众多我写的书的写法类似。我现在的《统计学——从数据到结论》,要出第五版了。《复杂数据统计分析》(第四版)也快出来了。我当然不愿意也不便于评论这本书,因为评论来评论去好像评论自己的书一样。我觉得融合各种方法不是目的。目的就是要对任何方法来说,无论在什么标签之下,无论是机器学习方法也好,经典方法也好,只要预测精度高,稳定或者可计算,就是好方法。如果数据分析的目标一致,那还分什么你的地盘我的地盘呢?这个分地盘不是我们匠人所关心的。
目前感到地盘危机的不是计算机,而是“伪数学”导向的传统统计。什么叫“伪数学?
1976 年,George Box 说过,这种伪数学 (mathematistry) “有将所有问题强嵌入一两种常规技术模板的趋势,它既对探索的目标没有做充分考虑,也忽略了对强加的方法所隐含的假设是否(与目标) 相关。” (他起的这个名字很古怪,意思是有点儿类似于数学的东西)
将所有问题全嵌入一两种常规技术模板的趋势。它既对探索的目的没有做充分考虑,跟目的关系不大,也忽视了对强加方法所隐含的假设是否与目标相关。
下面是吴喜之老师讲座预先准备的内容,与问答重复部分会省略。

关于好奇

首先,我们也希望大家保持好奇。儿童如果不好奇的话,长不大。玩确定性的游戏,没有意义。一定要有随机性,可输可赢。如果没有疑问,那就不可能有创新。至于什么是 “有用” 或 “正确”?有没有度量来衡量?如果不是 “有用” 或 “正确” 是不是就是 “没用” 或 “错误”?(艺术有没有用?“内卷” 呢?) 人世间有没有一个标准是所有人都同意的?是不是多数(或权威) 认为对的标准就是对的?“多 数” 和 “权威” 如何定义?是不是 “传统” 或 “惯例” 就是 “对” 的?(谁的传 统?什么传统?谁有权选择?) 清朝禁不掉的汉族妇女缠足是民族传统吗?什么是 “进步”?人类 “进步” 了吗?我们大家都想想这些问题。我不在这里讨论这些问题了。
黑格尔说过。凡是有理由存在的就会存在。凡是存在的就有其存在的理由,这是我的翻译。传统翻译是:合理的就是真实的,真实就合理的(What is reasonable is real: and what is real is reasonable)。有时候很难懂这个话。但是我的意思是说,我们必须承认现实世界的所有存在,并学会与之共存和打交道,无论你喜欢不喜欢,你必须要跟它打交道,与之共存。
简单化(有用无用,好人坏人等) 源于认知能力?小时候都喜欢问 ”好人还是坏人”,可说是幼稚。在现今社会,对很多有各种特性的事物,偏偏做个什么综合指数或者排名,是不是有的人的知识范围,智商,意愿或者是有限的时间阻止他理解复杂事物?他只懂一位数吗?
最省事儿的管理就是把事物排序,提拔按前的名次,惩罚按后的名次,世界就那么简单吗?简单化思维,无论对错,都容易影响多数人。是不是这样的?简单的口号是否比复杂的说理更有效?

关于教育

我们在高考前十几年,只需要应付那那几张卷子的考试内容,好像其它世界就不存在了似的。过去我也提过,在美国和苏联的大学,要淘汰一半的学生。如果我们大学多招一倍的学生,使其在大学的四年能证明自己。那么目前的一系列的问题,什么减负,课外辅导,学区房,一考定终身都可以解决了。那为什么不能实现?我们的教育制度是跟苏联跟美国借鉴来的,怎么不行了呢?
首先,在民国的时候,上大学的人很少,你根本淘汰不起。淘汰就没人了,一年一个系也就几个人。现在,由于没有淘汰的先例。哪一个校长愿意承受被淘汰的学生家长所带来的麻烦?外加各种可能连带事故...心想还是躺平算了。
大家看,民法通则的内容是《中华人民共和国民法通则》第十一条:
“十八周岁以上的公民是成年人,具有完全 民事行为能力,可以独立进行民事活动,是完全民事行为能力人”。但是现在我们大学,配有班主任,辅导员,像对待儿童一样对待这些学生,对待这些“完全民事行为能力人”有必要吗?是有点儿滑稽的。

关于内卷

很多事情属于 “内卷”(“内卷” 似乎是没有产出的内耗意义),我曾经给某一个学校院长看了,他们说我说我画的(院校的行政关系网)还是太简单了,整个学校的各种各样的关系,更加复杂,内耗特别多。如果一个校长直接管理学院,学院直接管理教师,是不是校长跟院长责任更重?是不是机构越复杂?管理者的个人风险就越少?内卷使更多人有饭吃吗?招人总比裁人更省事儿,哪个领导愿意去精简机构得罪人?内卷不会影响教育质量吗?教育质量不易衡量。每个系统中的人都要显示自己的存在,因此会议次数,报表数量不就是明摆着的政绩吗?目前有些大学更像某些初中:填鸭式教学、不许偏离事先上交的教案、 死记硬背即使不懂也能通过考试(甚至用于编程和数学分析)、教考分离(这就意味着就是大家就死记硬背就是了。包括教师)...... 是不是因为不懂教学和科研的人在裁定 “应该如何教课及科研”?这都是提的问题,我不敢做答案。
马斯克说过“ 我觉得当前教育看起来就像以前那样是单向的,就是原来在电视上所看到的一样”。我觉得教室应该是进行讨论的,而不只是听老师的讲解。”这句话我是同意的。有多少课程可以取消?有没有专业可以取消?自己的知识能力是不是课上听来的?自学是不是更重要?是被实际目标拉动学习还是无目标地按照书单来被动学习?这都是值得我们为之思考的。

关于数据科学

有人觉得统计应该是数据科学的老大。
数据科学是计算机的人发明的名词。实际上不列颠百科全书关于“统计”的定义,就是数据科学。而那些自以为统计是数据科学老大的人,往往实质上喜欢“数理统计为数学的一个分支”的定义,而这个定义也在某些百科全书上有。他们认为独立的显著性统计结论可以普遍适用于各种领域,这种思维和实践已经把统计推到了悬崖边上,并称之为"统计思维"。
首先给出一个样本均值,样本均值是大于零的,这是很著名的达尔文数据例子。然后得到一个在一些数学假定下就把这样本均值这几个 n 等于 15 的样本推广到了普遍结论, 大于零。好像就跟魔术一样的,逻辑就是 一组假定加上一个假设然后得到一个矛盾,怀疑假设但是不怀疑假定,而且那个 0.05 是是主观确定的。对整个这个前面的动机是为了把一个简单的 15 个数推广到总体,这是统计思维的一个目的。逻辑是有问题的,实际上他所有的结论是假定跟假设在一块儿得出来的。但是发生矛盾以后,他只怀疑假设,不怀疑假定。这就是所谓的伪科学了、伪数学了。关于这个问题我不在这里细讲。
在任何基于显著性的结论当中,哪些反映了主观假定?哪些反映了数据?我们的传统的统计充满了数学假定。但是结论当中他根本不提,也提不出来得到的结论里头哪些是我主观假定的、哪些是反映客观数据的。另外,就是大样本定理需要多大样本才能用?这个没有人能说得出来。只有公共课教科书敢骗人说“30 是大样本”。证明大样本定理的人都不敢这样说。
医药界的用处举例,对于“关于显著性”,美国 FDA(食品药品总署) 每年由于显著性批准了多少药品?FDA 又根据显著性撤销了多少药品?(显著性的确创造价值,皆大欢喜!?)这就是显著性的实际应用。

关于统计或者数据科学与计算机科学的关系

统计或者数据科学(随便你如何定义) 与计算机科学的关系 从来界限就不是那么清楚,绝不是 “非此即彼”,你能够想象不用计算机的数据科学家吗?不可否认,很多(即使现在赶时髦天天谈论大数据的)“统计学家” 根本不用计算机也没有处理过数据。你能够想象不处理数据的计算机软件科学家吗?其实正是那些沉溺于显著性数学推导,不齿于用计算机工具做数据分析的人把作为“学科” 的统计引入了尴尬的境界。统计界丢掉饭碗最快捷的方式就是闭关自守自娱自乐。
回顾一下不远的历史(大约 45 年前的事情)。
当中国有第一批(晶体管) 计算机时(DJS-6,108-乙机,北京大学 150 机) 时,还没有数理统计或计算机/软件专业,更没有除了科学计算之外的计算机应用。中国第一批计算机的客户是科学家,工程师或应用数学家,为国防、石油勘探、气象预报、地震预报等服务(无法想象将会有游戏、通讯、互联网等) 。第一批软件工程师是写计算机操作系统为使用科学计算语言(ALGOL-60,FORTRAN-77 等) 的领域科学家服务。这些人也不知道自己叫做软件工程师,那时候也没有这个专业。
在各种名词术语定义不清的时候,有太多的韦恩图(Venn diagram)。2020 年图灵奖 (Turing Award) 得主 Jeffrey David Ullman 在其文章 5 中给出 了两个图,左图为他对现有关于数据科学流行观点的批判 (包括对前页左图的修改),右图为他自己对数据科学的看法。
这是两种韦恩图,矛盾很大。因为本来这些东西定义不清楚。后来图灵奖获得者又去批判:左边这个图就是刚才其中一个图,他批判来修改。右边的图他自己写的。把统计弄的很小,数学弄的很大,这都无所谓,爱怎么做怎么做。我的观点是:这些标签是学术界和行政上人为划分的标签。这些标签定义不清,而且不断变化。如果把这些名词当成知识、实际目标、课题兴趣,而不是标签。作为自由人。你有必要禁锢自己于那些标签当中,而且忠于那些标签、或某些标签吗?我们是自由人,我们并不属于这些院系,或者这些专业,或者什么东西。我们想做自己想做的事情,我们做数据分析管他什么标签跟我们没关系。本来没有数理统计专业,没有计算机专业、没有数据科学专业。现在有了地盘,就竞争山大王了?在年轻人眼中,这些背着沉重包袱的老一辈儿的争斗不是很可笑的吗?年轻人只要在适合于自己发展的自由空间,谁在乎标签是什么?我们面对的是可以自由航行的海洋,而不是禁止来往的笼子,不应该有边界。

关于统计学科的独立性

有人说:“统计学科怎么样才能具有真正的独立性?” 这是很滑稽的。George Box 早就回答了这个问题:大多数学科都既有理论也有应用方面,理想情况下 它们会互相滋补,但对于统计,我认为这并非总是如 此。在我看来,除非作为调查和发现的催化剂,统计没有存在的理由。(Most subjects have a theoretical as well as applied side,and ideally each nourishes the other,but for statistics I believe this has not always been true. In my view,statistics has no reason for existence except as the catalyst for investigation and discovary.) 这是很清楚的一句警言,下面是一些更多的语录。
David S Moore:统计学是不是数学,统计学家没有本钱去分享许多数学家继续将其视为理想状态的孤立的富丽堂皇。(Statistics is not mathematics,and statisticians cannot afford to share the isolated grandeur that many mathematicians continue to see as their ideal state.)
George Box: 我们目前的悲惨局面和有些可疑的未来源于这样一个事实:数学尾巴被允许摇晃统计的狗太久了。(Our present lametable situation and somewhat dubious future arises from the fact that the mathematical tail has been allowed to wag the statistical dog for far too long.) 一般的英文术语来说,狗是摇尾巴的。如果尾巴摇狗了,就意味着本末倒置了。
George Box:我不确定统计系创始人的意图。但我认为许多这样系的内置数学偏向以及我们目前大部分教学不仅不是无害的,而事实上是反科学的。(I am not sure what the originators of the idea of statistics departments intended. But I think that the built-in mathematical bios of many such departments and of much that we are presently teaching is not innocuous; it is in fact antiscientific.)
最后是卡尔马克思的,对于最喜欢的座右铭的回答就是:
怀疑一切
De omnibus dubitandum
好了,我的演讲完了,谢谢大家!
—— END ——
征文活动:纪念《统计建模:两种文化》20周年
在Breiman《统计建模:两种文化》20周年之际,我们发起了征文活动,探讨统计学、数据科学的历史与未来、机遇与挑战、思想与技术,以启迪思考、开拓创新。
欢迎各位学界、业界人士共同参与!请联系邮箱:[email protected] 或扫描添加微信号(COStudy)讨论。
 数据科学之路 · 文章推荐
继续阅读
阅读原文