数据科学与实事求是

近日，“Breiman访谈录|《统计建模：两种文化》20周年纪念”一文刷爆了朋友圈，掀起了统计学和数据科学的讨论热潮。恰好，笔者不久前在岳麓书院观看关于实事求是的主题展览，发现事实求是这个原则和数据科学有诸多相通之处。感慨万千，于是想把自己不成熟的想法记录下来分享给大家，以抛砖引玉。

“实事求是”原本出自于东汉·班固《汉书·河间献王传》：“河间献王德以孝景前二年立，修学好古，实事求是。”，原指尊重实事，不造假，不夸大其词。

在80年前的1941年，毛泽东在《改造我们的学习》一文中对实事求是给出了深刻的哲学解释，这一次上升到了基于实事探究规律层面。定义和阐述如下：

“实事”就是客观存在着的一切事物，“是”就是客观事物的内部联系，即规律性，“求”就是我们去研究。我们要从国内外、省内外、县内外、区内外的实际情况出发，从其中引出其固有的而不是臆造的规律性，即找出周围事变的内部联系，作为我们行动的向导。而要这样做，就须不凭主观想象，不凭一时的热情，不凭死的书本，而凭客观的指导下，从这些材料中引出正确的结论。这种结论，不是甲乙丙丁的现象罗列，也不是夸夸其谈的滥调文章，而是科学的结论。这种态度，有实事求是之意，无哗众取宠之心。这种态度，就是党性的表现，就是理论和实际统一的马克思列宁主义的作风。这是一个共产党员起码应该具备的态度。如果有了这种态度，那就既不是“头重脚轻根底浅”，也不是“嘴尖皮厚腹中空”了。

在展板上看到这段话时，我非常震惊！整段话都在讲实事求是，但在我一个数据科学工作者眼中，这些充满哲理的话同样也都适用于数据科学工作，包括目标、路径和误区，而且语言是如此生动！近期，AlphaFold2模型对蛋白质结构进行预测，取得了突破性进展。接下来，我来尝试从数据科学的角度来印证实事求是，并结合这个例子来阐述，会发现很多有趣的东西。

“实事”就是客观存在着的一切事物，“是”就是客观事物的内部联系，即规律性，“求”就是我们去研究。

“实事”是客观事物，一切从实际出发。数据科学工作中，客观事物需要记录为数据，才能分析和计算，没有真实的数据就没有后面的一切。我们必须通过各种手段获取能够记录对应问题的真实数据，包括通过自然观测、仪器测量、调查研究、实验观测、互联网和物联网生成等方式。在蛋白质结构预测案例中，AlphaFold2模型名扬四海，但背后的数据集更是功不可没！其中一个核心的数据集PDB，包含了14万个蛋白质核酸的准确结构。PDB是由千百位科研人员先后倾50年心血打造的，数据是由世界各地的科学家提交，但每条提交的数据都会经过工作人员的审核与注解，并检验数据是否合理。PDB数据集不仅为AlphaFold2，也为全世界多个蛋白质科研项目的研发提供了坚实的、不可或缺的支撑。

“是”是规律，是真理。这个规律在数据科学中是用一种叫模型（model）的东西去逼近的，需要在实践中检验和发展。模型可以是简单的线性模型、逻辑回归、随机森林，也可以更复杂的深度学习等。著名统计学家George Box有箴言“所有的模型都是错的，但有些模型是有用的”(All models are wrong, but some are useful)。的确，模型很难100%解释客观事物，但是我们可以持续努力，发现预测力更强、解释性更好，对实践更有指导意义的模型。AlphaFold2的成功，让人类对蛋白质结构规律的了解前进一大步，而且将在生物制药、疫苗研发等实践中发挥巨大的潜力。

“求”是研究的过程，对应数据科学的建模过程。需要理论联系实际，开展数据整理和清洗、模型设计和计算、效果验证、模型调整，如此反复，上下求索，直到得到较为满意的模型。比如要对蛋白质结构进行预测，不仅要熟悉包括Transformer在内的各种深度学习模型和相关技巧，还必须了解蛋白质结构的专业知识，否则两者是割裂的，很难建立联系。此外，在AlphaFold2之前，也有全世界科学家各种其他模型的多年尝试，而在这个求索过程中，模型的效果越来越好，预测准确率不断刷新；而此后，肯定也会出现更优秀的模型和预测结果。

在下定义之后，文中还提出来实事求是的几点注意事项或经验教训，主要体现在“不凭……”、“不是……”。我们也尝试从数据科学的角度来解读。

引出其固有的而不是臆造的规律性，即找出周围事变的内部联系，作为我们行动的向导。不凭主观想象，不凭一时的热情，不凭死的书本，而凭客观的指导下，从这些材料中引出正确的结论。

从数据科学角度来看，这里是强调客观，尊重真实数据，锲而不舍地从中总结发现固有规律，注重“问题驱动和数据驱动”，而不是抛开事实和数据，全靠臆想瞎猜，或不顾模型假设和实际完全不相符，生搬硬套书本上或者别人家听上去高大上的模型。“固有规律”和“内部联系”需要利用模型去探求，在数据科学范畴中，包括相关关系、回归关系、因果关系等。

何为正确的结论？在数据科学中有一系列的评估方法和指标，包括混淆矩阵、交叉验证方法，模型准确率、召回率等。

这种结论，不是甲乙丙丁的现象罗列，也不是夸夸其谈的滥调文章，而是科学的结论。

“不是甲乙丙丁的现象罗列”对应不能只罗列实事或原始数据，而不去研究背后的规律。“不是夸夸其谈的滥调文章”对应不能毫无根据、异想天开的瞎扯。

综合来看，我们不能只有实事或罗列原始数据，也不能凭空捏造规律，必须得出有根据的、可靠的科学结论。什么是科学的结论？在数据科学中的一个标准是，更好的解释能力、预测能力和泛化能力。

有实事求是之意，无哗众取宠之心。

数据科学的目标是为了发现真规律，指导实践。不是为了哗众取宠，制造大新闻吸引眼球。比如为了发表文章、吸引融资或者营销炒作，夸大模型的效果，甚至假称用了更时髦、所谓更高大上的模型。震惊了！吓尿了！又被颠覆了！这种哗众取宠甚至故意坑蒙拐骗的事情在数据科学相关的现实中常常发生，屡见不鲜：

我们的模型能预测出双色球的中奖，准确率超过80%，早买早赚！
我们的模型基于最先进的深度学习模型，能保证年化20%+的收益率，赶紧投吧！
震惊了！某某公司研发的强化学习无人车自动驾驶模型比老司机还强，已经接近L5水平！
又一重大突破！某某公司研发的类脑人工智能已经达到了10岁小孩的智商！

既不是“头重脚轻根底浅”，也不是“嘴尖皮厚腹中空”。

这两句听上去有点刻薄，但非常形象！在各行各业数据科学的研究和实践中，如果没有实际问题和实际数据的支撑和验证，或者理论没有联系实际，研究稍不审慎乃至浮夸，就很难落地，就很容易受到审稿人、同行、客户、合作伙伴的质疑和批评。比如：

这篇发表在顶刊上的心理学文章，结论很新奇，模型看上去也很厉害，但为什么我们按文章说的重复多次，却始终无法复现结果？
文章中的模型和算法号称可以适用于大规模基因数据分析，但为什么文章中只跑了一个很小的模拟数据？可否上一个现成的真实数据集？
新开发的模型系统，没有结合好业务，就套了Python里的几个经典预测模型。连问题都没定义明白，更别谈预测效果了，很难用起来！
可视化大屏做得很酷，但除了绚烂亮眼，似乎啥也没有，甚至连数据都不对，对我的业务有啥价值呢？

总结

综上，实事求是提供了一个社会实践及如何探究科学的原则，也就是如何基于实事发现客观事物背后的规律。实事求是原则鲜明地阐述了总体目标为求是，总体路径是基于实事来求。作为一门学科，数据科学为在科学技术领域践行实事求是原则提供了重要工具和方法，因为其目标也是为了求是，手段是基于分析记录事实的数据。数据科学已经有大量的思想、理论、算法、软件、实践案例来支撑，也是容易在各行各业通过课程、培训来传授的学问。

在笔者看来，关于实事求是的重要经验，包括一切从实际出发、理论联系实际、在实践中检验和发展真理，对科学技术的进步和发展不无指导价值。实事求是常出现在党建、哲学、政治经济学、社会学领域，是一个哲学范畴的概念，它属于一般的方法论。实事求是原则应该是数据科学的灵魂，有了这个灵魂，才能避免数据科学的研究和应用误入歧途。

无论数据科学还是实事求是，本人的认知都非常浅陋。以上只是在两者之间建立了概念上的联系，并给出一个粗浅的比较，抛砖引玉，供大家批判。

—— END ——

征文活动：纪念《统计建模：两种文化》20周年

在Breiman《统计建模：两种文化》20周年之际，我们发起了征文活动，探讨统计学、数据科学的历史与未来、机遇与挑战、思想与技术，以启迪思考、开拓创新。

欢迎各位学界、业界人士共同参与！请联系邮箱：[email protected] 或扫描添加微信号（COStudy）讨论。

数据科学之路 · 文章推荐

Breiman访谈录 |《统计建模：两种文化》20周年纪念

何旭铭等：十字路口的统计学: 谁在应对挑战？

朱松纯：胸怀伟大理想，践行爱国情怀

袁卫等：治学报国：民国时期的统计留学生

张志华：现代统计学本科生培养的课程体系与路线图

李舰：中国传统中的统计思维