本文翻译自 Terence Speed 发表在 IMS 主席专栏上的文章 Creativity in Statistics。本文已获得原作者授权。
Terence Speed
你可能听说过那句老话 : 有的人虽然在做数据分析,但却好像是醉汉抱着路灯一样,是来支撑平衡防止摔倒而不是为了照明。对于其他非统计学家和非应用统计学家而言,他们又是如何知道我们到底是在用数据来“照明”,而不是“支撑”自己呢?或者甚至连“支撑”都不是呢?
当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢?我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢?在我们的工作中,创造力和想象力是如何发挥作用的呢?我认为,不仅别人不知道,而且我们自己也常常刻意保持沉默。
这种沉默一部分是由于我们不愿意承认所做的很多统计分析的主观性。我们经常看到数据后才会决定使用哪些经典频率统计学派的分析方法。但这些方法往往会让数据面目全非。数据变换就是其中一个简单的例子。
这里显示出了一个悖论:那些本可用来展示我们创造力和想象力的东西往往也是数据科学家们力图规避的,比如我们经常会说:“大家可以发现,经过这样的数据变换,最后的分析结果会更好。” 而这,往往会被别人当作我们向数据妥协的例证。
当然啦,在有人做数据变换的时候,我们通常不会声嘶力竭地反对。但当我们使用各种工具做真正的数据分析时,难道会不厌其烦地记录下所有的操作吗?我们会保存所有的列联表、直方图、箱形图、散点图、集群图、主成分分析图和自己设计的那些图表吗?会记录下那些我们设计的数据分层吗?那些年我们所有输入的模型、模型检验的结果、拟合的参数和异常值,又会出现在最后的数据分析报告中吗?(答案往往是不会)数据分析是一个由简单到逐渐深入的过程。开始的时候往往只是进行数据简化、可视化和其他一些探索性分析,但是会慢慢深入。有些情况下,当我们注意到数据中出现一段异常高峰或出现一个错误的斜率时,我们通常会做一些处理。如直接舍弃某部分数据,截断异常数据,做数据变换,或直接放大招修改模型。在另外一些情况下,我们还需要考虑模型中的干扰变量,选择性偏差,数据整合,还有可能的数据缺失等等。但凡有过数据分析经验的人都知道,类似的情况还有很多很多。但我们往往只会尝试很少的一些我们熟悉的方法,快速(甚至可能是无意识的)排除掉其他可能性,来达到我们最终想要的结果。
在某些情况下,以模型预测为例,我们想要尽可能控制预测误差,上面提到的这些基础的处理可能会非常重要。而在其他情况下,却可能没有那么重要。经验丰富的数据分析师也大都知道如何避免过度拟合,例如,通过使用一部分数据训练模型,再用另外的数据做模型检验。数值模拟也是一个经常被用到的方法。

参考文献

  1. Peter J. Huber. 2011. Data Analysis: What Can Be Learned From the Past 50 Years. John Wiley & Sons, Inc. https://doi.org/10.1002/9781118018255
  2. Peter Medawar. 1963. Is the scientific paper a fraud? Listener. 70: 377-378. http://blog.thegrandlocus.com/static/misc/is_the_scientific_paper_fraudulent.pdf
译者简介
李杰桠 ,南开大学数学科学院在读研究生,本科就读于中国农业大学数学应用数学专业,研究兴趣为机器学习及其相关方向。好读杂书,发散思考。
作者:Terence Speed
译者:李杰桠
编辑:任焱
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
点击“阅读原文”,阅读原文
继续阅读
阅读原文