内容提纲
  • 什么是统计?
  • 研究设计中的统计
  • 数据分析中的统计
  • 统计的局限,对统计的误解与误用
  • 统计与科学研究

你知道么?
你知道么,统计起源于赌博。另外,统计数据无法用来证明或反驳某件事是否属实。
关键概念
  • 统计数据用于以定量方式描述数据固有的变异性,并量化变量之间的关系。
  • 统计分析用于设计科学研究,以提高一致性、测量不确定性、生成可靠的数据集。
  • 对统计存在许多误解,包括统计术语和类似术语的通用语言使用之间的混淆,以及统计在数据分析中的作用。
现代科学常常会描述“统计显著性”和“概率”。例如:
1) 研究表明,吸烟者患肺癌的可能性几乎是不吸烟者的20倍(ACS,2004);
2) 未来20万年的某一刻,很有可能发生灾难性的陨石撞击地球(Bland,2005); 
3) 第一个出生的男孩的智商测试分数比第二个出生的男孩高2.82分,这一差异在95%的置信区间非常显著(Kristensen & Bjerkedal,2007)。 
为什么科学家要用这些晦涩难懂的术语?如果吸烟会导致肺癌,为什么不直接说出来?如果我们应该立即在月球上建立殖民地来躲避灾难,为什么不通知大家?如果老大比弟弟妹妹聪明,为什么不告诉他们?
原因是,这么表述不能准确反映数据。科学数据很少得出绝对的结论。并非所有吸烟者都会死于肺癌——一些吸烟者决定戒烟,从而降低风险,一些吸烟者可能会因心血管疾病或肺癌以外的疾病过早死亡,而一些吸烟者可能永远不会患上这种疾病。所有数据都有变异性,统计学的作用就是量化这种变异性,并使科学家能够对其数据做出更准确的陈述
图1:统计学起源于对多大可能出现什么结果的计算。
一个常见的误解是——统计数据证明了某事的真实性,而实际上并没有。相反,统计数据提供了观察特定结果的概率的度量。这是一个关键的区别。例如,美国癌症协会已经进行了几项大规模的癌症研究,试图就美国公民患这种疾病的风险做出陈述。“癌症预防研究I”在1959年至1960年间招募了大约100万人,“癌症预防研究II”的规模更大,在1982年招募了120万人。这两项研究都发现,与不吸烟者相比,吸烟者的肺癌发病率要高得多;但是, 并非所有吸烟者都会患肺癌(事实上,也有一些不吸烟者患了肺癌)。因此,肺癌的发生是一个概率事件,而不是简单的因果关系。
统计技术让科学家能够数字化一种可能性,从“如果你吸烟,你更有可能患上肺癌”之类的说法转变为“与不吸烟者相比,吸烟者的患病率更高,约为20倍。”  统计学提供的概率量化,是科学界广泛使用的强大工具,但它经常被误解。
【考考自己】统计可以

a.描述科学结果的不确定性
b.证明某些事情是正确的
什么是统计?
统计学的历史可以追溯到1654年,当时一位法国赌徒安东·贡波(Antoine Gombaud)向著名数学家和哲学家帕斯卡(Blaise Pascal)提问:当一场机会游戏过早中断时,应该如何在玩家之间分配赌注。帕斯卡向律师兼数学家皮埃尔·德·费马(Pierre de Fermat)提出了这个问题。通过一系列的信件交流,帕斯卡和费马设计了一个数学体系,不仅回答了贡波最初的问题,而且奠定了现代概率论和统计学的基础
起源于赌博的统计学现已发展成为一个研究领域,涉及方法和测试的开发,用于定量确定数据固有的可变性、某些结果的概率、与这些结果相关的误差和不确定性( 请参阅“不确定性、错误和置信度”模块)。因此,统计方法在整个科学过程中被广泛使用,从研究问题的设计到数据分析再到数据的最终解释。
不同科学学科所使用的具体统计方法差异很大;然而,不同学科使用这些测试和技术的原因是相似的。本模块并不试图介绍许多不同的统计概念和已开发的测试,而是概述如何在科学中使用各种统计方法。有关特定统计测试和方法的更多信息可以在“几只青椒”微信号陆续上线。
研究设计中的统计
许多人误解可能性和概率的陈述,以为它们意味着科学结果的很弱或不确定。其实,在研究中使用统计方法和概率测试是科学的一个重要方面,它增加了科学结论的强度和确定性。例如,1843年,英国企业家约翰·班尼特·劳斯(John Bennet Lawes在英国赫特福德郡建立了实验站(Rothamsted Experimental Station),研究施肥对农作物产量的影响。劳斯之所以这么做,是因为他在一年前建立了第一家人造肥料工厂之一。此后的80年,实验站的研究人员进行了一些实验,他们施肥、种植不同的作物、记录降雨量,并测量每个生长季节结束时的收成规模。
到了世纪之交,该站收集了大量数据,但几乎没有得出有用的结论:一种肥料在一年中表现优于另一年,但在下一年表现不佳,某些肥料似乎只影响某些作物,每年的降雨量不同也混淆了实验(Salsburg,2001)。这些数据本质上是无用的,因为存在大量不受控制的变量
图2:研究站的建筑
1919年,研究站聘请了一位名叫罗纳德·艾尔默·费希尔 (Ronald Aylmer Fisher) 的年轻统计学家,尝试理解这些数据。费舍尔的统计分析表明,降雨量与植物生长之间的关系比肥料类型与植物生长之间的关系更具统计显着性。但该站的农业科学家并不是为了测试天气——他们想知道哪种肥料对哪种作物最有效。没有人可以在实验中去除天气这一变量,但费舍尔意识到,如果实验设计得当,可以把肥料的影响分离出来
为了与科学共同体分享他的见解,费舍尔出版了两本书:1925 年的《研究工作者的统计方法》(Statistical Methods for Research Workers)和 1935 年的《实验设计》(The Design of Experiments)。通过强调在研究规划阶段考虑统计分析的必要性,费舍尔彻底改变了科学实践,并将研究站转变为统计和农业研究的主要中心,至今仍然如此。
在《实验设计》中,费希尔介绍了几个概念,包括对照、随机化、复现(图 3)。它们如今已成为良好科学研究的标志。
图 3:费希尔的《实验设计》中的原始图显示了1927年在Rothamsted站进行的实验中处理组的排列和大麦产量(Fisher,1935)。括号中的字母表示未用肥料 (I) 处理的对照地块或用不同肥料(s = 氨硫酸盐、m = 氨氯化物、c = 氰胺和 u = 尿素)处理的对照地块,添加或不添加过磷酸钙 (p )。括号中的下标数字表示肥料的相对使用量。每个块底部的数字表示该图中大麦的相对产量。
对照组:使用对照组是基于变异性这一概念。由于任何现象都有一定的变异性,对照组允许研究人员测量相似系统中的自然、随机、系统变异性,并将该估计值用作为与所观察变量(现象)进行比较的基线。在研究站,对照组是未施肥的作物(参见图3中标记为“I”)。植物生长固有的变异性仍然会产生不同高度和大小的植物。对照组则可以衡量天气或其他变量可能对作物生长产生的影响,而与施肥无关,从而使研究人员能够在统计上消除这一因素。
随机化统计随机化有助于科学研究中的偏见管理。与通常使用的“随机”一词不同,随机一词意味着随意或无组织,统计随机化是一种精确的程序,其中将观察的单位分配到实验组或对照组,其方式考虑到混杂变量的潜在影响。这使得研究人员可以通过在对照组和治疗组中观察这些混杂变量来量化这些混杂变量的影响。例如,在费舍尔之前,研究站的施肥实验沿着一行行作物,其中一些在田地边缘。然而,众所周知,边缘会影响农业产量,因此在许多情况下很难区分边缘效应和肥料效应——边缘效应将被视为混杂变量。费希尔引入了一种在一年内将不同肥料随机分配到田地内不同地块的过程,同时确保并非所有特定肥料的实验(或对照)地块都落在田地边缘(见图 3)。
复现费舍尔还主张复现实验试验和测量结果。通过这种方式,可以量化与实验或测量固有相关的变异范围,并可以评估结果的稳健性。在研究站,这意味着在多块地块上种植相同的作物,并对每块地块施用相同的肥料(见图 3)。此外,这意味着在不同年份重复类似的施用,以便可以量化不同肥料施用随不同天气条件的变化。
一般来说,科学家根据他们想要调查的问题的性质来设计研究,他们会根据费舍尔的许多统计概念来完善他们的研究计划,让他们的发现有用的可能性增大。这些技术的结合促进了数据的分析和解释,这是使用统计数据的另一个地方。
【考考自己】科学家在研究中应用统计随机化,并不遵循固定的流程。

a.对

b.错
数据分析中的统计
如今,我们有多种用于数据分析的统计技术。它们通常分为两类:描述统计和推断统计
描述统计:科学家使用平均值、中位数、标准差等度量快速总结数据集的主要属性。这提供了对所研究群体的总体情况,让科学家能够将研究置于更大的背景下。例如,如前所述,癌症预防研究 I (CPS-I) 是一项于 1959年启动的前瞻性死亡率研究。进行这项研究的研究人员报告了参与者的年龄和人口统计数据以及其他变量,以便将研究组与当时美国更广泛的人口进行比较。参与这项研究的成年人年龄从30岁到108岁不等,据报道,中位年龄为52岁。研究对象中57%为女性,97%为白人,2%为黑人。相比之下,1959年美国的中位年龄为29.4岁,明显比研究组年轻得多,因为CPS-I没有招募30岁以下的人。此外,1960年,51%的美国居民是女性,89%是白人,约11%是黑人。这项研究一个公认的缺点(从描述统计数据中很容易识别)是,97%的参与者为白人,该研究没有充分评估美国少数群体的疾病概况。
推断统计:推断统计用于对数据规律进行建模,对数据进行判断,识别数据集中变量之间的关系,以及根据较小的数据样本对较大群体进行推断。重要的是要记住,从统计角度来看,“总体(polultion)”一词不一定像通用语言中那样表示一群人。统计总体是数据集用于进行推断的较大群体——这可以是一群人、玉米植物、流星撞击、油田位置或任何其他测量组(视情况而定)。
将结果从小样本转移到大群体对于科学研究尤其重要。例如,虽然癌症预防研究 I和 II 分别招募了大约100万人和120万人,但也仅代表1960年和 1980年生活在美国的1.79亿人和2.26亿人的一小部分。常见的推理技术包括回归 、相关性、点估计/测试。例如,彼得·克里斯坦森(Petter Kristensen)和托比·耶克达尔(Tor Bjerkedal) 检查25000名挪威男性军人的智商测试分数。他们的分析表明,第一个出生的男孩的平均智商测试分数比第二个出生的男孩高2.82 ± 0.07分,在95%置信区间内存在统计显著差异(Kristensen & Bjerkedal,2007)。
“具有统计显著性”一词是数据分析中的一个关键概念,但它经常被误解。许多人认为,就像“显著性”这个词的常见用法一样,称某个结果具有统计显着性意味着该结果很重要或意义重大,但事实并非如此。相反,统计显著性是对观察到的关联或差异是由于偶然而不是任何真实关联造成的概率的估计。换句话说,统计显著性描述了即使实际上不存在真正的关联或差异,也会有观察到的关联或差异的可能性。显著性的度量通常用置信度来表示,置信度在统计学中的含义与在通用语言中的含义相同,但可以量化。
例如,在克里斯坦森和比耶克达尔的研究中,发现第一胎和第二胎男性之间的智商差异在95%的置信区间显著,这意味着智商差异纯粹是由于偶然因素造成的概率只有5% 。这并不意味着差异很大,甚至很重要:2.82 的智商点在智商量表上只是一个小问题,不足以宣布老大相对于弟弟妹妹是天才。研究结果也不意味着结果95%是“正确的”。相反,他们表明观察到的差异不仅仅是由于随机抽样偏差造成的,如果另一位研究人员在不同的挪威男性群体中进行类似的研究,则有95%的可能性会再次看到相同的结果。一个比他哥哥智商更高的第二个挪威人并不能反驳这项研究——这只是从统计学上来说可能性较小的结果。
缺乏统计显著性差异“与”统计显著性差异或关系”都具有揭示意义。例如,研究人员发现,戒烟两年以上的男性死于心脏病的风险与不吸烟人相比,并没有显著差异(Rosenberg等, 1985)。因此,统计显示虽然吸烟者比不吸烟者有更大概率患心脏病,但戒烟两年就能将这一基线降回到不吸烟的水平。
【考考自己】“具有统计显著性”指的是,结果可能是

a.某种规律或趋势而非随机误差

b.对科学共同体来说重要性很大
统计数据的局限性、误解和误用
鉴于统计测试多种多样,在数据分析中很容易滥用统计数据,常常达到欺骗的程度。造成这种情况的原因之一,可能有意或无意引入研究的系统误差,是统计数据无法解决的。例如,在第一个报告戒烟影响的研究中,哈蒙德(E. Cuyler Hammond)和霍恩(Daniel Horn)发现,每天吸一包以上香烟但在过去一年内戒烟的人死亡率较高198.0,显著高于研究时每天仍吸烟一包以上的个体的157.1(Hammond & Horn,1958)。如果没有正确理解这项研究,人们可能会从统计数据中得出结论,戒烟实际上对重度吸烟者来说是危险的。然而,哈蒙德后来对这一发现做出了解释,他说:“鉴于最近戒烟者作为一个群体,健康状况不佳的男性比例很高,这并不奇怪”(哈蒙德,1965)。因此,戒烟的重度吸烟者中包括许多因已被诊断患有疾病而戒烟的人,从而增加了样本集的系统误差。如果不完全了解这些事实,仅凭统计数据就可能会被误解
因此,统计数据最有效的用途就是识别数据集中的趋势和特征。研究人员可以根据他或她对其科学基础的理解来解释这些趋势,这可能为进一步研究提供机会。苏格兰诗人和小说家安德鲁·朗 (Andrew Lang) 对统计测试的这一方面进行了著名的总结,他说:“不成熟的预测者使用统计数据,就像一个醉汉使用灯柱——为了支撑而不为照明。
统计测试的另一个误解是统计关系和关联证明了因果关系。实际上,变量之间的相关性或关联并不意味着一个变量的变化实际上导致了另一个变量的变化。例如,1950年,英国研究人员理查德·多尔 (Richard Doll) 和奥斯汀·希尔 (Austin Hill) 因对吸烟与肺癌的发展进行了第一个具有科学依据的比较研究(参见我们的研究比较模块)而闻名,他们撰写了一篇关于他们发现的相关性的著名文章 :
这并不一定表明吸烟会导致肺癌。如果肺癌导致人们吸烟,或者这两种属性都是共同原因的最终结果,那么就会出现这种关联。(多尔和希尔,1950)
多尔和希尔继续讨论了这种相关性的科学依据,以及在所有研究对象中吸烟习惯先于肺癌发生这一事实,使他们得出结论“……吸烟是肺癌产生一个因素,一个重要因素。” 随着关于吸烟与肺癌之间关系的多方面科学证据的积累,科学家现在能够对与吸烟相关的风险的统计概率做出非常准确的陈述。
图4:根据空洞的统计数据,过滤嘴香烟和低焦油香烟被宣传为危险性较低。
虽然统计数据有助于揭示数据的模式、关系、变异性,但它们可能被用来歪曲数据、关系、解释。例如,二十世纪50年代末,鉴于越来越多的比较研究表明吸烟与肺癌之间存在因果关系,主要烟草公司开始研究营销替代产品的可行性,他们可以宣传这些替代产品比常规产品“更健康”。结果,过滤嘴香烟和淡味香烟被开发出来。随后,烟草业赞助并广泛宣传了一项研究,该研究表明,普通的醋酸纤维素滤嘴可将普通卷烟中的焦油含量减少 42-46%,尼古丁含量减少19-35%。万宝路过滤嘴卷烟声称比其他品牌“焦油含量低22%,尼古丁含量低34%”。烟草业发起了类似的广告活动,推销低焦油香烟(焦油含量为6至12毫克,而“普通”香烟的焦油含量为12至16毫克)和超低焦油香烟(焦油含量低于6毫克)(Glantz 等人,1996 年)。
虽然该行业向公众大量提供焦油含量的统计数据,但烟草公司并没有宣传这样一个事实:没有研究表明焦油或尼古丁是吸烟诱发肺癌的致病因素。事实上,一些研究表明,与低焦油产品相关的风险与普通产品没有什么不同,更糟糕的是,一些研究表明,“低焦油”卷烟导致吸烟者卷烟消费量的增加(Stepney,1980;NCI, 2001)。因此,空洞的统计数据被用来误导公众并偏离真正的问题
【考考自己】如果两个事件或者两个变量有统计相关性,说明一个事件引发了另一个事件。

a.对
b.错
统计与科学研究
所有测量都包含一些不确定性和误差,统计方法可以帮助我们量化和表征这种不确定性。这有助于解释为什么科学家经常发表带有限定性的陈述。例如,研究地震的地震学家不会告诉你地震何时会发生;美国地质调查局发布了这样的声明:“在2003年至2032年的30年内,旧金山湾地区有62% 的可能性发生至少一场6.7级或以上的地震”(USGS,2007)。这听起来可能模棱两可,但实际上这是一个非常精确的、从数学上得出的描述,说明了地震学家对大地震将会发生的信心,而公开报告错误和不确定性是高质量科学研究的标志。
如今,科学和统计分析如此紧密交织,许多科学学科都开发出了自己的统计技术和术语子集。例如,生物统计学领域(biostatistics ,有时称为生物测定biometry)涉及特定统计技术在生物学学科(如群体遗传学、流行病学、公共卫生)中的应用。地质统计学领域(geostatistics)已经发展到开发专门的空间分析技术,帮助地质学家绘制石油和矿藏的位置图;这些空间分析技术还帮助星巴克在最大化访问每家商店的顾客数量的基础上确定咖啡店的理想分布。如果使用得当,统计分析的作用远远超出了寻找下一个油田或一杯咖啡的范围,还能以有助于验证科学知识的方式阐明科学数据
资料来源:
Anthony Carpi, Ph.D., Anne E. Egger, Ph.D. “Statistics in Science” Visionlearning Vol. POS-1 (2), 2008.
https://www.visionlearning.com/en/library/process-of-science/49/statistics-in-science/155
我们不需要英雄
但我们需要榜样
几只青椒
长按二维码关注
References
  • ACS (American Cancer Society). (2004). Cancer facts & figures - 2004. Atlanta, GA: American Cancer Society.
  • ACS (American Cancer Society). (2007). Cancer prevention studies overview. Atlanta, GA: American Cancer Society.
  • ACS (American Cancer Society). (2008). Characteristics of American Cancer Society cohorts. Atlanta, GA: American Cancer Society. Retrieved July 18, 2008.
  • Bland, P. A. (2005). The impact rate on Earth. Philosophical Transactions of the Royal Society A, 363, 2793-2810.
  • Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates.
  • Doll, R., & Hill, A. B. (1950). Smoking and carcinoma of the lung. British Medical Journal 2(4682), 739-748.
  • Fisher, R. A. (1935). The design of experiments. Oxford: Oxford University Press.
  • Glantz, S. A., Slade, J., Bero, L. A., Hanauer, P., & Barnes, D. E. (1996). The cigarette papers. Berkeley, CA: University of California Press.
  • Hamilton, W. L., Norton, G. d., Ouellette, T. K., Rhodes, W. M., Kling, R., & Connolly, G. N. (2004). Smokers' responses to advertisements for regular and light cigarettes and potential reduced-exposure tobacco products. Nicotine & Tobacco Research, 6(Supp. 3), S353-S362.
  • Hammond, E. C., & Horn, D. (1958). Smoking and death rates: Report on forty-four months of follow-up of 187,783 men. 2. Death rates by cause. Journal of the American Medical Association, 166(11), 1294-308.
  • Hammond, E. C. (1965). Evidence of the effects of giving up cigarette smoking. American Journal of Public Health, 55, 682-691.
  • Kristensen, P., & Bjerkedal, T. (2007). Explaining the relation between birth order and intelligence. Science 316(5832), 1717.
  • National Center for Health Statistics. (2006). Health, United States, 2006. NCHS, Centers for Disease Control and Prevention, U.S. Department of Health and Human Services.
  • NCI - National Cancer Institute. (2001). Monograph 13: Risks associated with smoking cigarettes with low tar machine-measured yields of tar and nicotine. NCI, Tobacco Control Research, Document M914.
  • Rosenberg, L., Kaufman, D. W., Helmrich, S. P., Shapiro, S. (1985). The risk of myocardial infarction after quitting smoking in men under 55 years of age. New England Journal of Medicine, 313, 1511-1514.
  • Salsburg, D. (2001). The lady tasting tea: How statistics revolutionized science in the twentieth century. New York: W. H. Freeman & Company.
  • Silverstein, B., Feld, S., Kozlowski, L. T. (1980). The availability of low-nicotine cigarettes as a cause of cigarette smoking among teenage females (in Research Notes) Journal of Health and Social Behavior, 21(4),383-388.
  • Stepney, R. (1980). Consumption of cigarettes of reduced tar and nicotine delivery. Addiction, 75(1), 81-88.
  • Fisher, R. A. (1935). Design of experiments. New York: Hafner Press.
继续阅读
阅读原文