内容提纲
  • 不确定性的分类:准确度与精确度
  • 自然界的不确定性
  • 科学研究中的不确定性与误差:碳14测年
  • 统计误差vs系统误差
  • 置信区间:报告不确定性与误差
  • 误差传递
  • 识别误差、减小误差
  • 不确定性是一种自然存在
你知道么?
当科学家使用“不确定性”一词时,并不意味着他们怀疑自己的研究结果。同样,当科学家谈论“误差”时,他们并不意味着他们的研究有缺陷。科学家测量误差,并将误差与自己的发现一起报告。
关键概念
  • 不确定性是对数据中存在的误差的定量估计;所有测量都包含一些由系统误差和/或随机误差产生的不确定性。
  • 承认数据的不确定性是报告科学研究结果的重要组成部分。
  • 不确定性通常被误解为科学家不确定他们的结果,其实,该术语明确了科学家对数据的信心。
  • 通过一些方法可以纠正系统误差、最小化随机误差,不确定性可以减小。然而,不确定性永远不可能为零。
“冬季两项(biathlon)”这个奥林匹克运动项目(图1)是20公里的越野滑雪比赛,比赛中运动员要四次停下来,用0.22口径的步枪向目标发射直径为0.57厘米的子弹。这项运动不仅需要极大的耐力,还需要极高的准确性,因为运动员两次俯卧(躺着)射击,两次站立射击。运动员瞄准的目标均在50米之外,但目标大小不同,因而所期望的精度也不同;俯卧射击时的目标直径为4.5厘米,而站立射击时目标的直径为11.5厘米。然而,在这两种情况下,目标的直径都比子弹本身的直径大很多倍——为什么呢?
图1 冬季两项的运动员在射击场
虽然我们知道,传奇罗宾汉能一支箭劈成另一支箭,但这不是现实。冬季两项运动中,目标的尺寸故意比运动员射出的子弹大许多倍,以解决长距离步枪射击中固有的误差和不确定性。即使是最熟练的射手也无法解释影响子弹路径的每个变量,例如突然的阵风或气压的变化。站立射击中的目标更大,这也说明了站立射击涉及更大的不确定性,因为即使是运动员呼吸时胸部的起伏也会影响步枪的瞄准。
不确定性的分类:准确度与精确度
科学测量包含变异性,科学家将其报告为不确定性,以便与其他人分享他们认为测量中可接受的误差水平。但科学中的不确定性并不像日常使用中那样意味着怀疑。科学不确定性是对数据变异性的定量测量。换句话说,科学中的不确定性是指所有数据都有一系列预期值而不是精确的点值。这种不确定性可以分为两种:准确性和精确性。
  • “准确度”这个术语,描述测量值与理论上正确值的接近程度,例如箭头与靶心的距离(图 2)。
  • “精确度”这个术语,描述了各个测量值围绕中心值的变化程度。
高精度测量具有高度可重复性,因为重复测量将可靠地给出相似的结果;然而,它们可能准确,也可能不准确(图 2)。
图2:命中目标的准确度和精确度。左侧的目标由于标记靠近靶心,因此精度较高,但精度较差;相比之下,右侧的目标由于标记紧密分组而显示出良好的精度,但准确性较差。
自然界的不确定性
人们普遍认为,最早将不确定性概念描述为数据变异性度量的,十九世纪末英国统计学家和遗传学家卡尔·皮尔逊(Karl Pearson)(Salsburg,2001)。在皮尔逊之前,科学家意识到他们的测量结果包含了变异性,但他们认为这种变异性仅仅是由于误差造成的。例如,不同科学家在不同时间对行星绕太阳运行的轨道的测量结果是不同的,这种变化被认为是由于仪器不足造成的误差造成的。法国数学家皮埃尔-西蒙·拉普拉斯 (Pierre-Simon Laplace) 早在1820年就讨论了一种量化天文测量误差分布的方法,该误差分布是由与仪器缺陷相关的小误差引起的。随着十九世纪技术的进步,天文学家意识到他们可以减少但不能消除这种误差。
皮尔逊提出了一个革命性的想法:他认为,不确定性不仅仅是由于技术在衡量某些事件方面的限制而造成的——它是自然界固有的。即使是最仔细、最严格的科学研究(或任何类型的调查)也无法得出精确的测量结果。相反,重复调查会产生围绕某个中心值分布的分散测量结果。这种分散不仅是由误差引起的,而且也是由自然变化引起的换句话说,测量本身表现出分散性,与任何人为或仪器的误差无关
无论是箭的飞行路径、成年男性的静息心率,还是历史文物的年龄,测量结果都没有精确的值,而是总是呈现出一个值范围,并且该范围可以量化为不确定性。这种不确定性可以用得到某个值的概率图表示,并且概率分布在某个中心值(或平均值)周围。
【考考自己】行星轨迹等大规模科学测量没有不确定性。
a.对
b.错
科学研究中的不确定性和误差:碳14测年
考古学家、古生物学家和其他研究人员长期以来一直对物体和文物的年代测定感兴趣,以了解它们的历史和用途。不幸的是,历史文物很少伴随着精确的书面历史,只有相对较新的人类发明才有书面记录
二十世纪上半叶,一位名叫威拉德·F·利比 (Willard F. Libby) 的美国核化学家开始对使用放射性同位素14C来确定某些物体的年代感兴趣。放射性碳测年的理论相对简单。地球大气中的大部分碳以12C形式存在,但少量同位素14C是通过宇宙射线轰击14N自然产生的(W. F. Libby,1946)。当植物通过呼吸从大气中吸收碳时,它们会将14C以及更丰富的12C纳入其组织中。动物也通过吃的食物吸收这两种碳同位素。因此,所有生物体内的14C12C同位素比例与大气中相同。
不同于12C14C是一种放射性同位素,它以已知的速率不断衰变为其子产物14N。当有机体活着时,它会从环境中吸收新的14C,从而与其保持平衡。然而,当该生物体死亡时,其组织中的碳不再被替换,并且14C的量随着时间的推移慢慢减少,并衰变为14N。因此,一块木头或动物骨头中残留的放射性14C量可用于确定该生物体何时死亡。从本质上讲,生物体死亡的时间越长,14C水平就越低。
量化样品中放射性物质(例如14C)的含量,是通过计数样品在特定时间内经历的衰变次数,通常以每分钟计数 (cpm) 来报告。二十世纪40年代,利比开始他的放射性碳研究时,这种技术刚出现。1908年由欧内斯特·卢瑟福 (Ernest Rutherford) 的学生、德国科学家汉斯·威廉·盖革 (Hans Wilhelm Geiger) 首次发明了简单的盖革计数器,直到1928年,盖革 (Geiger) 的学生瓦尔特·穆勒 (Walther Müller) 改进了设计,才能够检测所有放射性物质。事实上,利比本人在二十世纪30年代建造了美国的第一个盖革计数器。
然而,利比在使用该仪器测量14C时遇到了重大困难。来自宇宙射线和地球的自然产生的背景辐射,以及与背景信号相关的变化,多到掩盖了他预期所能看到的14C信号。1949年,他报告了一种减少背景信号和变异性的方法:他将整个样品和检测器放置在由2英寸铅和4英寸铁屏蔽的管内(Libby等,1949) 。通过这种方式,利比和同事将背景信号从150cpm降低到10cpm,并将与信号相关的变异性降至“误差约 5-10%”,即小于1cpm。
利比和同事使用“误差(error)”这个词,和我们平时所说的印刷错误(error)等不是一个概念。它更接近于这个词的拉丁语起源(errorem)的原始含义——“徘徊或迷失”。在科学中,误差是真实值与测量值之间的差异,这种差异可能有许多不同的原因。利比通过计算已知时间内样本中衰变事件的数量,在多个周期内重复测量,然后使用统计技术来量化误差,以此计算与测量相关的误差(请参阅“科学统计”模块)。
1949 年,利比与博士后詹姆斯·阿诺德(James Arnold)合作,报告了首次使用放射性碳测年法来确定世界各地考古遗址的木材碎片的年龄(Arnold & Libby,1949)。由于这是一种新方法,他俩小心地重复了测量结果,以提供不同类型误差的详细估计,并将方法结果与已知年龄的样本作为对照进行比较(表 1)。
表1的第二列显示,从红岩谷挖掘的花旗松木材样品的五个不同样品的具体活性。每个单独的测量结果右侧都有一个误差,用±符号表示。阿诺德和利比在他们的论文中描述了这些测量结果,并指出:“特定活动测量所引用的误差是根据随机事件计数的泊松统计计算得出的标准偏差。” 换句话说,个体误差是根据与每个样本的放射性衰变相关的预期不确定性来计算的。
统计误差vs系统误差
如表1所示,底部提供了比活度的平均值 (10.99),并带有总体误差。总体误差 (0.15) 小于每次测量报告的单独误差。这是与科学数据相关的误差统计计算的一个重要特征——增加某个值的测量次数时,会减少不确定性并增加与该值的近似值相关的置信度。与特定活动一起报告的误差提供了精度的度量,通常称为统计误差。皮尔逊将统计误差描述为测量的固有不确定性。由系统内的随机波动引起的,例如放射性衰变的随机波动,有时被称为“随机误差”,因为研究人员对其几乎无法控制。正如皮尔逊所述,统计误差无法消除,但可以通过对特定事件进行重复观察来测量和减少
在表1的第3列中,阿诺德和利比根据14C活动估计花旗松样本的年龄为 1100岁(将其第一个生长季节定为公元849年)。在表1的第4列中,他们报告了花旗松的实际年龄,通过计算样本中的树木年轮计算得出,其年龄为1372岁(将其第一个季节定为公元577年)。通过将14C年龄与由树木年轮计数确定的理论上正确的值进行比较,阿诺德和利比让读者能够衡量他们方法的准确性,这是科学中遇到的第二种误差的量度:“系统误差”。统计误差无法消除,但可以通过对特定事件进行重复观察来测量和减少。相比之下,系统误差是可以纠正的——例如,如果你知道烤箱温度偏高50°,你可以把温度设置为300°而不是350°。
根据他们的数据,阿诺德和利比表示“预测和观察之间的一致性是令人满意的”。然而,随着他继续研究建立14C测年方法,利比开始认识到,对于较古老的物体,特别是那些年龄超过4000岁的物体,放射性碳测年法与其他方法之间的差异甚至更大(W.F. Libby,1963)。如果理论上可以通过其他方式确定非常古老的物体上的正确日期,例如在埃及寺庙的样本中,那里的日历系统很完善,则通过放射性碳测年方法获得的年龄(表中“发现”的年龄)始终比“预期”日期早,通常早500年。
利比知道这些测量结果必然存在统计误差,并预计使用14C测年法来计算物体的年龄范围。但他遇到的问题有所不同:14C测年系统计算出的年龄与较旧物体的实际年龄相差多达500年。系统误差,就像利比遇到的那样,是由于未知但非随机的波动造成的,例如工具偏差或错误的假设。放射性碳测年方法已达到良好的精度,重复分析给出的日期彼此相差150年之内,如表1所示;但最初它的准确性很低——“发现”的花旗松14C年龄与“预期”年龄相差近300年,其他物体也有大约500年的误差。
与统计误差不同,系统误差如果识别到来源,则可以得到补偿,有时甚至可以消除。在14C测年的例子中,后来发现系统误差的原因是一个错误的假设:利比和许多其他科学家假设大气中14C的生成率随着时间的推移是恒定的,但事实并非如此。相反,它会随着地球磁场、植物吸收碳和其他因素的变化而波动。此外,由于核武器试验向大气中释放了高水平的辐射,放射性14C的水平在整个二十世纪有所增加。
图3:树木年轮日期已用于重新校准放射性碳测年方法。
自利比首次发表其方法后的几十年里,研究人员利用狐尾松树(Damon 等,1974)和珊瑚(Fairbanks 等,2005)的年轮日期重新校准了放射性碳测年方法,以纠正放射性碳测年法的大气中14C的波动。结果,放射性碳测年法的精确度和准确度都显着提高。例如,2000年,北京大学的吴及其同事对从中国山西省墓地发现的晋国贵族的骨头进行了放射性碳测年(见表2)(Wu et al., 2000) 。如表2所示,不仅估算精度(范围从18到44年)比利比报告的花旗松样本150年误差范围高得多,而且放射性碳日期非常准确,报告的死亡日期也非常准确,理论上正确的值落在所有三种情况下报告的统计误差范围内。
表2:放射性碳估计和记录的死亡日期(来自 Wu 等,2000年)
【考考自己】哪种误差不是随机的,可以补偿?
a.统计误差
b.系统误差
置信区间:报告不确定性和误差
由于存在误差,科学测量结果不会报告为单个值,而是报告为范围或平均值,并在图表中显示误差线或在表格中显示±符号。卡尔·皮尔逊率先描述了确定科学测量的概率分布的数学方法,这些方法构成了科学研究中统计应用的基础(请参阅“数据:统计”模块)。统计技术使我们能够在重复测量某个值后估计并报告该值的误差。例如,利比和吴都将他们的估计值报告为围绕均值或平均测量值的一个标准差的范围。标准差提供了对单个测量值变异性范围的测量,具体来说,定义了一个范围,其中包含高于平均值的34.1%的单个测量值和低于平均值的34.1%的单个测量值。一系列测量值的标准差可用于计算该值周围的置信区间。
置信区间陈述并不提供衡量结果“正确”程度的衡量标准。相反,置信区间表明重复研究时测量范围与测量平均值重叠的概率。这听起来可能有点令人困惑,但请考虑一下森本芳方(Yoshikata Morimoto)及其同事的一项研究,他们检查了八名大学棒球运动员的平均投球速度(Morimoto等,2003)。每位投手需要投掷6个球,平均投球速度为34.6m/s(77.4 mph),95%置信区间为34.6±0.2 m/s(34.4 m/s 至 34.8 m/s)。当他后来重复这项研究,要求八名投手每人投出 18 个球时,发现平均速度为34.7 m/s,完全在第一次研究中获得的置信区间内。
在这种情况下,不存在“理论上正确”的值,但置信区间提供了重复研究后发现类似结果的概率估计。鉴于森本确定了95%的置信区间,如果他重复研究100次(不耗尽棒球投手的精力),他的置信区间将与平均投球速度重叠 95次,而其他五项研究可能会得出超出平均投球速度的投球速度(他的置信区间)。
在科学中,测量可信度的一个重要指标是报告的有效数字的数量。森本将他的测量值精确到小数点后一位 (34.6 m/s),因为他的仪器支持这种精度水平。他能够区分34.6m/s和34.7m/s的音高差异。如果他将测量结果四舍五入为35m/s,他就会丢失数据中包含的大量细节。此外,他的仪器不支持报告额外有效数字(例如34.62m/s)所需的精度。错误地报告有效数字可能会给数据集带来重大错误
【考考自己】报告科学测量时,用±表示一个范围,而不是一个单一的值。这是因为
a.每次测量都有一定的误差
b.一些科学家不知道自己的计算是否正确
误差传递
正如皮尔逊所认识到的,不确定性是科学研究所固有的,因此,科学家识别并解释数据集里的误差至关重要。忽视错误的来源可能会导致误差的传递与放大。例如,1960年,美国数学家和气象学家爱德华·洛伦兹(Edward Norton Lorenz)正在研究预测天气的数学模型(请参阅“科学研究中的建模”模块)(Gleick,1987;Lorenz,1993)。洛伦兹使用 Royal McBee计算机迭代求解12个方程,这些方程表达了大气压和风速之间的关系。洛伦兹将几个变量的起始值输入到他的计算机中,例如某一天一系列地点的温度、风速和气压。然后,该模型将计算指定时间段内的天气变化。该模型以单分钟增量重新计算一天的天气变化,并打印出新参数。
有一次,洛伦兹决定重新运行一个特定的模型场景。他没有从头开始(这会花费很多小时),而是决定在运行过程中重新开始,查阅参数的打印输出并将其重新输入到计算机中。然后,他离开计算机,等待重新计算模型所需的时间,希望返回时能发现与之前预测类似的天气模式。
出乎意料的是,洛伦兹发现由此产生的天气预报与他最初观察到的模式完全不同。洛伦兹当时没有意识到,虽然他的计算机将模型参数的数值存储为6位有效数字(例如 0.639172),但他的打印输出以及他在重新启动模型时输入的数字却被四舍五入为3位有效数字,0.639)。两个数字之间的差异很小,表示系统误差小于0.1%,即小于每个参数值的千分之一。然而,随着模型的每次迭代(并且有数千次迭代),这个错误都会加剧,乘以很多倍,因此他的最终结果与模型的第一次运行完全不同。从图 4 中可以看出,误差似乎仍然很小,但经过数百次迭代后,误差呈指数增长,直到达到与测量值本身相当的量值 (~0.6)。
图4:迭代动态系统中误差传播的表示。 经过约1000次迭代后,误差相当于测量值本身(约 0.6),使得计算波动剧烈。
洛伦兹在现在的经典著作《确定性非周期流》Deterministic Nonperiodic Flow(Lorenz,1963)中发表了他的观察结果。他从观察得出结论,提前几周进行准确的天气预报是极其困难的,甚至可能是不可能的,因为即使是自然条件测量中的无限小误差也会加重,并很快达到与测量本身相同的水平。
这项工作促使其他研究人员开始研究其他对初始条件同样敏感的动态系统,例如溪流中的水流或人口变化的动态。1975年,美国数学家和物理学家詹姆斯·约克(James Yorke)和他的合作者、中国出生的数学家李天岩(Tien-Yien Li)创造了“混沌(chaos)”一词来描述这些系统(Li & Yorke,1975)。 同样,与通常使用的混沌一词(意味着随机性或无序状态)不同,混沌科学与随机性无关。相反,正如洛伦兹第一个所做的那样,混沌研究人员致力于了解复杂系统中潜在的行为模式,以理解和量化这种不确定性
【考考自己】科学家在什么是否需要从数据集中寻找误差源?
a.只有当误差非常大时
b.即便当误差很小时
识别误差、减小误差
误差传播不仅限于数学建模。这始终是科学研究中的一个问题,特别是在多次增量逐步进行的研究中,因为一步中的错误很容易在下一步中加剧。因此,科学家们开发了许多技术来帮助量化误差。下面是两个例子:
控制变量:在科学实验中使用控制变量(参见“科学研究中的实验:变量与控制”模块),有助于量化实验中的统计误差并识别系统误差,以便测量或消除它。
盲测法:在涉及人类判断的研究中,例如试图量化服用止痛药物后疼痛缓解感觉的研究,科学家经常通过使用“盲测法”来尽量减少错误。在盲测法试验中,实验组(即药物)将与对照组(即另一种药物或安慰剂)进行比较;患者和研究人员都不知道患者是否正在接受治疗实验。通过这种方式,可以避免由于对治疗效用的先入之见而导致的系统误差。
科学研究中的误差减少和测量工作有时被称为“质量保证”和“质量控制”。质量保证通常是指研究人员为尽量减少和测量其研究中的错误而制定的计划;质量控制是指研究中实施的实际程序。这些术语最常互换和统一使用,如“质量保证/质量控制”(QA/QC)。QA/QC 包括根据已知标准校准仪器或测量、报告所有仪器检测限值、实施标准化程序以尽量减少人为错误、彻底记录研究方法、重复测量以确定精度以及许多其他技术(通常特定于正在进行的研究类型),并在科学论文的“材料和方法”部分中报告(请参阅“理解科学期刊和文章”模块)。
减少统计误差通常很简单,只需多次重复研究测量或观察即可减少所获得值范围的不确定性。系统误差可能更难以确定,由于仪器偏差、人为错误、不良的研究设计或对系统中变量行为的错误假设,系统误差在研究中不断出现。从这个角度来看,识别和量化研究中系统误差的来源,可以帮助科学家更好地理解系统本身的行为
不确定性是一种自然存在
虽然卡尔·皮尔逊(Karl Pearson)提出,单独的测量无法得出精确的值,但他认为仔细和重复的科学研究与统计分析相结合可以使人们确定测量的真实值。与皮尔逊同时代有一位年轻的英国统计学家罗纳德·艾尔默·费舍尔(Ronald Aylmer Fisher),他扩展了这一概念,同时又反驳了这一概念。费舍尔认为,由于所有测量都包含固有误差,因此人们永远无法确定测量的准确或“正确”值。根据费舍尔的说法,测量的真实分布是无法获得的;因此,统计技术并不估计测量的“真实”值,而是用于最小化误差并开发近似理论上正确的测量值的范围估计。他的想法的一个自然结果是,有时近似值可能是不正确的。
二十世纪上半叶,随着量子力学的发现,不确定性的概念达到了新的高度。在量子世界中,不确定性并不是一个麻烦,而是一种存在状态。例如,放射性元素的衰变本质上是一个不确定事件。我们可以预测大量放射性原子衰变的概率,但我们永远无法预测单个放射性原子发生衰变的确切时间。或者考虑量子物理学中的海森堡不确定性原理,该原理指出,测量粒子的位置会使粒子的动量本质上不确定,相反,测量粒子的动量会使其位置本质上不确定。
我们理解了科学中不确定性的概念,就可以认识到科学数据分析的目的是识别和量化误差和变异性,以揭示自然界中发生的关系、规律、行为。随着新数据和新研究帮助我们理解和量化自然世界的不确定性,科学知识本身也在不断发展。
我们不需要英雄
但我们需要榜样
几只青椒
长按二维码关注
资料来源:
Anthony Carpi, Ph.D., Anne E. Egger, Ph.D. “Uncertainty, Error, and Confidence” Visionlearning Vol. POS-1 (3), 2008.
https://www.visionlearning.com/en/library/process-of-science/49/uncertainty-error-and-confidence/157
References
  • Arnold, J. R., & Libby, W. F. (1949). Age determinations by radiocarbon content: Checks with samples of known age. Science, 110, 678-680.
  • Damon, P. E., Ferguson, C. W., Long, A., & Wallick, E. I. (1974). Dendrochronologic calibration of the radiocarbon time scale. American Antiquity, 39(2), 350-366.
  • Fairbanks, R. G., Mortlock, R. A., Chiu, T.-C., Cao, L., Kaplan, A., Guilderson, T. P., . . . Nadeau, M. (2005). Radiocarbon calibration curve spanning 0 to 50,000 years BP based on paired 230Th/ 234U/ 238U and 14C dates on pristine corals. Quaternary Science Reviews, 24, 1781-1796.
  • Gleick, J. (1987) Chaos: Making a new science. New York: Penguin Books.
  • IMO. (2007). Long range weather prediction. The Icelandic Meteorological Office. Retrieved December 18, 2007, from http://andvari.vedur.is/~halldor/HB/Met210old/pred.html
  • Li, T. Y., & Yorke, J. A. (1975). Period three implies chaos. American Mathematical Monthly, 82, 985.
  • Libby, W. F. (1946). Atmospheric helium three and radiocarbon from cosmic radiation. Physical Review, 69(11-12), 671-672.
  • Libby, W. F. (1963). Accuracy of radiocarbon dates. Science, 140, 278-280.
  • Libby, W. F., Anderson, E. C., & Arnold, J. R. (1949). Age determination by radiocarbon content: World-wide assay of natural radiocarbon. Science, 109(2827), 227-228.
  • Lorenz, E. (1963). Deterministic nonperiodic flow. Journal of the Atmospheric Sciences, 20, 130-141.
  • Lorenz, E. (1993). The essence of chaos. The University of Washington Press.
  • Morimoto, Y., Ito, K., Kawamura, T., & Muraki, Y. (2003). Immediate effect of assisted and resisted training using different weight balls on ball speed and accuracy in baseball pitching. International Journal of Sport and Health Science, 1(2), 238-246.
  • Peat, F. D. (2002). From certainty to uncertainty: The story of science and ideas in the twentieth century. Joseph Henry Press, National Academies Press.
  • Salsburg, D. (2001). The lady tasting tea: How statistics revolutionized science in the twentieth century. New York: W. H. Freeman & Company.
  • Wagner, C. H. (1983). Uncertainty in science and statistics. The Two-Year College Mathematics Journal, 14(4), 360-363.
  • Wu, X., Yuan, S., Wang, J., Guo, Z., Liu, K., Lu, X., . . . Cai, L. (2000). AMS radiocarbon dating of cemetery of Jin Marquises in China. Nuclear Instruments and Methods in Physics Research, B, 172(1-4), 732-735.
继续阅读
阅读原文