• 内容提纲
  • 使用图表呈现数值数据
  • 解读图表
  • 可视化数据中的误差和不确定性估计
  • 滥用科学图表
  • 空间与三维可视化数据
  • 处理基于图像的数据
  • 科学传播中的图表
你知道么?
你知道“一图胜千言”这句话也适用于科学吗? 如果不以视觉形式显示,复杂的数据可能很难理解,因此科学家通常在数据分析过程中借助视觉呈现。
关键概念
  • 数据的可视化呈现对于数据分析和解释至关重要。
  • 可视化突显示数据中原本没那么明显的趋势和规律。
  • 理解和诠释图表等可视化数据是科学家和理科生的一项关键技能。
翻阅科学期刊或教科书,我们很快就会注意到其中的图表。图表一些期刊中占据多达30%的空间(Cleveland,1984)。甚至比格言所说的“一图胜千言”还厉害。尽管许多报纸杂志也有图表,但数据的可视化呈现是科学的基础,它们所代表的东西与杂志报纸上发布的照片和插图非常不同。尽管数值数据最初是在表格或数据库中编译的,但它们通常以图形形式显示,帮助科学家可视化和解释数据中的变化、规律、趋势。
数据是所有科学事业的核心。不同领域的科学家收集不同形式的数据:地震的震级和位置、雀喙的长度、大气中二氧化碳的浓度等等。科学数据可视化呈现已经出现几个世纪——例如,十六世纪哥白尼绘制了绕太阳运行的行星轨道的示意图——但以图表形式直观地呈现数字数据是后来才发展起来
使用图表呈现数值数据
1786年,苏格兰经济学家威廉·普莱费尔(William Playfair)出版了《商业和政治地图集》(The Commercial and Political Atlas),其中包含以图表形式呈现的各种经济统计数据,比如图1。该图比较了1708年至1780年英国的出口与丹麦和挪威的进口(Playfair,1786)。顺便说一句,威廉·普莱费尔是地质学家约翰·普莱费尔(John Playfair)的兄弟,约翰·普莱费尔向更广泛的公众阐释了詹姆斯·赫顿(James Hutton)在地质过程方面的基础工作。要了解更多信息,请参阅模块“岩石循环:均变论与循环”。)
图1:威廉·普莱费尔的图表是数字数据可视化呈现的最早示例之一。

普莱费尔的图表非常简洁地表达了显著的信息。该图在水平 (x) 轴上显示时间,在垂直 (y) 轴上显示钱(以英镑为单位)。黄线显示从丹麦和挪威进口到英格兰的货币价值;红线显示从英国向丹麦和挪威出口的货币价值。尽管用一张数据表也可以显示同样的信息,但我们不能立即从一张表中看出1753年左右发生的重要事件:英国出口开始超过进口,“天平朝英国倾斜”。这种大型数值数据集的简单可视化使其易于快速理解。
图表和数字很快成为科学和科学传播的标准组成部分,近年来科学期刊中图表的使用急剧增加。从1985年至1994年间每期期刊的图表,从平均35个增加到60多个,几乎翻了一番(Zacks等,2002)。这种增长归因于多种原因,使用计算机软件程序使生成图表变得容易,而数据集趋于多且复杂也需要可视化来诠释
然而,图表并不是数据可视化的唯一形式——地图、卫星图像、动画和更专业的图像(如原子轨道描述)也由数据组成,并且也越来越常见。创建、使用和阅读数据的可视化形式,只是数据分析和解释的一种方式(请参阅“数据分析与解读”模块),但它在科学研究的所有领域和方法中普遍存在。
【考考自己】用图像表达数据
a.意味着拍一张照片
b.意味着让解读复杂数据变得简单些
解读图表
科学期刊上发表的多数图表都是关于两个变量的关系。事实上,《科学》期刊上发表的图表中,用x和y轴显示了两个变量之间关系的多达85%。(Cleveland,1984)。尽管存在许多其他类型的图,但了解如何完全解释二变量图,不仅可以帮助任何人破译科学文献中的绝大多数图,而且还可以为检查更复杂的图提供一个起点。举个例子,想象一下,尝试确定数据表中的任何长期趋势,该趋势是根据莫纳罗亚山(Mauna Loa)数年来采集的大气二氧化碳浓度得出的(表1)。
表1:这是包含在莫纳罗亚山测量的大气二氧化碳浓度的数据表的一部分。
变量很简单:表顶行中是时间(以月为单位)、表最左列是年数、表单元格内是大气二氧化碳浓度。然而,对于大多数人来说,理解如此多的数字信息是具有挑战性的。必须仔细查看整个表格,才能看到任何趋势。但如果我们把完全相同的数据并将其绘制在图表上,则结果如下所示(图2):
图2:根据表1绘制的数据,在莫纳罗亚山测量的大气二氧化碳浓度(Keeling & Whorf,2005 年)。
读图表涉及以下步骤:
描述该图:x轴显示以年为单位的时间变量,y轴显示以百万分之一 (ppm) 为单位的二氧化碳浓度变量。这些点是浓度的单独测量值——表1中显示的数字。因此,该图向我们展示了大气二氧化碳浓度随时间的变化。
描述数据和趋势:该线连接连续的测量值,可以更轻松地查看数据中的短期和长期趋势。在图表中很容易看出,大气中二氧化碳的浓度随着时间的推移稳步上升,从1958年约315ppm的低点升至目前约375ppm的水平。在这一长期趋势中,也很容易看出存在约5ppm的短期年度周期。
解读数据:在图表上,科学家可以从数值数据中获取更多信息,例如二氧化碳浓度上升的速度。这个比率可以通过计算数值数据中长期趋势的斜率来确定,并且在图表上看到这个比率可以很容易地看出。虽然敏锐的观察者可能能够从表格中找出所提供的五年内二氧化碳浓度的增加情况,但即使是训练有素的科学家也很难在数值数据中注意到大气二氧化碳的年度循环——一个特征优雅地展现在锯齿状的线条上。
将数据转化为可视化格式是数据分析和诠释过程中的一步,精心设计的图表可以帮助科学家解释他们的数据。数据诠释,包括解释为什么大气中二氧化碳浓度除了年度波动之外还会长期上升,从而超越图表本身,将数据置于一个背景。看到大约5ppm的规律性重复周期,科学家意识到这种波动一定与地球上季节性植物活动引起的自然变化有关。这些数据的直观表示还让科学家认识到,过去五年中二氧化碳浓度的增加与工业革命同时发生,因此几乎可以肯定与释放二氧化碳的人类活动数量的增加有关(IPCC,2007)。
值得注意的是,单个测量或数据点中无法看到这些趋势(长期上升或年度循环)或解释。你几乎从来没有听到科学家使用数据这个词的单数——数据(datum),也有这个原因。通过图表上的一个点,可以画一条沿任何方向穿过它的趋势线。严谨的科学需要多个数据点来做出清晰解读图表不仅显示数据本身,也展示科学家的数据量
我们从图中提取了大量信息,只需要依照一个简短的逻辑过程。尽管数据的形式很多样。回顾如下:
  • 描述图表:标题说了什么?x轴表示什么变量?y轴上有什么?测量单位是什么?符号和颜色的含义是什么?
  • 描述数据:数据的数值范围是多少?当绘制数据时,您可以在数据分布中看到哪些类型的模式?
  • 解读数据:在图表中看到的模式与其他事情有何关系?无论查看的是两个变量的图表还是更复杂的图表,这个问题都适用。因为创建图表是数据分析和解释的一种形式,所以仔细检查科学家的图表和他或她的书面解释一样重要。
【考考自己】图很重要,这是因为
a.让数据中的趋势和规律变得明显
b.清晰呈现一组数据
视觉数据中的误差和不确定性估计
估计科学信息的图表等视觉呈现,通常还包含科学数据分析的另一个关键要素——测量中的不确定性或误差的度量(请参阅“不确定性、误差和置信度”模块)。例如,图3中的图表显示了一天中不同时间土壤汞排放的平均测量值。每个垂直条上的误差条提供每次测量的标准偏差。显示这些误差线,是为了证明排放量随时间的变化大于每次测量的固有变异性(有关更多信息,请参阅“科学统计”模块)。
图3:此数据图形显示中的误差条用于证明测量值(红色条)随时间的变化大于数据内的固有变异性(显示为黑色误差条)。改编自 (Carpi等,2007)。
数据的图形显示不仅可以用于显示误差,还可以用于量化系统中的误差和不确定性。例如,图4显示了燃油泄漏的气相色谱图。色谱中的峰(蓝线)提供了有关泄漏中识别出的化学物质的信息,峰的大小可以提供泄漏中特定化学物质的相对浓度的估计。然而,在从图表中提取此信息之前,必须计算仪器误差和不确定性(红线)并从峰面积中减去。正如在图4中看到的,随着在图表中从左向右,仪器变异性会减小,因此在这种情况下,误差显示对于数据的准确分析至关重要。
图4 :图表展示数据,可用于估算系统误差和不确定性(红线)并呈现该不确定性。
【考考自己】图像呈现数据通常__数据。
a.呈现并量化

b.隐藏
滥用科学图表
使用不当时,会突显不真实的趋势,或隐藏真实趋势。一些人试图通过使用误导性的图表来指出目前广泛接受的气候变化概念的错误。图5就是这样一张图。创建该图的人提出的观点是:下图显示过去1000年来温度变化相对较小,与政府间气候变化专门委员会使用的顶部图表存在争议,上图显示最近温度快速上升。
图5:图形显示使用不当可能会导致数据混乱和模糊。
乍一看,上图与下图差别很大。然而,仔细观察你会发现:
  • 这两个图实际上代表完全不同的数据集。上图表示标准化为1960-1990 年30年期间的全球年平均气温变化,而下图表示欧洲平均气温与二十世纪平均气温的比较。
  • 此外,两个图表的y轴以不同的比例显示。下图的0.5°线之间有更多空间。
这两种技术都有利于夸大下图中的变异性。然而,图表中差异的主要原因并未实际显示在图表中。该图的作者使用不同的计算创建了下图图像,这些计算没有包含气候科学家用于创建上图的所有变量。换句话说,这些图表根本不显示相同的数据。
这些是常见用来扭曲数据视觉呈现的技术:操纵坐标轴、改动进行比较的变量、在没有充分解释的情况下改变计算。这些可能会掩盖真实的对比。
空间和三维可视化数据
除了图表之外,还有其他类型的视觉数据。地形图、卫星图像可被视为地球表面的图片,但这两种图像都是空间数据的可视化方式。地形图显示了收集的海拔数据以及湖泊或山峰等地理特征的位置(见图6)。这些数据可能是由测量员在现场或通过查看航空照片收集的,但尽管如此,地图并不是一个区域的图片,它是数据的视觉表示。图6中的地形图实际上实现了除了简单地可视化数据之外的第二个目标:它获取三维数据(海拔的变化)并将其以二维方式显示在平面上。
图6:沃伦峰USGS 7.5'地形图的一部分。棕色实线是等高线。该图像获取有关高程的三维数据并以二维方式进行描绘。
同样,卫星图像通常被误解为从太空拍摄的地球照片,但实际上它们复杂得多。卫星记录每个像素的数值数据,并在电磁频谱中的某些预定义波长处记录(有关更多信息,请参阅“光 II:电磁”模块)。换句话说,图像本身是从卫星接收到的原始数据经过处理后的数据可视化。例如,陆地卫星卫星以七种不同波长记录数据:三种波长为可见光谱,四种波长为红外波长。其中四个波长的合成图像显示在图7所示的科罗拉多落基山脉部分图像中。图像下部的大红色区域不是山中的红色植被,而是红外(或热)波长发射值较高的区域。事实上,在2002年7月获取卫星图像的一个月前,该地区曾发生过一场名为海曼火灾的大型森林火灾。
图7:2002年7月科罗拉多州中部海曼火灾的陆地卫星卫星图像。
【考考自己】卫星图像和拓扑地图的共同点是:

a.它们都是数据的视觉表达
b.它们都是一个地方的照片
处理基于图像的数据
卫星图像的出现极大地扩展了一种数据收集方法:从图像中提取数据。例如,从海曼火灾燃烧时获取的一系列卫星图像中,科学家和森林管理者能够提取有关火灾程度的数据(人们无法深入国家林地去监测火灾)、蔓延速度、燃烧温度。通过比较两幅卫星图像,他们可以找到一天、一周、一个月内燃烧的区域。因此,尽管图像本身由数字数据组成,但可以从这些图像中提取到更多信息作为数据收集。
另一个例子可以取自原子物理学领域。1666 年,艾萨克·牛顿爵士发现,当太阳光穿过棱镜时,它会分离成特有的彩虹光。牛顿之后近200年,约翰·赫歇尔 (John Herschel) 和 W. H. 福克斯·塔尔伯特 (W. H. Fox Talbot) 证明,当物质被加热并且它们发出的光穿过棱镜时,每个元素都会发出明亮的彩色线条的特征图案,但他们不明白为什么( 参见图 8)。1913年,丹麦物理学家尼尔斯·玻尔利用这些图像提出了一个惊人的观点:他提出元素的线谱是由于电子在不同轨道之间的运动而产生的,因此这些光谱可以提供有关元素电子排布的信息 (有关更多信息,请参阅“原子理论 II:离子、同位素、电子壳”模块)。实际上,你可以通过分析发射的光的颜色(以及波长)来计算原子中电子轨道之间的势能差。      
图8:氦气(顶部)和氖气(底部)的线谱。 线条的位置和颜色代表了定义原子电子构型的独特波长。
照片和视频也是可视化数据。2005年,康奈尔大学鸟类学实验室的一些科学家发表称,他们在阿肯色州发现了一种被认为在北美已经灭绝的鸟类——象牙嘴啄木鸟(Fitzpatrick等,2005)。他们的主要证据包括一只飞行中的鸟的视频片段和照片,他们将这些包含在论文中,并对图像和视频的特征进行了详细分析,表明该鸟是象牙嘴啄木鸟。
科学传播中的图表
科学中许多研究领域有更专业的图表,用于表达特定类型的数据。例如,进化生物学家使用进化树或进化枝图来显示物种之间的关系、它们共有哪些特征以及它们如何随着时间的推移而进化。地质学家使用一种称为立体网的图形来表示半球的内部,以描绘三维空间中岩层的方向。现在许多领域都使用三维图来表示三个变量,尽管它们实际上可能并不代表三维空间。
无论图表的具体类型如何,创建清晰、易于理解的视化数据在所有科学分支中都至关重要。为了彰显视觉对科学的关键贡献,美国国家科学基金会和美国科学促进会赞助了一年一度的科学与工程可视化挑战赛,根据提交作品的视觉影响、有效沟通、原创性进行评判(美国国家科学基金会,2007)。同样,阅读和解释图表是从入门学生到科学家的关键技能。图表是科学研究论文的重要组成部分,通常会在其中呈现新数据。呈现得出结论的数据使其他科学家有机会自己分析数据,这一过程的目的是使科学实验和分析尽可能客观。虽然表格是记录数据所必需的,但图表可以让读者以简单、简洁的方式可视化复杂的数据集。
资料来源:
Anne E. Egger, Ph.D., Anthony Carpi, Ph.D. “Using Graphs and Visual Data in Science” Visionlearning Vol. POS-1 (4), 2008.
https://www.visionlearning.com/en/library/process-of-science/49/using-graphs-and-visual-data-in-science/156
几只青椒
长按二维码关注
科学|技术|教育|成长
References
  • Carpi, A., Frei, A., Cocris, D., McCloskey, R., Contreras, E., & Ferguson, K. (2007). Analytical artifacts produced by a polycarbonate chamber compared to a Teflon chamber for measuring surface mercury fluxes. Analytical & Bioanalytical Chemistry, 388(2), 361-365.
  • Cleveland, W. S. (1984). Graphs in scientific publications. The American Statistician, 38(4), 261-269.
  • Fitzpatrick, J. W., Lammertink, M., Luneau, M. D., Jr., Gallagher, T. W., Harrison, B. R., Sparling, G. M., . . . Zollner, D. (2005). Ivory-billed woodpecker (Campephilus principalis) persists in continental North America. Science, 308(5727), 1460-1462.
  • IPCC. (2007). Climate change 2007: The physical science Basis. Contribution of Working Group I to the Fourth Assessment Report of the Intergovernmental Panel on Climate Change. New York: Cambridge University Press.
  • Keeling, R. F., Piper,S. C., Bollenbacher, A. F., & Walker, J. S. (2008). Atmospheric CO2 records from sites in the SIO air sampling network. In Trends: A compendium of data on global change. Carbon Dioxide Information Analysis Center, Oak Ridge National Laboratory, US Department of Energy, Oak Ridge, TN, USA.
  • National Science Foundation. Science & engineering visualization challenge. Retrieved January 8, 2008.
  • Playfair, W. (1786). The commercial and political atlas and statistical breviary. London: J. Wallis.
  • Zacks, J., Levy, E., Tversky, B., & Schiano, D. (2002). Graphs in print. In M. Anderson, B. Meyer & P. Olivier (Eds.), Diagrammatic representation and reasoning (pp. 187-206). Springer.
继续阅读
阅读原文