本文选自《中国统计》2021年第1期文章,原文已获出版社和作者授权。
很多情况下人们是在没有十分把握但又必须做出行动的情况下进行决策的。例如,某游乐场安装了新索道,并进行了验收试验,根据试验结果和设备资料能否认定新索道是安全的。再例如,在新药研制过程中要对新药和安慰剂做双盲比较试验,如何根据试验结果认为新药和安慰剂有明显差异。对于这种带有不确定性的决策问题需要用到统计学的假设检验思想和方法。
假设检验方法和逻辑中的反证法有关,但是它们的根据和结论有很大不同。我们先通过虚拟的例子看看反证法。
大家是否遇到过这样让人生气的事。妹妹把东西放在一个地方但却不见了,就会对哥哥说:“肯定是你拿了,如果你没拿,东西怎么会不见了呐”。哥哥常被气得直吼:“你这是什么逻辑啊!”。其实,妹妹的逻辑还是不错的,用的逻辑推理方式就是反证法。只不过她加上了一些额外条件,第一个条件是她自己没拿这东西也没把它放在其它地方,第二个条件是除她和他之外没有其他人和事使得东西不见。在这些条件下她论证了 “东西是哥哥拿的”这个结论。因为假如 “东西不是哥哥拿的”,则“东西不会不见”,而这与“东西不见了”这个事实相矛盾。
有一些是个人的小事情,有一些是社会或科学的大事情,人们经常要对这些事情做一些判断和决策,这些判断和决策需要根据事实和逻辑进行推理论证。而推理的一种方法就是反证法。说起反证法,其实人们并不陌生。很多的数学结论是靠反证法证明的,最著名的是古希腊数学家欧几里德对“素数个数无限”这个结论的证明以及希伯斯对“√2是无理数”这个结论的证明。反证法是什么?要论证一个结论是正确的,直接论证可能会有困难,就先假设结论不正确,然后试图找到与事实或者常理相矛盾的地方,若找到矛盾的地方,则说明假设的情况是不对的,从而证明了所要论证的结论正确性。
由于自然现象和社会现象的复杂性,人们所要推理的依据本身往往具有很大的不确定性。从而,无论是一个简单的个人决策还是一项重要的社会决定,都不能保证百分百是正确的,这种情况下我们不能运用能够得到十分肯定结果的反证法,而只能采用是统计学中的假设检验方法。我们再用开头的例子来说一下这种方法。
其实,哥哥之所以被气到可能是因为妹妹假定的条件与真实情况不符。如果把妹妹之前加上的两个条件去掉,则“东西不见了”这个事实可能的原因可以归纳为以下两种情况:哥哥拿走了,其他原因(东西放别处妹妹忘记了或者其他人拿走了)。但如果妹妹认为其他原因的可能性很小,则可以计算出“东西不是哥哥拿的”这个条件下而“东西不见”的可能性也会很小。现在东西不见了,于是仍然可以怀疑是哥哥拿了。但这个时候和原来的推理有一些本质的不同,就是妹妹应该承认这种方式的判断可能犯错误,可能冤枉哥哥,尽管犯这种错误的可能性很小。
我们再用符号再总结一下反证法和假设检验方法。
反证法:要论证命题A成立,我们先假定命题A不成立,看看能否找到一个与之完全矛盾的事件B。即在A不成立的条件下事件B完全不会发生,即发生的概率是零。但如果事实上B发生了,则我们就可以肯定假定命题A不成立这件事不对了。从而说明命题A一定成立。
假设检验方法:要论证命题A成立,我们同样的先假定命题A不成立,看看能否找到一个与之基本矛盾的事件C。在A不成立的条件下事件C基本不会发生,即发生的概率很小。但如果事实上C发生了,则我们就可以怀疑假定命题A不成立这件事不对了。从而说明命题A很可能成立。
这里可以看出反证法和假设检验有两个方面的不同:找到的矛盾事件类型不同,一个是完全矛盾B,一个是基本矛盾C;结论不同,一个是论证了命题A一定成立,一个论证了命题A很可能成立。之所以要采取这种不能得到十分肯定结论的方法,就是因为我们的根据不足以得到十分肯定的结论,而我们又必须给出一个结论。
大家对假设检验方法应该比较清楚了,我们再看几个常见但十分有启发性的例子。
我们首先看对药品有效性试验的假设检验问题。药厂要研制一种抗癌药物,首先必须论证这种药物是有效的。现行方法是把药物和安慰剂放在一起做双盲试验。双盲试验是指病人和医生都不知道病人服用的是药物或安慰剂,只有统计分析师知晓内情。最后得到四个数据,,它们分别代表四组不同的病人数:安慰剂无效组,安慰剂有效组,药物无效组,药物有效组。这在统计中属于列联表独立性检验问题。我们要根据这些数据判断药物和安慰剂是否有显著差异。通常可以把这个问题归结为判定“服用药品和安慰剂与是否有效不相互独立”。然后构造一个基于这四个数据的函数,我们称之为统计量。如果假定“服用药品和安慰剂与是否有效相互独立”,则我们构造的统计量不应该很大,如果很大则我们就否定独立性,从而认为不相互独立,即认为服用药品和安慰剂与是否有效是相关的。进一步,如果实际估计服用药物的有效比率更高,则认为药物是有效的。这里关键问题是,统计量大到什么程度才叫大?这需要在给出错误风险情况下由统计理论给出判断阈值。
这个模型和方法可以运用到很多社会问题和科学问题研究中。比如,通过试验设计,将磁化水与白开水比较,将气功师与一般人比较,将真口罩与假口罩比较,可以回答喝磁化水、用气功治病以及戴口罩防感染等措施是否有效的问题。但目前很多人对这种方法还认识不够,对这种带有不确定性的情况不能进行正确判断,在脑海里没有这种系统设计的思想,往往拿个别现象做出结论。追捧名人效应往往就是这种现象的一种反映。
我们再看一下收入差异的比较问题。某大学要对毕业于本校不同专业的学生收入情况做一比较,看看不同专业收入是否有明显差别。对毕业时间在10到15年的毕业生分理学、工学两类做了一个调查。每个类别分别调查了100名毕业生的年收入,调查得到年收入数据分别为。我们要根据这两组数据判断不同类别毕业生收入是否有显著差异。这里有很多不同的检验方法可以选择。首先可以选用参数模型,最简单的方法是假定数据服从正态分布,然后检验它们的均值和方差是否相等。这需要先做正态性检验,如果不服从正态性假定,则不能采用正态模型。也可以选择做一些变换,使得它们变为正态分布,然后再利用正态模型进行检验。也可以选择非参数检验方法。构造非参数检验的方法也有很多种,一种直观的方法就是通过比较它们的大小,构造所谓秩检验法。把这两组数据混合在一起从小到大排列,如果两组数据分布没有显著差异,则某一类别不会出现明显聚集现象。如果出现严重聚集现象则就可以认为两个类别收入分布有显著差异。这里的关键问题也是要找构造一个检验统计量,使得在认为两个类别没有差异时,这个统计量倾向于比较小。但如果实际数据表明这个统计量的计算值比较大,则就需要否定这个假设,认为两个类别的收入就具有明显差别了。阈值的计算可以通过统计方法的精确推导得出。
这里的模型和方法同样可以运用到很多社会生活和科学研究问题中去。例如,比较不同治疗方法对病人预期寿命是否有显著有影响;比较不同国家或地区青年人首婚年龄是否有显著差异;比较不同生产工艺生产的产品质量指标是否有显著差异;比较节食方式和喂饱方式的酵母菌寿命差异是否显著等问题。
本文通过浅显的说明介绍了统计学中的假设检验方法。应该指出的是在不同的模型和不同的数据下所使用的检验方法是不相同的。人们也发现了它的一些不足之处,但目前来说无论是进行科学研究还是对实际问题进行决策,这都是一个非常有用的系统方法论。假设检验方法相当于一个工具,一把钥匙,学会这个思想方法,对于我们在纷繁的世界中独具慧眼拨开迷雾发现真理具有很大的作用。
作者简介:房祥忠教授,在北京大学数学科学学院曾任概率统计系主任,中国现场统计研究会理事长,IMS-China主席。现兼任教育部统计学类教学指导委员会主任委员,中国统计学会副会长,全国应用统计专业学位研究生教育指导委员会委员,北京企业评价协会理事长等职。研究兴趣包括:生存分析,可靠性,纵向数据,基尼系数,时空统计,人工智能中的统计方法等。在《中国科学》《JRSP》《Reliability on IEEE》等期刊发表论文50余篇。曾获国防科技奖二等奖(2011)、北京市科技进步二等奖(2002)和教育部第六届高等教育国家级教学成果二等奖(2012)。
敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
编辑|赵霖琳
继续阅读
阅读原文