R. A. Fisher 的名著《实验设计;第八版,1971年》第二部分有十六页,仅仅讲了一个最简单的实验:女士品茶。这个故事非常有名,以至于 Salsburg 的统计学通俗读物就以它命名:《女士品茶:20世纪统计怎样变革了科学》。
先回顾一下这个故事。在英国的 Rothamsted 实验站,Fisher 给一位名叫 Muriel Bristol 的女士倒了一杯茶,但是 Bristol 表示,自己更喜欢先将牛奶倒入杯中,再倒入茶。这位女士号称能够分辨先倒茶和先倒牛奶的区别。作为实验设计的鼻祖,Fisher 当然想用实验检验一下:这位女士的味觉是否有这么敏锐?Fisher 倒了 8 杯奶茶:其中 4 杯“先奶后茶”,其余 4 杯“先茶后奶”。随机打乱次序后,Fisher 请 Bristol 品尝,并选出“先奶后茶”的 4 杯,看她是否能分辨奶和茶的顺序。下面的表格大致描述了这个问题,其中是 Bristol 选对的“先奶后茶”的杯数。
抛开严格的数学,先做一些直观的计算。也许 Bristol 并没有任何分辨能力,仅凭运气,她也可能全部答对。随机地从 8 杯中选 4 杯“先奶后茶”,可能完全正确 ();不过这个事件的概率是
这是一个小概率事件,概率小于 0.05 (通常的统计显著性水平)。所以,若是 Bristol 全部答对,那么她“没有任何分辨能力”这个假设就和数据不太相容,可以拒绝这个假设。也许 Bristol 运气不够好,错选了 1 杯“先奶后茶”(),这个事件的概率是
这并不算一个小概率事件,即使 Bristol 全凭运气蒙对 3 杯“先奶后茶”也无甚稀奇。
从上面的简单计算看,只有当 Bristol 完全答对的时候,我们才拒绝她“没有任何分辨顺序的能力”这个假设,承认她有分辨能力。
历史上的结果是什么呢?Bristol 完全答对。
上面的组合数来自哪里?在的表格中,行列和都固定, 服从超几何分布,所以上面两个式子无非是超几何分布取 4 和 3 的值。这是通常教科书对“女士品茶”的解释。
但是超几何分布又从哪里来呢?再想想这个例子的不平凡之处:
  1. 实验只有一个样本,且不是随机抽取的。
  2. 即使我们认为 Bristol 品尝 8 次是 8 个样本,这些样本都是相关的。
  3. 更严重的是,前面几杯可能会影响后面几杯的口感,也许会有滞后作用。
这些问题并不是很容易回答。下面是对“女士品茶”实验的一个严格解释。
这里的实验是什么?实验者可以控制的,就是 8 杯奶茶的顺序,完全随机打乱,一共有 
种可能性。用
表示这个顺序,其中 4 个分量“先茶后奶”,另外 4 个分量“先奶后茶”。考虑如下的实验:在每一个 z 下,Bristol 给出她对 8 杯茶的鉴定结果
其中 4 个分量“先茶后奶”,另外 4 个分量“先奶后茶”;每一个 z 对应一个向量结果 y(z)z有 70 种可能,因此y(z)最多也有 70 种可能。这些y(z)都是固定的数,它们在实验前就定了。实验者只能随机选取某个顺序
,对应的 Bristol 对8 杯茶的鉴定结果是
零假设是什么?Fisher 《实验设计》的 II.8 的题目就是 “The null hypothesis”,这里他花了两页,可见这问题不那么显然,我认为这是问题的核心。Fisher 选择了如下的零假设:实验者可以控制的顺序 z 对 Bristol 的判断没有任何影响。数学上就是
不依赖于 z。因此,Bristol 判定为“先茶后奶”和“先奶后茶”的杯子固定,即是一个固定的向量不随着而变化,唯一变化的是Z本身,在 70 种可能性中随机选一个。这是这个零假设特别的地方。如果不选择这个零假设,那么不固定,Zy都是随机的, 随后的统计推断会很复杂。
现在可以做假设检验了。实验者的 70 种可能的 ,也许恰好匹配了 Bristol 的 ,但这只有
的概率。也许  中只有 6 杯匹配对了, 这有
的概率。注意,这里的计算公式和前面的超几何分布一模一样。读者若是不熟悉这种计算,可以用两行 R 代码看看:
y = c(
1
1
1
1
0
0
0
0
)

Zpossible = t(combn(
8
4
, tabulate, nbins = 
8
))

第一行是 Bristol 的 ,经过顺序调整,前 4 杯“先奶后茶”,后 4 杯“先茶后奶”。在零假设下,这个向量固定。第二行是所有可能的  , 一共 70 种可能。大家可以简单比较一下,只有一行可以与  完全匹配,有 16 行可以和 正确匹配 6 杯。和前面的讨论类似,若是选择 0.05 作为显著性水平,那么只有 Bristol 完全答对,我们才能拒绝零假设;否则,无法拒绝。
回到前面的 1、2和3,新的解释是否回答了这些问题呢?新的解释引入了记号 y(z),它们是一些固定的数,于是我们不关心是否有随机抽样,样本是否有相关性。从这个记号看,第 8 杯的品尝结果可以受到第1杯是否“先茶后奶”的影响。问题的关键是,Fisher 选择的零假设很特别,即  完全不影响 y(z) ,因此  在零假设下是个固定的向量。这样一来,整个统计问题的随机性仅仅来自于 ,这是实验者随机化产生的,它成了统计推断的基础。《实验设计》全书从此正式展开。
作者简介
丁鹏,2004-2011年在北京大学概率统计系学习,获得学士和硕士学位;2011-2015年在哈佛大学统计系学习,获得博士学位;2015年在哈佛大学流行病学系做博士后;2016年加入伯克利统计系任教。研究方向是因果推断。
作者:丁鹏
审稿:黄湘云、魏太云
编辑:于淼、林枫、任焱
统计之都:专业、人本、正直的中国统计学社区。

关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
继续阅读
阅读原文