混合效应模型第一讲：伪重复问题

Hi，大家好，我是晨曦
今天这期让我们开启一个全新的专题：混合效应模型（mixed model）

这里说一下晨曦自己的理解，我们学习的路线永远都是经典统计模型（线性），然后发现响应变量如果是分类变量，那么简单的线性回归就无法解决这类问题，那么自然就产生了广义线性模型，通过链接函数指定响应变量的分布

到这里，我们本来可以认为我们已经可以有底气的面对世界上所有的数据了，但是当我们试图解决的问题的时候，却发现生活中大部分数据其实违反了线性回归或者广义线性模型中的一个很基础的数据假设：样本独立性原则

GLM一般是指 generalized linear model ，也就是广义线性模型；而非 general linear model，也就是一般线性模型；而GLMM （generalized linear mixed model）是广义线性混合模型。

举个例子：生活中其实无处不在的就是嵌套数据，比如说同一个班级的同学，我们想要研究某个学校学生的成绩是否和某些因素相关，那么这个时候我们首先想到的就是线性回归，把成绩和某些因素做个回归，但是有个问题，学校里有重点班和平行班，相当于一个嵌套数据，重点班的同学成绩是比较高且接近的，平行班的同学成绩是比较一般且差距比较远的，我们直线回归其实是忽略了这种嵌套关系，因为我们每一个学生的成绩并不是独立的而是呈现重点班一簇，平行班一簇，再说简单点，A同学和B同学都是重点班，他们的成绩就不是独立的，而是具有相关的，因为他们来自同一个班级，对于这种响应变量是嵌套数据的，违反数据独立性原则的情况，我们就需要使用混合效应模型

那么什么时候应该选择混合效应模型呢?

这个时候自然需要明确一个概念就是：伪重复概念（非独立数据）

你给一个人量了20次血压，那么这20个血压难道都是独立数据？其实你的独立数据是远远小于这个数的，所以混合效应模型适用的条件也可以仅有一个就是数据不独立（存在嵌套）

我们需要阅读文献PSEUDOREPLICATION AND THE DESIGN OF ECOLOGICAL FIELD EXPERIMENTS，来加深我们对伪重复概念的理解

在这这篇文献中，作者做了一个简单但是又很具有生活气息的例子，假如我们购置了8个一摸一样的水箱，并排放在一张桌子上，然后往里面放入等量的浮游生物，前四个加入DDT（干预因素），后四个则什么也不加，我们想要探索的就是DDT对于浮游生物的影响，看上去我们每组有四个独立样本，但是实际上彼此并不是完全的独立，因为我们并没有随机选择分组，如果恰好有一组的水箱更靠近窗口，那么我们没有任何统计学方法可以知道究竟是DDT起作用，还是其中四个水族箱靠近窗口而导致浮游生物数量的变化

这一点在线性模型中我们是直接忽略了，但是因为有了混合效应模型，我们完全可以处理这种随机效应

晨曦解读

其实晨曦对于这块的理解就是，如果我们的数据是嵌套数据，比如说来自同一地点的数据、来自同一物种的数据、同一个班级，不同同学的数据、同一对象，不同时间测量的数据等等，这些数据就不是独立的而是具有相关的，我们这个时候如果要严谨点，那么最好使用混合效应模型而不是广义线性模型

一个实验的组成我们可以简单划分为五部分：假设、实验设计、实验执行、统计分析以及结果解释，其中最重要的其实就是假设，因为如果我们假设错误了，我们得到的参数（斜率）将不再具有正确性

晨曦解读

这里和机器学习又产生了冲突，在面向数据科学家的统计学中可以知道，如果在使用机器学习模型的时候违反了数据假设，那么模型的性能会受到影响，但是并没有说一定不可以使用，因为就好像数据科学家关心的是四个轮子的自行车可不可以跑的快，而统计学家关心的是四个轮子的自行车可不可以上路的问题，但是，这里我个人的理解就是，如果违反了数据假设对于参数检验的话，参数的解读将不再是我们的重点，或者说一旦违反了数据假设，那么参数的解读肯定会出现偏倚，这个时候如果模型的性能恰好很好，那么我们只需要关注模型的性能就可以，就如计算机领域常常流行的一句话：如果你不知道你的代码为什么可以运行起来，那么就让他运行吧，不要管他

当然这篇文献中还有很多经典的统计学错误案例，感兴趣的小伙伴可以去看看，如果觉得文献太冗长，其实我们只需要明确伪重复这个概念足以，正因为有了伪重复我们才需要使用混合效应模型

好啦，本期推文到这里就结束了~

我是晨曦，我们下期再见QAQ

参考教程：

1.Pseudoreplication- Principles (influentialpoints.com)

2.Data Analysis Using Regression and Multilevel Hierarchical Models by Andrew Gelman Jennifer Hill