混合效应模型第一讲:伪重复问题

Hi,大家好,我是晨曦
今天这期让我们开启一个全新的专题:混合效应模型(mixed model)
这里说一下晨曦自己的理解,我们学习的路线永远都是经典统计模型(线性),然后发现响应变量如果是分类变量,那么简单的线性回归就无法解决这类问题,那么自然就产生了广义线性模型,通过链接函数指定响应变量的分布
到这里,我们本来可以认为我们已经可以有底气的面对世界上所有的数据了,但是当我们试图解决的问题的时候,却发现生活中大部分数据其实违反了线性回归或者广义线性模型中的一个很基础的数据假设:样本独立性原则
GLM一般是指 generalized linear model ,也就是广义线性模型;而非 general linear model,也就是一般线性模型;而GLMM (generalized linear mixed model)是广义线性混合模型。
举个例子:生活中其实无处不在的就是嵌套数据,比如说同一个班级的同学,我们想要研究某个学校学生的成绩是否和某些因素相关,那么这个时候我们首先想到的就是线性回归,把成绩和某些因素做个回归,但是有个问题,学校里有重点班和平行班,相当于一个嵌套数据,重点班的同学成绩是比较高且接近的,平行班的同学成绩是比较一般且差距比较远的,我们直线回归其实是忽略了这种嵌套关系,因为我们每一个学生的成绩并不是独立的而是呈现重点班一簇,平行班一簇,再说简单点,A同学和B同学都是重点班,他们的成绩就不是独立的,而是具有相关的,因为他们来自同一个班级,对于这种响应变量是嵌套数据的,违反数据独立性原则的情况,我们就需要使用混合效应模型
那么什么时候应该选择混合效应模型呢?
这个时候自然需要明确一个概念就是:伪重复概念(非独立数据)
你给一个人量了20次血压,那么这20个血压难道都是独立数据?其实你的独立数据是远远小于这个数的,所以混合效应模型适用的条件也可以仅有一个就是数据不独立(存在嵌套)
我们需要阅读文献PSEUDOREPLICATION AND THE DESIGN OF ECOLOGICAL FIELD EXPERIMENTS,来加深我们对伪重复概念的理解
在这这篇文献中,作者做了一个简单但是又很具有生活气息的例子,假如我们购置了8个一摸一样的水箱,并排放在一张桌子上,然后往里面放入等量的浮游生物,前四个加入DDT(干预因素),后四个则什么也不加,我们想要探索的就是DDT对于浮游生物的影响,看上去我们每组有四个独立样本,但是实际上彼此并不是完全的独立,因为我们并没有随机选择分组,如果恰好有一组的水箱更靠近窗口,那么我们没有任何统计学方法可以知道究竟是DDT起作用,还是其中四个水族箱靠近窗口而导致浮游生物数量的变化
这一点在线性模型中我们是直接忽略了,但是因为有了混合效应模型,我们完全可以处理这种随机效应
晨曦解读
其实晨曦对于这块的理解就是,如果我们的数据是嵌套数据,比如说来自同一地点的数据、来自同一物种的数据、同一个班级,不同同学的数据、同一对象,不同时间测量的数据等等,这些数据就不是独立的而是具有相关的,我们这个时候如果要严谨点,那么最好使用混合效应模型而不是广义线性模型
一个实验的组成我们可以简单划分为五部分:假设、实验设计、实验执行、统计分析以及结果解释,其中最重要的其实就是假设,因为如果我们假设错误了,我们得到的参数(斜率)将不再具有正确性
晨曦解读
这里和机器学习又产生了冲突,在面向数据科学家的统计学中可以知道,如果在使用机器学习模型的时候违反了数据假设,那么模型的性能会受到影响,但是并没有说一定不可以使用,因为就好像数据科学家关心的是四个轮子的自行车可不可以跑的快,而统计学家关心的是四个轮子的自行车可不可以上路的问题,但是,这里我个人的理解就是,如果违反了数据假设对于参数检验的话,参数的解读将不再是我们的重点,或者说一旦违反了数据假设,那么参数的解读肯定会出现偏倚,这个时候如果模型的性能恰好很好,那么我们只需要关注模型的性能就可以,就如计算机领域常常流行的一句话:如果你不知道你的代码为什么可以运行起来,那么就让他运行吧,不要管他
当然这篇文献中还有很多经典的统计学错误案例,感兴趣的小伙伴可以去看看,如果觉得文献太冗长,其实我们只需要明确伪重复这个概念足以,正因为有了伪重复我们才需要使用混合效应模型
好啦,本期推文到这里就结束了~
我是晨曦,我们下期再见QAQ
参考教程:
1.Pseudoreplication- Principles (influentialpoints.com)
2.Data Analysis Using Regression and Multilevel Hierarchical Models by Andrew Gelman Jennifer Hill
晨曦的空间转录组笔记系列传送门
晨曦碎碎念系列传送门(未完待续...)
1. 想白嫖单细胞生信文章?这五大源头数据库,是你发文章的源泉!高频预警!你一定要收藏!
2. 盘活国自然的新思路!你研究的热点真的是热点吗?大数据帮你定位!
3. 好家伙!90%以上审稿人都会问到的问题,今天帮你解决!就是这么齐齐整整!
4. 没想到!生信分组还有这个大坑!你被坑过吗?!
5. 关于富集分析这件事,我有话想说。。。
6. 好御好高级!CNS级别美图是如何炼成的?看这篇就懂了!
7. 化繁为简!一文帮你彻底搞懂机器学习!想发高分文章,这篇是基础!
8. 你不知道的机器学习算法!关键时候能救命!
9. 致命!芯片&测序的联合到底能不能联合分析?审稿人最爱用这刁难你!
10. 躲不过的树!80%的生信SCI中都见过它!你真的搞懂了吗?
11. Python or R? 哪个更适用于生信发文章?深入浅出给你讲透!
12. 生信和抖音是一样的算法原理?不仅让你成瘾,也能发高分文章!
13. 跟3-5分SCI相比,CNS里的生信玩的可太花了!其实简单的离谱!
14. 揭秘!小鼠和人的免疫浸润分析有何区别?看这篇就够了!
15. 临床预测模型中的宠儿!最常见的机器学习 算法,没有之一!直接拿来用 !
16. 临床预测模型评价,不只有ROC,这个指标你遗漏了吗?
17. 肺肿瘤机器学习模板奉上!还不赶快产出2022年的你的第一篇SCI?!
晨曦单细胞文献阅读系列传送门

1. 非肿瘤单细胞分析模板已到位!眼馋单细胞的小伙伴快来看!手把手教你产出第一篇单细胞SCI!

晨曦单细胞笔记系列传送门
晨曦从零开始学画图系列传送门
1. 看完这篇,彻底掌握生信画图精髓!超级实用,我不许你不知道!
2. 想让SCI看上去更高逼格?这些绘图技巧你一定要知道!
3. 3min掌握SCI配色神技,学会你就是组会汇报上最靓的仔!
晨曦单细胞数据库系列传送门

END

撰文丨晨   曦
排版丨四金兄
主编丨小雪球
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文