芯片 OR 测序
合并之后究竟是什么?
HI~大家好,我是晨曦
今天这期是晨曦碎碎念的第十期内容
本来这期推文的主角将是朴素贝叶斯模型的讲解,但是,应该是在上周的某一刻突然想起来以前还有一个感兴趣的知识点没有整理,所以,主角临时进行了替换花了三天的时间写下了这篇对于我或者是我的学习有重要启示意义的推文——芯片&测序的联合分析

晨曦碎碎念系列传送门
Background knowledge
相信大家通过以前的推文,都知道了什么是批次效应,以及为什么会产生批次效应。(戳这里)
那么问题来了~
芯片和测序这两个本身技术上就不同的产物,如果要合并,那么批次效应应该如何去除?
同时在下面这篇文献中阐明了,批次效应的产生并不能够通过算法而完全去除,而且算法本身并不会足够“聪明”的判断哪些是技术上产生的“伪影”,哪些才是真正的生物学差异
所以,存在的先验知识一直在告诉我
1.技术不同的数据不可以合并;
2.平台不同的数据不可以合并;
3.批次相差很大的数据不建议合并;
........
但是,2021年发表的文献打破了以往的认知,所以晨曦觉得有必要把这篇文献以及实现的方法介绍给大家,那么我们就开始学习一下这篇文献的思路以及实现芯片和测序联合分析的方法吧~
Literature interpretation
首先,这篇文献的摘要总结下来就是,我的这种算法叫做Rank-In,可以成功纠正两种技术之间的非生物效应,允许芯片和测序数据进行统一分析,并且实际操作下来效果很不错,并且提供了在线工具的链接:http://www.badd-cao.net/rank-in/index.html
工具可以满足以下三个方面的不同需求:
1.不同时间、不同技术产生的自测数据;
2.不同实验室在不同平台下产生的数据组合;
3.整合数据库中的大数据样本,可以进行批次效应的矫正(不同平台);
这里晨曦将简单从三方面对文献进行梳理,分别是基本思想、性能评估、工具实操
基本思想
第一步:将每个需要整合的数据集内部(芯片&测序)按照表达值对基因从低到高排序,将排序后的基因分为100组
第二步:通过每个基因谱内表达强度的增加斜率进一步加权基因组的等级。到目前为止,对每个数据集都得到了一个加权的内部基因排序
第三步:生成一个权重矩阵,进行奇异值分解(SVD),以减少不同实验或平台之间的非生物效应。通过这一点,数据分布已经被统一成一个芯片和测序的类似曲线。最后,调整后的排名矩阵可用于后续的比较或分析。
算法整体的思路就是这样,可以简单理解为赋予不同的权重通过算法减少不同实验或平台之间的非生物效应
最后我们可以看到,通过算法进行调整后,不同实验技术的数据具有相似的数据分布,也就是说可以用来进行比较
至此,基本思想介绍完毕
性能评估
说完算法的基本思想,我们接下来就该来说说这个算法的性能了
毕竟尽管具有合乎逻辑的计算思路,但是如果没有一个较为优秀的结果,那么也并不会让我们采用这个算法
作者选用了两套数据集,分别是GSE56457和GSE47774,然后分别比较了Rank-In和其它三种方法(ComBat、SVA和Angel’s method)对于不同测序平台或技术的校正结果
当不校正的时候,很显然不能从表达值很好的区分两个样本。
但经过校正之后,两个样本能够被区分开,这代表了生物学意义的捕获
这里说一下晨曦的理解,虽然两个样本可以被很好的区分,但是不同算法对于真正的生物学差异的损失是不同的,既然你测的是相同的东西,只是因为平台不同,那么你最终的结果应该呈现一种“混匀”的状态,就是在不同组织类型中混杂分布着不同测序技术或者是平台
但是从广义上来看,显然这四种方式都可以实现生物学意义上的捕获
接下来,我们来看一下数据矫正前后的分布
上图,校正前存在两个峰,Rank-In方法在校正两个测序技术所生成的信号值的同时,将两个峰整合成为了一个峰,相比于其它方法更加贴合彼此,突显了Rank-In方法的优越性
至此,性能评估介绍完毕
工具实操
既然我们已经知道这个算法的优越性,那么我们就来实际看看作者最后结合算法设计而成的工具应该如何使用
首先,我们在浏览器键入网址:http://www.badd-cao.net/rank-in/index.html,进入如下页面:
PS:使用这个网站的整体步骤可以分为:上传表达矩阵(upload data)→上传分组信息(Sample Class)【上面这两个步骤是必须步骤】→添加平台信息【选做】→留下Email,等待分析结果或者获取结果ID在线查看
点击"Quick Start"进入数据上传界面
01
上传表达矩阵(unload data)
上传数据应该包含表达矩阵,保存为tab分隔的文本文件(.txt),其中行代表基因,列代表样本,需要有以下注意:
1.每个基因和样本的名称必须是唯一
2.对于芯片数据,如果有多个探针对应同一基因时,需要将相同探针的结果用中值或平均值代替
3.对于RNA-seq数据,标化格式支持FPKM、TPM、TMM。基因名称可以是Entrenze ID、Gene symbol和Ensemble ID
4.上传数据限制为50MB。对于含有20000个基因的基因表达谱,这相当于大约200个样本
上传完毕表达矩阵数据后,我们进入下一步,也就是上传样本分组信息文件
02
上传分组信息(Sample Class)
这一步骤,我们需要把我们样本和分组的信息整理成如下形式:
“1”表示正常组织样本,“2”表示癌症亚型1的样本,“3”表示癌症亚型2的样本,以此类推
03
添加平台信息
然后上面这两个步骤是必选项,也就是说你最少要上传这两个文件,然后我们看一下作者建议添加的附加项
用户上传附加信息,如平台、批次等

例如,在平台栏中,“1”表示来自Affymetrix U133 + 2平台的数据,“2”表示来自Agilent microarray的数据,“3”表示来自Illumina Hiseq 2000的数据,等等
04
等待结果
结果将通过电子邮件发送
05
结果ID
同时点击提交会获得一个ID,这个结果ID可以在网页上Check选项内(下图所示)键入ID查看结果,但是推荐用邮件的形式获取结果
至此,工具实操介绍完毕
细节回顾
好了,这个方便的工具就给大家介绍到了这里,那么我们对于其中的细节再来回顾一下
提问上传的表达矩阵是需要包含芯片和测序整合在一起的矩阵吗?
回答是的,保证样本ID唯一,基因名唯一,我们可以分别下载芯片和测序的表达矩阵,因为测序往往是FPKM,然后芯片也往往都有series martix,然后我们可能会需要进行Gene symbol的转换,然后通过cbind函数拼接起来即可,当然对于那些多通道的数据集本身整合好了是更加方便的
提问通过上面的学习,发现combat函数也可以进行跨平台批次效应的去除,这个可以借鉴吗?
回答可以的,因为你会发现,在上面作者进行测试的时候,combat函数也表现出来了不错的效果
至此,这期的晨曦碎碎念就给大家介绍到了这里
生信的不断发展,确实会影响到我们以往的认知,所以我们更应该不断的接受新的事物,不断的学习,欢迎大家在评论区留言,如果还有什么新奇的知识,也欢迎大家在线交流哦~
我是晨曦,我们下期再见~
晨曦单细胞笔记系列传送门
晨曦从零开始学画图系列传送门
晨曦单细胞数据库系列传送门

END

撰文丨晨   曦
排版丨四金兄
主编丨小雪球
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文