领略高端套路,发表高分文章!
小伙伴们大家好,我是菠小萝。这里是菠小萝的高分生信SCI解读专栏。2021年的2月菠小萝陪您过大年!2021年的2月菠小萝陪您过大年~这一年的干货全部奉献给大家!本周,菠小萝继续推出“2021年必备生信套路|圆你的晋升梦”系列文献解读之——ceRNA绝对不过时,教给大家最牛的生信套路!牛年学习生信的热情也要牛上加牛呀!
今天菠小萝为大家带来的是2020年9月发表在《Mol Ther Nucleic Acids》上的环状RNA的ceRNA套路生信文章,最新影响因子8.986。题目是“Whole-Transcriptome Sequencing Identifies Key Differentially Expressed mRNAs, miRNAs,lncRNAs, and circRNAs Associated with CHOL”。
这篇文章的Figures都是我们非常熟悉的,也都是大家可以独立完成的,那我们也绝对可以发一篇5分+ceRNA套路的生信文章对不对!菠小萝保证大家学习过本篇推文后,人人都能掌握ceRNA套路。ceRNA套路虽然简单,但想要高分还是需要一些技巧的,比如如何选择数据来源,ceRNA其实涉及到的面非常广,简单的ceRNA网络只要有差异分子就可以构建。但要通过ceRNA网络发高分生信文章还是需要对数据的选择和富集分析的对象等等方面精挑细选的。下面菠小萝就通过这篇环状RNA的生信文章,为大家揭晓ceRNA的高分秘籍!感谢作者为我们提供了很好的学习典范!
期刊简介
“挑圈联靠”题目要素拆解
疾病胆管癌(Chol);
目的基因Unknown;
数据来源:全转录组测序
机制ceRNA网络;
研究目的(文章类型)Identify Key Differentially Expressed mRNAs, miRNAs, lncRNAs, and circRNAs,是一篇诊断/预后型生信文章。
知识背景
胆管癌是一种起源于胆道上皮的肿瘤,大多数CHOL患者预后不佳;手术切除是早期疾病患者的首选治疗选择,而不是晚期或晚期疾病患者,因为现有的全身治疗效果有限。因此,分子肿瘤生物学的进一步认识是非常有必要的。
近年来,相对于传统的桑格测序(Sanger Sequencing)而言,高通量测序(High-Throughput Sequencing,NGS)技术的发展使能够对整个基因组进行完全测序,并能够分析许多癌症基因组图谱。测序技术最大的优势就是可以发现新的基因!通过将目标DNA剪切为小片段,把单个小片段结合到固相表面,然后单分子独立扩增(每次只复制一个碱基并检测信号),最后高分辨率的成像系统,就完成啦!
高通量测序以其高输出量与高解析度的特性,不仅为我们提供了丰富的遗传学信息,而且使得测序的费用和时间大大缩短。在高通量测序发展的过程中,也有很多的问题需要我们去解决:数据在临床诊断上的作用,测序数据的储存和分析,数据的安全和信息隐私等。目前高通量测序的主要平台代表有罗氏公司(Roche)的454测序仪(Roch GS FLX sequencer),Illumina公司的Solexa基因组分析仪(Illumina Genome Analyzer)和ABI的SOLiD测序仪(ABI SOLiD sequencer)。
作者在本项研究中就是用了NGS,来获得不同类型的差异分子~本篇文章是一篇经典的竞争性内源RNA(ceRNA)假说套路文章,研究RNA之间互作机制。最常见的是microRNA能够通过与mRNA结合,从而导致功能RNA的沉默。反过来,具有相同microRNA结合位点的RNA分子能够竞争结合microRNA,从而实现RNA分子之间通过microRNA发生的调控作用。ceRNA分子包括mRNA、lncRNA、circRNA以及假基因。ceRNA串扰将破坏细胞过程和功能的平衡。
作者查阅文献得知,很少有研究使用全转录组测序策略来描述CHOL的转录组情况,全转录组测序策略允许对全球基因表达谱进行精确检测。在本项研究中,作者对8例CHOL患者的肿瘤(C组)及其对应的非肿瘤邻近肿瘤(CP组)进行了全转录组测序。随后对C组和CP组进行“挑”——差异mRNA、miRNA、lncRNA、circRNA表达分析,并进行“圈”——功能相互作用预测分析。并构建ceRNA网络。最后,将得到的这一结果在TCGA)-CHOL数据集中进行验证。由此提出潜在的对CHOL的发生和进展的新的分子基础,并为明确的预后和治疗意义提供潜在的生物标志物。
数据来源 & 思路框架
作者选择了自己临床研究中心的8名CHOL患者(4名男性和4名女性;年龄范围:47-75岁,平均年龄60岁)的组织样本,这些患者术前无放疗、化疗。并以癌旁正常胆管组织作为对照,对两组进行差异表达分析,然后进行功能交互预测分析,研究CHOL中的基因调控回路。此外,CHOL数据的癌症基因组图谱(TCGA)用于验证结果。与对照组相比,CHOL样本共发现2895个差异表达信使RNA (Dif-mRNAs)、56个差异表达microRNAs (Dif-miRNAs)、151个差异表达长非编码RNA (Dif-lncRNAs)和110个差异表达环状RNA (Dif-circRNAs)。对与miRNA、lncRNA、circRNA相关的差异表达基因(DEGs)进行富集分析,也发现了剪接体的功能。例如,下调的hsa-miR-144-3p显著富集于竞争性内源性RNA (competing endogenous RNA, ceRNA)复合物网络,该网络还包括7个上调和13个下调的环状RNA, 7个上调的lncRNA,以及90个上调和40个下调的mRNA。而且,大部分的DEGs和少数的miRNAs通过TCGA数据成功验证。参与RNA剪接和蛋白降解过程的基因以及miR-144-3p可能在CHOL的发病机制中发挥基础性作用。
数据精析
”——差异表达分析
一般来讲,ceRNA套路都是要分别筛选差异mRNA、miRNA、lncRNA,如果有条件还可以再筛选差异circRNAs。本文就是分别筛选了这四种类型的差异分子。
按照筛选标准,共获得2895个差异表达mRNA (Dif-mRNAs),其中上调2290个,下调605个;鉴定出56个差异表达的miRNA (Dif- miRNA),其中30个上调,26个下调;共获得151个差异表达lncRNA (Dif- lncRNA),其中表达上调98个,表达下调53个;共发现110个差异表达的环状RNA (Dif-circRNAs),其中30个上调,80个下调。DifmRNA、Dif-miRNA、Dif-lncRNA和Dif-circRNA的双向聚类热图如图1所示,肿瘤样本与对照样本可以显著分离,说明差异表达分析结果是可靠的。
(图1)
” ”——分析DEGs的万能组合
1
功能富集分析
筛选了差异分子后,通常会对其进行富集分析。富集的是什么呢?是基因功能!也就是说无意义的分子是富集不到功能的。那些不编码蛋白的分子怎么办呢?不能用来富集的话,筛选这一步岂不是很没有意义了?并不是的,它们有靶基因呀~不能忘记靶基因发挥功能的途径。我们可以对其相应的靶基因进行功能富集,同样可以在一定程度上代表这些基因的潜在价值。
表达上调的基因富集于36条通路,图2显示了Dif- mRNA上调或下调后富集的Top 20通路。结果提示上调基因主要涉及“mRNA剪接”,通过剪接体,“rRNA处理”,“剪接体”,“RNA转运”。此外,下调基因与在“氧化还原过程”,“血小板脱颗粒”,“代谢途径”,“补体和凝血级联”。
(图2)
2

“联”蛋白质-蛋白质相互作用(PPI)网络和模块提取
基于Dif-mRNA的PPI网络由421个节点和934个交互对组成。拓扑得分高的节点可视为网络的关键节点。使用Cytoscape的MCODE插件聚类到四个Hub模块,其中的基因均上调(图3A)。Module A (score = 20.5)包含21个节点和205个相互作用对,其中核糖体蛋白包含最多,如核糖体蛋白L23a (RPL23A)、核糖体蛋白S11 (RPS11)和核糖体蛋白L8 (RPL8)。Module B (score = 12.462)包含14个节点和81个相互作用对,包括小核糖核蛋白D2多肽(SNRPD2)、小核糖核蛋白E多肽(SNRPE)和小核糖核蛋白D1多肽(SNRPD1)。Module C (score = 12)包含12个节点和66个互作对,其中基因属于蛋白酶体26S亚基家族,如蛋白酶体26S亚基,非ATP酶3 (PSMD3)和蛋白酶体26S亚基,非ATP酶13 (PSMD13)。Module D (score = 12)包含13个节点和7个相互作用对,包括M相磷酸化蛋白10 (MPHOSPH10)和UTP6,小亚基过程成分(UTP6)。并对模块中的基因进行GO-BP富集分析(图3B)。
(图3)
3
miRNA、lncRNA和circRNA相关靶基因的富集分析
这一步是本文比较出彩的地方,作者探讨了三组互作关系。
① Dif-miRNA & Dif-mRNA;
② Dif-lncRNA & Dif-mRNA;
③Dif-circRNA & Dif-mRNA,随后就是KEGG富集分析(图4)。
结果表明,这些基因相关的microRNA, lncRNA, circRNA明显富集于“内吞作用”和“剪接体”。根据所获得的Dif-miRNA & Dif-mRNA之间的调控关系以及所获得的Dif-mRNA & Dif-lncRNA和Dif-mRNA & Dif-circRNA的共表达关系,使用R包clusterprofiler对三组差异miRNA、lncRNA、circRNA的相关靶基因进行KEGG富集分析。以气泡图展示miRNA、lncRNA和circRNA可能参与或影响的通路。
(图4)
”——ceRNA网络构建
1

预测miRNA调控关系
作者使用miRWalk 2.0预测DEmiRNAs的靶基因。miRWalk 2.0不仅包含了包括DIANA-microT, DIANA-microT-CDS , miRanda-rel , mirBridge , miRDB, miRmap , miRNAMap, doRiNA,PicTar, PITA RNA22, RNAhybrid和Targetscan在内的这12个miRNA靶标预测程序。数据库存储了基因全长序列上的miRNA结合位点,同时能够将这些位点与预测结合信息的集合进行关联,从而能够进一步构建分子网络。
通过miRWalk 2.0中的miRWalk、miRanda、miRDB、miRMap、RNA22和TargetScan数据库,预测到存在的miRNA-靶基因调控关系,并进行筛选。最终得到91个lncRNA-miRNA-mRNA相互作用(图5),其中7个上调lncRNA, 71个上调miRNA, 12个下调miRNA, 1个上调miRNA, 1个下调miRNA。
(图5)
2

Dif-lncRNA-Dif-mRNA和DifcircRNA-Dif-mRNA的共表达分析
接下来,作者展示了circRNA-miRNA-mRNA网络(图6)。根据circRNA-mRNA的共表达关系以及Dif-miRNA-Dif-mRNA与Dif-miRNADif-circRNA的调控关系,筛选出相同miRNA调控的Dif-circRNA与mRNA,最终得出494种circRNA-miRNA-mRNA的相互作用关系。其中上调circRNA 22个,下调circRNA 42个,上调mRNA 204个,下调mRNA 95个,上调miRNA 6个,下调miRNA 5个。
ceRNA网络的构建,是基于lncRNA-mRNA的共表达关系以及Dif-miRNA & Dif-mRNA与Dif-miRNA & Dif-lncRNA的调控关系的。由此,作者筛选出同一miRNA显著差异表达和调控的lncRNA和mRNA。
进一步,根据lncRNA-miRNA-mRNA和circRNA-miRNA-mRNA网络,进一步筛选差异表达的circRNA、lncRNA和受同一miRNA调控的mRNA。最终得到158对交互作用对(图7),其中circRNA上调7对,下调13对,lncRNA上调7对,mRNA上调90对,下调40对,miRNA上调1对,下调1对(hsamiR-144-3p,下调;hsa-miR-135a-5p表达上调)。
TCGA-CHOL数据集结果验证
文章的末尾,还有个重头戏,就是大样本公共数据库的验证。作者当然选择权威的TCGA啦~对于TCGA-CHOL数据集mRNA和miRNA数据,将筛选阈值设置为p < 0.01,共获得9446个Dif-mRNA和178个Dif-miRNA,与我们分析得到的DifmRNA和Dif-miRNA进行比较。图1中作者是给出了维恩图,表明在TCGA数据中有2,444/ 2,895(84.42%)的Dif- mRNA存在差异表达,在TCGA数据中也有18/56(32.14%)的Dif-miRNAs存在差异表达。另一个的不同之处,结果可能与样本差异或不同的阈值选择有一定的关系。然而,hsa-miR-144-3p被包含在18种常见的Dif- miRNA中。富集模块中程度较高的基因也被纳入2444个常见的Dif- mRNA中,包括RPS11、RPL8、SNRPD2、SNRPE、SNRPD1、PSMD3、PSMD13、MPHOSPH10和UTP6。
到此,文章就结束了,是不是很惊喜,一篇套路如此简单的ceRNA文章,竟然能够发到7分+。下面菠小萝就为大家总结全文,提炼精华,升级万能套路!
思路总结
与传统的测序技术相比,NGS有许多优势,能够在多种类型的癌症中识别肿瘤驱动基因。
在范文中,作者通过应用全转录组测序,在CHOL样本中与对照组相比发现2895个Dif- mRNA, 56个Dif- mRNA, 151个DiflncRNAs和110个Dif-circRNAs。对Dif- mRNA的直接功能富集分析表明,这些基因主要参与RNA的加工和运输、剪接体、氧化还原过程和血小板脱颗粒。PPI网络分析发现了几个中枢基因,包括核糖体蛋白、核糖体蛋白和蛋白酶体26S亚基家族。对与miRNA、lncRNA、circRNA相关的基因进行富集分析,也发现了剪接体的功能。下调的hsa-miR-144-3p和上调的hsa-miR-135a-5p在ceRNA复合体网络中显著富集。并在TCGA数据成功验证了大部分差异表达基因(DEGs)和少数miRNAs;测序数据与TCGA数据的差异可能与样本差异或阈值选择不同有一定关系。
其中,本篇范文涉及到了circRNAs,这是一类不具有5' 末端帽子和3' 末端poly(A)尾巴、并以共价键形成环形结构的非编码RNA分子。由于有研究报道,circRNA通常是由特殊的可变剪切而产生的,超过80%的circRNA包含编码蛋白的外显子,与同源的mRNA具有大量的相同序列,能够与其互为ceRNA,作为海绵吸附microRNA。剪接体是一个由5个snRNPs和许多其他蛋白质组成的多兆达顿的核糖核蛋白机器,能够准确识别前体mRNA (pre- mRNA)的剪接位点,然后催化内含子切除。值得注意的是,核心剪接体机制已被证明在癌症中过表达并影响自噬和细胞增殖,为调节RNA剪接在恶性实体肿瘤中的治疗提供了一个有吸引力的靶点。作者查阅文献得知,蛋白酶体抑制和错误折叠或未折叠蛋白的积累可导致人CHOL细胞内质网(ER)功能障碍和非caspase依赖性细胞死亡。
在本篇范文中,有几个观察结果特别值得注意。首先就是差异mRNA、miRNA、lncRNA和circRNA的功能富集分析,表明剪接体和RNA的加工和运输参与。此外,包括核糖体蛋白、核糖核蛋白和蛋白酶体26S亚基家族的基因如RPS11、RPL8、SNRPD2、SNRPE、SNRPD1、PSMD3和PSMD13被鉴定为PPI网络中的Hub基因,并通过TCGA数据进行验证。这些结果有力地证明了参与RNA剪接和蛋白降解过程的基因,如RPS11、RPL8、SNRPD2、SNRPE、SNRPD1、PSMD3和PSMD13,可能在CHOL的发病机制中发挥基础性作用。在今后的肿瘤靶向治疗发展中,需要进一步的研究加以考虑。此外,作者还发现hsamiR-144-3p下调在ceRNA网络中的重要作用。有证据表明,miR144-3p在多种癌症中发挥抑癌作用,如胶质母细胞瘤、肾细胞癌、食道鳞状细胞癌等。总之,miR-144-3p可能在CHOL的发病机制中发挥重要作用,未来的机制研究中可以着重研究miR-144-3p在CHOL中的作用。
综上所述,本研究通过全转录组测序和TCGA数据验证,探讨了CHOL的分子机制。结果发现RPS11、RPL8、SNRPD2、SNRPE、SNRPD1、PSMD3、PSMD13等参与RNA剪接和蛋白降解过程的基因可能在CHOL发病机制中发挥基础性作用。miR-144-3p可能在CHOL的发病机制中起重要作用。这些发现阐明了CHOL的基因组复杂性,也提出了CHOL特性的潜在新靶点。
这篇文章大家学习过后,应该会有一种感觉,就是套路永远经典,数据必须过硬!菠小萝为大家奉上一套完整的ceRNA套路。首先第一步就是优质的数据集!如果差异分子很少,必然不能构建出一张丰富的网络,这不仅体现在差异分子的数量上,还有就是需要多种差异分子,才能构建出一张完美的网络。
所以~第一个重点:丰富的数据来源!菠小萝给大家几个高分搭配,a.自己的临床样本做测序;b.联合大样本公共数据库;c.大样本数据库泛癌数据分析;d.多个大样本数据库联合分析。那么,优质的数据该如何获得呢?
第二个重点:优质的数据!数据质量这一部分就有两个重点需要大家注意,a.差异分子数量多;b.差异分子类型广,包括mRNA、lncRNA、circRNA以及假基因。都用上肯定是加分项!大家如果有条件的话可以试试,是很重要的加分项呢~
接下来就是富集分析,一些没有功能的分子是没办法富集的,差异mRNA肯定是必须的,其他的数据类型我们要去数据库预测靶基因。
第三个重点:准确的靶基因预测!菠小萝这里当然也会告诉大家加分的秘诀~a.数据库要权威,选择那些包含有证据来源的数据库。“挑圈联靠”公众号中有很多我们推送的优质数据库~;b.靶基因预测数据库数量要多。单一的或者很单调的几个数据库预测不能给文章加分的原因主要有两点,第一是预测的结果少,第二就是预测的结果难以信服
对于circRNA靶基因预测,可能有很多小伙伴不太熟悉,我们可以怎么做呢当然也有专门的数据库了~比如circBase(http://www.circbase.org/),CIRCpedia(http://www.picb.ac.cn/rnomics/circpedia/),deepBase(http://RNA.sysu.edu.cn/deepBase/),CircNet(http://circnet.mbc.nctu.edu.tw/)等等哈,有兴趣的小伙伴可以到网站上点点~我们接下来可以在差异circRNA中,筛选出新的circRNA,去预测靶基因,然后就是接下来的“圈”&“联”等等一套生信分析!
然后还可以选择差异Hub基因呀~,酸菜大大的“挑圈联靠”不要忘记了,还可以生存分析呢!临床预后~构建风险模型~单因素与多因素风险回归~或是各种差异分子的回归分析,比如差异lncRNA与差异mRNA等等。以上这些都是可以用来丰富文章内容,给文章加分的方法呢!
好啦,生信部分的加分策略菠小萝汇总完毕!如果想再提高文章的档次,就要加些湿实验验证啦!通过使用microRNA预测工具,分析microRNA的可能结合位点(可能存在多个结合位点),之后通过突变结合位点结合荧光素酶报告基因实验,进一步验证circHIPK3能够吸附microRNAs,以及是通过哪个结合位点结合的。接下来从候选circRNA中挑选了一些进行PCR验证,其中包括利用Outward-facing primers(外显子两端向外的引物,在cricRNA 检测中中,如果能产生pcr产物,则说明其实环化的),验证所筛选出来的确实是circRNA,而不是普通的线型RNA,以及在组织中验证circRNA的表达量。
我们下周再见啦,拜拜!
参考文献
Chu KJ, Ma YS, Jiang XH, Wu TM, Wu ZJ, Li ZZ, Wang JH, Gao QX, Yi B, Shi Y, Wang HM, Gu LP, Zhang SQ, Wang GR, Liu JB, Fu D, Jiang XQ. Whole-Transcriptome Sequencing Identifies Key Differentially Expressed mRNAs, miRNAs, lncRNAs, and circRNAs Associated with CHOL. Mol Ther Nucleic Acids. 2020 Sep 4;21:592-603. doi: 10.1016/j.omtn.2020.06.025. Epub 2020 Jun 27. PMID: 32721879; PMCID: PMC7390861.
往期传送门
重磅最新消息!DeepMind首次突破蛋白折叠的历史难题,这项AI技术能否成为生信领域的下一匹黑马?
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨菠小萝
排版丨四金兄
值班 | 火   火

主编丨小雪球
新年快乐
2020

感谢所有小伙伴的一路陪伴

开心这一路和大家共同成长

2021

我们仍要一起并肩前行

朝更新的目标一起努力


为了感谢大家一路的支持

在春节大年初五迎财神时

酸谈将进行一场
福利抽奖直播
纯抽奖part、
全新福利周边
大家一定记得来观看直播奥



直播信息
直播时间:
大年初五
直播地点:B站解螺旋直播间

直播内容:福利直播抽奖party

直播地址:
https://live.bilibili.com/8116225
扫码直达直播间



大年初五

不见不散
长按识别二维码免费包邮领取!

继续阅读
阅读原文