从零开始单细胞系列一之8分+单细胞分析文章是怎么做的?
大家好,我是风。欢迎来到风风的从零开始单细胞系列一。本次推文开始,我们将进入第一部分的内容——单细胞文章解读。先来唠嗑唠嗑放松一下,对于我个人来说,带教训练营过程中主要熟悉学员的节奏,然后调整自己一些讲课的内容和方法,我课讲的不多嘛,所以需要多调整;写推文和做课程则是有两个目的:第一,系统梳理自己在某个方面的知识,然后以输出的方式检验自己的学习系统是否有遗漏或者错误的地方;第二,希望大家能够在接受输入的同时,反馈给我一些我自己没有发现过的问题,一人技短两人技长嘛,希望能够通过跟大家一起学习让我自己能够进步。所以很欢迎大家在留言区或者后台提问交流,要是不方便的话,在粉丝群@我提问也行,当然有好的运用思路能交流就更好啦,我跟大家一样都是医学专业,代码写得好也只是一种工具,好的运用方式才是需要追求的地方。好啦,闲话少说,我们进入正题:
先看题目
今天给大家带来一篇2019年04月发表在老牌杂志——Cell Reports上的文章,最新影响因子为8.109:
题目为:“Dissecting the Single-Cell Transcriptome Network Underlying Gastric Premalignant Lesions and Early Gastric Cancer”,即:胃癌前病变和早期胃癌中单细胞转录组网络的剖析.
我们先对题目进行拆解,疾病时胃癌前病变和早期胃癌,目的是构建单细胞转录组网络,按照我们解读文献的惯例,猜测作者可能会做什么内容:
  • 首先是介绍单细胞分析的数据来源,共使用了多少了细胞进行测序得到了多少结果(跟转录组数据写作上有些许差异);
  • 然后根据测序结果进行降维和聚类,并且进行细胞注释,这样就得到了胃癌前病变和早期胃癌中的单细胞图谱;
  • 但是作者在题目中提到了Dissecting,猜测作者不满足于描述性的结果,应该进一步探讨了聚类得到的细胞在疾病中可能参与的功能和通路,那就是“挑、圈、联、靠”中的“圈”的内容;
  • 如果锚定了特定细胞,那应该会对特定细胞进行靶向分析(“挑”),鉴别出疾病特异的新的marker(s);
  • 为了观察到动态结果,也许还会在最后来个拟时序分析?或者得到marker后在其他组学层面进行分析相互佐证(“联”)?
  • 由于是胃癌,TCGA也有较多的胃癌样本,猜测作者有可能是联合了TCGA中的转录数据和临床数据对鉴定的marker进行临床价值方面的探索,也就是“靠”的部分。
当然,上述都是我们猜的结果,具体如何,我们往下看文章。
内容拆解
01
研究背景
慢性萎缩性胃炎(CAG)和肠化生(IM)是肠型胃癌(GC)的主要癌前病变。并且从癌前病变到胃癌的过程中,不同疾病阶段都具有不同的细胞类型特征。例如,CAG的特征是壁细胞和胃蛋白酶原产生的主细胞的丧失,而IM的定义是肠道特异性细胞类型的出现,包括杯状细胞和肠细胞。因此,细胞特征是鉴别胃癌前病变和恶性病变的关键。然而,在以往的研究和方法中,或是掩盖了不同细胞群体的特征,或是局限于几种特定的细胞类型,未能完全区分不同的细胞类型,无法检测稀有细胞群体或具有特定状态的细胞,都无法全面且系统地诠释单个细胞在胃粘膜癌前病变和恶性病变中的特征。本文试图使用单细胞mRNA测序(scRNA-seq)技术表征数千个细胞的转录状态,对组织内细胞群体的单细胞表达谱进行系统全面的分析。
02
文章脉络
我的假设里,大家都是第一次看单细胞的文章,也就是从0开始,只具备了相应的生物医学背景,所以为了帮助大家理解,我总结了一个文章的脉络图给大家先看一下,有了整体印象我们再来看文章:
03
图片拆解
Figure 1: A Single-Cell Atlas of Gastric Antral Premalignant and Early-Malignant Mucosae.
04
圈和联
Figure 1A为单细胞测序流程图,作者总共收集13例标本进行10X单细胞测序:正常对照(NAG)3例,慢性萎缩性胃炎(CAG)3例,肠上皮化生(IM)6例,早期胃癌(EGC)1例。通过质量控制,在去除低质量细胞后,总共保留了32332个的细胞用于后续分析,每个细胞检测到1941个基因。为了基于基因表达模式识别不同的细胞群体,使用Seurat对细胞进行降维和无监督聚类,并且消除了多个样本之间的批量效应。紧接着使用t-SNE法推导出从NAG、CAG、IM到EGC的级联图谱,最终确定了17个主要细胞簇,并且根据已知的细胞marker对这17个细胞簇进行鉴定(Figure 1B)。除了典型的细胞类型标记外,作者还确定了一些其他基因,这些基因可以强烈而特异地标记了每个主要细胞群体(Figure 1C)。既往研究表明,细胞因子和NF-κB通路都与胃炎诱导的胃肿瘤发生有关,因此,作者又绘制了这两个信号通路中明星分子的泡泡图(Figure 1D)。Figure 1E是幽门螺杆菌感染的IM样本(IMW1、IMS1和IMS2)和未感染的IM样本(IMW2、IMS3和IMS4)的上皮细胞和间质细胞的t-SNE图,作者发现胃上皮细胞对幽门螺杆菌感染的反应影响了表达谱的改变以及细胞固有程序和细胞比例的改变;并且,在幽门螺杆菌感染下,包括REG3A、Lcn2、COX7B和UQCRB在内的一些基因在胃粘膜内几乎所有类型的细胞中持续上调同时显示了特定细胞类型的模式,例如,抗菌蛋白LTF和BPIFB1在幽门螺杆菌感染的活检组织中的细胞中特异性上调(Figure 1F)。这些结果为从细胞内和细胞间研究幽门螺杆菌感染的胃上皮细胞相互作用提供了一定的价值。
Figure 2: The Single-Cell Transcriptomes of Epithelial Cells in the Cascade from Gastritis to EGC.
05
挑、圈、联
Figure 2A展示了24,223个胃粘膜上皮细胞的t-SNE图,左图为按照不同阶段的t-SNE图,右图为按照细胞类型的t-SNE图。接着计算不同病变类型的上皮细胞类型的比例,发现胃高分化细胞类型(包括PMC)的比例随着级联而降低。相反,骨髓间充质干细胞在IM病变中出现,在化生过程中显著增加,在EGC病变中达到最高(Figure 2B)。绘制小提琴图展示TFF1、TFF2和TFF3在不同上皮细胞类型中的表达分布(Figure 2C),发现TFF1、TFF2和肠特异性TFF3的表达模式在不同的上皮细胞类型之间有明显的差别。此外,作者还系统地描述了不同病变上皮细胞的基因表达谱。使用Wilcoxon秩和检验,确定了每种病变中每种细胞类型的差异表达基因,将同一病变中多种细胞类型的DEG合并为病变相关特征,并观察到具有这些特征的不同病变的粘膜细胞有明显的区别(Figure 2D),结合基因所在的信号通路分析发现:CAG病变中的肿瘤坏死因子(TNF)信号通路和矿物质吸收呈线富集,IM病变中的代谢通路显著富集,以及EGC病变中的细胞增殖相关通路被富集。作者进一步剖析了病变相关信号优势表达的细胞类型,发现参与矿物质吸收的基因在PMCs中优先表达,而参与TNF信号通路的基因,包括CXCL2和CXCL3,则倾向于在GMCs中表达。在EGC病变中,细胞增殖相关基因几乎在所有细胞类型中都高表达,提示细胞增殖是EGC病变中胃粘膜上皮细胞的共同特征。为了系统地了解从胃炎到EGC的级联过程中细胞和分子的变化,通过表征每对上皮细胞类型之间的系统关联,然后识别每种病变中典型上皮细胞类型的标记基因,最终构建了一个单细胞转录网络(Figure 2E)。图片上部分为单细胞网络,结节代表每个病变粘膜中的主要上皮细胞类型,网络中边缘的厚度表示任何一对细胞类型的质心之间的Pearson相关系数,图片中间部分为分子网络标记物,显示每种病变典型细胞类型的假定网络标记物,其中带蓝色圈的结节代表胃炎或胃癌的高危基因。图片下方表示每种病变所涉及的整体分子特征的动态变化。
Figure 3: The scRNA Profiles for Gastric Mucous-Secreting Cell Lineages across Different Lesions.
06
圈和联
在Figure 2E的单细胞网络中,胃粘膜分泌细胞是跨病变的“保守”细胞类型(Figure 3A),它主要由表达MUC5AC的PMCs(Figure 3B)和表达MUC6的GMC组成(Figure 3C)。这两种细胞表现出不同的表达模式,其中PMC主要表达与肌动蛋白细胞骨架和细菌侵袭有关的基因,而GMCs主要表达免疫反应和转化生长因子b(TGF-b)信号通路(Figure 3D)。对于PMC,作者发现不同阶段的PMC的分子标志物富集在不同的通路中,包括CAG病变中矿物质吸收的上调,IM病变中的代谢,以及EGC病变中的氧化磷酸化(Figure 3E)。作者发现IM病变中以MUC6标记的胃腺细胞具有高度异质性,使用PCA分析发现这些表达MUC6的腺细胞可以被清楚地分为两个亚群(Figure 3F):簇1富集了免疫和抗菌相关基因,这与正常胃窦腺细胞的分子特征一致,簇2富集了肠道干细胞或发育相关基因,包括OLFM4、PHLDA1和LEFTY1。如Figure 3J所示,表达OLFM4的GMC在CAG病变中很少检测到(0.4%),而在野生IM病变中,表达OLFM4的GMC数量显著增加(8%),在重度IM病变中达到高峰(26%)。在EGC损伤中,GMCs消失,表达OLFM4的细胞比例达到峰值,这两点与先前研究结果一致。最后用同一IM切除标本的免疫荧光(IF)染色证实了MUC6和OLFM4以及LEFTY1的共同表达模式(Figure 3H/3I)。
Figure 4: The scRNA Profiles for Enteroendocrine Cell Lineages across Different Lesions.
07
挑和圈
在Figure 2E所示的基于单细胞的网络中,肠内分泌细胞是另一种跨越不同病变的保守细胞类型(Figure 4A)。对这些细胞进行重新集群,总共得到了8个亚细胞群(Figure 4B)。进一步检测典型的肠内分泌细胞标志物在不同样本中的表达分布,作者发现胃内分泌细胞标记物主要在胃炎病变中表达,并且随着IM的进展,其表达水平逐渐降低,Figure 4C提示不同病变的内分泌细胞可能由不同的内分泌细胞亚型主导。为了确定每个病变中的内分泌细胞亚型,作者量化了在Figure 4B所示的每个簇中表达的肠内分泌细胞标志物的细胞比例。研究发现,同一细胞簇可表达不同的标志物,但是不同簇的优势标志物不同(Figure 4D)。通过比较EGC病变的内分泌细胞与其他细胞系的表达谱,作者发现了OR51E1是EGC病变的内分泌细胞中上调最显著的标志物(Figure 4E)。分别对IM和EGC标本进行IF染色(Figure 4F),分析典型的内分泌细胞标志物OR51E1和CHGA的表达,发现在EGC样本中检测到OR51E1的表达,但在IM样本中没有检测到OR51E1的表达,此外,在EGC样本中,OR51E1通常与CHGA共表达。
Figure 5: HES6 Marks Early Goblet Cells.
08
挑和靠
Figure 2C所示的肠化生病变中出现杯状细胞是临床上胃肠上皮化生的病理诊断所必需的。在本研究中,共有565个细胞被归类为“杯状细胞”簇(Figure 5A),其中一些杯状细胞相关的标志物包括MUC2和ITLN1,显示出显著的表达上调。同时发现杯状细胞也具有高度异质性(Figure 5B)。通过将这些杯状细胞重新聚集成5个亚群,并分析它们的标记基因的共表达,总共观察到有两种主要模式:P1表现为参与代谢相关的途径,P2表现位参与细胞增殖相关的途径(Figure 5C)。此外,作者还从P2中发现了一些尚未与杯状细胞相关的基因(也就是鉴定了新的marker),包括Hes家族的BHLH转录因子6(HES6),HES6在不同上皮细胞中仅在杯状细胞中表达(Figure 5D)。HES6与分化的杯状细胞标志物MUC2在杯状细胞中表现出互斥表达,表达MUC2和HES6的细胞的定量表明只有69%的杯状细胞单独表达MUC2,而表达MUC2或HES6的杯状细胞的比例达到96%( Figure 5E和Figure 5F)。为了验证这个结果,作者在结肠样本中进行了HES6的染色。HES6+细胞倾向于位于隐窝的下部,提示早期分化的分泌细胞(Figure 5G)。此外,表达HES6的细胞存在于表达MUC2的杯状细胞周围,其中一些细胞与杯状细胞重叠(Figure 5H)。HES6+细胞也主要与增殖的Ki67+细胞混合,但很少有细胞共表达Ki67(Figure 5I)。
Figure 6: The scRNA Profile of EGC Cells.
09
挑、圈、联
这张图就比较简单啦,主要说明单细胞转录图谱能够识别专门标记EGC细胞的标志物。作者将重点放在EGC病变中可能出现的“癌细胞”簇(Figure 6A)上,并对其表达谱进行了表征。首先确认了胃肠道肿瘤标记物基因CEACAM6、BAX和CCND2在癌细胞群中的特异性上调(Figure 6B)。此外,利用TCGA数据进行验证,发现识别到的新的markers在胃癌样本中显著高表达(Figure 6C)。接着作者计算了不同上皮细胞类型之间的相关分数,并将它们可视化成网络(Figure 6D)。研究表明,癌细胞簇与MSC簇和肠细胞簇(Figure 6E)具有强相关性,这与肠型胃癌的特征一致。一般来说,癌前化生部位通常位于肿瘤黏膜周围,由于癌细胞与肠道细胞在转录水平上的相似性,这给肿瘤细胞相关基因谱的准确识别带来了困难,作者发现一些以前报道的与GC相关的早期诊断标记基因,如FABP1、CEACAM5和CDH17,在肠上皮细胞或其他细胞类型中显示出广泛的表达(Figure 6F),表明它们在癌细胞中的非特异性表达。因此,在单细胞图谱的基础上,可以通过选择那些在癌细胞中显著上调但在其他细胞类型中表达最低的基因来定义一组高可信的EGC相关标记基因,总共由6个基因组成(Figure 6G)。在这6个基因中,SLC11A2和KLK7尚未被报道与胃癌的发生有关,接着作者分别通过对IM、EGC和进展期胃癌(AGC)活检组织的IF染色,验证了这6个基因中最上调的基因KLK10的表达,发现KLK10在IM样本中呈阴性表达,在EGC样本中呈中度阳性表达,在AGC样本中呈强阳性表达(Figure 6I)。因此,这些基因可以作为癌细胞特异性的分子标志物。
文末总结
作者总共通过6个部分来构建整个故事:
  1. 癌前病变与EGC胃窦粘膜单细胞图谱;
  2. 基于单细胞的跨病变胃上皮细胞鉴定网络的构建;
  3. 不同病变胃粘膜分泌细胞系的单细胞表达谱特征;
  4. 不同病变间肠内分泌细胞系的单细胞表达谱特征;
  5. HES6标记早期杯状细胞;
  6. 构建EGC单细胞转录图谱并识别EGC细胞特异标志物。
文章的分析内容现在看来并不难,基本在我们本系列第二部分模块分析中都会涉及到,但是这篇文章是在2019年发表,那是单细胞技术刚兴起的时候,此外,选择的疾病非常具有临床意义,而且通过单细胞网络横向拓展了很多特定细胞的分析,这点很值得我们借鉴,同时这也是第一篇详细地构建了胃癌癌前病变和早期胃癌的单细胞图谱,那么能够发在Cell Reports上面也就并不奇怪了。
好了,我们的第一篇文章就到这里,下周讲的文章难度比这篇大好几倍,我在考虑是不是分为两次推文发出来,如果这篇文章你觉得读起来有难度的话,千万不要怕,因为后面的文章难度会越来越大O(∩_∩)O后台回复“feng38”可以获取文献原文。我们下期再见吧!
单细胞分析专栏传送门
碎碎念专栏传送门(完结)
风之美图系列传送门(完结)
END

撰文丨风   风
排版丨四金兄
值班 | 风间琉璃
主编丨小雪球
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文