领略高端套路,发表高分文章!
小伙伴们大家好,我是菠小萝。这里是菠小萝的高分生信SCI解读专栏。感谢作者为作者提供了很好的学习典范!今天带给大家的是一篇单细胞测序套路的生信文章,于2020年12月发表在老牌肿瘤学杂志《Cancers》上,题目是“Single-Cell RNA Sequencing of a Postmenopausal Normal Breast Tissue Identifies Multiple Cell Types That Contribute to Breast Cancer”。这篇文章讲述了一个非常有趣的story——绝经后正常乳腺组织的单细胞核糖核酸测序鉴定出导致乳腺癌的多种细胞类型!这样的文章真的博眼球是不是~
期刊简介
“挑圈联靠”题目要素拆解
疾病乳腺癌——Breast Cancer;
数据来源单细胞测序——Single-Cell RNA Sequencing;
研究目的文章类型):关键词“Contribute”,表明是一篇诊断/预后型文章
知识背景
人类乳房主要由上皮细胞构成的乳腺导管,但也包含许多其他鲜为人知的细胞类型。这些基质成分包括成纤维细胞、脂肪细胞、血管、免疫细胞等。目前,由于大多数乳腺肿瘤来源于此,许多研究都集中于乳腺导管的上皮细胞上。
于是,作者就想搞些新鲜的内容,比如发现些新细胞呀~那么,单细胞测序(scRNAseq)就派上用场啦!通过差异表达的基因集作为参数,用以发现不同细胞类型,或者“细胞状态”,并能够反应肿瘤异质性、肿瘤相关免疫细胞和治疗诱导的改变。一般的研究都是正常组织与肿瘤组织的对比,用于发现肿瘤组织有什么异常对吧~这样就很难获得正常乳腺组织中存在的各种细胞类型的信息,从而发现乳腺上皮细胞类型具有什么更好的特征
也有研究利用包括上皮细胞粘附分子(EpCAM)和Cd49f (α6整合素)在内的细胞标记对主要从绝经前妇女的乳房缩小成形术样本中分离的上皮细胞进行分类。通常使用EpCAM和Cd49f这两种Biomarkers区分三种存在于成人乳腺组织中的——成熟腔(EpCAM+CD49f)、腔祖细胞(EpCAM+CD49f+)和基底(EPcam-CD49f hi)细胞。
利用分化标记、转录因子和/或基因表达集,研究进一步将三种上皮细胞类型细分为7-12种细胞类型或“细胞状态”,表明乳腺上皮细胞的可塑性可能取决于多种因素,如遗传、年龄、激素状态以及个体的健康和环境。但可能由于可变的EpCAM免疫反应性,以及不同的单细胞分离方案,并不能完全定义乳腺中存在的上皮和其他细胞类型。
范文呢,就是采用了从正常乳腺组织中分离的单细胞去测序,而没有对EpCAM或CD49f表面进行预分类,从而呈现了包含构成乳腺的各种细胞类型的包容性景观。
此外,研究中使用的乳房组织是一个绝经后乳房切除术样本,由此提供了一个不受激素或个体差异影响的乳房组织景观。
数据来源 & 思路框架
与常规的单细胞测序文章不同的是,本项研究中测序的对象是正常乳房中存在的各种细胞类型。作者使用单细胞测序技术来确定在正常乳房中存在的各种细胞类型。结果显示了10种不同的细胞类型,包括3种上皮细胞和其他新细胞类型。五种细胞类型(三种上皮细胞、一种成纤维细胞亚群和免疫细胞)的基因签名与癌症基因图谱数据集中编录的85%乳腺肿瘤>的基因表达谱相匹配,表明它们对乳腺癌有显著的贡献。
结果通过CK和EPCAM的差异表达显示了三种上皮细胞类型的存在并确定了七种不同的非上皮细胞类型,包括平滑肌细胞、内皮细胞、成纤维细胞和免疫细胞。并利用TCGA乳腺肿瘤数据集进行验证,发现五种细胞类型对乳腺癌有显著贡献
这些发现为更好地绘制乳腺细胞组成及其与乳腺疾病的关系提供了一个框架。
数据精析
第一步:测序结果基础(scRNAseq)
正常乳腺细胞的单细胞分离和单细胞RNA测序(scRNAseq)的工作流程概述在图1A中展示,以及固定、包埋、染色等步骤。
(图1
第二步:细胞群聚类
作者通过Seurat toolkit,根据差异表达基因(DEGs)将乳腺细胞分成10个簇,使用t-SNE进行可视化。这些都是最基本的单细胞测序常识呢~通过菠小萝前面几期单细胞测序文章的讲解,小伙伴们肯定都是了解的。然后能够识别出一组每个细胞簇的特征Biomarkers(图2A)。
表1中作者也总结了每个聚类中的细胞数量和特征基因。其中,最大的单细胞成分簇0是具有肌肉特异性基因表达的平滑肌细胞,包括My9(肌球蛋白轻链9)和My11(肌球蛋白重链11)。簇1细胞是表达内皮细胞趋化蛋白、内皮生长因子和内皮细胞,所有这些细胞都显示出内皮特异性表达。簇2通过KRT7/8/18/19代表高表达腔细胞角蛋白(CK)基因的腔上皮细胞,而簇7通过KRT5/14/17代表表达基底CK基因的基底上皮细胞。并且,作者发现簇7细胞也同时表达CTA2(平滑肌肌动蛋白2)和TAGLN(转蛋白),这与基底/肌上皮细胞的特征一致。簇3包括几个胶原基因,如COL1A、COL3A和COL6A,代表表达细胞外基质基因的成纤维细胞(图2B)。
此外,作者发现了几种潜在的新细胞类型。簇4细胞似乎是表达内皮特异性基因如EDN1(内皮素1)和ESAM(内皮特异性抗原标记物)的内皮细胞亚群,但明显不同于簇1内皮细胞。考虑到t-SNE相似关系以及显示重叠基因表达的热图(图2A-B),第6组细胞似乎与第3组成纤维细胞相关。簇3和簇6细胞均表达成纤维细胞标记ALDR1A 1,且都包括col1a 1/a2和COL6A2,这表明这两种细胞类型都可能有助于乳腺基质的胶原沉积。
为了更加明确,作者使用单克隆抗体生成的分化轨迹将簇1置于簇4之前,将簇6置于簇3之前,这表明细胞类型不同于“细胞状态”。然而,这些还需要功能验证。接下来,簇5细胞表达的基因可能在不同谱系的几种细胞类型中表达,如脂肪细胞、巨噬细胞、平滑肌和成纤维细胞。簇5细胞也表达上皮-间质转化(EMT)标记物,表明细胞谱系不明。多谱系基因的表达在其他一些研究中被描述为骨髓间充质干细胞。因此,作者提出簇5细胞代表间充质祖细胞群,具有分化为多种细胞类型的潜力。簇8细胞是免疫细胞,特异性表达细胞毒性T细胞标记物,如CD3D、CD8A和GZMK。虽然免疫细胞类型的代表性不足,然而可以用单细胞分离方案中细胞群的损失来解释。但仍不清楚为什么CD8 T细胞在其他免疫细胞如巨噬细胞的制备步骤中优先存活。最后,第9类细胞是第三种上皮细胞类型,表达管腔和基底细胞。以及其他未知细胞类型特异性的细胞,包括KRT15/16/23/81。总之,这一部分说明了乳房的单细胞测序显示了10个不同的细胞群。
(图2)
(表1)
第三步:比较差异
上皮细胞黏附分子-1和上皮细胞黏附分子-6在乳腺单细胞群中的表达。
由于以前有几项研究使用两种细胞表面标记EpCAM和CD49f来表征乳腺上皮细胞,因此,作者评估了EPCAM和ITGA6在测序数据中的表达水平。结果显示,EPCAM仅在上皮细胞类型(簇2(管腔)、簇7(基底)和簇9(其他)中表达(图3A),这说明将EpCAM用作上皮细胞标记是可行的。聚类9细胞表达的EPCAM量最高,相对中值分别比聚类2和聚类7细胞高2.7倍和9.6倍(表2)。与簇2和簇9上皮细胞相比,簇7基底细胞表达的EPCAM量最低,与其他研究一致。然而,考虑到每个细胞群内的较大标准偏差(图3A和表2),当仅根据上皮细胞的数量对上皮细胞进行分类时,可能还不完全能说明问题。与仅限于上皮细胞表达的EPCAM相比,ITGA6在内皮细胞和上皮细胞中均有表达。事实上,与其他细胞相比,簇1和簇4内皮谱系细胞表达更高水平的ITGA6(图3B,表2)。在上皮细胞中,簇2管腔细胞不表达ITGA6(图3B,表2),而簇7(基础)和簇9(其他)细胞表达相当量的ITGA6 。这一结果支持了簇7细胞能够作为基底细胞,使其能够附着在基底膜上。同样,簇9细胞可能同时与簇7细胞位于导管的基底层。这三个上皮细胞群中EPCAM和ITGA6的表达水平与以前的研究非常相似。
(图3)
第四步:找相似聚类(进一步缩小差异范围
——细胞角蛋白基因在三种乳腺上皮细胞中的表达
在分析完哪些是由差异后聚类而得出的部分后,接下来要考虑的问题就是上述这三种不同的上皮细胞类型有哪些地方是一致的,从而能够更好的鉴别。作者比较了簇2、簇7和簇9细胞间细胞角蛋白(CK)基因的相对转录水平。作者查阅资料得知干细胞形成中间丝,为上皮细胞提供结构支持,独特的CK表达与特定的细胞类型和谱系分化有关。CK细丝通常由ⅰ型和ⅱ型染色体的异聚体配对形成。例如,CK 8/18和CK 7/19对分别被称为主要初级和次级简单角蛋白。在自己的结果中,发现簇2细胞表达编码角蛋白对KRT7、KRT8、KRT18和KRT19的基因,与命名为“腔”上皮细胞一致(图4A)。相比之下,簇7细胞表达KRT5、KRT14和KRT17,而不表达KRT18和KRT19(图4B)。CK 5/14对发现于与基底膜接触的上皮细胞的基底层,支持将簇7细胞称为“基底层/肌上皮”细胞。CK 10(由KRT10编码,在簇2和簇7细胞中均有表达)已被证明在一些上皮细胞的基底层和腔层之间的中间细胞层表达,即所谓的“超基底层”或“最上层”层。因此,在簇2和簇7中的KRT10表达表明腔细胞和基底细胞类型都可以构成乳腺导管的中间层(图4A-B)。簇9细胞表达簇2和簇7细胞中表达的所有CKs,以及由KRT6B、KRT15、KRT16、KRT23和KRT81编码的额外CKs(图4C-D)。簇2、7或9细胞中平均个体KRT基因表达的比较显示,除了在所有三种细胞类型中表达的KRT8和KRT10之外,KRT基因的表达水平显著不同(图4E)。因此,根据KRT表达式,簇9细胞似乎不属于腔谱系本身。
为了支持这一点,t-SNE相似性关系分析将聚类9与聚类2和聚类7等距离放置(图2A),热图显示聚类9细胞表达与聚类2和聚类7基因集重叠的DEGs(图2B)。总的来说,这些结果表明簇9细胞与簇2(管腔)和簇7(基底)细胞显著不同,能够代表乳房中的第三种上皮细胞类型。此外,簇9细胞表达其他谱系特异性未知的KRT,这可能表明命运未定。并且,作者还发现聚类2能够明确地分为两个独立的聚类(图4F)(单倍生成的伪时间分化排序显示在轨迹中,簇9在“根”处,在一条臂上与簇7相邻,而在另一条臂上与簇2相邻)。这表明聚类2实际上可能由三种不同的细胞类型或“细胞状态”组成,综上所述,作者认为9类细胞可能代表“双能”上皮细胞,而不是腔祖细胞类型。
(图4)
第五步:TCGA数据库验证
作者通过比较单个细胞簇DEGs信号与TCGA乳腺癌数据集中的基因表达谱来验证,并进行基因组变异分析(GSVA),每个肿瘤样本的GSVA分数代表与DEGs富集度相关的从低到高的一致性。然后用具有最高GSVA评分的细胞簇数对每个肿瘤进行分类,这样能够代表肿瘤基因表达与特定单细胞簇的基因特征紧密匹配。再计算分配给每个细胞群的肿瘤数量,发现五种细胞类型,群2、群3、群7、群8和群9,可以将1100个肿瘤中的946个分类,总共占TCGA数据集中乳腺肿瘤的86%(图5A)。三种上皮细胞类型特征能够区分40.8%的肿瘤(簇2,22.6%;簇7,8.9%;簇9,9.3%),而基质和免疫细胞特征区分了另外45.2%的肿瘤(聚类3,22.0%;簇8,23.2%)(图5A)。这些结果表明,除上皮细胞外,基质细胞和免疫细胞是导致乳腺癌的主要细胞类型。
虽然上皮细胞基因标记有望与乳腺肿瘤的基因表达谱相匹配,但基质或免疫细胞标记能像上皮细胞基因标记一样对许多乳腺肿瘤进行分类。于是,作者快来可能是由于肿瘤上皮肿瘤中间质或免疫“成分”的显著存在,从而导致了这种情况。比较簇3(间质)或簇8(免疫)的GSVA评分与上皮细胞簇GSVA评分值相似。
因此,作者进一步评估了在每个指定的簇肿瘤类型中,指定的细胞簇GSVA评分是否与其他细胞簇GSV评分显著不同。箱线图结果显示,在聚类2代表的肿瘤中,聚类2的平均GSVA评分显著高于任何其他聚类GSVA评分(图5B,左上图)。簇3 的GSVA评分显著更高,与包括簇2(腔上皮)或簇6(第二高的GSVA评分更接近簇3评分(图5B,右上图)在内的任何其他簇评分相比。这表明簇3肿瘤不仅仅是具有高成纤维细胞含量的簇2上皮肿瘤。同样,“免疫”肿瘤的聚类8 GSVA评分明显高于其他聚类评分(图5B,底部中间部分)
这些结果表明,根据每个肿瘤的最高GSVA评分的聚类指定是有意义的,代表了与指定的单细胞聚类紧密匹配的基因表达。总之,以上结果能够说明TCGA数据集中代表86%乳腺肿瘤的五个细胞群特征。
(图5)
第六步:“——与乳腺癌亚型相关的单细胞聚类特征
为了检查是否有任何单个细胞簇信号与乳腺肿瘤的分子亚型相关,作者首先使用前面描述的关键亚型基因的标准化基因表达进行无监督聚类。然后,根据从数据集提取的乳腺癌亚型信息标记每个肿瘤(图6A)。结果显示,无监督聚类与基于雌激素受体(ER)和HER2状态的亚型指定紧密匹配;ER-HER2+亚型肿瘤映射到热图的最左侧(红色),紧挨着三阴性肿瘤(绿色),然后是ER+HER2+肿瘤(深蓝色)和ER+HER2-肿瘤(紫色)。为了比较受体状态和受体基因表达水平,作者生成了ERBB2(编码HER2的基因)、ESR1(编码ER的基因)和PGR(编码孕酮受体的基因)表达的热图(图6A,下图)。与亚型名称一致,在HER 2+肿瘤中发现了升高的ERBB2表达(图6A,第三组,黄色)。一致地,升高的ESR1表达在ER+乳腺肿瘤中富集(图6A,第四组,黄色),但是许多表达相对低水平的ESR1(图6A,第四组,蓝色对黄色)。特别是,ER-HER2+和ER+HER 2+肿瘤之间没有可辨别的ESR1表达差异(图6A,上图,红色对深蓝色),表明HER 2+肿瘤之间的ER+命名存在一定的模糊性,这可能是ER蛋白和RNA水平差异的原因。PGR表达主要局限于雌激素受体+乳腺肿瘤(图6A,上图,黄色和蓝色)。
接下来,作者使用单细胞聚类特征生成了TCGA乳腺肿瘤的彩色地图。结果显示,三阴性乳腺癌(TNBC)肿瘤(绿色;图6A,上图)对第7、8和9组(绿色、蓝色、紫色,图6A第二组)进行了富集,而ER+肿瘤主要与第2和3组(橙色、黄色橙色;图6A,第二个面板)。然后,作者根据ER+HER2(鲁米那A)、ER+HER2+(鲁米那B)、HER 2+ER(HER 2)和三阴性(TNBC)的亚型分离TCGA肿瘤,并根据最高GSV A评分计算指定细胞簇数的肿瘤。结果显示,簇2、3或8指定的肿瘤在ER+肿瘤中普遍存在(图6B,前两栏),而TNBC肿瘤由簇7、8或9指定组成(图6B,最后一栏)。ER+(簇2)和TNBC(簇7,9)之间的上皮细胞簇信号分离,支持了乳腺癌的两种亚型可能起源于不同细胞类型。即ER+肿瘤源于管腔细胞(簇2)和TNBC肿瘤源于基底细胞(簇7)
除了21%的TNBC肿瘤被归类为第7类基底上皮肿瘤外,31%的TNBC肿瘤与簇9上皮细胞特征紧密匹配(图6B-C),表明第9类细胞能够区分TNBC。
(图6)
第七步:“”——生存分析
TCG必须利用好的!生存数据要靠它啦~生存分析发现在被分为第2、3、7、8或9组的肿瘤患者之间,生存结果没有显著差异(图7A)。接下来,就是分析是否有任何特定的细胞群类型与各自分子亚型的患者生存率相关。在ER+HER2或ER+HER 2+亚型中流行的簇2、3和8之间的比较没有显示患者生存率的统计学显著差异(图7B-C),分配给簇2、3、7、8或9的HER 2+肿瘤也没有显示统计学显著差异(图7D)。相比之下,与簇7(基础)或簇8(免疫)肿瘤相比,归类为簇9(其他上皮细胞)的TNBC肿瘤与不良预后显著相关(图7E)。与第7类(基底)肿瘤相比,第9类肿瘤与患者总生存率降低72%相关。综上所述,簇9的TNBC淋巴瘤患者存活率低。
(图7)
全文总结
本篇范文仍然是由单细胞测序分析,联合TCGA数据库验证的生信文章。出发点是从正常乳腺单细胞转录组分析的包容性单细胞景观开始的。由此,能够评估正常和肿瘤组织中的细胞异质性。总体而言,为了深入了解乳腺整体的细胞组成,作者对3193个从绝经后乳腺组织中分离出来的未富集上皮细胞的单个细胞进行测序。无偏聚类分析鉴定出10个不同的细胞簇,发现其中7个是非上皮细胞无细胞角蛋白表达。其余三个细胞簇表达细胞角蛋白(cytokeratin, CKs),代表乳腺上皮细胞;簇2和簇7细胞分别表达管腔型和基底型ck,而簇9细胞既表达管腔型和基底型ck,也表达其他特异性未知的ck。通过对TGGA乳腺癌数据集基因集变异分析验证,发现5个簇(簇2、簇3、簇7、簇8和簇9)可以共同对>85%的乳腺肿瘤进行分类。最后的生存分析显示簇9代表的其他类细胞预后最差。由此,提示这种上皮细胞类型可能导致TNBC亚群的侵袭性。
单细胞测序联合TCGA数据库的生信分析还是很丰富的,通过不同的出发点,不同的人群,应用灵活~很容易上手,临床价值非常高,因此大大提高了发高分杂志的可能呢!单细胞测序是不是动心了呢!来解螺旋不仅可以学到套路,更重要的是可以“一站式”出成果!关注每周六的高分生信文献精读栏目~菠小萝教您如何构思高分生信文章~
后台回复“菠小萝0319”获取文献全文和补充材料吧~我们下周再见啦!拜拜~
参考文献
[1] Peng S, Hebert LL, Eschbacher JM, Kim S. Single-Cell RNA Sequencing of a Postmenopausal Normal Breast Tissue Identifies Multiple Cell Types That Contribute to Breast Cancer. Cancers (Basel). 2020 Dec 4;12(12):3639. doi: 10.3390/cancers12123639. PMID: 33291647; PMCID: PMC7761899.
往期传送门
重磅最新消息!DeepMind首次突破蛋白折叠的历史难题,这项AI技术能否成为生信领域的下一匹黑马?
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨菠小萝
排版丨四金兄
值班 | 弘   毅

主编丨小雪球
继续阅读
阅读原文