一、研究背景

癌症是困扰人类健康，备受研究者关注的重点疾病，很多热点研究也登上了高影响因子期刊。

尽管癌症的治疗策略取得了重大进展，但癌症的术后生存率和很多预后指标依然不乐观。

但很多研究表明，根据scRNA-seq数据得出的免疫细胞的分子特征探索基因表达特征可能是预测癌症患者预后和免疫治疗反应的有效方法.

生信领域发文，寻找差异基因，建议对预后有意义的预测，作为临床诊断生物标志物，是常见套路

单细胞的套路也不例外，很简单

，根据基因决定性状，我们要识别差异基因，定义细胞集群，构建预后特征。

sc-RNAseq寻找生物标志物的领域，研究热度也越来越高，影响因子非常可观，普遍6+，不乏顶刊。

可以说单细胞方面的文章是发文的一个非常合适的选择。

公共数据挖掘

个性化分析扫码咨询

下面我们看一看最近几年的发文情况！

来到我们熟悉的Pubmed，相比其他领域生物标志物一般用biomarker等，单细胞领域最常用的同义关键词是signature，我们键入检索式“(sc RNA-seq) AND (signature)”，可以检索到169条结果，今年已发表26篇，相关文章数量近几年直线上升,今年还未结束，预计可以达到和去年大致持平的水平。该领域已成为稳定的热门领域，发文还是比较有保证的。

下面我们看一下影响因子，首先根据相关性排序，都是Nature和Nature子刊！大佬认证过！

接下来根据发表时间排序，影响因子很多在6以上！

综上可见，单细胞文章下至2-3分灌水小文章，上到30-40分的顶刊，都能上下兼容，其中最常见的是6-9分的生信SCI！

单细胞也是一个非常值得选择的发文领域，在数据和方法上就满足各种需求的小伙伴！

影响因子高！热门！稳定！

很多大佬关注！（可深挖！没有天花板！努力家们还不赶快！）

只要网络数据库，我们也可以追热点，发高影响因子文章！

是不是看着很心动？只是不知道自己能不能做。

更让人心动的就是，还有一个优点

找出哪些因子的表达发生了变化，造成了怎样的影响。研究套路常规简单！新手小白只要好好学习，也好上手！

总而言之，还是老套路：筛表型分子。

接下来，我们就从以下几篇文献来看看单细胞方面的文章有多简单！

这里考虑代表性，选两篇（加粗的）8+文献举例说明。

Li X, Dai Z, Wu X, Zhang N, Zhang H, Wang Z, Zhang X, Liang X, Luo P, Zhang J, Liu Z, Zhou Y, Cheng Q, Chang R. The Comprehensive Analysis Identified an Autophagy Signature for the Prognosis and the Immunotherapy Efficiency Prediction in Lung Adenocarcinoma. Front Immunol. 2022 Apr 22; 13: 749241. （IF=8.786）

Song P, Li W, Guo L, Ying J, Gao S, He J. Identification and Validation of a Novel Signature Based on NK Cell Marker Genes to Predict Prognosis and Immunotherapy Response in Lung Adenocarcinoma by Integrated Analysis of Single-Cell and Bulk RNA-Sequencing. Front Immunol. 2022 Jun 10; 13: 850745. （IF=8.786)

Xie J, Chen L, Tang Q, Wei W, Cao Y, Wu C, Hang J, Zhang K, Shi J, Wang M. A Necroptosis-Related Prognostic Model of Uveal Melanoma Was Constructed by Single-Cell Sequencing Analysis and Weighted Co-Expression Network Analysis Based on Public Databases. Front Immunol. 2022 Feb 15; 13: 847624. （IF=8.786)

二、套路分析

无论怎样的分析，我们都可以归纳到“挑圈联靠”的套路里。

“挑”就是做差异基因分析，挑选出具有差异表达的基因，

基于scRNA-seq数据，研究者用t-SNE散点图，对TCGA-LUAD中获得了单细胞基因表达谱（A），进行PCA以降低维度，确定了17个细胞集群（B）。

使用人类初级细胞图谱（Human Primary Cell Atlas）的参考数据集对每个集群的细胞身份进行了注释，集群7的细胞被定义为NK细胞（C）。

NK细胞被发现有不同的基因表达谱，热图在17个簇之间有189个基因差异表达（D，热图显示每个细胞簇中的前5个标记基因。）

接下来的重头戏包括“靠”，也就是研究的现实意义——临床应用，分析基因的差异表达对患者预后与生存情况的影响。

总之，证明这些基因具有预后意义，可以作为生物标志物。

最常见的就是生存分析

如图所示，通过将风险分数从高到低排序，中位风险分数确定，将患者分为低风险组和高风险组。图2A展示了风险分数和生存状况的分布，这表明高风险组的死亡人数更多。图2B显示了7个NK细胞标记基因的表达细节。

(C）展示了KM曲线，比较了LUAD患者在高风险组和低风险组之间的总生存率。高风险评分的患者的OS明显低于低风险评分的患者。

为了评估风险模型的预测准确性，(D）展示了ROC曲线，计算了与时间相关的OS的ROC曲线下面积，预测1、3、5年死亡风险。

而KM曲线可以分析很丰富的内容，例如我们可以分析不同的临床亚组的预后预测能力，如图所示，分为男性（a）、女性（b）、年轻（c）、年长（d）、非吸烟者（e）、吸烟者（f）、早期（g）和晚期（h）

或者不同突变状态的基因，如图所示，EGFR-WT（A）、EGFR-MUT（B）、KRAS-WT（C）、KRAS-MUT（D）、TP53-WT（E）和TP53-MUT（F）

总之根据我们研究的需要就可以了

甚至还可以再从GEO上选择几个GSE数据集做验证（A-E)，再做一个meta分析（G）

ROC曲线也是同理

为了阐明选中的标志物的预测潜力，对相关的生物功能途径，做功能富集分析，也就是“圈”！这些不仅仅是你本次论文的Figure，这些富集来的调控作用清楚的功能基因也可以是你下篇文章的研究对象哦！

利用TCGA LUAD数据集进行相关分析，以确定与风险评分密切相关的基因(A)，进行GO和KEGG富集分析。GO分析显示，这些基因主要与有丝分裂的生物学过程有关，即染色体分离、有丝分裂的核分裂和有丝分裂细胞周期的G2/M转换（补充图7B）。KEGG分析也验证了这些基因密切参与了细胞周期的途径（补充图7C）。