你不是懒，只是还没有打开SEER数据库的挖掘模式

听说！！！！

隔壁研究生，疫情家中坐，绿码竟失踪，实验不能发，竟然发SCI？

莫慌莫慌，应该不是我们懒，只是还没有打开SEER数据库的挖掘模式～

🔺 l “Surveillance，Epidemiology, and End Results”数据库，也就是我们俗称的SEER是一项基于人群的数据库，是统计癌症发病率和生存率的权威数据来源。

该数据库包含了肿瘤患者流行病学信息，它的本质是个肿瘤登记注册数据库，由美国国立癌症研究所于1973年成立。

这个数据库的内容包括了患者的注册编号，肿瘤信息、治疗方案及能够进行预后研究的各患者的生存时间和死亡原因等信息。

它的网址是：http://seer.cancer.gov/resources/

那么，SEER数据内有什么“宝藏”呢？

病种丰富

SEER数据库涵盖了9大类部位肿瘤：呼吸系统、乳腺、结直肠、胃癌、女性生殖系统、男性生殖系统、泌尿系统及其它尚未确指的类型。

变量种类繁多

SEER数据内记录了不同病种患者人口学特征、临床病理资料和生存资料，如性别、年龄、组织学类型、TNM分期、生存时间、生存状态、死因等等，病例样本量大，统计学效能强。

SEER数据库内容如此丰富，这些“宝藏”要怎么挖掘呢？

首先，我们在数据挖掘过程中，常常分为以下几个步骤：

（1）根据研究目的进行数据库选择。

（2）数据提取和整合，包括下载所需数据并将数据组合在一起。

（3）根据研究方案设置的入组和排除标准，筛选数据库中满足条件的数据；

（4）数据清洗和转换，对缺失数据进行处理，根据需要对一些数据进行转换（如根据年龄划分成少年/中青年/老年等），转换数据格式（指定分类变量还是连续变量），并确保数据准确。

（5）数据分析：将整理好的数据进行统计描述和统计推断，采用适合的统计方法，得出结论。

（6）最后当然是撰写论文啦。

万事开头难，上述步骤中的第一步——寻找研究目的，即选题，是阻碍大多数人的主要原因。

其他的步骤大部分都是“技术活”，相信聪明的你跟着解螺旋系统学习临床研究后，都能够完成。

🔺如何确定研究目的呢？选题的“小清新”原则安利给大家~

①小：选题切入点要小，根据的自己驾驭能力尽量地将问题缩小到可以把握的范围。

②清：确定某个题目是值得写的，不要写自己完全不懂或很难弄懂的东西，想清楚了再写。

③新：可以是新问题，也可以是新方法或新视角，借助文献调研，细致分析感兴趣领域的研究现况和进展，会发现很多有意思的选题。

我们以SEER数据已发表的文献为例子，从病种选择这个角度来探讨一下SEER数据库的挖掘模式，希望小伙伴们能够从中得到启发！

一、从发病率角度，确定是选择常见癌种、还是常见癌种的特殊亚型或罕见癌种，不同病种的研究价值不同。

🔺常见癌种包括肺癌、乳腺癌、胃癌、肝癌、结直肠癌、宫颈癌、卵巢癌等等。

比如肺癌，从病理和治疗角度，肺癌大致可以分为非小细胞肺癌（non small cell lung cancer，NSCLC）和小细胞肺癌（small cell lung cancer，SCLC）两大类，其中非小细胞肺癌约占80%～85%。

下面这篇文章就选择IB期非小细胞肺癌患者这一人群开展研究。

🔸诊疗现状：II期和IIIA期NSCLC患者受益于术后辅助化疗，但辅助化疗在IB期NSCLC中的作用仍存在争议。

🔸主变量的研究回顾：目前尚无预测IB期非小细胞肺癌预后和术后化疗的诺莫图。因此该研究旨在基于SEER数据库建立一个预测IB期NSCLC患者的长期生存结果的临床预后模型。

🔸第二亮点：此外，还采用了国内的数据对构建的预后模型进行外部验证。

🔺常见癌种的特殊亚型。

比如下面这篇竞争风险列线图，锁定的就是肺肉瘤样癌这一类型

🔸流行病学：肺肉瘤样癌是一种侵袭性恶性肺癌，其预后比一般 NSCLC 更差，其 5 年总生存期 (OS) 为 11% 至 36.7%。

肺肉瘤样癌几乎所有相关研究都是病例报告或有限的单机构回顾性研究。

缺乏基于人群的研究，导致肺肉瘤样癌的实际临床病理学特征和预后仍未明晰。

🔸主变量的研究回顾：此前发表的几项基于SEER数据库的肺肉瘤样癌预后研究中，肺肉瘤样癌患者年龄较大，男性，肿瘤分级和分期较晚，生存预后较差。

研究多忽略了肺肉瘤样癌与其他 NSCLC 之间的临床病理学特征差异，也忽略了死亡原因中存在合并症，这可能导致高估肺肉瘤样癌特异性死亡率。

迄今为止，尚无基于肺肉瘤样癌这一人群的的竞争风险模型建立。

🔺罕见癌种

🔸由于罕见癌种人群小，获取信息渠道少，即使是大型的三甲医院，患者信息常常未得到有效整合，开展分析难度大。

而SEER数据库天然的优势就是整合了罕见肿瘤病例，病例信息准确、全面、规范。

基于人群的优势，SEER更容易建立罕见病队列，更有效推动罕见病研究开展。

如嗜铬细胞瘤和副神经节瘤这一罕见的神经内分泌肿瘤。

二、从病程角度，原发肿瘤灶or肿瘤转移? It’s a question

SEER数据库中，关于肿瘤转移的变量包括：METS AT DX-BONE：骨转移、METS AT DX-LIVER：肝转移、METS AT DX-BRAIN：脑转移、METS AT DX-LUNG：肺转移。

🔸比如下面这篇这篇是选定的人群是胰腺癌骨转移

🔸流行病学：骨是实体瘤的第三大最常见转移部位。

骨转移引起的疼痛、病理性骨折、神经根或脊髓受压、高钙血症、严重的骨髓浸润等并发症显着影响患者的生活质量。

因此，胰腺癌骨转移患者的存活率一直很低，且原发灶位于胰腺尾部的患者更有可能发生骨转移。

🔸主变量的研究回顾：既往的研究主要集中在病例报告和单机构队列研究。

由于这些研究样本量小、可信度低，对临床实践的指导价值有限。

另外，由于胰腺癌骨转移的发生率相对较低，目前的治疗方案大多来自临床经验。

目前，尚无基于胰腺癌骨转移这一人群的的临床预后模型建立。

三、引入分子标志物，开辟新视角

🔸SEER数据库内不仅包含了人口学特征、临床病理资料、生存信息，对于部分癌种，还记录了常见的分子标志物信息。

比如卵巢癌中记录了CA-125的信息，乳腺癌中HER-2、雌激素受体（ER）、孕激素受体（PR）以及具体亚型的信息。

🔸最后举的例子是今年发表在cancer medicine上的一篇探讨男性乳腺癌不同的转移模式和预后结果的研究。

🔸流行病学：男性 BC 约占所有 BC 的发病率和死亡率的 0.94% 和 1.22%。

🔸亮点：女性乳腺癌患者中，HER2阳性亚型肝转移的概率较高，而肺转移更常见于激素受体（HoR）阴性/ HER2阴性亚型。

而男性乳腺癌患者中，不同分子亚型与部位特异性转移模式之间的相关性尚不清楚，乳腺亚型对转移和存活的影响也尚未明晰。

因此，该研究结合分子亚型，分析男性和女性患者的转移模式和预后，并确定性别是否是乳腺癌的独立预后因素。

上述从病种这个角度探讨了SEER数据库的挖掘模式，当然这也只是SEER数据库挖掘套路的“冰山一角”。

相信大家已经跃跃欲试，想要挖掘SEER数据库了，大家在行动之前，提醒大家，别忘记进行文献的深度调研哦~

本期的内容就到这里，我是老朋友布涵棠，我们下期再见~

等等！！！我选好了病种，有没有现成的分析套路可以模仿一下。

有！！下期下期

—

END

—

撰文丨布涵棠

审核丨Epione老师

责编丨小张老师

往期推荐

继续阅读

阅读原文

关键词

肿瘤

患者

数据库

非小细胞肺癌

信息