早发现早治疗系列之乳腺癌：DL模型为患者争取五年治疗时间

选自 MIT

作者：Adam Yala 等

机器之心编译

参与：shooting、杜伟

AI 与医疗的结合已是当下流行的一大趋势之一。我们之前写过关于 AI 帮助诊断皮肤病、阿茨海默症等疾病。相比之前搭建 AI 医疗图像筛查平台检查乳腺癌，此次 MIT 的研究人员创建深度学习模型，帮助患者提前五年预测乳腺癌，及早确诊、及早治疗。

虽然遗传学和现代影像学已经取得重大进展，但诊断结果还是会令大部分乳腺癌患者感到震惊。对一些患者来说，诊断结果来得太迟了。

确诊越晚，意味着更激进的治疗手段、不确定的治疗结果以及更高的治疗费用，往深一点说，是更高的死亡风险。因此，识别患者一直是乳腺癌研究和有效早期检测的重点。

基于此，由 MIT 计算机科学和人工智能实验室（CSAIL）和马萨诸塞州总医院（MGH）研究人员组成的团队创建了一个深度学习模型。该模型能够根据乳房 X 光照片预测患者未来五年内是否可能会得乳腺癌。

该模型是用来自 6 万多名 MGH 患者的乳房 X 光照片训练的，且照片结果是已知的（即照片中的人是否患有乳腺癌）。结果，该模型学习到了乳房组织中恶性肿瘤征兆的细微模式。

该深度学习模型利用了全视野 X 光照片和传统风险因素，其准确率高于当前的临床标准 Tyrer-Cusick 模型（第 8 版）。

下面，我们看一下从论文中摘取的部分研究细节。

论文地址：https://pubs.rsna.org/doi/pdf/10.1148/radiol.2019182716

研究亮点

该深度学习模型基于乳房照片识别乳腺癌的高风险患者，并将 31% 未来可能患上乳腺癌的患者置于最高风险等级，而当前 Tyrer-Cuzick 模型仅将 18% 的患者置于此风险。

该混合深度学习模型对白人和非裔美国女性来说同样准确（AUC 均为 0.71），而 Tyrer-Cuzick 模式则不同，白人女性和非裔美国女性的 AUC 分别为 0.62 和 0.45。而且该模型的 AUC 改善对白人（P < .001）和非裔美国女性（P < .01）来说很明显。

将该模型与乳腺密度进行比较后发现，乳腺密度低且被模型评估为高风险的患者得乳腺癌的几率是乳腺密度高且被模型评估为低风险患者的 3.9 倍。

研究方法

数据收集

在 2009 年 1 月 1 日至 2012 年 12 月 31 日间，研究人员在一家大型三甲学术医疗中心收集了 60886 名患者的连续数字筛查乳房 X 光照片。对于每名患者，研究人员通过医疗保健系统内的五家医院获得结果，并辅以乳腺 X 光信息系统电子病历（Magview Version 8.0.143; Magview, Burtonsville, Md）中的病理发现。

他们从电子病历中供应商输入的信息和患者输入的问卷中收集到了详细的风险因素，并将每次乳房 X 光检查与乳房 X 光检查时出现的患者风险因素联系起来。

在这 6 万多名患者中，研究人员排除了其中 21328 名，因为她们没有足够的后续检查或者乳房中有另一种癌症。然后将剩下的 39 558 名患者随机分配：31806 名患者的 X 光照片用来训练模型，3804 名用来验证模型，而 3978 名用来测试模型。

图 1：样本选择流程图。从 2009 年 1 月 1 日到 2012 年 12 月 31 日，连续进行了 134,924 次乳房 X 线筛查。如果检查后在 5 年内确诊了乳腺癌，则被定义为阳性，否则被定义为阴性。为了将测试集限制在阴性筛查人群，研究人员排除了检查后 1 年内确诊为乳腺癌的患者。

模型开发和评估

附录 E1 中有关于所有开发模型、模型选择和校准的详细信息。研究人员使用 IBIS 乳腺癌风险评估工具的 Command-Line 版本获得了 TC 风险评估结果（版本 8）。

附录 E1 地址：https://pubs.rsna.org/doi/suppl/10.1148/radiol.2019182716

他们使用 scikit-learn（0.19.1 版本）将仅考虑风险因素的模型实现为 logistic 回归模型（即风险因素 logistic 回归模型「RF-LR」）。然后，训练 RF-LR 模型，从而在乳腺筛查时评估患者的风险因素，判断该患者是否会在五年内患上乳腺癌。

针对仅包含图像的深度学习模型，研究人员使用 PyTorch（0.31 版本）来实现一个深度卷积神经网络（ResNet18）。在乳房 X 光照图像素为 1664×2048 的情况下，DL 模型被训练用于预测患者是否会在五年内患上乳腺癌。DL 模型在全视场中使用整个乳房图像。

此外，研究人员还开发出了一个混合 DL 模型，以结合 RF-LR 模型中使用的图像信息和风险因素。在评估模型时，他们计算了曲线下面积（AUC）。

接着，研究人员针对下列子组计算了每一模型的 AUC：美国白人和非裔美国女性、绝经前后女性以及有和没有乳腺癌或卵巢癌家族史的女性。在评估模型捕捉长期未来风险的能力时，他们又计算了每一模型的 AUC，以区分三至五年内患上乳腺癌和五年内没有患上乳腺癌的患者。

混淆矩阵分析

研究人员利用混淆矩阵计算结合不同乳腺密度和混合 DL 风险的检查结果。测试集中的每一项检查按乳腺密度（行）和混合 DL 风险（列）置于单元格中，其中行对应稀疏（乳房 BI-RADS 分级中的 a 级和 b 级）和密集（乳房 BI-RADS 分级中的 c 级和 d 级），列对应按照混合 DL 排名的风险最低 50%（患上乳腺癌的风险最低的 50% 患者）和风险最高 50%（患上乳腺癌的风险最高的 50% 患者）的检查。在每个单元格中，他们记录下了五年内患上乳腺癌的检查比例。

接着，他们重复类似分析与 TC 模型进行比较，其中行表示按 TC 模型的低风险、中度风险和高风险（即患者得乳腺癌的风险高低）（各三分之一），列表示按混合 DL 模型的低风险、中度风险和高风险（各三分之一）。最后，他们给出了混淆矩阵中每个单元格的示例乳房 X 光照片。

统计分析

研究人员用 R 项目（R Project for Statistical Computing）中的 pROC 包将 AUC 和 DeLong 测试进行了比较（P < .05 表示统计重要性），并使用 scikit-learn（0.19.1 版本）进行所有其它的统计分析。他们计算了在 5000 个集群 bootstrap 样本的统计数据，以获得置信区间。

研究人员为训练、验证和测试集生成了可用风险因素信息和结果的详细分类，如下所示。TC、RF-LR 和混合深度学习模型使用的风险因素包括年龄、体重、身高、初潮年龄、绝经状态、乳腺癌和卵巢癌的详细家族史、BRCA 突变状态、非典型增生史、小叶原位癌史和乳腺密度。作为训练和验证样本的 80243 位患者中，有 3045 位患者（3.8%）在 5 年内确诊为乳腺癌；而作为测试集的 8751 位患者中，有 269 位患者（3.1%）在五年内被确诊为乳腺癌。

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：[email protected]

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：[email protected]

继续阅读

阅读原文