现代癌症治疗里耐药性的发展常常是导致治疗失败和肿瘤进展的原因,每个患者的耐药情况与肿瘤特征更是具有高度个体化的特征。
为了解决传统间歇性雄激素剥夺疗法(IADT)在前列腺癌治疗里的缺乏个体化处理能力的局限性,香港大学的张清鹏团队联合华中科技大学,美国Moffitt癌症中心以及普林斯顿的研究团队建立了一个基于数据驱动的强化学习方案
首先,他们基于进化机制的异质性和药物对个体患者的药代动力学开发了一个时变的混合效应GLVtM-GLV)模型。然后,他们提出了一种强化学习支持的个体化IADT框架,即
Individualized IADT来学习个体患者的前列腺肿瘤动态并推导出最佳给药策略。使用临床试验数据的仿真实验表明,
在减少药物剂量的情况下显著延长了前列腺癌患者的病情进展时间。此外,
的方法同样适用于其他癌症,因为它可以根据临床数据进行适应性调整。
综上所述,
是一种可用于个性化治疗不同类型肿瘤的,有前景的个性化治疗工具。
1
正文
前列腺肿瘤是全球发病率第二高的癌症,治疗方法通常包括放射治疗和激素治疗。激素疗法如ADT可以有效治疗晚期前列腺癌,但也会产生副作用。耐药性是治疗前列腺癌的难点,传统的给药政策可能会导致耐药细胞的迅速扩散。因此,人们提出了间歇性雄激素剥夺疗法(IADT),并且在大量的临床试验中得到了验证。
传统的IADT存在两个设计上的问题,即诱导治疗和严格的治疗时间表。最近的研究表明,不进行诱导治疗,根据预先确定的PSA阈值来停止和恢复ADT给药的方法可能更成功。然而,这样设计的IADT疗法还没有充分利用患者的个性特征和其他大量的临床信息,例如多组学数据。
因此,张清鹏团队提出了强化学习支持的个性化数学肿瘤学模型框架(
),该框架从实际患者数据中学习患者的特异性的肿瘤进化动态,并提出了一种基于进化与竞争的最佳疗法,该方法将患者特异性、治疗特异性和肿瘤特异性整合到进化模型(tM-GLV)中,来模拟反应性肿瘤和耐药性肿瘤之间的竞争与共存机制。并利用强化学习来进一步考虑患者异质性和肿瘤竞争进化机制,并为个体患者推导出最佳给药策略。
论文地址:https://academic.oup.com/bib/article/25/2/bbae071/7630480?login=false#deqn01
由于存在复杂的相互作用的因素,前列腺癌的进化动态无法全面地描述。但是根据系统控制论的方法,我们可以将癌生态系统构建成一个数学模型,捕捉癌水平的关键过程,包括有选择、竞争、突变、适应等。
研究团队建立了一个具有上述过程的时变混合效应广义洛特卡-伏特拉(tM-GLV)模型(1)。肿瘤本身具有异质性,研究团队根据实验假设前列腺癌细胞在治疗前存在两种表型,即反应型(依赖激素)和抗药型(不依赖激素)细胞。抗药型癌细胞最初是少数,但在雄激素抑制条件下,它们可以获得生长的优势。同时,由于这两种表型对资源(氧气等)的需求很高,在肿瘤微环境中竞争激烈。研究团队创新地将静态的关系矩阵动态化,用于捕捉在药物与竞争作用下癌症的演化过程中的变异以及抗药性的不断积累。
通过上述模型要精确地预测抗药性的演变,并且延迟抗药性的积累延长病人的存活时间仍然是一项挑战。在这项工作中,研究人员采用了强化学习来学习给药的策略,智能体Agent作为一种控制器来帮助控制抗药性的进化与发展。
强化学习算法可以分为基于值和基于策略的算法。研究人员测试了几种现代强化学习算法,包括DDPG、TRPO、PPO和SAC。然而,每种算法都有其优势和局限性。
DDPG 是一种确定性off-policy算法,只能应用于连续状态和连续行动空间。TRPO 是一种on-policy的强化学习算法,它使用 KL 散度来控制从旧策略到新策略的更新,但是它的二阶优化使得微调超参很困难。SAC和PPO都是易于实现且十分灵活的算法,适用于离散或连续的行动状态空间,研究人员通过实验发现PPO在学习效率以及收敛性较SAC更优。
强化学习是一个连续的过程,Agent智能体在离散的时间步长内与环境相互作用,在每一步,智能体接收环境的状态
并根据策略选择一个行动
,环境更新状态至
和与行动相关的奖励
做出回应。每次循环后,智能体都会更新策略π和价值函数
其中π将S状态映射到行动空间A中,即
在状态-行动空间难以穷举的 RL 问题中,为每一种可能的状态存储一个单独的值函数是不现实的。有人提出了基于策略的策略梯度算法作为替代方案,即估计策略梯度并利用随机梯度上升算法来提升策略, 其主要特点在于直接对策略进行建模并优化。
PPO在梯度策略的基础上优化了梯度的估计算法,使得策略的每次更新都必须控制在给定的一个最大偏差范围内,而又不必计算新旧策略之间的KL散度,降低的算法的复杂度。PPO 的梯度估算算法平衡了强化学习中explore和exploit之间的权衡,防止新策略偏离旧策略太远,从而实现稳定有效的学习。
确认了强化学习算法后,需要构建强化学习环境,研究人员基于tM-GLV模型构建了PCaC环境,包含肿瘤的连续状态空间,药物控制动作,以及即时反馈(奖励函数)。因此,我们必须定义状态、行动空间和奖励函数,这是强化学习的三个关键要素。
研究人员提出的tM-GLV模型中(1)中包含了前列腺癌细胞的两种表型和生物标志物指标(血清 PSA 水平)。因此,在每个时间步长 t 时,对细胞数量水平和 PSA 水平进行观测,作为当前状态
的其他特征组合可为模型训练提供更多信息,准确地说,瞬时生长/衰减率
可以作为 状态函数的补充,反映了当前的药物作用效果以及竞争的压力,并且可以直接从当前状态
中获得。因此,PCaC 环境的状态由
给出。
此外,动作空间由两种药物的剂量构成,该工作使用的是离散动作空间,但他们提出该方法可以很容易地扩展到连续动作空间,即连续的给药剂量及连续的给药时间。
最后,奖励函数涉及药物疗效和竞争强度,并加入了对给药剂量的惩罚。其中,需要注意的问题是剂量不足可能导致一种次优策略,即Agent会让反应型癌细胞群体不受控制地增殖,一方面抑制了抗药性癌细胞的增殖,但是导致癌症转移和疾病进展。为了解决这个问题,研究人员为奖励函数分配了肿瘤无进展的时间奖励,并使用了转移概率模型来模拟癌细胞的转移作为停止标准,以避免反应型癌细胞群体的无限扩张。
2
实验结果
上图结果显示,由强化学习推导出的
能显著推迟耐药患者的进展时间(TTP)。图(2)左侧显示了的给药策略和治疗结果,右侧显示了
对应患者的相应标准IADT的用药策略以及TTP,其中灰色柱子表示停药时间,红色柱子表示用药时间。其中我们发现,
与标准IADT存在下列差异。
首先,与标准的 IADT 相比,每个治疗周期的平均时间缩短了:1.3个月而不是13。4个月;停药:3.5个月而不是16.5个月。
如上图(b)所示,在这种通过强化学习获得的自适应给药策略下,反应型癌细胞群在耐药性发生前在一个相对较高的水平上振荡。有反应的癌细胞的竞争优势也呈现出这种振荡模式,表明所提出的 I2ADT 可以通过给有反应的癌细胞施加竞争压力来抑制有抵抗力的癌细胞。
如图(c)所示,在
中,通过缩短治疗期,避免了在IADT中通常观察到的双相模式。在传统IADT治疗下观察到的双相模式表明,在开启治疗一段时间后,连续6-8个月用药治疗的效果会下降。
其次,通过强化学习学到的
是动态的,是根据每位患者的需求量身定制的。在治疗的初始阶段,与IADT和传统的持续ADT相比,
为反应型癌细胞提供了比耐药癌细胞更大的竞争优势。随着治疗的进展和瘤内竞争的持续,反应型癌细胞的竞争优势在 IADT 和 ADT 中都逐渐下降到零。然而,在
中,显著的竞争优势仍然存在,这使得反应型的细胞能够与耐药癌细胞竞争,最终延长了耐药患者的生存时间。
为了比较
与IADT或ADT的疗效,我们使用了下列指标:进展时间(TTP)和无进展生存期(PFS)以及用药总剂量。TTP 的定义是单个患者的模拟达到模拟结束(EOS)的时间。FPS 是指从开始治疗到疾病进展(EOS)发生的时间。当耐药癌细胞占其容量的 80% 或模拟达到最大步数(120月)时,就达到了 EOS。
仿真结果表明,通过在早期阶段保持较高的竞争优势,与标准IADT或ADT相比,
显著延长了TTP和PFS率(P值=0.0019)。这些结果表明,自适应给药可以作为一种有效的策略来延缓耐药性的发生并改善患者的预后。
考虑到激素治疗期不可避免的不良反应,只要病情得到控制,最好还是减少剂量的使用。表(1)中我们比较了CPA、LEU各周期平均剂量的下降比率以及与标准IADT的总体治疗时间占比。
结果表明,
治疗中CPA和LEU的用量均明显减少,治疗期的比例也有所降低,表明I2ADT可降低前列腺癌患者治疗不良反应的发生风险,提高患者的生活质量。
3
结语与展望
AI使得大数据的探索和利用成为可能,同时结合传统的生物物理数学模型使得模型具有更强的解释性。特别是在癌症治疗领域,海量的数据等待着我们的挖掘与利用。
在这项工作中,张清鹏团队提出了一种针对前列腺癌的治疗剂量策略,称为
。这种策略利用强化学习的方法,通过利用反应型细胞的竞争优势优来化对耐药细胞的抑制。这一框架具有广泛的适应性,可以用于优化其他癌症类型的治疗。然而,针对不同癌症类型需要进行数学模型的调整和强化学习结构的调整,并且需要提供各种临床数据来支持这种个体化治疗方案的优化。
他们指出,人工智能模型在当前前列腺癌的间歇性疗法应用中表现出了强大的性能,但由于所使用的训练数据的特殊性,其通用性可能受到限制,并且尚未在不同的临床环境中进行过测试。
他们也承认在数据方面存在限制,因为临床试验数据主要集中在给药和PSA这一单一的生物标志物上,忽略了其他生理、遗传和生活方式因素。因此,未来需要解决这些局限性,收集更多的信息,并验证模型在不同肿瘤环境中的有效性和安全性。
此外,研究人员还提到他们的模型综合了两种药物的作用,但对于这两种药物在疾病通路相互作用方面的微妙差异仍需进一步研究。
同时,为了提高模型的有效性,需要获取更详细的患者特异性临床和病理数据,包括有关药物联合作用的信息。文章还提到了将这些深度学习模型集成到临床工作流程中的挑战,并强调解决这些挑战的重要性。
此外,文章还指出了该研究的一些局限性,包括缺乏综合生物标志物面板的数据和治疗后患者血清睾酮恢复的考虑。
虽然目前的工作存在局限性和挑战,但展望未来,我们相信数据科学家、药理学家和肿瘤学家的合作可以进一步优化
和其他适应性治疗策略。这种跨学科的努力对于充分发挥个性化医学的潜力以提高癌症治疗效果至关重要。
更多内容,点击下方关注:
继续阅读
阅读原文