MLNLP

社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 机器学习初学者

来源 | 医工学人

前言

从蛋白质工程、3D打印，到深度伪造介质的检测，以下是《自然》期刊在未来一年将关注的七个技术领域。

插图：双胞胎项目

Nature | Technology Feature

一、用于蛋白质设计的深度学习

二十年前，西雅图华盛顿大学的大卫·贝克（David Baker）和他的同事们取得了一项里程碑式的壮举：他们使用计算工具从零开始设计了一种全新的蛋白质。“Top7”蛋白如预测的那样折叠，但它是惰性的：它无法执行有意义的生物学功能。如今，蛋白质设计方法已经成熟，发展为一种实用工具，用于生成定制酶和其他蛋白质。“这极大地增强了科研效率”，华盛顿大学的生物化学家尼尔·金（Neil King）说，他与贝克的团队合作设计了基于蛋白质的疫苗和药物递送载体。“一年半前不可能完成的事情——现在你只需要去做。”

这些进展很大程度上归因于将蛋白质序列与结构联系起来的日益庞大的数据集。但是，复杂的深度学习方法（人工智能的一种形式）也是必不可少的。

“基于序列”的策略使用大型语言模型（LLM），这些模型为 ChatGPT 等工具提供支持（参考：'ChatGPT？或许明年'）。通过将蛋白质序列视为包含多肽“单词”的文档，这些算法可以辨别真实世界蛋白质架构剧本背后的模式。“他们真的学会了隐藏的语法，”西班牙巴塞罗那分子生物学研究所的蛋白质生物化学家Noelia Ferruz说。2022 年，她的团队开发了一种名为 ProtGPT2 的算法，该算法始终如一地提出合成蛋白质，这些蛋白质在实验室生产时可以稳定折叠[1]。Ferruz共同开发的另一种工具ZymCTRL利用序列和功能数据来设计天然存在的酶家族的成员[2]。

基于序列的方法可以建立在现有蛋白质特征的基础上并对其进行调整以形成新的框架，但它们对于结构元件或特征的定制设计效果较差，例如以可预测的方式结合特定靶标的能力。“基于结构”的方法更适合这一点，2023 年这种类型的蛋白质设计算法也取得了显着进展。其中一些最复杂的模型使用“扩散”模型，这也是图像生成工具（如DALL-E）的基础。这些算法最初经过训练，可以从大量真实结构中去除计算机生成的噪声；通过学习区分现实的结构元素和噪声，他们获得了形成生物学上合理的用户定义结构的能力。

RFdiffusion 软件[3]是由 Baker 的实验室和马萨诸塞州萨默维尔的 Generate Biomedicines 开发的色度工具[4]，他们利用这一工具取得了显著的设计效果。例如，Baker 的团队正在使用 RFdiffusion 来设计新型蛋白质，“这些蛋白质可以与感兴趣的靶标形成紧密的界面，从而产生“完全符合表面”的设计，”Baker 说。RFdiffusion 的更新的“全原子”迭代[5]允许设计人员围绕非蛋白质靶标（如DNA、小分子甚至金属离子）计算形状蛋白质。由此产生的多功能性蛋白为工程酶、转录调节因子、功能性生物材料等蛋白质设计开辟了新的视野。

ChatGPT？或许明年

读者可能会在23年的技术中发现一个值得关注的主题：深度学习的巨大影响。但有一个工具没有进入最终阶段：大肆宣传的人工智能（AI）驱动的聊天机器人。ChatGPT 及其同类产品似乎有望成为许多研究人员日常生活的一部分，并被视为 2023 年《自然》杂志 10 大综述的一部分（go.nature.com/3trp7rg）。9 月份《自然》杂志中一项调查（ go.nature.com/45232vd）的受访者认为 ChatGPT 是最有用的基于人工智能的工具，并对其在编码、文献综述和管理任务方面的潜力充满热情。

从公平的角度来看，这些工具也被证明很有价值，可以帮助那些英语不是第一语言的人完善他们的论文，从而简化他们的出版及职业发展之路。然而，其中许多应用代表了节省劳动力的收益，而不是研究过程的转变。此外，ChatGPT 持续发布误导性或捏造的回复是超过三分之二受访者的主要担忧。虽然值得监测，但这些工具需要时间来发展成熟并确立它们在科学界的更广泛作用。

二、Deepfake检测

公开可用的生成式 AI 算法的爆炸式增长使得合成令人信服但完全是人工的图像、音频和视频变得简单。但结果可能会让人担心，随着持续的地缘政治冲突和美国总统大选的临近，媒体操纵的机会很多。

纽约布法罗大学（University at Buffalo）的计算机科学家吕思维（Siwei Lyu）说，他见过许多人工智能生成的与以色列-哈马斯冲突有关的“深度伪造”图像和音频。这只是一场高风险的猫捉老鼠游戏的最新一轮，在这场游戏中，人工智能用户制作欺骗性内容，而吕和其他媒体取证专家则致力于检测和拦截它。

一种解决方案是让生成式 AI 开发人员在模型的输出中嵌入隐藏信号，从而生成水印。其他策略侧重于内容本身。例如，“一些视频将一个公众人物的面部特征替换为另一个公众人物的面部特征，而新的算法可以在替换特征的边界处识别伪影，”Lyu说。一个人外耳的独特褶皱也可以揭示脸部和头部之间的不匹配，而牙齿的不规则性可以揭示经过编辑的对口型视频，其中一个人的嘴巴被数字操纵以说出受试者没有说的话。人工智能生成的照片也是一个棘手的挑战，也是一个移动的目标。2019 年，意大利那不勒斯费德里科二世大学的媒体取证专家 Luisa Verdoliva 帮助开发了 FaceForensics++，这是一种用于发现被几个广泛使用的软件包操纵的人脸的工具[6]。但图像取证方法是特定于主题和软件的，泛化是一个挑战。“你不能有一个单一的通用检测器——这非常困难，”她说。

然后是实施的挑战。美国国防高级研究计划局的语义取证（SemaFor）计划开发了一个用于深度伪造分析的有用工具箱，但正如《自然》杂志报道的那样（ Nature 621, 676–679; 2023），主流社交媒体网站并没有经常使用它。扩大对此类工具的访问可能有助于促进使用，为此，Lyu 的团队开发了 DeepFake-O-Meter[7]，一个集中的公共算法存储库，可以从不同角度分析视频内容以嗅出深度伪造内容。这些资源将有所帮助，但与人工智能产生的错误信息的斗争可能会在未来几年持续下去。

三、大片段DNA插入

2023 年底，美国和英国监管机构批准了首个基于 CRISPR 的基因编辑疗法，用于治疗镰状细胞病和输血依赖性地中海贫血β——这是基因组编辑作为临床工具的重大胜利。

CRISPR 及其衍生物使用短可编程 RNA 将 DNA 切割酶（如 Cas9）引导至特定的基因组位点。它们在实验室中通常用于禁用有缺陷的基因并引入小的序列变化。精确和可编程地插入跨越数千个核苷酸的较大DNA序列是很困难的，但新兴的解决方案可以让科学家替换有缺陷基因的关键片段或插入功能齐全的基因序列。加州斯坦福大学的分子遗传学家Le Cong和他的同事们正在探索单链退火蛋白（SSAP）——介导DNA重组的病毒衍生分子。当与禁用Cas9的DNA切片功能的CRISPR-Cas系统结合使用时，这些SSAP允许将多达2千碱基的DNA精确靶向插入人类基因组中。

其他方法利用一种称为素数编辑的基于CRISPR的方法引入短的“着陆垫”序列，这些序列选择性地募集酶，而酶又可以将大的DNA片段精确地拼接到基因组中。例如，2022 年，剑桥麻省理工学院的基因组工程师 Omar Abudayyeh 和 Jonathan Gootenberg 及其同事首次描述了通过位点特异性靶向元件（PASTE）进行可编程添加，这种方法可以精确插入多达 36 千碱基的 DNA[8]。Cong说，PASTE在培养的、患者来源的细胞的离体修饰方面特别有前景，并且潜在的初免编辑技术已经进入了临床研究的轨道。但对于人体细胞的体内修饰，SSAP可能提供更紧凑的解决方案：体积较大的PASTE机器需要三个独立的病毒载体进行递送，这可能会降低相对于双组分SSAP系统的编辑效率。也就是说，即使是相对低效的基因替代策略也足以减轻许多遗传疾病的影响。

这些方法不仅与人类健康有关。由北京中国科学院的Caixia Gao领导的研究人员开发了PrimeRoot，这是一种使用Prime Editing引入特定靶位点的方法，酶可以使用这些靶位点在水稻和玉米中插入多达20千个碱基的DNA[9]。Gao认为，该技术可用于赋予作物抗病性和抗病原体性，继续推动基于CRISPR的植物基因组工程的创新浪潮。“我相信这项技术可以应用于任何植物物种，”她说。

四、脑机接口

帕特·贝内特（Pat Bennett）的语速比一般人慢，有时可能会用错词。但鉴于其罹患运动神经元疾病，也称为肌萎缩侧索硬化症，以前的她甚至无法用语言表达自己，现在这是一项了不起的成就。

贝内特的康复得益于斯坦福大学神经科学家弗朗西斯·威利特（Francis Willett）及其在美国BrainGate联盟的同事开发的复杂脑机接口（BCI）设备[10]。威利特和他的同事在贝内特的大脑中植入电极来跟踪神经元活动，然后训练深度学习算法将这些信号转化为语音。经过几周的训练，Bennett 每分钟能够从125,000个单词的词汇量中说出多达 62 个单词——是普通英语使用者词汇量的两倍多。“他们交流的速度真的令人印象深刻，”在宾夕法尼亚州匹兹堡大学开发BCI技术的生物工程师Jennifer Collinger说。

脑机接口技术使帕特·贝内特（坐着）恢复了她的语言能力。图片来源：Steve Fisch/斯坦福医学

BrainGate的试验只是过去几年的几项研究之一，这些研究证明了BCI技术如何帮助患有严重神经损伤的人重新获得失去的技能并实现更大的独立性。其中一些进展源于各种神经系统疾病患者大脑中功能性神经解剖学知识的稳步积累，罗德岛州普罗维登斯布朗大学的神经学家、BrainGate联盟主任Leigh Hochberg说。但他补充说，通过机器学习驱动的分析方法，这些知识已经大大放大，这些方法揭示了如何更好地放置电极并解密它们拾取的信号。

研究人员还在应用基于人工智能的语言模型来加速对患者试图交流的内容的解释——本质上是大脑的“自动完成”。这是威利特研究的一个核心组成部分，也是另一个[11]来自加州大学旧金山分校神经外科医生爱德华·张（Edward Chang）领导的团队。在这项工作中，脑机接口神经假体允许一名因中风而无法说话的女性以每分钟78个单词的速度进行交流——大约是英语平均速度的一半，但比该女性以前使用的语音辅助设备快五倍多。该领域在其他方面也取得了进展，2021 年，匹兹堡大学的 Collinger 和生物医学工程师 Robert Gaunt 将电极植入一名四肢瘫痪的人的运动和躯体感觉皮层中，以提供对机械臂的快速精确控制以及触觉反馈[12]。此外，BrainGate 和荷兰乌得勒支UMC 研究人员的独立临床研究正在进行中，以及位于纽约布鲁克林的 BCI 公司 Synchron 的一项试验，以测试一种允许瘫痪的人控制计算机的系统——这是第一个由行业赞助的 BCI 设备试验。

作为一名重症监护专家，Hochberg 渴望将这些技术提供给残疾最严重的患者。但随着脑机接口能力的发展，他看到了治疗中度认知障碍以及情绪障碍等心理健康状况的潜力。“由脑机接口提供的闭环神经调控系统可能对很多人产生巨大的帮助，”他说。

五、超分辨技术

Stefan Hell、Eric Betzig 和 William Moerner 因突破限制光学显微镜空间分辨率的“衍射极限”而获得 2014 年诺贝尔化学奖。由此产生的细节水平——在数十纳米的量级——开启了广泛的分子尺度成像实验。尽管如此，一些研究人员仍然渴望更好，而且他们正在迅速取得进展。“我们真的在努力缩小从超分辨率显微镜到冷冻电子显微镜等结构生物学技术的差距，”德国普兰埃格马克斯普朗克生物化学研究所的纳米技术研究员Ralf Jungmann说，他指的是一种可以以原子级分辨率重建蛋白质结构的方法。

2022 年底，哥廷根马克斯·普朗克多学科科学研究所 Hell 及其团队领导的研究人员使用一种名为 MINSTED 的方法首次涉足这一领域，该方法可以使用专门的光学显微镜以 2.3 万亿的精度（大约四分之一纳米）解析单个荧光标记[13]。

较新的方法可提供与传统显微镜相当的分辨率。例如，Jungmann 和他的团队在 2023 年描述了一种方法，其中单个分子用不同的 DNA 链标记[14]。然后用染料标记的互补DNA链检测这些分子，这些DNA链瞬时但重复地与相应的靶标结合，从而可以区分单个荧光“闪烁”点，如果同时成像，这些点会模糊成一个斑点。这种通过顺序成像（RESI）方法增强的分辨率可以解析 DNA 链上的单个碱基对，从而使用标准荧光显微镜证明其分辨率为 ångström 尺度。

由德国哥廷根大学医学中心的神经科学家Ali Shaib和Silvio Rizzoli领导的团队开发的一步纳米级扩展（ONE）显微镜方法并没有完全达到这种分辨率水平。然而，ONE显微镜提供了一个前所未有的机会，可以直接对单个蛋白质和多蛋白质复合物的精细结构细节进行成像，无论是在分离中还是在细胞中[15]。

一种称为RESI的成像形式可以对DNA中的单个碱基对进行成像。图片来源：Max Iglesias，马克斯·普朗克生物化学研究所

ONE是一种基于扩增显微镜的方法，涉及将样品中的蛋白质与水凝胶基质进行化学偶联，将蛋白质分解，然后让水凝胶膨胀1000倍。片段在各个方向上均匀扩展，保留了蛋白质结构，使用户能够使用标准共聚焦显微镜解析相隔几纳米的特征。“我们取抗体，将它们放入凝胶中，在扩增后标记它们，然后说，”哦，我们看到了Y形！“Rizzoli说，指的是蛋白质的特征形状。

Rizzoli说，ONE显微镜可以提供对构象动态生物分子的见解，或者能够从血液样本中直观诊断蛋白质错误折叠疾病，如帕金森病。Jungmann 同样热衷于 RESI 记录疾病中单个蛋白质重组或对药物治疗的反应的潜力。甚至可以更紧密地放大。“也许这不是空间分辨率限制的终点，”Jungmann说。“它可能会变得更好。”

六、细胞图谱

如果您正在寻找方便的咖啡馆，Google 地图可以找到附近的选项并告诉您如何到达那里。在更复杂的人体景观中导航没有等价物，但各种细胞图谱计划的持续进展——由单细胞分析和“空间组学”方法的进步提供支持——可能很快就会提供生物学家渴望的组织尺度下的细胞图谱。

这些计划中规模最大，也许也是最雄心勃勃的，是人类细胞图谱（HCA）。该联盟于2016年由英国欣克斯顿Wellcome Sanger研究所的细胞生物学家Sarah Teichmann和加利福尼亚州南旧金山生物技术公司Genentech的研究和早期开发负责人Aviv Regev发起。它包括近100个国家的约3,000名科学家，使用来自10,000名捐赠者的组织。但HCA也是细胞和分子图谱交叉工作的更广泛生态系统的一部分。其中包括由美国国立卫生研究院资助的人类生物分子图谱计划（HuBMAP）和通过推进创新神经技术（BRAIN）倡议进行脑研究的细胞普查网络（BICCN），以及由华盛顿州西雅图艾伦研究所资助的艾伦脑细胞图谱。

斯坦福大学基因组学家、HuBMAP指导委员会前联合主席迈克尔·斯奈德（Michael Snyder）表示，这些努力在一定程度上是由能够在单细胞水平上解码分子含量的分析工具的开发和快速商业化推动的。例如，Snyder的团队经常使用位于加利福尼亚州普莱森顿的10X Genomics的Xenium平台进行空间转录组学分析。该平台每周可以一次调查 4 个组织样本中大约 400 个基因的表达。基于多重抗体的方法，例如位于马萨诸塞州马尔堡的Akoya Biosciences的PhenoCycler平台，使该团队能够以单细胞分辨率跟踪大量蛋白质，从而实现3D组织重建。其他“多组学”方法允许科学家同时分析同一细胞中的多个分子类别，包括RNA的表达、染色质的结构和蛋白质的分布。

人肺的细胞图谱描述了不同的细胞类型以及它们是如何调节的。图片来源：Peng He

去年，数十项研究展示了使用这些技术生成器官特异性图谱的进展。例如，今年6月，HCA发布了对49个人类肺部数据集的综合分析16.Teichmann 说：“拥有非常清晰的肺部地图可以了解肺纤维化、不同肿瘤等疾病发生的变化，即使是 COVID-19。2023 年，《自然》杂志发布了一篇文章集（go.nature.com/3vbznk7），重点介绍了 HuBMAP 的进展，而《科学》杂志则制作了一篇详细介绍了 BICCN 工作的合集（go.nature.com/3nsf4ys）。

还有相当多的工作要做——Teichmann 估计 HCA 至少需要五年时间才能完成。但是，当它们到达时，生成的地图将是无价的。例如，Teichmann预测使用图谱数据来指导组织和细胞特异性药物靶向，而Snyder则渴望了解细胞微环境如何告知癌症和肠易激综合征等复杂疾病的风险和病因。“我们会在2024年解决这个问题吗？我不这么认为——这是一个多年的问题，“斯奈德说。“但这是整个领域的一大驱动力。

七、3D打印纳米材料

在纳米尺度上可能会发生很多奇怪而有趣的事情。这可能使材料科学预测变得困难，但这也意味着纳米级建筑师可以制造出具有独特特性的轻质材料，例如增加强度、与光或声音的特定相互作用以及增强的催化或能量储存能力。

有几种策略可以精确地制作这种纳米材料，其中大多数使用激光来诱导光敏材料的图案化“光聚合”，并且在过去几年中，科学家们在克服阻碍更广泛采用这些方法的局限性方面取得了相当大的进展。

研究人员使用水凝胶制作了微尺度金属结构。图片来源：Max Saccone/Greer Lab

一是速度。亚特兰大佐治亚理工学院的工程师Sourabh Saha表示，使用光聚合法组装纳米结构的速度比其他纳米级3D打印方法快大约三个数量级。对于实验室使用来说，这可能足够好了，但对于大规模生产或工业过程来说，它太慢了。2019 年，Saha 和香港中文大学的机械工程师 Shih-Chi Chen 及其同事表明，他们可以通过使用图案化的 2D 光片而不是传统的脉冲激光器来加速聚合[17]。“这将速率提高了一千倍，而且你仍然可以保持这些100纳米的特征，”Saha说。包括Chen在内的研究人员的后续工作已经确定了其他更快的纳米加工途径[18]。

另一个挑战是，并非所有材料都可以通过光聚合直接打印，例如金属。但位于帕萨迪纳的加州理工学院（California Institute of Technology）的材料科学家朱莉娅·格里尔（Julia Greer）开发了一种聪明的解决方法。2022 年，她和她的同事描述了一种将光聚合水凝胶用作微尺度模板的方法;然后将它们注入金属盐，并以一种诱导金属呈现模板结构同时收缩的方式进行加工[19]。虽然该技术最初是为微尺度结构开发的，但Greer的团队也将这种策略用于纳米制造，研究人员对从坚固的高熔点金属和合金中制造功能性纳米结构的潜力充满热情。

最后一个障碍——经济成本——可能是最难打破的。根据Saha的说法，许多光聚合方法中使用的基于脉冲激光的系统成本高达50万美元。但更便宜的替代品正在出现。例如，德国卡尔斯鲁厄理工学院的物理学家马丁·韦格纳（Martin Wegener）和他的同事们已经探索了比标准脉冲激光器更便宜、更紧凑、功耗更低的连续激光器[20]。格里尔还成立了一家初创公司，将纳米结构金属板的制造工艺商业化，该工艺可能适用于下一代防弹衣或飞机和其他车辆的超耐用和抗冲击外层等应用。

doi: https://doi.org/10.1038/d41586-024-00173-x

参考资料

[1] Ferruz, N., Schmidt, S. & Höcker, B. Nature Commun. 13, 4348 (2022).

[2] Munsamy, G., Lindner, S., Lorenz, P. & Ferruz, N. ZymCTRL: A Conditional Language Model for the Controllable Generation of Artificial Enzymes (MLSB, 2022).

[3] Watson, J. L. et al. Nature 620, 1089–1100 (2023).

[4] Ingraham, J. B. et al. Nature 623, 1070–1078 (2023).

[5] Krishna, R. et al. Preprint at bioRxiv https://doi.org/10.1101/2023.10.09.561603 (2023).

[6] Rössler, A. et al. Preprint at https://arxiv.org/abs/1901.08971 (2019).

[7] Li, Y., Zhang, C., Sun, P., Qi, H. & Lyu, S. Preprint at https://arxiv.org/abs/2103.02018 (2021).

[8] Yarnall, M. T. N. et al. Nature Biotechnol. 41, 500–512 (2023).

[9] Sun, C. et al. Nature Biotechnol. https://doi.org/10.1038/s41587-023-01769-w (2023).

[10] Willett, F. R. et al. Nature 620, 1031–1036 (2023).

[11] Metzger, S. L. et al. Nature 620, 1037–1046 (2023).

[12] Sharlene, N. et al. Science 372, 831–836 (2021).

[13] Weber, M. et al. Nature Biotechnol. 41, 569–576 (2023).

[14] Reinhardt, S. C. M. et al. Nature 617, 711–716 (2023).

[15] Shaib, A. H. et al. Preprint at bioRxiv https://doi.org/10.1101/2022.08.03.502284 (2023).

[16] Sikkema, L. et al. Nature Med. 29, 1563–1577 (2023).

[17] Saha, S. K. et al. Science 366, 105–109 (2019).

[18] Ouyang, W. et al. Nature Commun. 14, 1716 (2023).

[19] Saccone, M. A. et al. Nature 612, 685–690 (2022).

[20] Hahn, V. et al. Nature Photon. 16, 784–791 (2022).

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向

（如：小张-哈工大-对话系统）

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

继续阅读

阅读原文

Nature发布2024年值得关注的七项技术

前言