今年 10月,国际顶级学术期刊《Nature Machine Intelligence》以封面文章的方式发布了百图生科的研发成果《A Method for MSA-free Protein Structure Prediction Using A Protein Language Model》。
这一工作于去年完成并发表于预印本平台,基于百图生科 xTrimo 生命科学大语言模型(学术版)和百度的计算平台,在全球范围内首次发布了基于蛋白质大语言模型的不依赖 MSA 高速蛋白质结构预测模型,实现了“Folding with Large-scale Protein Language Model”的突破,在评测任务上速度提升百倍以上,为蛋白质结构预测领域带来了新的跃升。
这也是百图生科 xTrimo 生命科学大模型体系内的首个学术开源项目,在利用专业版大模型从事高价值生命科学项目研发的同时,百图生科希望通过简化的学术版本大模型的开源和在线服务,将生命科学大模型的经验和能力与学术界分享,以促进技术生态的发展和繁荣,也欢迎更多的优秀学者加入我们、与我们合作。
近年来,AI 一直致力于突破蛋白质的结构预测问题,并在预测精度方面取得了重大进展。特别是 AlphaFold2 将蛋白质预测推向了一个新的前沿,但问题在于,以 AlphaFold2 模型为代表的主流蛋白质结构预测方法严重依赖于多序列比对(MSAs, Multiple Sequence alignments)和模板(Templates)提取的协同进化信息。
本研究的工作聚焦于通用蛋白质的结构预测问题,基于大语言模型所带来的蛋白质序列理解能力,打破了 AlphaFold2 等主流依赖 MSA 检索模型的速度瓶颈,将蛋白结构预测速度平均提高数百倍,实现了秒级别预测,该工作的发表也为产学研各界带来了使用门槛更低、适用范围更广的蛋白结构预测解决方案,有望促进生物医药、合成生物学等生命科学领域的研究进展。
图:HelixFold-Single模型框架图
相比 AlphaFold2,HelixFold-Single 模型推理速度平均提升数百倍,实现了秒级预测。以门蛋白 7et2_H(蛋白长度697)为例,用 AlphaFold2 预测其结构需要 1280 秒(超过 21 分钟),而 HelixFold-Single 只需要 11 秒,速度提高了 115 倍。
图:不同长度的蛋白质上AlphaFold2和HelixFold-Single的耗时对比
高效的 HelixFold-Single 模型不仅能更好地适配到蛋白设计、大规模虚拟筛选等需要频繁预测蛋白结构的任务中,且在与大分子药物设计更相关的高可变蛋白场景上,效果更是优于 AlphaFold2。
除此之外, HelixFold-Single 作为一个预训练模型,还可应用于下游任务,如蛋白质功能预测、蛋白质-蛋白质相互作用、突变蛋白的预测等场景。
HelixFold-Single 将帮助生命科学领域的研究人员更便捷、更高效地从更深层次诠释生命体的构成和运作变化规律,帮助研究者进行更多开拓性研究,如探索针对特定癌症、病毒类感染疾病的治疗方法,开发新的抗生素、靶向药,或者研发更高效率的工业酶等等,为人类健康与产业发展贡献源源不断的价值。

当前,AI 大模型技术正驱动生物计算领域高速发展。百图生科作为一家以生命科学 AI 大模型作为其底层技术逻辑的平台企业,也于今年 7 月发表了千亿参数的蛋白质语言模型 xTrimoPGLM。在百图生科发布的 Life Science Leaderboard(www.biomap.com/sota/)评测榜单中,xTrimo 大模型体系有 40 多个任务均取得了 SOTA 表现。
图:AIGP平台选取CD40L结合蛋白段作为motif,采用多种设计思路,设计全新 miniprotein
论文通讯作者、百图生科 CTO 宋乐表示:“百图生科致力于构建解码生命的 AI Foundation Models,力图通过超大规模 AI 预训练模型,理解复杂生命现象,进而为挑战性的生命科学问题提供创新性解决方案。此次双方对于通用蛋白结构预测大模型的联合探索,正是基于百图生科强大的 Foundation Model 技术和生命科学数据与知识的丰富积累,我们也希望双方后续能在提升靶点分析以及高精准蛋白设计等方面,有更加深入的合作。”
论文链接:
https://www.nature.com/articles/s42256-023-00721-6
更多“百图生科”动态
继续阅读
阅读原文