90后斯坦福博士论文登Science封面！AI算法准确预测RNA三维结构

新智元报道

来源：Science

编辑：yaxin、su

【新智元导读】半个世纪以来，确定RNA三维结构一直困惑着科学家，也成为生物学的重大挑战之一。而现在，90后斯坦福大学博士和团队通过新型AI算法——ARES准确预测出RNA三维结构，堪比AlphaFold，是生物界「海啸级」存在！

「我们对大部分RNA的结构几乎一无所知。」

半个世纪以来，确定生物分子的三维结构一直困惑着科学家，也是生物学的重大挑战之一。

难就难在，RNA折叠成复杂三维结构的形状很难通过实验或计算来确定。

而现在，美国斯坦福大学通过新型AI算法准确预测出RNA三维结构，可谓意义重大！

今天，Science 封面刊登了这项研究的最新成果，由斯坦福大学在读博士生 Stephan Eismann 和 Raphael Townshend，以及计算机副教授 Ron Dror共同完成。

他们利用目前先进的神经网络技术，成功开发出了一种全新 RNA 三维结构预测模型——ARES。

从原子入手，机器学习算法预测RNA结构！

RNA 分子和蛋白质一样，会折叠成三维 (3D) 结构，来执行一系列功能，如催化反应、基因表达、调节先天免疫和感知小分子。

RNA的三维结构十分重要，有助于理解RNA发挥作用的机制、设计合成 RNA 和发现 RNA 靶向药物。

人类基因组转录成 RNA 的部分是蛋白质编码的 30 倍左右，然而，我们对RNA结构的认知还远远不够，已知的RNA结构只是蛋白质结构的不到1%。

本文的创新之处在于引入了一种新的机器学习方法，开发出一个人工智能模型ARES（Atomic Rotationally Equivariant Scorer）来预测RNA结构，准确率极高！

而且，研究人员仅用了 18 个已知的 RNA 结构进行训练。

更厉害的是，ARES无需对RNA的显著特征进行假设，也就是说，它没有关于双螺旋、碱基对、核苷酸或氢键的先入为主的概念。

这就使ARES可以适用于任何类型的分子系统！

ARES包括一组已知 RNA 结构的基序和这些结构的替代（错误）变体。

通过调整参数，ARES可以了解每个原子的功能和几何排列，和不同原子间的相对位置。这也是与其他模型不同的一点。

然后，神经网络各层可以计算不同粗细尺度的特征，来识别碱基对、RNA螺旋的最佳几何形状、三维空间结构。

具体来看，ARES网络的初始层旨在识别结构基序（生物大分子中的保守序列），也就是说，基序的特点是在训练过程中学习的，而不是预先设定的。

然后，根据前一层的特征和周围原子的几何排列，计算出每一个原子的特征。

第一层的唯一输入是每个原子的 3D 坐标和化学元素种类。

这些初始网络层的架构认识到，给定的结构基序彼此间通常有不同的定位，而且，较粗尺度的基序（如螺旋）通常包括更细尺度的基序（如碱基对）的特定排列。

另外，每一层都是旋转和平移等变的，也就是说，输入的旋转或平移在输出时有相应的变换。

以上特点可确保将已识别基序的方向和位置传递到ARES网络的下一层，下一层则使用此信息来识别较粗尺度的基序。

ARES 还可以预测全局属性，同时详细捕获局部结构基序和原子间相互作用。因为它的初始层在本地收集信息，而其余层则汇总所有原子的信息。

测试得出，ARES可以准确识别结构模型。

对RNA结构做出准确预测。

作者介绍

文章一作是Raphaël Townshend，1993年生于加拿大蒙特利尔，是斯坦福大学计算机科学博士，目前创办了一家设计新分子和药物的人工智能公司，并担任CEO。

个人主页：https://raphael.tc.com/

2010-2014年，他曾在加州大学伯克利分校获得电子工程与计算机科学学士学位。

Townshend对机器学习、结构生物学、高性能计算、计算机视觉这些领域的研究感兴趣。

他曾做过表情识别的一个CV项目。

将呈现在受试者脸部的灰度图像中的6种表情分类 (喜悦、悲伤、厌恶、愤怒、惊讶、恐惧)

他利用 Gabor 滤波器对输入图像进行一对多线性支持向量机训练。

并使用了现有的标准数据集，比如，Cohn-Kanade 和 JAFFE，以及自己收集的47个主题的数据集。

参考资料：

http://science.sciencemag.org/content/373/6558/1047

http://science.sciencemag.org/content/373/6558/964

https://news.stanford.edu/2021/08/26/ai-algorithm-solves-structural-biology-challenges/

https://twitter.com/raphaeljlt/with_replies

继续阅读

阅读原文

关键词

蛋白质

分子

RNA结构

三维结构

数据集