Graphcore拟未在Open Graph Benchmark Large-Scale Challenge[1](OGB-LSC)中表现出色,获得两项第一。OGB-LSC是人工智能行业中关于图网络模型能力的一项领先测试。
本次测试中,拟未参与了两个类别的提交:分子图的量子性质预测[2]、知识图谱补全[3]。在IPU上运行的这两个类别的提交,在各自类别中,均取得了第一名的佳绩。
从分子和蛋白质到社交网络,图神经网络(GNNs)非常适合代表具有不规则结构的现实世界现象,因而也被越来越多地用于药物研发、材料科学和推荐系统等应用。
在OGB-LSC 2022中,拟未的研究人员与Valence Discovery[4]的分子机器学习专家、来自蒙特利尔大学[5]的团队,以及来自人工智能实验室Mila[6](位于蒙特利尔)的团队携手合作。
在谈及使用拟未系统的体会时,Valence Discovery的研究团队负责人、Mila的副教授Dominique Beaini表示:“当我开始将IPU用于分子性质预测时,我很惊讶地看到,它与传统方法相比在速度上实现了巨大的提升。我非常清楚,有了这样的计算优势,赢得OGB-LSC挑战赛是指日可待的。”
拟未及其合作伙伴的排名超过了微软、腾讯和NVIDIA的团队,以及来自北京大学、中国科学技术大学和加州大学洛杉矶分校的研究人员。
PCQM4Mv2 - 预测分子图的量子性质
PCQM4Mv2[7]定义了一个分子性质预测问题,涉及到构建一个图神经网络来预测HOMO-LUMO能隙[8](一种量子化学性质),给定的数据集包含340万个标记过的分子。
这种图预测问题发生在广泛的科学领域,如药物研发、计算化学和材料科学。但是,如果使用传统方法运行该问题可能会非常缓慢,甚至可能需要进行昂贵的实验室实验。因此,包括DeepMind、微软和Mila在内的科学驱动型人工智能实验室对OGB-LSC产生了浓厚的兴趣。
我们与Valence Discovery(用于药物研发的分子机器学习领域的领导者)和Mila携手打造了我们的提交。我们认为,他们的现实世界知识和研究专长,再结合超高速的拟未硬件,给我们提供了一个绝佳的机会来构建一些特别的东西。
我们GPS++模型成功的关键是它的混合架构。该架构吸收了传统图神经网络的出色品质,并将其与transformer类型的注意力融合在一起。
从某种意义上说,这种混合是一个自然而然的想法,我们的竞争对手很可能也已经考虑到了。然而,在传统的人工智能加速器上,设计这样一个有效运行的模型是一项艰巨的挑战,使得测试原始科学假设变得不切实际。
IPU的MIMD架构和高存储带宽极大地简化了这种设计工作,使科学家们能够测试新的想法且不受“硬件彩票”[9](hardware lottery)变化无常的限制。
正如整个现代人工智能的情况一样,提高大模型的速度是实现高水平准确度的关键。然而,在开发此类模型时,能够快速迭代较小的模型以测试假设,并高效地调整大型“生产”模型也非常重要。IPU的灵活性在这里再次发挥了作用:模型可以很容易地在单个IPU,或由16个或更多的IPU组成的Pod上运行,并且不会损失效率。
使用Weights & Biases[10]优秀的超参数扫描工具,我们能够以适度的计算预算,每晚运行数百个小型模型。这使我们能够快速行动,并对我们的决定充满信心。
正如Valence Discovery和Mila的Dominique Beaini所指出的,我们在OGB-LSC开展的成功工作为正在进行的合作铺平了道路:“目前我们正在寻求与拟未的合作,以期在更大的数据集上扩展模型,从而为分子性质预测提供迄今为止最大的预训练GNN。”
如欲了解更多,请见我们的技术报告[11]和代码[12]
您也可以在Paperspace上免费体验我们的推理模型[13]和训练模型[14]
WikiKG90Mv2 - 预测知识图谱中缺失的事实
WikiKG90Mv2[15]是一个从维基数据中提取出来的数据集。维基数据是用于支持维基百科的知识图谱,它是一个包含6亿个事实的数据库,通常用“三要素”表示:头、关系、尾。例如,杰弗里·辛顿、公民、加拿大。
在许多情况下,实体之间的关系信息是不完整的。知识图谱补全就是推断出这些联系的过程。
训练知识图谱补全模型的标准技术很难应对数据集的规模,因为可训练的参数数量随着数据库中实体数量的增加而增加。
在WikiKG90Mv2上进行训练,我们最大的模型在参数、优化器状态和特征方面消耗了超过300GiB。在不引入不想要的偏差的情况下,对这些模型进行划分以进行分布式训练是很有挑战性的。
我们的分布式训练方案BESS(平衡实体抽样和共享),可以直接解决这些问题,并且无需修改核心模型。
我们从在Bow Pod16的流存储中加以平衡的实体开始,获取了一大批事实和损坏的实体来进行对比,这是由分布在16个IPU上的14.4GB处理器内存储支持的。这些事实和实体通过完全平衡的all-to-all集合在快速的IPU-Links上共享,由模型处理。
这意味着我们可以训练数以百计的模型进行收敛,使我们能够优化10个不同的评分和损失函数组合,以用于我们的最终集成。快速验证使我们在模型的训练过程中获得大量关于模型的信息。
我们的技术要求对处理、分布和存储访问进行细粒度的控制。因此,我们决定直接在Poplar中实施这个模型。Poplar是一个用于编写IPU程序的图计算API。
如欲了解更多,请见我们的技术报告[16]和代码[17]
[1]https://ogb.stanford.edu/neurips2022/
[2]https://ogb.stanford.edu/docs/lsc/pcqm4mv2/
[3]https://ogb.stanford.edu/docs/lsc/wikikg90mv2/
[4]https://www.valencediscovery.com/
[5]https://www.umontreal.ca/en/artificialintelligence/
[6]https://mila.quebec/en/
[7]https://ogb.stanford.edu/docs/lsc/pcqm4mv2/
[8]https://en.wikipedia.org/wiki/HOMO_and_LUMO
[9]https://arxiv.org/abs/2009.06489
[10]https://wandb.ai/site
[11]https://ogb.stanford.edu/paper/neurips2022/pcqm4mv2_WeLoveGraphs.pdf
[12]https://github.com/graphcore/ogb-lsc-pcqm4mv2
[13]https://console.paperspace.com/github/graphcore/ogb-lsc-pcqm4mv2?machine=Free-IPU-POD16&container=graphcore%2Ftensorflow-jupyter%3Aogb-competition-2022-11-21&file=%2Fnotebook_inference.ipynb
[14]https://console.paperspace.com/github/graphcore/ogb-lsc-pcqm4mv2?machine=Free-IPU-POD16&container=graphcore%2Ftensorflow-jupyter%3Aogb-competition-2022-11-21&file=%2Fnotebook_training.ipynb
[15]https://ogb.stanford.edu/docs/lsc/wikikg90mv2/
[16]https://ogb.stanford.edu/paper/neurips2022/wikikg90mv2_wikiwiki.pdf
[17]https://github.com/graphcore/distributed-kge-poplar/tree/2022-ogb-submission
本篇博客作者:
Dominic Masters 和 Douglas Orr
获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。
Graphcore中国官网
Graphcore官方微信
Graphcore微博创新社区
Graphcore知乎创新社区
点击阅读原文,查看英文blog。
继续阅读
阅读原文