两项第一！Graphcore在OGB-LSC中取得佳绩

Graphcore拟未在Open Graph Benchmark Large-Scale Challenge^[1]（OGB-LSC）中表现出色，获得两项第一。OGB-LSC是人工智能行业中关于图网络模型能力的一项领先测试。

本次测试中，拟未参与了两个类别的提交：分子图的量子性质预测^[2]、知识图谱补全^[3]。在IPU上运行的这两个类别的提交，在各自类别中，均取得了第一名的佳绩。

从分子和蛋白质到社交网络，图神经网络（GNNs）非常适合代表具有不规则结构的现实世界现象，因而也被越来越多地用于药物研发、材料科学和推荐系统等应用。

在OGB-LSC 2022中，拟未的研究人员与Valence Discovery^[4]的分子机器学习专家、来自蒙特利尔大学^[5]的团队，以及来自人工智能实验室Mila^[6]（位于蒙特利尔）的团队携手合作。

在谈及使用拟未系统的体会时，Valence Discovery的研究团队负责人、Mila的副教授Dominique Beaini表示：“当我开始将IPU用于分子性质预测时，我很惊讶地看到，它与传统方法相比在速度上实现了巨大的提升。我非常清楚，有了这样的计算优势，赢得OGB-LSC挑战赛是指日可待的。”

拟未及其合作伙伴的排名超过了微软、腾讯和NVIDIA的团队，以及来自北京大学、中国科学技术大学和加州大学洛杉矶分校的研究人员。

PCQM4Mv2 - 预测分子图的量子性质

PCQM4Mv2^[7]定义了一个分子性质预测问题，涉及到构建一个图神经网络来预测HOMO-LUMO能隙^[8]（一种量子化学性质），给定的数据集包含340万个标记过的分子。

这种图预测问题发生在广泛的科学领域，如药物研发、计算化学和材料科学。但是，如果使用传统方法运行该问题可能会非常缓慢，甚至可能需要进行昂贵的实验室实验。因此，包括DeepMind、微软和Mila在内的科学驱动型人工智能实验室对OGB-LSC产生了浓厚的兴趣。

我们与Valence Discovery（用于药物研发的分子机器学习领域的领导者）和Mila携手打造了我们的提交。我们认为，他们的现实世界知识和研究专长，再结合超高速的拟未硬件，给我们提供了一个绝佳的机会来构建一些特别的东西。

我们GPS++模型成功的关键是它的混合架构。该架构吸收了传统图神经网络的出色品质，并将其与transformer类型的注意力融合在一起。

从某种意义上说，这种混合是一个自然而然的想法，我们的竞争对手很可能也已经考虑到了。然而，在传统的人工智能加速器上，设计这样一个有效运行的模型是一项艰巨的挑战，使得测试原始科学假设变得不切实际。

IPU的MIMD架构和高存储带宽极大地简化了这种设计工作，使科学家们能够测试新的想法且不受“硬件彩票”^[9]（hardware lottery）变化无常的限制。

正如整个现代人工智能的情况一样，提高大模型的速度是实现高水平准确度的关键。然而，在开发此类模型时，能够快速迭代较小的模型以测试假设，并高效地调整大型“生产”模型也非常重要。IPU的灵活性在这里再次发挥了作用：模型可以很容易地在单个IPU，或由16个或更多的IPU组成的Pod上运行，并且不会损失效率。

使用Weights & Biases^[10]优秀的超参数扫描工具，我们能够以适度的计算预算，每晚运行数百个小型模型。这使我们能够快速行动，并对我们的决定充满信心。

正如Valence Discovery和Mila的Dominique Beaini所指出的，我们在OGB-LSC开展的成功工作为正在进行的合作铺平了道路：“目前我们正在寻求与拟未的合作，以期在更大的数据集上扩展模型，从而为分子性质预测提供迄今为止最大的预训练GNN。”

如欲了解更多，请见我们的技术报告^[11]和代码^[12]。

您也可以在Paperspace上免费体验我们的推理模型^[13]和训练模型^[14]。

WikiKG90Mv2 - 预测知识图谱中缺失的事实

WikiKG90Mv2^[15]是一个从维基数据中提取出来的数据集。维基数据是用于支持维基百科的知识图谱，它是一个包含6亿个事实的数据库，通常用“三要素”表示：头、关系、尾。例如，杰弗里·辛顿、公民、加拿大。

在许多情况下，实体之间的关系信息是不完整的。知识图谱补全就是推断出这些联系的过程。

训练知识图谱补全模型的标准技术很难应对数据集的规模，因为可训练的参数数量随着数据库中实体数量的增加而增加。

在WikiKG90Mv2上进行训练，我们最大的模型在参数、优化器状态和特征方面消耗了超过300GiB。在不引入不想要的偏差的情况下，对这些模型进行划分以进行分布式训练是很有挑战性的。

我们的分布式训练方案BESS（平衡实体抽样和共享），可以直接解决这些问题，并且无需修改核心模型。

我们从在Bow Pod₁₆的流存储中加以平衡的实体开始，获取了一大批事实和损坏的实体来进行对比，这是由分布在16个IPU上的14.4GB处理器内存储支持的。这些事实和实体通过完全平衡的all-to-all集合在快速的IPU-Links上共享，由模型处理。

这意味着我们可以训练数以百计的模型进行收敛，使我们能够优化10个不同的评分和损失函数组合，以用于我们的最终集成。快速验证使我们在模型的训练过程中获得大量关于模型的信息。

我们的技术要求对处理、分布和存储访问进行细粒度的控制。因此，我们决定直接在Poplar中实施这个模型。Poplar是一个用于编写IPU程序的图计算API。

如欲了解更多，请见我们的技术报告^[16]和代码^[17]。

[1]https://ogb.stanford.edu/neurips2022/

[2]https://ogb.stanford.edu/docs/lsc/pcqm4mv2/

[3]https://ogb.stanford.edu/docs/lsc/wikikg90mv2/

[4]https://www.valencediscovery.com/

[5]https://www.umontreal.ca/en/artificialintelligence/

[6]https://mila.quebec/en/

[7]https://ogb.stanford.edu/docs/lsc/pcqm4mv2/

[8]https://en.wikipedia.org/wiki/HOMO_and_LUMO

[9]https://arxiv.org/abs/2009.06489

[10]https://wandb.ai/site

[11]https://ogb.stanford.edu/paper/neurips2022/pcqm4mv2_WeLoveGraphs.pdf

[12]https://github.com/graphcore/ogb-lsc-pcqm4mv2

[13]https://console.paperspace.com/github/graphcore/ogb-lsc-pcqm4mv2?machine=Free-IPU-POD16&container=graphcore%2Ftensorflow-jupyter%3Aogb-competition-2022-11-21&file=%2Fnotebook_inference.ipynb

[14]https://console.paperspace.com/github/graphcore/ogb-lsc-pcqm4mv2?machine=Free-IPU-POD16&container=graphcore%2Ftensorflow-jupyter%3Aogb-competition-2022-11-21&file=%2Fnotebook_training.ipynb

[15]https://ogb.stanford.edu/docs/lsc/wikikg90mv2/

[16]https://ogb.stanford.edu/paper/neurips2022/wikikg90mv2_wikiwiki.pdf

[17]https://github.com/graphcore/distributed-kge-poplar/tree/2022-ogb-submission

本篇博客作者：

Dominic Masters 和 Douglas Orr