运行GNN，为何IPU独擅胜场？

从研究实验室里的人工智能创新，到商业上的广泛采用，两者之间的距离可能从未如此之近。2017年首次提出的Transformer模型目前已经成为诸多估值数十亿美元的初创公司的基础，这些公司的业务涵盖了文案写作、翻译、聊天机器人以及等等其他方面。

尽管大型语言模型和扩散图像生成吸引了公众的兴趣，但就商业潜力而言，最受期待的发展之一是图神经网络（GNN），Meta人工智能主管Yann LeCun将之描述为人工智能的“一个重大概念进步”。

GNN支持人工智能从业者处理那些没有常规结构或不适合用常规结构描述的问题，例如分子组成、社会网络的组织，以及人和车辆在城市中的移动等等。

这些领域（乃至更多）都关系到复杂且高价值的应用，例如药物研发、医学影像、产品和服务的推荐、物流等。

与人工智能的其他领域相比，GNN需要更长时间来发展成熟，原因之一是对于传统处理器架构（主要是CPU和GPU）来说，GNN背后的计算颇具难度。

然而，过去一年，用户使用Graphcore拟未智能处理器（IPU）取得了巨大的进展，这主要得益于IPU的许多架构特点使其极其擅长于运行GNN工作负载，其中最主要的是：

● 节点之间信息交换的聚集-散射过程本质上是一种大规模的通信操作，移动许多小的数据块。拟未的大型片上SRAM使IPU能够比其他类型的处理器更快地进行此类操作。

● 处理较小的矩阵乘法的能力在药物研发等图机器学习应用中很常见，但在有利于大型矩阵乘法的GPU上却难以并行化。由于IPU能够在其1472个处理器内核中的每个内核上运行真正独立的操作，它在此类计算方面表现得非常出色。

IPU在运行GNN方面令人印象深刻。药物研发公司Valence Discovery的研究团队负责人Dominique Beaini表示，他“很惊讶地看到（它）与传统方法相比在速度上实现了巨大的提升。”

即刻获取GNN的优势

图神经网络的商业用途非常广泛，既涉及那些处于早期阶段并专注于人工智能的初创公司，这些公司看到了颠覆整个行业的可能性，也涉及那些渴望保持竞争优势的老牌企业。

除了在GNN上表现出出色的性能外，拟未在提供部署就绪的模型（包括训练和推理）方面也走在了前列。

其中许多模型可在Paperspace Gradient Notebooks^[1]中运行，支持开发人员获得拟未IPU上GNN的实践经验。对于新用户，Paperspace提供了6小时的IPU免费试用，并为那些想要进一步开展工作的用户提供了不同层级的费用选择，非常划算。

拟未与广泛的商业客户和人工智能研究机构进行了合作，并展示了运行在IPU上的GNN的强大能力。

以下内容总结了一些已经在进行中的GNN创新和部署。

药物研发和知识图谱补全

图神经网络的日益普及自然而然地催生了一些对建模技术和计算平台进行比较评估的平台。

其中最受瞩目之一的是一年一度的NeurIPS Open Graph Benchmark Large Scale Challenge^[2]（OGB-LSC）。OGB-LSC中的两项挑战测试的是分子性质预测和知识图谱补全。

2022年，拟未首次提交便在这两个类别中胜出，击败了来自微软、NVIDIA、百度、腾讯和其他企业机构的对手。

第一名：预测分子图的量子性质

PCQM4Mv^[3]定义了一个分子性质预测问题，涉及到构建一个图神经网络来预测HOMO-LUMO能隙^[4]（一种量子化学性质），给定的数据集包含340万个标记过的分子。

这种图预测问题发生在许多科学领域，如药物研发、计算化学和材料科学。但是，如果使用传统方法运行该问题可能会非常缓慢，甚至可能需要进行昂贵的实验室实验。

拟未与Valence Discovery^[5]（用于药物研发的分子机器学习领域的领导者）和Mila^[6]（魁北克人工智能研究所）合作打造了GPS++的提交。特定行业的知识、研究专长和IPU计算的结合确保了拟未和合作伙伴能够实现在该类别中领先的提交。

请参阅我们的技术报告^[7]，以了解更多关于GPS++的内容。

在Paperspace上体验GPS++（训练）^[8]（推理）^[9]

第一名：预测知识图谱中缺失的事实

WikiKG90Mv2^[10]是一个从维基数据中提取的数据集。维基数据是用于支持维基百科的知识图谱。在许多情况下，实体之间的关系信息是不完整的。知识图谱补全就是推断出这些联系的过程。

因为可训练参数数量随着数据库中实体数量的增加而增加，训练知识图谱补全模型的标准技术很难应对数据集的规模。

在开发拟未的分布式训练方案BESS（平衡实体抽样和共享）时，研究人员利用IPU大量的处理器内存储和高存储带宽来训练数百个模型以达到收敛，使他们能够优化差异评分和损失函数的组合。

请参阅我们的知识图谱深度解析^[11]，了解有关我们提交和BESS使用的更多信息。

在Paperspace上体验WikiKG90Mv2：（训练）^[12]（建立实体映射数据库）^[13]

预测分子结构

太平洋西北国家实验室^[14]（PNNL）是美国能源部研究设施网络的一部分，工作范围涉及包括化学、地球和生命科学以及可持续能源在内的一系列领域。

PNNL的科学家们与拟未的团队合作，研究了SchNet GNN在基于组成原子结构预测特定分子表现（或可能用途）方面的使用情况。在这个案例中，该模型是在水分子结构的HydroNet数据集上训练的，然而理论上来说，同样的技术也可以用于其他用途，包括药物研发。

SchNet已经证明了自己有能力处理原子相互作用建模——该任务的难度众所周知。然而，在庞大的Hydronet数据集上训练SchNet在计算上仍然颇具挑战性，即使只使用10%的数据集，使用4个nvidia V100 GPUs来训练也需要2.7天。

PNNL的研究人员在拟未IPU上进行同样的训练时实现了显著的加速，Bow Pod16只需要1.4小时就能完成同样的任务。

根据Paperspace公布的两个系统的价格^[15]，这些训练时间在GPU上需要花费596美元，而在Bow Pod16上的花费则是37美元。

计算化学正处于起步阶段，但它在此方面极具前景：对日益复杂的原子相互作用进行建模，从而预测其行为并最终预测其效用。

持续进步需要的不仅是对于GNNs的进一步探索，还有拟未IPU所带来的各种成本优化。

在Paperspace上体验SchNet：（训练-预览）^[16]

社交网络和推荐系统

作为推特的图学习研究负责人，Michael Bronstein熟知大型复杂图网络的现实表现。

在使用拟未IPU的过程中，Bronstein教授着手解决大多数GNN架构都假定有一个固定图的问题。然而，在许多应用中，底层系统是动态的，这意味着图随着时间而变化。

这种情况切实存在于社交网络和推荐系统中。在这些系统中，描述用户与内容互动的图会实时变化。

应对这种情况的一个方法是使用时间图网络。

Bronstein教授和其他研究人员一起研究了小批尺寸的TGN，利用了IPU片上存储快速存储访问的优势。IPU的吞吐量比先进的nvidia A100 GPU快11倍，即便在更大的批尺寸上，IPU也仍然快3倍左右。

Bronstein教授在反思这一结果时指出，许多人工智能用户可能因为拘泥于使用GPU而错失了出色性能的实现：“特别是在研究界，抽象出底层硬件的云计算服务的可用性导致了这方面的某些‘懒惰’。然而，当涉及到实现在有实时时延要求的大规模数据集上工作的系统时，硬件因素的考量就不能那么轻率了。”

在Paperspace上体验TGN（训练）^[17]

行程时间预测和物流

新加坡国立大学

新加坡国立大学的研究人员决定使用图神经网络来解决一个长期存在的难题：在具有复杂道路系统的城市中预测道路行程时间。

在这种情况下，图中的节点代表单个路段，而连接它们的边则代表这些路段之间的关系强度。直接相邻的道路之间的联系最强。

当然，交通是随着时间的推移而变化的。考虑到这一关键变量，新加坡国立大学的团队在他们的GNN训练中又增加了一个维度，得到了一个时空图卷积网络（STGCN）。

研究人员接下来进一步增加了复杂性，利用混合专家（MoE）方法，采用多个STGNs，由一个门控网络来选择在任意特定情况下要使用的最佳网络。

新加坡国立大学电子和计算机工程系副教授Chen-Khong Tham表示，和其他类型的处理器相比，STGCNs和MoE结合的方法更适合于拟未的IPU：“如果要在GPU上同时运行门控网络和专家网络，可能就不会如此简单了。为此，你的确需要一个IPU，因为门控网络的操作和专家神经网络的操作是不一样的。”

通过使用拟未IPU，新加坡国立大学的团队实现了与先进GPU相比速度提升3到4倍的成果。Tham教授认为这种水平的性能可以实现其研究领域中的一个重大目标——整个城市的实时交通预测。

点击此处阅读更多有关利用拟未IPU上的GNN改善行程时间的信息

开始在云上使用面向IPU的GNN

如果想开始在拟未的IPU上探索GNN，最快也最简单的方法就是在Paperspace^[18]云中使用基于IPU预构建的GNN notebooks。

开发人员可以利用Paperspace的六小时免费IPU试用，那些希望构建商业应用或是需要更多计算时间的用户也可以从Paperspace的付费层级中进行选择。

除此之外，还有一些经过拟未优化的GNN可供选择。如要查看完整的列表，请访问拟未的模型花园^[19]，并在类别列表中选择“GNN”。

[1]https://www.paperspace.com/graphcore

[2]https://ogb.stanford.edu/neurips2022/

[3]https://ogb.stanford.edu/docs/lsc/pcqm4mv2/

[4]https://en.wikipedia.org/wiki/HOMO_and_LUMO

[5]https://www.valencediscovery.com/

[6]https://mila.quebec/en/

[7]https://ogb.stanford.edu/paper/neurips2022/pcqm4mv2_WeLoveGraphs.pdf

[8]https://ipu.dev/3GxXZpe

[9]https://ipu.dev/3CGjC5E

[10]https://ogb.stanford.edu/docs/lsc/wikikg90mv2/

[11]https://towardsdatascience.com/large-scale-knowledge-graph-completion-on-ipu-4cf386dfa826

[12]https://ipu.dev/3QwfKJS

[13]https://ipu.dev/3k7u13F

[14]https://www.pnnl.gov/

[15]https://docs.paperspace.com/gradient/machines/

[16]https://ipu.dev/3QzurMq

[17]https://ipu.dev/3CG1WqL

[18]https://www.paperspace.com/graphcore

[19]https://www.graphcore.ai/resources/model-garden

获取更多Graphcore资讯，阅读深度技术文章，并与其他创新者们一起交流，请至中国官网graphcore.cn，以及关注Graphcore微信、微博和知乎创新社区。

Graphcore中国官网

Graphcore官方微信

Graphcore微博创新社区

Graphcore知乎创新社区

点击阅读原文，查看英文blog。

继续阅读

阅读原文

关键词

模型

数据集

IPU上

处理器

人工智能