一个大模型建模所有图结构关系！港大等发布最新图大语言模型HiGPT

导读

异质图在各种领域，如推荐系统、知识图谱、社交网络分析和生物网络等获得了广泛的关注和应用。这些图包含了各种类型的实体和多种复杂关系，使得它们能够充分表示复杂系统。异质图学习的重点就是为这些图中的节点和边衍生出有意义的表征。这些表征旨在捕捉图内复杂的关系语义，以便更深入地理解底层的结构异质性。

近年来，人们越来越认识到异质图神经网络（HGNNs）在捕捉异质图结构中复杂和多样的信息方面的巨大潜力。HGNNs 利用高阶消息传递技术的表达能力，使它们能够有效地建模图中存在的复杂关系、多样实体类型和异质语义。通过在各种节点和边类型上聚合和传播信息，HGNNs 促进了对异质图结构内复杂关系的更深入理解和分析。

尽管当前用于异质图学习的框架已经显示出了有效性，但是在泛化于各种异质图数据集方面存在一定的限制。这些框架通常采用“预训练”和“微调”的范式，首先在特定数据集上进行训练，然后在同一数据集上进行微调。

然而，这种方法无法泛化到新的、未见过的数据上。这些框架过度依赖原始训练数据集的结点和关系类别，限制了它们有效处理不同异质图数据集中结点和关系类别不同的能力。

因此，本研究旨在通过解决一个基本问题来扩大异质图模型的界限：“我们能否开发出有高度适应性的通用的异质图模型，即使面对节点类型和关系类型分布偏移时，也能有效地处理各种下游学习任务？“即”一个模型，建模任意关系类型”。

为了应对这一挑战，本文将介绍香港大学数据智能实验室（https://sites.google.com/view/chaoh/group-join-us）提出的最新图结构大语言模型（HiGPT），专门设计用于克服与泛化各种下游异质图学习任务相关的关键挑战。期待 HiGPT 能够吸引更多的开源社区开发者参与讨论和实践，进一步推动图结构与语言模型的有效结合。

论文标题：

HiGPT: Heterogeneous Graph Language Model

论文链接：

https://arxiv.org/abs/2402.16024

代码链接：

https://github.com/HKUDS/HiGPT

项目网站：

https://higpt-hku.github.io/

港大数据智能实验室：

https://higpt-hku.github.io/

概述

总得来说，我们将实现“一个模型，建模任意关系类型”的挑战归纳为以下三点，并给出了对应解决方案：

C1. 关系类型异质性偏移。本研究中我们关注的一个主要挑战是各种异质图结构中关系类型异质性的偏移。在这些图中，实体由各种类型的关系连接，而这些关系类型可能在各种数据集中有很大的差异。

为了说明这一点，让我们考虑两个例子。在推荐系统中，异质图可能涉及 user 和 item 之间的节点关系。这种情况下的关系类型可能包括“点击”、“收藏”、“评论”和“购买”。另一方面，在学术图中，关系可能涉及“论文-论文”、“作者-论文”和“论文-会议”。这些例子说明了不同的异质图可能在不同领域中展示出具有不同语义的各种关系异质性。

S1. 上下文异质图 Tokenizer。为了在具有不同节点和边类型的各种异质图场景中实现泛化性，我们引入了上下文异质图 Tokenizer。这个 Tokenizer 捕捉到了不同异质图中存在的各种语义关系，提供了一个统一的建模方法。它包括两个重要组件：1）上下文参数化异质性投影器：利用语言对不同的节点和边类型进行编码；2）参数分配器：动态地为 Tokenizer 分配定制的参数。

为了优化性能并将 Tokenizer 无缝集成到 HiGPT 框架中，我们采用了轻量级的文本-图对比对齐范式来预训练。这个预训练过程直接将 Tokenizer 集成到 HiGPT 中，提高了其语义建模能力，并确保其在整个模型架构中运行平稳。

C2. 复杂异质图结构。本研究的重点是解决将大语言模型（LLMs）集成到异质图学习中的挑战，以提高模型的泛化能力。我们的具体目标是开发一种面向图的语言模型，使得该模型在理解复杂异质图结构中所固有的复杂结构信息方面表现出色。通过这样做，我们希望使图模型不仅能够识别不同类型节点之间关系的异质性，还能够捕捉属于同一类型的实体的特征。

S2. 异质图指令微调。我们引入了一种新颖的异质图指令微调框架，该框架集成了跨类型和同类型 token 匹配任务来微调大语言模型（LLMs）。我们的框架专门针对提高 LLMs 对异质关系感知和同质关系感知的理解。

通过这些任务，我们的目标是增强 LLMs 在以下方面的能力：（i）区分不同类型的图 token，（ii）理解异质图内复杂的关系，（iii）保留同构图内实体的特定属性，以及（iv）在训练过程中有效利用各种图指令。

C3. 模型微调的数据稀缺。涉及异质图学习的实际场景中，其中一个关键挑战是数据的有限可用性。数据稀缺问题在微调模型时带来了重大障碍。例如，当使用异质图来建模推荐系统中的冷启动 user/item 时，用户交互数据的稀疏性限制了有监督信号的可用性。这种数据稀缺影响了下游任务模型微调的有效性，并需要开发新技术来应对这一挑战。

S3. Mixture-of-Thought 指令增强。我们的方法引入了一种用于增强图指令的新机制 Mixture-of-Thought（MoT），即混合各种提示技术结合使用。这种集成使我们能够生成一组多样化和全面的信息丰富的下游任务指令。通过无缝地将这些增强的图指令集成到我们的框架中，将有效地解决数据稀疏性的挑战。

方法

这一部分，将阐述 HiGPT 图指令微调范式的技术细节，其整体框架如图 1 所示：

3.1 上下文异质图Tokenizer

为了使我们的 HiGPT 能够适应各种具有不同节点和边类型的异质图场景，我们提出了一种上下文异质图 tokenizer。这种方法捕捉到了不同异质图中存在的各种语义关系，达到了统一建模的目的。

它包括两个重要组件：上下文参数化异质性投影器和参数分配器。上下文自适应投影器利用语言对异质图中的不同节点和边类型进行编码，以实现模型的泛化性。同时，参数分配器动态地为 tokenizer 分配专门定制的参数。

为了优化 tokenizer 的性能并将其无缝集成到 HiGPT 框架中，我们使用了一个简化的文本-图对比学习框架进行预训练。这个预训练过程直接将 tokenizer 集成到 HiGPT 框架中，并有效地将其与大语言模型（LLM）集成。这种方法提高了 tokenizer 的能力，并确保了其在整个模型架构中的平稳运行。

3.1.1 带有元投影器的图Tokenization

给定一个具有特征矩阵和邻接矩阵的异质图，异质图 tokenizer 的目标是对异质图的隐式表示进行编码，表示为。

这通过函数实现，其中表示节点类型的隐式维度。可以使用各种基础 HGNN 架构来实现，例如 HetGNN、HAN 或 HGT。

然而，这些异质 GNN 的泛化能力受到其固有设计的限制，这包括针对特定异质图进行的预定义参数学习。因此，训练好的异质 GNN 不能直接应用于其他未见过的异质图，这与使用 HG-Tokenizer 实现统一编码的目标相悖。

例如，让我们考虑 HGT。在 HGT 中，计算涉及使用函数如和来处理来自源节点的信息：

表示一个全连接层，其参数为。其中，表示节点的类型，表示激活函数。具有个 heads 的和函数的具体形式：

自适应参数的异质性投影器：为了使我们的 HiGPT 能够适应各种具有不同图异质性设置的异质图，并消除提前预定义类型特定投影数量的要求，我们提出了一种类型感知参数化投影器的设计。这个投影器能够动态地将关系异质性编码到隐式表征中。更具体地说，根据以下过程自动生成类型感知投影器的参数和：

是一个带有参数的全连接层，而和分别是与节点类型和边类型相关联的特征。值得注意的是，提供的示例展示了在 HGT 框架中使用上下文参数化异质性投影器的用法，其允许集成到各种其他异质 GNNs。

语言富化的异质性表示：我们利用自然语言来生成基于其各自类型的节点和边的通用异质性表示。例如，在异质 IMDB 数据集中，我们可以使用自然语言将 "movie" 节点描述为 "This node represents a movie"。

同样，边（"movie", "to", "director"）可以表述为 "The movie is directed by the director"。为了对这些节点和边的自然语言描述进行编码，我们使用预训练的语言模型，如 Sentence-BERT，来获得类型表示。

为了确保不同类型之间的可区分性和多样性，我们使用多种语言来描述相同的类型。从预训练的语言模型中编码的表示被平均以获得最终的表示。这个过程可以定义如下：

和分别表示节点类型和边类型的描述集。例如，考虑边（"movie", "to", "director"）的例子。一个可能的描述是：

3.1.2 轻量化图-文对比对齐

基于最近在跨模态语义对齐方面的进展，我们借鉴了采用文本-图对比对齐范式来预训练所提出的异质图 tokenizer。这种方法旨在对齐语言和异质结构的建模能力，使 tokenizer 和语言模型之间更好地协作。

首先，我们考虑用表示的原始文本内容，其中表示异质图节点的总数。这里，表示与第个节点相关联的文本内容的长度。在我们的方法中，我们采用了一个轻量级的文本-图对比对齐范式，如下所示：

我们使用对比标签和交叉熵函数。我们的实现使用多层普通 Transformer 来进行。

3.2 异质图指令微调

HiGPT 的目标是使语言模型能够直接为具有未见过的异质图和相应指令的下游任务生成预测。首先，使用 tokenizer 对自然语言指令进行编码，得到文本嵌入，表示为。

为了对齐维度，我们使用一个投影器将图 tokens 映射到与文本嵌入相同的维度，表示为，这可以是一个简单的线性层。对于长度为的序列，我们确定生成目标输出的概率：

其中表示 HiGPT 中的可学习参数。

3.2.1 基于异质图“语料库”的指令微调

为了使语言模型（LLM）能够根据自然语言指令有效地区分不同类型的输入异质图 tokens 和每种类型中的特定节点，我们提出使用包含大量异质图-指令对的“语料库”进行指令预训练。这种方法使得微调后的 HiGPT 在同质和异质图结构方面都有全面的理解。

异质关系感知：我们的目标是增强语言模型在异质上下文中区分特定类型节点方面的能力，同时考虑复杂的关系。这通过利用图 tokens 中编码的信息来实现。
同构关系感知：我们的目标是使模型具有在图 tokens 序列与其对应的自然语言描述之间建立显著的对应关系的能力，这些图 tokens 序列属于同一类别。

异质图指令：在我们的图指令中，我们通过随机邻居采样生成一个异质子图，并配有一个由人类生成的问题。为了增强异质图语料库的多样性，我们对不同类型的节点进行多次采样。

此外，我们在人类问题中引入<graph> token 作为图示意符。

i）实现异质关系感知，我们引入了跨类型 token 匹配任务。这个任务涉及向语言模型（LLM）提供不同类型的图 tokens 编码序列，使其能够区分各种类型。

ii）实现同构关系感知，我们设计了同类型匹配任务，其中 LLM 接收特定类型的图 tokens 编码序列，使其能够与相关描述建立对应关系。有关此阶段指令模板的更多详细信息，如表 1 所示。

3.2.2 异质感知微调

为了定制语言模型在异质图特定下游任务的推理能力，我们提出了异质感知微调。这种方法涉及在初始的异质图语料库指令预训练阶段之后，使用特定下游任务的指令进行监督学习。它使我们能够完善 LLM 的性能，并使其适应异质图上目标任务的特定要求。

在这个阶段，我们结合了一个以目标节点为中心随机采样的异质子图，以及一个由人类生成的问题。考虑到指令预训练阶段已经使模型具有异质和同构关系感知能力，我们设计了富有异质性的人类问题。这些问题包含不同类型的图 tokens 序列，由多个<graph>tokens 表示。此外，人类问题包括与目标节点相关的辅助信息。这些指令的设计如表 1 所示。

3.3 Mixture-of-Thought（MoT）图指令微调

在异质图学习的实际应用中，数据稀少通常是一个挑战。尤其是在使用异质图对推荐系统中的冷启动 user/item 进行建模时，稀疏的用户交互数据限制了可用的有监督信号。

为了解决数据稀少的问题，我们提出通过将增强的图指令合并到我们的 HiGPT 中来增强我们的模型。在异质图指令微调的背景下，我们引入了一种用于指令增强的新方法。

这种方法利用提示工程技巧，特别是 Mixture-of-Thought（MoT），来生成多样化和信息丰富的指令，以有效地克服数据稀少带来的挑战。通过将增强的图指令合并到我们的模型中，我们期望我们的模型能够有效地解决数据稀少问题。

3.3.1 Mixture-of-Thought（MoT）提示

我们的重点是设计和优化提示，以有效利用语言模型。我们采用了几种技巧来增强语言模型：

i）Chain-of-Thought（CoT）：CoT 提示引入中间步骤，使复杂的推理和高级能力成为可能。

ii）Tree-of-Thought（ToT）：ToT 保持一棵由一致的语言序列组成的树状结构，称为 Thought。这些 Thought 作为系统的中间步骤用于问题解决。

iii）PanelGPT：PanelGPT 在语言模型之间引入了讨论板块，通过协作来增强提示工程过程。

iv）Generated Knowledge Prompting（GKP）：GKP 涉及将额外的知识合并到提示中以进行增强。通过利用这些技巧，我们的目标是增强异质图指令，尤其是在数据有限可用性的场景中。

3.3.2 带有先验知识的指令增强

我们使用七种指令增强策略，每种策略为每个问题-答案对生成七个增强的指令，有机结合了以上 Mixture-of-Thought（MoT）的特征。然而，闭源语言模型（如 ChatGPT）可能会产生错误的答案，从而导致错误的指导。

为了解决这个问题，我们提出将先验知识，即正确的答案合并到提示中。它使 LLM 能够模拟生成正确的答案，并使用不同的 MoT 方法产生中间的推理步骤，如图 2 所示。最终经过 MoT 增强的指令和原始指令一起用于指令微调，实现了在不增加监督信号的条件下增加指令集数量。

实验

4.1 总体性能对比

Obs.1 在 few-shot 设置下的优越性：HiGPT 在监督学习设置下始终优于最新的基线方法，即使每个类别只有一个样本。这种成功可以归功于我们在大规模异质图语料库上的有效指令微调。这使得 LLM 能够从图 tokens 中提取有价值且可传递的异质结构信息，从而在下游任务中取得了显著的性能提升。

此外，我们提出的 MoT 图指令增强方法使 LLM 具有各种混合推理能力，而无需额外的监督信号。因此，它在少样本场景中有效减轻了数据稀少问题带来的影响。

Obs.2 在 zero-shot 设置下的优越性：在零样本设置下，我们的 HiGPT 显著优于基线方法。不像传统模型受到训练图类型的限制，我们的方法利用了一个上下文异质图 tokenizer。这个 tokenizer 根据输入图进行适配 tokenization，使 LLM 能够无缝地结合捕捉高阶结构特征的图 tokens。

因此，我们的模型有效地克服了图异质性偏移的限制，即使在跨域场景下也表现出色，展示了我们 HiGPT的显著泛化性。

Obs.3 Mixture-of-Thought 增强的有效性：通过采用 Mixture-of-Thought（MoT）方法，我们的模型利用了强大的 LLM（即 GPT-3.5）的各种推理能力，并无缝地将它们集成到规模更小的语言模型中。

这种集成有助于增强我们模型在数据稀少情况下的推理能力，并提高其在有限监督信号情况下的性能。MoT 技巧在生成动态和多样的指令方面发挥着关键作用，从而弥补了数据的不足，使我们的模型能够在监督和零样本设置下做出显著准确的预测。

4.2 消融实验

异质图指令微调的影响。为了验证在大规模异质图语料库上的指令微调阶段的有效性，我们生成了 “w/o S1” 变体，即仅在下游任务数据上微调指令。通过使用不同的 epoch 设置（15、50 和 100）进行实验，我们观察到，仅在下游任务数据上微调的模型在所有情况下都无法提供完整和准确的答案。

然而，我们的 HiGPT 在所有设置中仅在 15 个 epoch 内就取得了最新的成果。这种成功可以归功于我们的 HiGPT 从广泛的异质图上下文语料库中学习，使其能够理解和提取重要的结构信息。因此，在第二阶段，我们的 HiGPT 仅需要很少的监督数据（甚至在 1-shot 场景下）就能快速适应下游任务。相比之下，直接将 LLMs 与稀疏的监督数据对齐是具有挑战性的。

异质图上下文 tokenizer 的影响。我们测试了引入上下文 tokenizer 的异质图结构信息的必要性。通过不引入异质图 tokens，仅在下游数据上训练 LLM 的嵌入权重，我们获得了一个名为 “w/o HG” 的变体。

在不同的 shot 设置下，我们的 HiGPT 始终优于这个变体，尤其是在样本有限的场景中（例如，1 或 3 个 shot）。这种改进可归功于引入了图令牌，使 LLM 能够从上下文图 tokenizer 中提取高维异质结构信息。这种增强的理解显著提高了 LLM 在稀疏监督信号下的准确性。

Mixture-of-Thought（MoT）指令增强的影响。为了验证 Mixture-of-Thought（MoT）图指令增强策略的有效性，我们仅使用直接回答指令训练了变体“-IA”。结果显示，在没有指令增强的情况下，模型的性能有了显著下降，突出了其在解决下游任务中标签稀缺问题方面的重要性。

此外，HiGPT 在零样本设置下的优异性能可以归功于其在训练过程中获得的增强推理能力，该能力是通过使用各种推理指令获得的。这种提高的能力使得可以有效地进行跨数据集和跨域的转移。

4.3 图上下文学习（Graph ICL）

使用 HiGPT 中的 Graph ICL，1-shot 模型超过 60-shot 模型：结果显示，即使只有一个例子，在没有进一步训练的情况下，使用 Graph ICL 的大多数 1-shot 模型在监督和零样本设置下始终优于不使用 Graph ICL 的 60-shot 模型。增加示例的数量会增强上下文学习的效果。

这种改进可以归功于 HiGPT 的两阶段指令调整过程，使其能够理解和分析异质图 tokens，从而益处下游任务。通过提供具有图 tokens 的问答示例，模型对图文关系有了更深的理解。分析并模仿这些示例会导致更准确的回答。

使用 Graph ICL 增强 HiGPT 的迁移性：在 HiGPT 中使用 Graph ICL 的优势在零样本迁移场景下尤为明显。这表明 Graph ICL 方法显著提高了 HiGPT 的迁移性，而无需优化模型参数。我们的 HiGPT 不仅仅是过度适应单个数据集，而是发展出了分析文本与异质图 tokens 的能力。通过从其他数据集中融合图示例，模型无缝地转移这种分析能力，显示出强大的迁移学习能力。

使用无关图例的好处：我们尝试使用无关的图例（如使用 DBLP Q&A 示例来测试 ACM 数据集）进行 Graph ICL 实验。惊人的是，使用 DBLP 图例取得了最佳结果。

尽管目标任务不同，我们的 HiGPT 有效地利用了异质图 tokens 中的上下文信息，从而提高了下游任务的性能。这证实了我们的 HiGPT 从异质图结构中学习到了有价值的信息，而不仅仅依赖文本。

使用 ACM 自己的示例表现不是很好，这是因为在对齐和阶段 1 的过程中，我们没有使用 ACM 的数据进行训练，缺失了对于 ACM 数据的建模能力。然而，DBLP 的示例在某种程度上缓解了这个问题。