港大等发布GraphGPT:1/50微调参数,准确率提升10倍!无需超长token,LLM也能读懂图结构
平均阅读时长为 5分钟
新智元报道
新智元报道
编辑:LRS
【新智元导读】GraphGPT框架将图结构模型和大语言模型进行参数对齐,利用双阶段图指令微调范式提高模型对图结构的理解能力和适应性,再整合ChatGPT提高逐步推理能力,实现了更快的推理速度和更高的图任务预测准确率。
图神经网络(Graph Neural Networks)已经成为分析和学习图结构数据的强大框架,推动了社交网络分析、推荐系统和生物网络分析等多个领域的进步。
图神经网络的主要优势在于它们能够捕获图数据中固有的结构信息和依赖关系。利用消息传递和聚合机制,图神经网络可以有效地在图中传播和组合信息,从而模拟复杂的关系并进行准确的预测。
近年来,各种图神经网络架构在图节点之间的信息交换和聚合方面引入了不同的创新。例如,图卷积网络(Graph Convolutional Networks)将卷积操作迁移到图结构数据,实现有效的图结构特征表示。
图注意力网络(Graph Attention Networks)利用注意力机制为相邻节点分配不同的权重,实现更细粒度的信息聚合。
然而,许多图神经网络方法的一个显著局限性是它们过于依赖监督学习,这可能导致在面对稀疏和噪声数据时鲁棒性和泛化能力不足。为了增强图神经网络的泛化能力,自监督学习(Self-Supervised Learning)已经成为图表示学习中的一种有前景的方法。
这些方法的目标是生成可泛化到不同下游任务的图表示,但它们仍然需要使用下游图学习场景的标签进行微调。然而,这种对下游任务的标签数据的依赖可能会限制它们在实际情况中的泛化能力,特别是在难以获取高质量标签的情况下。
因此,本研究的目标是通过解决具有挑战性的实际零样本学习场景来提高图模型的泛化能力。受到大语言模型(Large Language Models)在自然语言处理任务中巨大成功的启发,本文将介绍香港大学数据智能实验室和百度等机构提出的图结构大语言模型(GraphGPT),其能够在多种下游数据集和任务中实现高度的泛化。
概述
为了深入了解直接使用纯文本提示为大语言模型建模图结构的局限性,本文进行了一系列的实验和对比,如图1所示。
这些实验揭示了仅依赖文本提示进行图结构建模时可能出现的潜在问题。
相比之下,新框架GraphGPT能够有效地解决这些问题,通过保留和利用图的结构信息,实现了对文章类别的准确识别。
此外,使用基于文本的图结构提示会导致输入token数大小增加,这在实际应用中带来了挑战。
长token序列会导致更高的计算和内存成本,使其在实际应用中的可行性降低。
同时,现有的大语言模型有输入长度限制,这进一步限制了用长文本提示进行大规模图结构建模的适用性。
为了应对这些挑战,本文提出了一个名为GraphGPT的全新框架,该框架旨在使用精心设计的图指令微调范式将大语言模型与图结构对齐。
GraphGPT引入了文本-图结构对齐范式作为初始步骤,通过对比方式结合文本信息,实现了在图编码器中有效地对齐文本语义。
进一步提出双阶段图指令微调范式,在第一阶段,利用无标签的图结构数据,通过自监督的图匹配任务,指导大语言模型获得与图数据相关的结构知识,从而增强了其对图结构的理解。
在第二阶段,为了进一步定制大语言模型在多种下游图学习任务中的推理行为,使用特定任务的图数据指令对大语言模型进行微调,以提高模型的适应性。
最后,通过思维链(Chain-of-Thought)将闭源大语言模型(如,ChatGPT)蒸馏整合到GraphGPT中,增强了其逐步推理能力,极大地改善了分布偏移带来的性能下降。
本研究的主要贡献如下:
将图领域特定的结构知识与大语言模型的推理能力对齐,以提高图学习的泛化。 提出的方法旨在通过图指令微调范式将大语言模型与图结构数据对齐。此范式结合了自监督指令微调,增强了大语言模型对图结构知识的理解和推理能力。此外,引入了具体任务的指令微调,以提高模型在不同图学习任务中的适应性。 实验评估了GraphGPT在有监督和零样本图学习任务上的表现。通过与最先进的基线进行比较,GraphGPT展现出在各种设置中优越的泛化能力。
这一部分,将阐述GraphGPT图指令微调范式的技术细节,其整体框架如图2所示:
用「文本-图」对齐编码结构信息
在GraphGPT中图结构编码器的选择可以非常灵活,使其能够利用从多种图预训练范式中获得的各种基础GNN架构。
为了更有效地将大语言模型与图结构对齐,本节探索了能与大语言模型良好协作的图结构编码方式。
受之前的研究启发,本文以对比的方式将文本信息融入图结构的编码过程中。本文直接将带有预训练参数的图编码器集成到GraphGPT模型框架中,从而无缝地整合图编码器的功能。
具体来说,让一个图与原始文本内容对应,其中代表节点数,表示第i个结点的文本长度。通过任意图编码器(例如graph transformer)和文本编码器(例如普通transformer)得到编码后的图表示和文本表示。
接着,通过对比学习进行不同维度的「文本-图」对齐:
其中为对比标签,和为不同对比策略的转换函数。
两阶段图指令微调
1. 自监督指令微调
在图指令微调范式的第一阶段,引入了自监督指令微调机制,其将图领域特定的结构知识注入到语言模型中,提高其推理能力,并使其能够有效地理解图结构中的上下文信息。
具体来说,本文设计了一个结构感知的图匹配任务,引导语言模型使用自然语言标记来区分不同的图结点。这个指令任务在准确地将图结点与其相应的文本描述关联起来方面起到了关键作用,从而加深了模型对图结构数据的理解。
指令设计
图匹配任务的指令包括三个部分:i) 图信息,ii) 人类问题,和 iii) GraphGPT的回应。在这个任务中,将图中的每个节点视为中心节点,并执行h跳的随机邻居采样,从而得到一个子图结构。大语言模型的自然语言输入是人类的问题。
在图匹配任务的上下文中,指令包括指示符token
<graph>
和一个被打乱的节点文本信息列表。例如,在一个论文引用图中,节点文本信息对应于论文标题。大语言模型在图匹配任务中的目标是将每个图结点token与其相应的节点文本信息对齐。这需要根据图结点token的顺序重新排序节点文本信息列表,有效地将每个图结点token与其相关的文本描述关联起来。
微调策略
为了高效地优化微调过程,本文提出了一种轻量级对齐投影策略。在训练过程中,固定大语言模型和图编码器的参数,仅专注于优化投影器的参数。
训练后,假设投影器已经成功地学会了将编码的图表示映射到图结点token,而大语言模型则擅长将这些图结点token与多种节点文本信息对齐。为了将图结点token与自然语言token对齐,使用一个投影器,它可以简单到用一个单一的线性层实现。
这个投影器建立了图结点token和自然语言token之间的对应关系。通过在原始自然语言token序列中替换指示符token
<graph>
为对齐的图结点token序列{<graph_begin>
, <graph_token>1
, ..., <graph_token>n
, <graph_end>
},从而得到了一个大语言模型的输入token序列。考虑到图匹配过程是无监督的,这将有机会利用来自不同领域的大量未标记的图数据,以增强学习到的投影器的泛化能力。
2. 特定任务指令微调
在第二阶段,本文提出了特定任务指令微调,旨在定制模型的推理行为,以满足不同图学习任务的特定约束和要求,如节点分类或链接预测。
通过使用任务特定的图指令对大语言模型进行微调,引导模型生成更适合当前图学习任务的响应,进一步提高了模型在处理各种图学习任务时的适应性和性能。
指令设计
为了为每个节点生成图信息,采用第一阶段相同的邻居采样方法。对于节点分类任务,人类问题指令包含指示符token
<graph>
和关于中心节点的特定文本信息。这个指令提示语言模型基于图结构数据和伴随的文本信息来预测中心节点的类别。在图3中可以看到不同任务的指令数据的模版。
微调策略
训练的第二阶段使用第一阶段训练得到的结构感知投影器的参数作为初始状态,在训练过程中,保持大语言模型和图编码器的参数不变,仅专注于优化前一阶段的投影器的参数,确保大语言模型进一步与下游任务对齐,增强其理解和解释图结构的能力。
完成上述的两个训练阶段后,GraphGPT已经获得了理解给定图结构并在提供的图上执行各种下游任务的能力。
3. 思维链蒸馏
面对多样的图数据,语言模型可能会遇到新的或不熟悉的模式和结构。这种分布的变化可能在生成准确和连贯的回应时带来挑战,特别是当节点类的数量在不同类型的图数据中变化时。
为了应对这一挑战并在分布变化的情况下提高准确性,为GraphGPT配备逐步推理能力是至关重要的。受思维链技术(Chain-of-Thought)技术的启发,提出通过整合思维链技术,提高GraphGPT生成文本的连贯性和一致性,使模型能够遵循逻辑上的思维发展,进一步增强其理解和推理给定图数据的能力。
然而,由于思维链技术的增益与模型参数规模强相关,如何在较小的模型参数下最大程度获得思维链技术的增益成为关键。
为了克服这一点,从之前的研究中汲取灵感,从一个封闭源、强大的语言模型(如GPT-3.5,拥有超过2000亿的参数)中蒸馏得到思维链推理能力,使GraphGPT能够生成高质量准确的回答,并增强模型的逐步推理能力,同时避免增加参数。
对于引文图中的节点分类任务,将节点表示的论文的摘要、标题以及分类任务的描述作为输入的一部分,使用GPT-3.5语言模型进行逐步推理,通过顺序的思考过程得出最终答案。
在生成的输出中,大语言模型不仅为节点类提供预测,而且为每个预测提供详细的解释,这确保了模型的推理和决策过程是透明和可理解的。
为了进一步提高性能,将生成的思维链指令数据与之前为任务特定指令微调阶段设计的指令集成,进行图指令微调。
1. 总体性能
Obs.1 总体性能优越性:GraphGPT在有监督和零样本场景中都稳定地超越了各种最先进的基线模型。
值得注意的是,即使是最近开发的强大的基于GNN的模型,如NodeFormer、DIFFormer和GKD,在监督设置中都展现出了良好的结构建模能力,但当它们被转移到没有进一步训练的新数据集时,性能显著下降。
相比之下,GraphGPT不仅在监督任务中超越了所有最先进的方法,而且在零样本图学习场景中实现了显著的2-10倍的准确率提升。
此外,基于大语言模型的解决方案,如Baichuan-7B和Vicuna-7B在不同的数据集中都保持稳定的性能。然而,它们仅限于基于文本信息进行预测。
相比之下,GraphGPT有效地保留了图结构信息,为图学习任务提供了更全面的解决方案。
Obs.2 结构感知的图匹配任务:第一阶段指令微调的自监督图匹配任务,对于增强GraphGPT的零样本迁移能力起到了关键作用。第一阶段重点是将编码丰富结构信息的图结点token与语言 token对齐。
这种对齐使模型能够更深入地理解图数据的固有结构特性。如果没有第一阶段,模型只进行特定任务的指令微调的第二阶段,模型往往更容易在特定数据集上过拟合。
在这种情况下,模型的性能可能严重依赖于数据集特定的模式和特性,而不是对底层图结构的真正理解。这可能限制了模型对新的、未见过的数据集的泛化能力。
Obs.3 思维链蒸馏:「-std」和「-cot」变体表明,使用思维链蒸馏对更复杂的图学习任务有很大的帮助。
使用标准指令数据集微调的模型在转移到较简单的任务时,如只有3个类的PubMed数据集,已经可以取得显著的结果,例如Arxiv-PubMed的准确率为0.7011。然而,当应用于如Cora数据集这样有70个类的复杂任务时,它们的性能往往只是中等的。
通过思维链蒸馏利用闭源模型(GPT-3.5)的强大推理能力,模型可以整合这些知识和推理能力,并显著提高其在复杂图任务上的性能。
2. 泛化性能力探索
更多的数据激发更强的迁移能力:本节首先研究了数据量对GraphGPT迁移能力的影响,如表1中的「(Arxiv + PubMed)-Cora」列所示。
在这个实验中,使用Arxiv和PubMed数据集的组合来训练模型,并在Cora数据集上进行零样本测试。
结果显示,通过结合相对较小的PubMed数据集(包含20,000+项),GraphGPT在Cora上的转移性能得到了显著的提高。相比之下,单独在Arxiv和PubMed上训练的基于GNN的模型的转移性能却有所下降。
更多的数据但是不遗忘:本节进一步验证了结合Arxiv和PubMed指令数据在原始Arxiv数据上的性能,如表1中的「(Arxiv + PubMed)-Arxiv」列所示。
结果表明,大多数传统的基于GNN的方法在Arxiv上经过迭代训练后性能显著下降。相比之下,GraphGPT反而表现得更好。
本文将这一现象归因于基于GNN的模型中发生的灾难性遗忘,即在较小的PubMed数据集上训练的模型的结构建模能力受到损害。
然而,通过两阶段的图结构指令微调,模型有效地缓解了这一问题,使得GraphGPT能够通过保留泛化的图结构模式来维持甚至增强其性能。
可泛化的多任务图学习器:近期关于指令微调的研究表明,混合不同的指令微调数据可以进一步提高大语言模型的性能。
在本研究中,确保指令条目的数量一致的情况下,混合了不同类型的指令数据,包括标准指令(-std)、思维链指令(-cot)、标准指令(50%)和思维链指令(50%)的混合(-mix),以及链路预测指令(Link)。
结果分别在表2和表3中呈现。可以观察到,有效的数据混合方案可以显著提高GraphGPT在各种设置下的性能。
添加链路预测指令后显著提高了模型在节点分类中的性能,在加入节点分类后,链路预测的性能也超过了现有模型。
在混合了不同任务的指令后,模型展现出了有效处理各种图学习任务并将其知识转移到其他未见数据集的能力。
3. 消融实验
图指令微调的效果:在本小节的研究中,使用变体「w/o GS」探讨了将图结构信息纳入大语言模型的好处。
总结与未来工作
One More Thing
参考资料:
https://graphgpt.github.io/
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。