越来越多的工作证明了预训练语言模型中蕴含着丰富的知识,针对不同的任务,用合适的训练方式来撬动预训练语言模型,能更好地提升模型的能力。在 Text-to-SQL 任务中,主流的方法主要是基于 SQL 语法树的 Encoder-Decoder 模型,可以确保生成的结果一定符合 SQL 语法,但是需要针对 SQL 语法进行特殊设计。最近也有一些关于 Text-to-SQL 的研究是基于生成式语言模型,可以有效地继承预训练语言模型的知识和能力。
在 2 月 7 日至 2 月 14 日于华盛顿举办的 AAAI 2023 会议上,广东外语外贸大学、网易互娱 AI Lab 和哥伦比亚大学的研究者在 AAAI 2023 发表的《MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL》中,为了降低对基于语法树的依赖,更好地挖掘预训练语言模型的能力,研究者在预训练 T5 模型的框架下,提出了一个两阶段的多任务 Text-to-SQL 模型 MIGA。
MIGA 分为两阶段的训练过程。在预训练阶段,MIGA 使用与 T5 相同的预训练范式,额外提出了三个与 Text-to-SQL 相关的辅助任务,从而更好地激发预训练语言模型在目标任务上的能力。在微调阶段,MIGA 针对多轮对话和 SQL 中容易存在的错误传递问题,在训练过程中对历史 SQL 进行扰动,使得生成当前轮次的 SQL 效果更加稳定。MIGA 模型在两个多轮对话 Text-to-SQL 公开数据集上表现优于目前最好的基于语法树的模型。
机器之心最新一期线上分享邀请到了广东外语外贸大学在读硕士付颖雯,为大家分享他们近期工作 MIGA。
分享主题:MIGA:基于生成式预训练语言模型T5的Text-to-SQL模型
分享嘉宾:付颖雯,广东外语外贸大学三年级硕士研究生,导师为蒋盛益教授,网易互娱 AI Lab 成员。目前主要研究方向为自然语言处理中的文本生成和低资源命名实体识别。
分享摘要:本次分享将讲解论文《MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL》。本次分享针对多轮对话 Text-to-SQL 任务,分析了现有方法的优劣并探究生成式预训练语言模型 T5 在该任务上的应用。此外,还将探讨可能的未来方向。
相关链接:
1)SOTA!模型平台项目主页链接:
https://sota.jiqizhixin.com/project/miga
2)论文链接:
https://arxiv.org/abs/2212.09278v1
加群看直播
直播间关注机器之心机动组视频号,北京时间 3 月 6 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「MIGA」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3
机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。
继续阅读
阅读原文