预训练语言模型应用调优算法
背景意义
近年来,预训练语言模型极大地推动了自然语言处理领域的发展。随着预训练语言模型规模的增长,人们发现在很多任务上,仅通过少量标注样本即可取得不错的性能。
然而,由于大规模语言模型的运行成本高,以及出于商业盈利考虑,许多大规模语言模型的参数并不公开,而是通过开放模型推理API的形式向用户提供服务,我们将这一场景称为“语言模型即服务”(Language-Model-as-a-Service, LMaaS)。
在LMaaS场景下,用户无法得到预训练语言模型的参数和梯度,仅能得到调用推理API的反馈结果。因此,如何仅通过调用语言模型推理API来完成常见的自然语言处理任务成为一个重要的研究方向。
由于仅依赖服务方提供模型推理算力,避免了反向传播,因而这种方式极大地降低了模型优化成本,对大规模预训练模型的实际落地具有重要意义。
在LMaaS场景下,可以通过设计提示语(Prompt)来驱动语言模型得到答案。例如,对于情感分析任务,要分类一条样本“这部电影太赞了!”的情感极性,我们可以添加例如“这部电影太赞了!这句话的情感倾向是”的提示语来得到语言模型的预测结果。
通过比较语言模型预测“正向”和“负向”的概率大小即可得到该样本的情感极性。此外,上下文学习、基于特征的学习、数据集生成等方法也被用于LMaaS场景(相关文献参见https://github.com/txsun1997/LMaaS-Papers)
最近,复旦大学、华东师范大学、鹏城实验室的团队提出了黑箱优化(Black-Box Tuning)方法 ,使用无梯度优化方法来优化连续提示语(Continuous Prompt),在多个语言理解任务的少样本学习场景下取得了与梯度下降可比的效果。
赛题内容
本擂台赛聚焦大规模预训练语言模型的调优,要求参赛队伍仅在调用预训练语言模型推理能力的前提下,针对6个自然语言理解相关的小样本学习任务,开发模型调优算法。
赛题描述
参赛者需要在仅调用预训练语言模型推理能力的前提下完成若干小样本学习任务。
1
假设预训练模型推理函数为,其中预训练模型的推理过黑箱函数(即模型参数不公开),为提示语(Prompt),为待推断样本。给定少量带标签训练样本,参赛者需设计算法来根据推理结果优化提示
其中为样本标签损失函数。
2
参赛者可以使用提供的少样本验证集对所优化的提示语进行选择,最终对每个任务的测试集生成预测结果提交评测。本次比赛中使用的预训练语言模型接受离散和连续两种形式的提示语。
注意:本次比赛中每个任务内所有样本使用相同的提示语,不支持为每个样本单独设置提示语。
3
参赛者须使用指定的开发环境及其中包含的预训练语言模型推理接口(API),该接口形式如下:
4
其中返回值包括:
: 预训练语言模型在词表上的预测结果,形状为:
: 每一层预训练语言模型的隐状态以及输入层的词嵌入,形状为:
5
输入参数包括:
: 参赛者需要优化的变量,允许两种形式:1) 离散的自然语言提示语,长度小于128的词元(Token)列表; 
2)连续的提示语参数,可以仅提供输入层的连续提示,形状为:,也可以提供每一层输入的连续提示,形状为:。
: 少量文本形式的训练样本。
数据集说明
本阶段评测任务包括六个自然语言理解数据集:
01
SST-2:SST (Stanford Sentiment Treebank) 是一个带有情感标注的电影评论数据集,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一个样本预测其情感极性为正向还是负向。
02
Yelp:
Yelp情感分析数据集基于Yelp网站上的评论构建,其中一星和二星评论被标注为负向,三星和四星评论被标注为正向,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一个样本预测其情感极性为正向还是负向。

03
AG’s News:AG’s News话题分类数据集中包括从超过两千个新闻源中收集的大量新闻语料,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一个样本预测其话题类别为世界、体育、商务还是科技。
04
TREC:
TREC (Text REtrieval Conference)是一个问题分类数据集,包括6个一级标签和47个二级标签,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一个样本预测其问题类别为描述、实体、简称、人文、数字还是位置。

05
MRPC:
MRPC (Microsoft Research Paraphrase Corpus)是一个句对分类数据集,其中包括从网络新闻抽取得到的句对,每一句对被人工标注为语义等价或不等价,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一条样本中的句对预测其语义关系为等价还是不等价。

06
SNLI:SNLI (Stanford Natural Language Inference)是一个自然语言推理数据集,其中每条样本包括两段短文本,这些文本对被标注为蕴含、矛盾或中性,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一条样本预测其标签。
大赛时间
大赛分为初赛和决赛两个比赛环节。
初赛时间:2022年8月初-10月07日
决赛时间:2022年11月1日-11月15日
参赛详情将于开赛前在大赛官网及官方公众号发布,敬请关注。
继续阅读
阅读原文