近日,哈工大讯飞联合实验室(HFL)在多模态阅读理解评测VCR中以关键指标得分75.01的成绩登顶榜首,继去年在该赛事上夺冠后再创佳绩。
随着对多模态技术的关注和重视程度提升,机器阅读理解已不仅仅局限于文本内容,而是进阶到图、文等多模态结合,也吸引了不少业内研究机构竞逐。
VCR评测(Visual Commonsense Reasoning)由艾伦人工智能研究院(AI2)举办,旨在考查机器利用视觉和文本信息推理和理解能力,吸引了众多知名高校和研究机构参与其中,例如华盛顿大学、哥伦比亚大学、加利福尼亚大学洛杉矶分校、微软等。
VCR评测榜单
什么是多模态阅读理解评测VCR?
在VCR评测任务中,机器需要识别并理解图片,回答依据图片场景提出的问题,从A/B/C/D四个选项中选出正确答案。不仅如此,机器还需要从另外一组选项中选择出答案的推理依据;也就是说机器不仅需要给出答案,还要“说明”推断出答案的原因。
因此,VCR评测任务不仅要求模型具备同时理解图片和文字信息的能力,还要有一定的常识推理、意图分析等更深入的理解能力。不仅需要机器“能看会认”,还要“能理解会思考”,对机器的综合理解能力提出了更高的要求
VCR从以下三个指标对机器进行评测:
  • Q2A:根据图片和问题选出答案的准确率
  • QA2R:根据图片、问题以及问题的答案选出推理论据的准确率
  • Q2AR(关键综合指标):根据图片和问题选出答案和推理论据的准确率
VCR题目示例
例如在上面的题目中,问题是“[人物4]为何指向[人物1]?”。机器需要将人物与图片中的实体进行关联,并理解场景中的服务员送餐的场景,从而选出答案“a)他在告诉[人物3], [人物1]点了煎饼”,以及选出答案推理依据“d) [人物3] 过来送餐,她不清楚谁点了什么”
夺冠系统VLE秘诀:
双塔方式与图像文本分离式预训练

本次哈工大讯飞联合实验室夺冠,得益于团队自主研发的超大规模多模态预训练模型 VLE(Visual-Language Encoder),在关键指标(Q2AR)上以75.01分位居VCR评测榜首,在其他指标上也大幅超越了榜单其他系统的成绩。
相较于此前VCR上夺冠所使用的单塔VL-RoBERTa模型,VLE采用双塔方式输入文本编码器的特征和图像编码器的特征,通过注意力机制将多个模态的特征融合起来,使用大规模文本数据以及多模态数据进行预训练,同时学习文本端的掩码语言模型(MLM)以及多模态图像目标分类任务(MPC)。
此外,VLE创新地提出了图像文本分离式预训练的方法,文本和图像预训练可以单独进行,然后通过一个中间注意力机制再将二者进行跨模态学习。该方法可以充分利用已有的文本和图像预训练模型,提高模型训练的效率和效果。
VLE模型结构
这项技术也在2022年全球1024开发者节上有了更“看得见、摸得着”的展示。在AI科技馆内,“AI识图创作”这一展项就生动演示了多模态机器阅读理解技术的能力:输入一张图片,向机器询问有关图片的一些问题,机器能够进行准确回答。放眼未来,这项技术还可用于帮助视觉障碍群体辨别物体并且更好地感知周围环境;在教育领域助力AI虚拟教师的打造,帮助低年级与学龄前儿童进行启蒙教育。
AI识图创作展示机器识图问答功能
此前,哈工大讯飞联合实验室已多次在国际机器阅读理解评测赛事中取得优异成绩,如权威赛事SQuAD 2.0中全球首次超过人类平均水平,对话型阅读理解评测CoQA和QuAC冠军,多步推理阅读理解HotpotQA双赛道冠军,科学知识阅读理解OpenBookQA冠军,常识推理挑战赛QASC冠军,逻辑推理阅读理解挑战赛ReClor冠军。
此次多模态阅读理解评测VCR夺冠,标志着机器的阅读理解能力实现了从单模态到多模态的跨越:机器不仅能读懂文字,更具备了能看会认的能力,并持续向实现类人感知和思考迈进
在未来,借助图文多模态相关技术,机器可更充分地感受周围环境并和人类交流,在教育、医疗、陪护等国计民生领域中实现更加智能的机器助理。讯飞也将持续在源头核心技术上不断攀登,围绕“讯飞超脑2030计划”深耕,推动真正实现机器“能理解会思考”的目标。
继续阅读
阅读原文