随着大规模无监督预训练技术在NLP的各个任务上取得了显著的效果提升,越来越多的研究者注意到了预训练对于诸如视觉问答和视觉常识推理等视觉-语言任务(Vision-Language Tasks)的重要性。
现有的视觉-语言预训练(Vision-Language Pre-training)方法通过大规模图像-文本数据集上的视觉定位(Visual grounding)任务来学习联合表示,例如基于随机掩码的掩码语言建模(Masked LM)以及在整个图像 / 文本层级的图像 - 文本匹配。但是,仅基于随机掩码并预测文本中的词,现有方法在预训练过程中无法区分普通词和描述细粒度语义的词,从而忽略了构建跨模态的细粒度语义对齐的重要性。如物体(人和船)、物体属性(船是白的)以及物体之间的关系(人站在船上)等这些细粒度的语义对于精准理解一些真实视觉场景是至关重要的。因此,更好的视觉-语言联合表示应能够刻画这些细粒度语义的跨模态对齐。
在百度这篇被 AAAI 2021 接收的论文《ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph》中,研究者们提出了一种基于知识增强的视觉-语言预训练技术,基于场景图知识构建了场景图预测任务,从而学习到刻画细粒度语义对齐的联合表示,在视觉问答、视觉常识推理等五个多模态典型任务上取得了 SOTA 效果,并取得视觉常识推理 VCR 榜单的第一名。
机器之心最新一期 AAAI 线上分享邀请到了论文共同一作、百度自然语言处理部高级研发工程师唐尼,为大家详细解读此前沿研究。
分享主题:知识增强的视觉-语言预训练技术 ERNIE-ViL
个人简介:唐尼,百度自然语言处理部高级研发工程师,主要从事多模态语义理解相关研发工作。
分享论文链接:https://arxiv.org/abs/2006.16934
分享概要:随着大规模无监督预训练技术在文本领域的各个任务上取得了显著的效果提升,视觉-语言预训练(Vision-language Pre-training)也受到了越来越多的关注。视觉-语言预训练的目标是通过对齐语料学习多模态的通用联合表示,将各个模态之间的语义对齐信号融合到联合表示中,从而提升下游任务效果。已有的视觉语言预训练方法在预训练过程中没有区分普通词和语义词,学到的联合表示无法刻画模态间细粒度语义的对齐,如场景中物体(objects)、物体属性(attributes)、物体间关系(relationships)这些深度理解场景所必备的细粒度语义。
我们提出了知识增强的视觉-语言预训练技术 ERNIE-ViL,将包含细粒度语义信息的场景图先验知识融入预训练过程,创建了物体预测、属性预测、关系预测三个预训练任务,在预训练过程中更加关注细粒度语义的跨模态对齐,从而学习到能够刻画更好跨模态语义对齐信息的联合表示。作为业界首个融入场景图知识的视觉语言预训练模型,ERNIE-ViL 在视觉问答、视觉常识推理、引用表达式理解、跨模态文本检索、跨模态图像检索等 5 个多模态典型任务上取得了 SOTA 效果,同时,在视觉常识推理 VCR 榜单上取得第一。
直播时间:北京时间 1 月 28 日 20:00-21:00
加入机动组,一起看直播
「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。
添加机器之心小助手(syncedai5),备注「AAAI」,加入本次直播群。
如小助手添加异常,还可以添加 syncedai4 与 syncedai6,或将微信 ID 发送至邮箱 [email protected],我们将邀请你入群。
欢迎投稿
欢迎更多 AAAI 2021 接收论文作者向我们投稿,文章解读、视频讲解或参与「机动组」直播等形式均可,与机器之心读者分享你的最新研究工作。
继续阅读
阅读原文