机器之心发布
机器之心编辑部
文档智能国际权威榜单文档视觉问答 DocVQA 迎来了新霸主。
百度提出跨模态文档理解模型 ERNIE-Layout,首次将布局知识增强技术融入跨模态文档预训练,在 4 项文档理解任务上刷新世界最好效果,登顶 DocVQA 榜首。同时,ERNIE-Layout 已集成至百度智能文档分析平台 TextMind,助力企业数字化升级。
ERNIE-Layout 登顶文档智能国际权威榜单 DocVQA
文档视觉问答:检验文档理解能力的试金石
对多模态文档(如文档图片、PDF 文件、扫描件等)的深度理解和分析,是文档智能的核心能力。文档智能应用行业包括金融、保险、能源、物流、医疗等,常见的应用场景包括财务报销、招聘简历、企业财报、合同文书、动产登记证、法律判决书、物流单据等。针对不同行业和应用场景的需求,文档智能的技术方向囊括文档抽取、文档解析、文档比对等。
文档理解应用场景举例
文档视觉问答 DocVQA 是跨模态的文档抽取任务,要求文档智能模型在文档中抽取能够回答文档相关问题的答案,需要模型在抽取和理解文档中文本信息的同时,还能充分利用文档的布局、字体、颜色等视觉信息,这比单一模态的信息抽取任务更具挑战性。
DocVQA 文档视觉问答示例
上图是 DocVQA 的一个示例,关于这个文档内容的问题是:「手掌中的卡片上写了什么?」,模型需要对问题的核心语义(「手掌」、「卡片」)在文档图像中进行跨模态的语义对齐,准确找到图像中的「手掌」并确定其中「卡片」的位置,进而结合文档中文字和布局的信息得到答案是「Trabon」。
正是由于文档视觉问答任务需要结合视觉解析、布局分析、语义理解、信息抽取等一系列 AI 技术,是综合 AI 能力的集大成者,其技术挑战与实用价值正得到越来越多的重视。
ERNIE-Layout 以世界领先的语义理解模型 ERNIE 为底座,创新提出布局知识增强技术,对文本、图像、布局等信息进行联合建模,取得该任务的世界最好水平,缩小了机器在文档理解能力上与人类的差距。
世界首创的布局知识增强文档理解模型 ERNIE-Layout
对文档理解来说,文档中的文字阅读顺序至关重要,目前主流的基于 OCR(Optical Character Recognition,文字识别)技术的模型大多遵循「从左到右、从上到下」的原则,然而对于文档中分栏、文本图片表格混杂的复杂布局,根据 OCR 结果获取的阅读顺序多数情况下都是错误的,从而导致模型无法准确地进行文档内容的理解。
ERNIE-Layout 布局知识增强效果
而人类通常会根据文档结构和布局进行层次化分块阅读,受此启发,百度研究者提出在文档预训模型中对阅读顺序进行校正的布局知识增强创新思路。TextMind 平台上业界领先的文档解析工具(Document Parser)能够准确识别文档中的分块信息,产出正确的文档阅读顺序,将阅读顺序信号融合到模型的训练中,从而增强对布局信息的有效利用,提升模型对于复杂文档的理解能力。
基于布局知识增强技术,同时依托文心 ERNIE,百度研究者提出了融合文本、图像、布局等信息进行联合建模的跨模态通用文档预训练模型 ERNIE-Layout。如下图所示,ERNIE-Layout 创新性地提出了阅读顺序预测和细粒度图文匹配两个自监督预训练任务,有效提升模型在文档任务上跨模态语义对齐能力和布局理解能力。
ERNIE-Layout 架构图
在取得权威视觉问答榜单 DocVQA 第一的同时,ERNIE-Layout 还在文档信息抽取权威榜单 SROIE 登顶榜首。
ERNIE-Layout 登顶文档信息抽取权威榜单 SROIE
此外,ERNIE-Layout 还在表单理解 FUNSD、票据理解 CORD 等多个公开数据集上取得了目前业界最好的效果,其中 FUNSD 数据集 F1 大幅提升 6.47%,进一步验证了 ERNIE-Layout 布局知识增强技术的有效性。
ERNIE-Layout 在表单理解 FUNSD 数据集上的效果
ERNIE-Layout 在票据理解 CORD 数据集上的效果
ERNIE-Layout 技术已集成至百度智能文档分析平台 TextMind!
2020 年 8 月百度大脑语言与知识十周年技术峰会上,百度发布了智能文档分析平台 TextMind,提供一站式企业文档规范化解析方案,促进办公智能化升级和企业数字化转型。一年多以来,TextMind 平台不断打磨功能、优化效果,基于百度领先的 OCR 和 NLP 技术,平台支持格式解析、内容抽取、内容比对、内容审查、内容理解 5 大核心功能。
TextMind 产品架构图
截至目前,TextMind 合作伙伴达到上百家,遍布银行、券商、法律、能源、传媒、通信、物流等众多行业,真正实现以 AI 助力企业的数字化转型。本次 ERNIE-Layout 集成至 TextMind 更是助力企业提高文档信息的提取效率和处理效率,显著减少人工成本和时间投入,加快企业数字化转型。
以财务报销智能审核为例,报销凭证数据量大、样式多样且复杂,依靠人工处理则审核人力成本高、效率低并且审核时间长。得益于 ERNIE-Layout 模型具备的多样化的文档布局理解能力和文本语义理解能力,TextMind 的票据内容抽取功能,能够自动、快速、准确地提取不同样式票据中的关键信息。目前,该功能已为多家客户提供全流程、智能化的实时财务报销审核服务,提升企业审核效率 5 倍以上。
基于ERNIE-Layout模型的票据内容抽取示例
结束语
国家「十四五」规划提出数字中国战略,战略旨在激活数据要素潜能,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。企业 80% 以上数据都是非结构化数据(图片、文档),且文档数量和占比都在呈现指数级增长。因此,文档智能技术已成为企业数字化转型的关键技术。
百度提出的基于文档布局知识增强的跨模态预训练模型 ERNIE-Layout,在 4 项文档理解任务上刷新世界最好效果,并在 DocVQA 上登顶榜首。通过引入层次化的文档布局知识信息,让机器可以像人一样阅读复杂排版的文档,学习文档的布局知识、语义知识以及视觉知识并相互增强,从而实现对文档的结构化、语义化理解。这项能力通过百度智能文档分析平台 TextMind,提供一站式企业文档规范化解析方案,促进办公智能化升级和企业数字化转型。
了解 ERNIE-Layout,或者希望获得 TextMind 的更多支持,可通过以下链接:
  • 百度智能文档分析平台 TextMind:https://cloud.baidu.com/product/textmind.html
  • 百度文心 ERNIE:https://wenxin.baidu.com/
© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
继续阅读
阅读原文