AAAI 2020 | 旷视研究院：深度解读文字检测与识别新突破

机器之心发布

机器之心编辑部

2020 年 2 月 7 日-2 月 12 日，AAAI 2020 将于美国纽约举办。不久之前，大会官方公布了今年的论文收录信息：收到 8800 篇提交论文，评审了 7737 篇，接收 1591 篇，接收率 20.6%。为向读者们分享更多的优质内容、促进学术交流，在 AAAI 2020 开幕之前，机器之心策划了多期线上分享。

在最新一期的 AAAI 2020 线上论文分享中，旷视研究院算法研究员万昭祎结合被接收的两篇论文，向我们介绍了旷视提出的高性能实时文字检测算法和更鲁棒的文字识别框架。

1 月 16 日，第四期 AAAI 2020 线上论文分享结束，本文对此次分享的视频与论文内容进行了整理。

PPT 获取：https://pan.baidu.com/s/19nXZn3FyH6VtUTLEZgHpUA
密码：wua6

在视频分享中，万昭祎研究员先后介绍了以下两篇论文。

可微分二值化实现文字检测精度速度双重最佳

论文名称：Real-time Scene Text Detection with Differentiable Binarization
论文链接：https://arxiv.org/abs/1911.08947
开源代码：https://github.com/MhLiao/DB

论文简介：近年，基于分割的方法在场景文字检测领域很流行，即把分割方法产生的概率图转化为边界框和/文字区域；并且，二值化的后处理对这些方法而言很关键。本论文提出一种可微分二值化（DB）的方法，可在分割网络中进行二值化。有了它，分割网络可以自适应地设定二值化阈值，这不仅可以简化后处理，还可以提升文字检测性能。

通过一个简单的分割网络，旷视研究院在 5 个基准数据集上的实验，取得了速度和精度的双重当前最佳，验证了这一新方法的性能提升。

详细解读请查看：AAAI-20 Oral | 旷视研究院提出可微分二值化，实现文字检测精度速度双重最佳

文字识别新突破 TextScanner

论文标题：TextScanner: Reading Characters in Order for Robust Scene Text Recognition
论文链接：http://arxiv.org/abs/1912.12422

论文简介：由于深度学习和海量数据的涌现，场景文字识别技术获得飞速发展。但是先前同类方法存在种种缺点，为此，本文提出 TextScanner，一种鲁棒的基于分割的场景文字识别方法，可以正确读取字符数据，并在一系列相关的文字基准数据集上，取得了当前最佳的性能。

详细解读请查看：AAAI-20 | 旷视研究院提出 TextScanner：确保字符阅读顺序，实现文字识别新突破

本文为机器之心发布，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：[email protected]

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：[email protected]

继续阅读

阅读原文