古籍图像分析与识别
古籍数字化对传承中华优秀传统文化有重大意义,符合国家战略需求。由于古籍文档图像的版式复杂、不同朝代的刻字书写风格差异大、古籍文字图像存在缺失、污渍、笔墨污染、模糊、印章噪声干扰、生僻字异体字繁多等技术挑战,相比传统OCR任务,古籍文档图像的识别及理解依然是一个极具挑战、远未解决的技术难题。本擂台赛旨在征集先进的人工智能算法,解决高精度古籍文字检测、文本行识别、端到端古籍识别技术难题,为古籍数字化保护、整理和利用提供人工智能支撑方法。
背景意义
中国几千年辉煌的华夏文明,留下了海量的古籍文献资料,这些古籍文字承载着丰富的历史信息,是文化传承的重要媒介。
为响应古籍文化遗产保护、传承中华优秀传统文化、挖掘利用古籍文献中蕴含的丰富知识、开展古籍数字化与智能应用的国家战略需求,古籍数字化工作势在必行。
目前我国有海量古籍文献还未完成文字转录工作,其中一个重要原因就是针对古籍文档图像的相关智能分析、识别和理解技术没有得到充分的研究及重视。
为解决我国海量古籍透彻数字化难题,本竞赛旨在征集先进的人工智能算法,解决高精度端到端古籍文档图像智能分析与识别技术难题,推动古籍OCR技术进步,为古籍数字化保护、整理和应用提供人工智能支撑方法。
图1 古籍文档图像样本示例
赛题内容
古籍文档图像分析与识别
输入:篇幅级别的古籍文档图片,要求利用文档图像物理及逻辑版面结构分析、文字检测、文字识别、文字阅读顺序理解等技术。
输出:结构化的文本行坐标以及识别内容,其中识别内容按照阅读顺序输出。模型仅输出正文的识别结果,忽略如版心、卷号等非结构化的内容。
数据集说明
01
初赛数据集:
训练集、验证集与测试集各包括1000幅古籍文档图像(共3000张图像),数据选自四库全书、历代古籍善本、乾隆大藏经等多种古籍数据。任务仅考虑古籍文档的正文内容,忽略如版心、卷号等边框外的内容。
02
决赛数据集:
由于采取擂台赛的形式,除了主办方提供的原始初赛数据集以及决赛数据之外,决赛参赛队伍可申请成为擂主并提供各自的数据集供其他进入决赛的队伍进行训练和测试,提供的训练集不少于1000张,测试集不多于1000张,提供的数据集标注格式应与主办方提供的数据格式相同。
03
数据集标注格式
每幅图像文本行文字及内容根据文本行阅读顺序进行标注,包含在一个单独的json文件。标注格式如下所示:
x1, y1, x2, y2, …, xn, yn代表文本框的各个点。对于四边形文本,n=4;数据集中存在少量不规则文本,对于这类标注,n=16(两条长边各8个点)。Text代表每个文本行的内容。
其中文本行的识别标签按照正确的阅读顺序给出。端到端识别内容按照阅读顺序进行标注,仅考虑文档的正文内容,忽略如版心、卷号等边框外的内容。阅读顺序的编排如图2所示。
图2 端到端古籍文档图像结构化识别理解中的阅读顺序标注可视化
大赛时间
大赛分为初赛和决赛两个比赛环节。
初赛时间:2022年8月初-10月07日
决赛时间:2022年11月1日-11月15日
参赛详情将于开赛前在大赛官网及官方公众号发布,敬请关注。
继续阅读
阅读原文