海归学者发起的公益学术平台
分享信息,整合资源

交流学术,偶尔风月
从战争到婚礼,欧洲的历史保存在整个欧洲大陆数十亿份档案中。尽管许多档案馆试图公开他们的文件,但从中寻找信息仍然是一件非常耗时的事情。简单的页面扫描不能提供研究人员需要的的关键信息,比如日期、姓名、地点,必须转化为相应的可检索数据才有实际的用途。
谷歌公司曾经运营一个将图书馆藏书数字化的项目,但那仅仅是将这些书籍一页一页的拍成照片,阅读和辨识的工作仍然需要人类来进行。而在欧洲的许多档案馆,累计了数百年来不断产生的各种档案,包括人口登记、法庭判决、婚姻证明、银行记录等。荷兰阿姆斯特丹市档案馆保存了大量档案,光是公证人的记录,纸上就有3.5公里,约等于11800页的A4纸。这些藏品总长约50公里,相当于17万张A4纸。这些记录大部分都是手工记录,研读并且转换这些文件中的信息可能需要几十年的工作时间和天量资金。
几年前,一个名为“READ”的项目开发了名为“Transkribus”的软件,开始为档案研究者提供了一种转录和搜索历史文献的新方法。这个在线平台帮助用户训练一个人工智能手写识别模型来识别并转换各种欧洲语言手写的历史文档。
海因里希·巴塞曼1871年11月17日的手写布道稿。
一个可以用基于人工智能的软件数字化的文件的示例。图源:海德堡大学图书馆
训练AI时,使用者手动将50到100页现有抄本输入到系统的模型中,该模型使用机器学习来比较它已知的手写模式和用户想要转录的文档。模型自动逐行转录。为了让它顺利工作,新文档的笔迹必须与模型以前看到的相同或相似。使用者可以训练自己的模型,也可以选择预先存在的模型。一个可用的模型可以识别出英国哲学家杰里米·边沁(Jeremy Bentham)的笔迹风格,另一个则是17世纪意大利秘书的笔迹风格。
在Transkribus完成了它的工作之后,使用者通常只需要略微校对来纠正一些小错误。虽然这看起来不算很完善,但是它依然可以节省档案工作者、历史学家和学者数百甚至数千个小时坐在电脑前手工“翻译”历史文献的时间。
Ricordi出版社的总经理Giulio Ricordi写于1889年的一封信。
训练这种专用的AI需要解决两个问题:一是不同的语言。虽然欧洲的大多数文字都使用罗马字母,但是不同的语种在不同的历史时期差别是很大的,用现有的翻译字库未必能够直接识别;二是不同的写作者。这些档案绝大多数都是手工书写,每个人的笔迹都是不同的,就像现代人一样,很多人写字的时候相当“随意”,AI需要足够的样本来识别那些特殊的近乎“涂鸦”的字母。
现代的OCR软件可以很好地处理旧的打印文档,因为行和字之间的距离有固定的布局。但是直接对手写体做同样的处理则非常困难,要在“草书”中分离出一个字母几乎是不可能的。该项目最初的机器学习算法可以识别85%的手写文本。然而,开发者很快意识到,对于处理数千个手写档案页的档案来说,这还不够好。
研究人员使用新方法来提高程序的准确性,重新设计了如何识别文本行的流程。他们没有寻找整个文本块区域,而是训练算法寻找每个单词所在的共同‘基线’,类似于信纸上那些教孩子们在页面上均匀书写的横线。这种方法使得识别率提高了很多,AI开始学会像人一样“写”字从而识别手写体。
大量的近代文献有可能重见天日
自2015年推出以来,使用Transkribus的人数大幅增长。这个平台现在有超过45000名用户,其中包括来自阿姆斯特丹市档案馆的志愿者。经过训练的Transkribus算法能够比预期提前一年完成该项目18世纪文档的转录。提取关键信息,索引相关档案,同样的50000份扫描文件,人工转换可能需要几个月的时间,但一个完善的AI模型只需要几个小时就能完成,志愿者们只需要校对其中的小错误即可。
随着更多的档案馆和研究机构加入这个项目,数据库变得越来越大,AI训练的效率也越来越高,并且通用性也越来越强。历史学家相信这个项目可以帮助他们更加清晰的了解欧洲政治、法律和经济的演变过程。而一些法律工作者发现这些尘封的记录有可能帮助他们解决难缠的遗产继承官司——之前要找到这些文件几乎是不可能的。
2020年9月下旬,READ项目及其Transkribus软件获得欧盟委员会颁发的地平线影响奖。
点击下方知社人才广场,查看最新学术招聘
本文系网易新闻·网易号“各有态度”特色内容
媒体转载联系授权请看下方
继续阅读
阅读原文