海归学者发起的公益学术平台
分享信息,整合资源

交流学术,偶尔风月
对于考古学家和历史学家来说,古代文本的发掘与解读是尤为重要的,它们的文献价值无可替代。虽然前人在古文字破译方面已经有许多相当出色的工作,但仍有相当多的古代文本人们无法解读。其中一个难题就是,古代文本通常残缺不全,辨别其原文有如登天之难。幸运的是,近日Google旗下的著名人工智能企业DeepMind研发出了一种协助学者们辨认古文本的利器,该成果报告于期刊Nature。
该石板文本记述了古希腊城邦雅典的一项法令

图源:Wikimedia/CC BY-SA 3.0
1939年,于德国哥廷根大学攻读博士的季羡林在E.Sieg教授的指导下学习了死文字吐火罗文。吐火罗文的文献虽然出土于新疆,但研究却在世界,E.Sieg教授则是初步破译该文字的先驱者。初学吐火罗文的季羡林这么回忆道:“老师对语法只字不讲,一开头就念原文……吐火罗语残卷在新疆出土时,每一张的一头都有被焚烧的痕迹。焚烧的面积有大有小,但是没有一张是完整的。我后来发现,甚至没有一行是完整的……这一部文法绝不是为初学者准备的,简直像是一片原始森林,我们一走进去,立即迷失方向,不辨天日……”
文本的残缺给破译古代文献带来了巨大的难度。这些只言片语零星分布在卷纸莎草纸、石板、金属铸件、陶片等各种材料上,学者们需要像玩填字游戏一样将支离破碎的文本组合起来,努力复原出文献全貌。而这个填字游戏最可怕的地方在于,你几乎不认识该游戏所使用的语言。季羡林先生所谓的“迷失方向,不辨天日”,确实毫不夸张。——都被严重损坏,以至于大块的文字常常难以辨认。
吐火罗文残页
挑战还存在于其他方面,比如文本来源的确认,一些文物出土后可能已经多次转手,失去了其出土地点的信息;又比如确定这些文本的生产时间,因为不可损伤文物等原因,放射性碳定年法等手段也十分受限。多年以来,这些古文本的破译工作,全靠历史学家通过上下文以及各种渠道的零星线索来尝试解读。这里面涉及的知识面相当宽广,需要考量的因素包括但不限于语言语法、段落布局、文字形状、近似文本和历史背景等。可以说,破译能否成功完全取决于学者能否在浩淼如烟的信息海洋中洞察那些隐秘的联系纽带。
而发掘信息潜在的规律和构成模式正是机器学习的优势领域。因此,为了帮助这项艰难工作更好地开展,DeepMind的 Yannis Assael、Thea Sommerschield和Jonathan Prag等人与牛津大学的研究人员合作开发了 Pythia系统。它是一种人工智能古文本恢复系统,其名字来源于德尔斐神谕所的女祭司之名。研究人员将帕卡德人文学院 (PHI) 的古希腊铭文数据库转成了机器学习可操作文本。数据库涵盖了从公元前 7 世纪到公元 5 世纪的文本资料,共有大约三万五千条铭文,总字数超过 300 万字。样本将输入单个的词句,Pythia被训练用以预测这些铭文单词中缺失的字母。简而言之,Pythia正是开发来完成这种“高级填字游戏”的深度神经网络。
Ithaca系统所复原的石板文本
图源:Epigraphic Museum/Wikimedia CC BY 2.5
研究人员找来牛津大学的研究生,请他们完成 2949 个残缺铭文文本的复原填写,并将他们的结果与Pythia 的成绩相比较。结果表明,Pythia的输出错误率为 30.1%,而人类的错误率则为 57.3%。而且Pythia在完成速度上面具有碾压性的优势。
而本次报告的古文本研究助手名叫Ithaca,它正是Pythia的升级版,它完整地继承了Pythia 的功能Ithaca这一名称来源于荷马史诗《奥德赛》中出现的希腊岛屿伊萨卡岛。Ithaca目前也主要以古希腊语言和整个古代地中海世界的铭文样本进行训练。这主要是由于希腊铭文在内容和背景上的比较庞杂,构成了处理古希腊文本材料的重要挑战。另一方面的原因则在于古希腊语数字化语料库已经构建得比较充分,便于进行机器学习。
论文报告称,在Ithaca的辅助下学者的工作效率显著提升。Ithaca单独进行恢复受损文献的工作时,能够达到了62%的准确率,而当历史学家与Ithaca合作时进行该工作时,其准确率则提高到了72%。除此之外,Ithaca还可以帮助确定文本最初是在何时、何地被写下的,其地点判断的准确率高达71%,年代判定则与历史学家所判断的差值不超过30年。
Ithaca输出结果示意,左为地点概率判定,右为年代概率判定
图源:Y. Assael et al., 2022
一个著名的例子表明了Ithaca判定年代的准确。有一份法令文本曾被历史学家推定产生时间不晚于公元前 446 年。因为公元前446年后雅典政府在公文中使用的某些字母形式发生了改变,某些特定的书写形式不在出现。
但后来这种观点遭到了推翻,历史学家通过比对修昔底德的著述认为,在公元前446年很久之后,这种书写形式仍然继续用于官方文件中。于是,他们重新推定文本年代在公元前420年左右。而在Ithaca的判定里,该文本的年代应该是公元前421年,与最新的结论几乎完全重合。
研究员Sommerschield表示,他们下一步将开发Ithaca的其他语言版本,包括楔形文字、古埃及文、希伯来文和玛雅文。纽约大学名誉教授Roger Bagnall对Ithaca在性能方面的非凡进步十分期待,他表示:“我迫不及待地想看到Ithaca被用于我们的纸莎草文本,这些文本因为文物倒卖,许多信息都无法得到确证。在Ithaca的帮助下,这数千份纸莎草文本的原始背景应该能够得到更好的梳理。”
参考文献:
https://www.nature.com/articles/s41586-022-04448-z
点击下方知社人才广场,查看最新学术招聘
本文系网易新闻·网易号“各有态度”特色内容
媒体转载联系授权请看下方
继续阅读
阅读原文