AI驱动的甲骨缀合 ——附新缀十则 [张重生]
AI驱动的甲骨缀合
——附新缀十则
河南大学黄河文明与可持续发展研究中心、河南大学计算机与信息工程学院 张重生
河南大学甲骨文研究有着十分悠久的历史,董作宾、孙海波、朱芳圃、石璋如、尹达、郑慧生等著名甲骨学者,都曾执教或就读于河南大学。而今,王蕴智教授带领下的河南大学古汉字研究所继续孜孜矻矻地坚守在这一领域,承续着这一光荣传统。
将计算机与甲骨文研究相结合,是河南大学的优良传统。1987年河南大学计算机系郑逢斌参与研发了第一个甲骨文信息处理系统,而后郑慧生与郑逢斌等人又合作设计了第一套形意结合的甲骨文输入法,这在当时的甲骨学界是非常领先的水平。
近年来,河南大学对甲骨文与计算机结合的工作给予了大力支持。2019年6月23日,门艺、张重生邀请了多位甲骨学界的专家,在河南大学召开了人工智能与甲骨文识别专题研讨会(图1)。经过与专家们的咨询商讨,会议确定了甲骨缀合与甲骨文识别两项任务作为今后主要的发展方向。其后,又邀请了首都师范大学、西南大学和厦门大学的甲骨文专家和计算机专家召开了两次“甲机会”,确定了人工智能(AI)驱动和人机耦合的缀合思路,并对相关技术路线进行了详细论证。
图 1 人工智能与甲骨文识别专题研讨会(河南大学)
利用计算机辅助甲骨缀合的实践由来已久,很多从事甲骨缀合的学者都曾利用计算机来提高缀合效率。但计算机参与的甲骨缀合与人工智能(AI)驱动的甲骨缀合是很不同的,过去的计算机缀合模型都没有起到切实的缀合作用,也没有帮助甲骨学家减轻缀合工作的劳动强度。因此,我们确定的首要目标是研发一个切实可用的缀合模型。而近年来人工智能(AI)技术的突飞猛进,让我们有机会更接近这一目标。
本项研究前期,我们尝试让缀合模型模拟专家的边缘密合判别能力和甲骨形态辨识能力,首先对卜骨拓片图像进行专门的技术攻关,以期让模型在一定的范围内(前10项备选甲骨)达到较高的缀合召回率。2019年底我们完成了两个版本的甲骨缀合模型,并进行了不断的优化。通过将学界已经缀合的250组甲骨混入随机4000片甲骨中进行了实际测试,模型结果前10项的复缀率达到99%以上(图2)。
图 2 缀合程序中复缀甲骨的界面
基于此,2020年1月我们将相关成果提交给了人工智能国际顶会IJCAI-2020(Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence,),并被大会录用发表(图3)。
图 3 张重生等发表在人工智能顶级会议IJCAI-2020上的论文页面
2020年8月,我们邀请了首都师范大学和河南大学的师生对部分甲骨材料进行了整理,展开了实际(实质性)的甲骨缀合工作。通过半个月的协作,我们的模型再次得到了优化,使得实际运用中的前10项复缀率依然保持在85%以上(未能复缀的部分主要是边缘不密合,而主要依靠残字、残辞而缀合的类型)。并新缀了一些甲骨,此摘选十则,以就教于方家:
第一则:合集7615正反+旅藏769正反(边缘相似度0.91708)
第二则:拼集65+英藏1168(边缘相似度0.63356)
第三则:合集165+合集2873(边缘相似度0.625000)
第四则:合集2824+合补5175(边缘相似度0.61417)
第五则:合集7494+合补3222(边缘相似度0.54804)*
*注:本则缀合过程中,发现合集7494与合补3222、合集13242的密合程度非常相仿,故怀疑为同一片甲骨。
第六则:合集14981+合集15543(边缘相似度0.56198)
第七则:北珍1453正+合集3007(边缘相似度0.55454)
第八则:合集17750+合集13132(边缘相似度0.66666)
第九则:合集7483+合集6541(边缘相似度0.73029)
第十则:合集12344+合补3636(边缘相似度0.88461)
下一步,我们将尽快把缀合软件(定名为“缀多多”)公开,以方便学界共同利用这一工具,产生更多的缀合成果。同时,我们还会进一步发展相关技术,一方面尝试模拟专家对残辞残字的研判能力,进一步缩小范围。另一方面,研究龟甲部分的缀合方法,争取在龟甲部分也能取得一定突破。
我们希望在不久的将来,在“缀多多”等AI甲骨缀合技术的帮助下,人工智能的运用可以让甲骨学者的缀合模式发生一个根本性改变,并最终完全解决这一问题。
(感谢首都师范大学莫伯峰老师的技术和学术双重指导;感谢河南大学门艺、西南大学陈善雄、厦门大学张俊松三位老师的鼎力支持;感谢河南大学纵瑞星、郭文静、张古林等同学的重要贡献。)
作者单位: 张重生 河南大学黄河文明与可持续发展研究中心、河南大学计算机与信息工程学院
联系邮箱: cszhang@henu.edu.cn
AI缀合甲骨。利用AI自动缀合甲骨的缀合成果十则。
张老师的论文能不能给看一下?
贊!
第七則(缀集211+合集8815(边缘相似度0.71423))已見林宏明先生在吳麗婉《甲骨拼合第55~57則》下方的留言“《綴集》211+合8815”(2017年10月12日 10:10:56)。地址:http://www.xianqin.org/blog/archives/9271.html#comment-292260
感谢杨老师的指正。 现在第七则已经替换为 北珍1453+合集3007。 谢谢!
大家好:
第七则已经替换为 北珍1453+合集3007。
论文已经更新。
感谢大家的鼓励和支持!
第7則北珍1453亦見合12495。
第四则上部可加缀《缀集》21
第二则左下加《合》12287
《合补》4501+《合补》1838
《合补》2161+《合补》1913
《合集》4248+《合集》954。 A big bone.
《合集》858+《合补》5524。Another big one.
《合集》1184+《合集》6150
《合集》1185+《合集》14775