镜原甲骨数字平台【秦培超】

镜原甲骨数字平台

秦培超(英国剑桥大学博士生)

“镜原甲骨数字平台”今日正式发布,当前公布了“镜原高清甲骨字库”、甲骨全字形库检索、甲骨释文智能输入法、全球甲骨分布图及甲骨大事年表等科研工具和可视化界面,为使用简易、检索方便的现代化数字应用。当前网站发布地址为:

镜原甲骨数字平台 (oracular.azurewebsites.net)

平台介绍

“镜原甲骨数字平台”,取自于“辨章学术,考镜源流”之意,是一个专注于利用计算机技术来解决甲骨学研究领域一些常见问题的数字化平台,由剑桥大学东亚系博士生秦培超设计和编程。作为一个长期的科研项目,平台计划分多期工程进行建设,当前第一期阶段已完成,主要聚焦于“镜原甲骨高清字库”的发布,该字库是一款收录了5万+字形的超高质量的甲骨文字体,为作者历经3年时间,基于人工硫酸纸描写和计算机自动化图形技术辅助摹绘的方法,对《甲骨文字编》、《新甲骨文编》等传统纸质文字编的进行的一次全面的高清重摹和电子化成果。字库借助独特的描绘方法和制作流程,能够将传统文字编中平均只有20像素大小的低清、高噪的png格式字形图片,转换为高于2048*2048像素大小的超清、无噪、无毛边、抗锯齿的矢量字形,其产出效果远超一般专业字体级别所需要的像素水平。此外,字库还根据每个甲骨字头下异体字形体特点的差异,结合甲骨考释的最新成果,提供了更为合理的标准字头、子字头和异体字组的分级支持,并通过字头与常用汉字码点、隶定字等映射,与基于隶定字的甲骨输入模式完成了完美的耦合。该字体的发布和普及,可以显著地解决当前甲骨难输入、难复制和“打字贴图”的困境,且很大程度上能推动甲骨数字化相关技术的进步。字库还提供了详细的版本记录和持续的更新计划,未来会进一步广泛地收录特殊字形、和根据最新考释成果实时地合并和更新字形。当前字库v1.0.0正式版本,涵盖了约3777个字头、5693个子字头和总计超5万个异体字字形,为全球首个超清字体库、全字形库,可为当前已发现的所有商周甲骨字头和绝大部分异体写法提供便捷的字码和输入支持。此外,网站还发布了可配套使用的字库检索页面和智能释文输入辅助工具,极大地便利了字库的使用和查询。

主要功能

当前网站仍处于持续开发的状态,初步发布的模块包括以下几大方面

一、镜原甲骨超清字库

“镜原甲骨文字库”,为网站作者使用人工描摹和计算机辅助相结合的描绘方式制作而成的超清甲骨文全字库,收录了超过 5 万个甲骨矢量字形和5000多个标准字头的字样支持,同时具有“字体”和“字形库“两种功用。作为字体,该字库可广泛用于word、excel、pdf、photoshop等办公设计程序,通过输入汉字常用字码,或者从网站字库检索页面支持拷贝即可快速输入和转换甲骨字形。作为字形库,字库即为一款组织完整、收字广泛的“电子文字编”。而相对传统文字编、或一般拓本字形,该字库所收录的字形具有高出数百倍的初始分辨率,即便在 2048*2048 的像素大小下显示,笔画都不具有明显的毛边效果,而在一般 word 或 photoshop 的使用中,通常用到的分辨率大小也只有平均的~50-512 像素,所以这种状态下的字库在无需人工干预和修图的情况下就可以达到专业级别的字体设计规格。

此外,作为真正意义上的电子字库,“镜原字库”还有以下的多种优点:

查询和检索: 镜原甲骨字库作为电子字库,是以文字字码的形式进行存储,所以字库可以通过码点编码、或命名来进行基于文字的检索,这样就大大提高了文字的查询效率和速度,而不需要像基于图片字形库那样需要通过大规模图片切取、标注工作、手写OCR 或其他复杂的图像识别技术来进行制作和查询。

体积轻便: 由于镜原字库为基于 .ttf 格式的字体文件,字形采用文字描述的方式来渲染字形图片(二次贝塞尔曲线),通常单个的字形只会占到<0.5kb 的存储空间,却可做到缩放至任意分辨度的图片而不失真,而字形如果以一个 100*100 像素的灰度图片(8-bit)进行储存,其占用的体积会有 100*100*1 byte/1024 ≈ 9.77 kb,对于一个含有 5 万个字形的数据集,这样的体积差异是非常巨大的,前者只是后者的 5%左右。对于更大图片的渲染,这种存储差距也会以指数级增长。对于现代化的网站而言,这种轻便的字体文件,除了明显的存储空间上的节省、网页加载速度的提升,最主要可以大量减少服务器显示图片所用的带宽,从成本上而言几乎是不可相比较的。

修改方便: 由于字库每个字形经过向量化重绘,最后是在字体排版软件中编辑完成,如果出现有误摹或漏摹笔画的,可以无需用线稿重绘或录入,而直接可以在软件界面中进行修改,这样可以大大提高字库的更新和修订效率。而对于字头级别的归并和分离,也可以以简单的复制粘贴的方式来实现,直接就在一个程序中加以解决,而不需要在不同文件夹中查询和移动不同的图片文件。而后者在图片存储的状态下是不可避免的。

多层级设计:镜原字库的组织结构遵循了当前常用甲骨工具书中的普遍处理方法,将甲骨文字分为了“字头”、“子字头”、“异体字”三个层级。具体来看,所谓“字头”,某些工具书也称为“字号”,为甲骨文的基础单位,一类构形、用法或释义都相同或相近的字形,即被视为同一字头。字头部分亦进行了细致的结构划分,按照“正文”-“合文”-“习刻”-“伪片”-“存疑”-“摹本”-“残文”的方式排列。而“子字头”,作为字头的子级,用以区分字头下的不同写法。当一种字形相对一个标准字头写法发生特质性的外形质变,从而导致异体字或异体字组的产生,即可视为不同的子类形体。“异体字”,作为子字头的子级单位,字库中所收录的异体字均为来自真实甲骨著录的字形用例。这种清晰合理的结构组织和划分,很好地适应了甲骨释读中因字形写法不同导致的隶定差异,有助于更好地区分形体不同、但用法和释义相同的字形组,这样一方面可使相关字库或释文库的检索更加精确,另一方面也可以适应由于考释成果不断进步,字头分类不断细化或统合的需要。

多码点对应:与以往甲骨字体一字一码的设计不同,“镜原字库”采用了多码点的对应方式,即“一个多码”,如 (祼)字,对应了U+FE101、U+BB59B、U+797C三个 unicode 标准码,其中U+FE101为字库独有字码,来自于 PUA-A(unicode 私用区),而U+BB59B为引得市所分配之隶定字码,而U+797C则为“祼”之字码。这样设计很大程度地方便了word文档中的即时转换,而不需要为每个字码查阅本站的字库检索页面。

稳定UID支持:不同于以往字体库以隶定字或字码为基础,字库还采用了全新的数据库设计模式,每个字库字形均设立一个唯一的UID(10位随机数字和字母),作为参考值,而字库所有的隶定、部件标注等,完全以UID作为绝对值参考,进行外部独立的对应。而每个字形本身,不对该字的隶定、码点、父子层级关系作出任何先入为主的定义,而完全依靠sql编程语言强大的语法和查询支持进行实时映射。这也就是说,每个字的隶定、码点、部件、层级关系都可以定义完全独立的表格,并在各表格中随时更改和添加记录,而数据库中会即时的做出反应,而不影响到其他各表的记录。这一设计方法实现了字形、隶定标注脱离、但查询耦合的独特处理方式,为数字化中复杂的甲骨字形关系的处理方案做了很好的示例。

二、字库多模式检索页面

除了本次重磅发布的独创甲骨文字体外,网站还配套了功能丰富的“字库检索页面”,实现了9种字形检索方式(基于隶定字/隶定拼音、部件、著录来源、《甲骨文字编》编号、《新甲骨文编》页数、《甲骨文字诂林》编号、字库码点、字形UID)和6种字形过滤功能,基本能够适应各种可以遇到的检索需求,保证所有有隶定、多隶定或无隶定的字形都可以被轻松查询和检索。

而有关每个字形的信息,网站提供了片号、组类、部件构字式等信息的标准,并广泛收录了《甲骨文字编》、《新甲骨文编》、《诂林补编》、《甲骨文字典》等十数种工属书的页数信息和部分链接跳转。此外,网站还提供了基于“汉达甲骨文库”的释文数据整合,用户可以直接在字形详情页下查看字形在原释文中的位置和实际用法。

三、甲骨智能输入法

网站组件中还提供了一个独特的“甲骨释文智能输入法”页面,该工具为功能强大的甲骨文输入编辑器,实现了建立在“镜原字库”基础上的宽严式隶定自动匹配(如输入“鼎”获得“鼎{貞}”)、辞典辞例补全、子字头替代补全、拼音输入法、部件输入法、悬浮链接跳转等功能。编辑器的具体设计基于 Microsoft 的monaco-editor,后者为主流代码编辑器vs-code的底层代码库,其设计初衷是为各种计算机编程语言的编辑提供强大的开源技术支持,主要功能包括代码语法高亮、类型提示、代码补全、文本折叠等功能,在编程界被相当广泛地所使用。而网站甲骨释文输入工具则在 monaco 的基础上进行了二次开发,将部分基础功能进行迁移和改进,以适应甲骨文学科中长久以来存在的输入难、字库字码设计与字形、音、义脱离的困难,实现了对甲骨文字的智能输入支持,目的是使得用户在编辑甲骨文时能够配合笔者制作的镜原甲骨全字库更加方便、快捷地输入文字,提高工作效率,并在此过程中达到巩固学习和认字能力,及熟悉甲骨文中所存在的复杂字形关系和释读成果。

四、多样可视化组件

此外,网站还提供了多样的可视化模块和组件,如“字形组类可视化”,该组件可在每个字头的详情页下找到。组件以时间轴的形式完美展现每个甲骨字头统辖的多样异体字,从𠂤肥笔到黄类卜辞的形体归类和变化,并附上了详细的组类特征说明。两者配合使用,可以做到良好的可视化呈现和基于实例的组类特征学习效果,为设计独特、功能新颖的可视化页面。

而网站的“全球甲骨分布图”页面,则详细展现了当前16多万片甲骨在全球范围内的具体流向,图表依据孙亚冰老师《百年来甲骨文材料再统计》和葛亮《一百二十年来甲骨文材料的初步统计》等文章,清晰明确地显示了当前全球主要机构所收藏的甲骨分布情况,做到了超16万片甲骨皆有迹可循、有据可依,且网站细控了每一个可以定位到的甲骨机构的地图经纬度坐标,做到了精确的地理定位。在该页面中,用户可以实时查询当前所在位置距离最近的甲骨收藏机构,并查询所藏甲骨数量。后期网站还会加入每个机构如各大博物馆、图书馆的收藏链接跳转,为相关甲骨的参观和数量调查提供很好的可视化基础。

网站的“甲骨大事年表”,则是一个动态的120年甲骨大事记组件,当前数据主要基于郭旭东、张源心、张坚等主编的《殷墟甲骨学大辞典》附录“大事年表”,并会在未来不断依据其他参考书目添加相关事件信息,并在最近几年下实时提供最新的甲骨学书目,以为甲骨学研究提供动态、实用的文献参考信息。

学术价值

网站初步发布的各项成果,在甲骨文字释读、信息检索、释文检索、字形研究等多个方面都有很好的助益。首先,一个高质量的甲骨全字体库,其学术意义是不言而喻的。甲骨出土一百多年来,无论是从文章出版、著录释文还是论文写作,一直处于手写释文或打字贴图的局面。虽然说完全基于字体的著录和释文(如《摹释》等)也有偶尔出现,但都属于局部的应用,始终无法得到真正的普及。尤其最近几年,相应的甲骨字体也多有公开发布,如汉达甲骨字体、汉仪陈体甲骨、殷契文渊字体库等,但这些字体由于其复杂和耗时的制作过程(基于图片反色录入、电脑处理或毛笔书写),其制作往往是一次性的,更新周期普遍较为缓慢,且由于制作成本高、收字数量比较有限,就不能很好地涵盖所有的字头或新出现的子字头。再加上很多甲骨字体本身在设计上没有明确的层级设定和动态的字码分配,在甲骨考释不断进步的情况下,也容易无法跟上学者的打字需求。这种情况下字体也就不能很好地作为释文库的字码基础了。

而网站当前发布的这款“镜原甲骨文字库”,通过多层级的字码设计和动态的外部隶定表,可以实时实地得对最新甲骨考释成果做出反应,并在多个相关工具中得到体现,再加上字体本身高清、无噪、设计专业的特点,可以广泛且长期地用于办公软件、网络应用、释文数据库的制作等。网站“字体”、“字形库”、“数据库”三位一体的设计,配合“智能输入法”的使用,使得甲骨释文的迅捷输入提供了坚实的字码和工具基础,这也使得未来制作一个真正意义上的甲骨全释文库成为可能,从而很好地推动甲骨学研究的进步。此外,字库以《甲骨文字编》、《新甲骨文编》等书作为基础,并对原书做出了三千多条的字头归并、字形误摹、字形重收上的错误修订,为实际的甲骨字头设立提供了很好的处理方案,其标准字头字样的设计,这为最终的甲骨文字Unicode方案的规划和建设也有很好的参考价值。

此外,网站丰富的可视化组件功能为甲骨学研究在当代数字化环境下的应用和教学做出了独特的示例。当前网站功能和数据仍在不断添加中,未来会进一步拓展网站组件在甲骨文学科中其他方面的应用。

 

推荐阅读

5 5 投票数
文章评分
订阅评论
提醒

0 评论
内联反馈
查看所有评论