- 收藏
- 加入书签
基于天一阁馆藏特色资源的家谱数字化服务示范
摘要:该课题遴选宁波市天一阁博物院馆藏特色的古籍类型--家谱,针对公众、管理者、研究员等不同角色对于家谱应用的不同需求,构建家谱数字化服务平台,力图探索家谱服务传承中“找不到、看不懂、存不久、修不了、传不广、征不多”等问题的解决之道。
关键词:家谱数字化;知识挖掘
基金项目:本文是浙江省文化和旅游厅科研与创作项目(项目编号:2021KYY013)的部分成果。
1天一阁家谱数字化平台背景
文化遗产是人类在社会历史发展过程中创造的具有历史、艺术、科学等价值的文化财富,深入研究和挖掘文化遗产,有利于阐发文化精髓,保护与传承文化遗产,推动中外文化交流互鉴[2]。天一阁馆藏特色文物以古籍为主;其中古籍又可以分为家谱、地方志、科举录、小说、手札、杂记等众多类型,课题组特意遴选家谱作为天一阁馆藏特色资源,来构建相关数字化应用和服务示范。
在中国,几乎所有家族都有记录着本家族系的历史发展相关的文字资料,那就是家谱。家谱是家族繁衍迁徙的历史见证、维系亲情族谊的重要纽带,包含着中国人最执着的宗族亲情认同感。每一次兴修家谱都是培养家族凝聚力的最佳途径。家谱记录一个个家族的历史沿革、世系繁衍、人口变迁、居地迁徙、婚姻状况等,通过家谱能够让家族的后人感受到历史的坚实和厚重。家谱还记载着古代家族成员在科举、官封名谥等政治生活中的地位、作用和显赫的事迹、著述,家族世系的从商、务农的经济情况和兴衰变化,以及家族的丧葬、祀典、族规家法,家谱让读者领略到人文的繁庶、世道的艰辛等等。近年来家谱的价值越来越引起社会的重视。家谱和族谱记述一个家族的起源、郡望、繁衍以及发展历史,涵盖姓氏源流、族规家训、礼俗仪式等内容,是包含历史学、人口学、社会学、民俗学等丰富内容的民间历史文献,具有较高的历史研究价值和文化价值。因此,开发利用家谱资源使之服务于当今的政治、经济、社会生活都有着重要的意义。运用互联网技术构建家谱知识服务平台,除了能为人文学者提供史料依据,还能满足普通大众寻根问祖和其他文化方面的需求。
据统计,全国现存老家谱总量约5万种,主要存放在上海图书馆、国家图书馆、浙江省图书馆以及天一阁博物馆等馆藏机构,其中天一阁藏量也位居全国前列。天一阁阅览室年查询家谱人次占古籍查询总人次的50%以上,每年新家谱接收数量百余种。过去,民间续家谱群体以中老年人居多,近年来年轻人逐渐占据修谱的主力。但是,目前馆内尚缺乏一个统一的信息化平台,能够满足群众找家谱、读家谱、存家谱、修家谱,传家谱的需求,以及方便博物馆工作者开展家谱的征集工作,方便民间机构快速帮助群众修、编家谱等工作。相关工作人员试图将互联网中的信息表达成更接近人类认知世界的形式,而且提供一种更好的组织、管理和利用海量信息的方式。其发展得益于多个研究领域的成果,是知识库、自然语言处理、语义网技术、机器学习、数据挖掘等众多知识领域交叉融合的产物[1]。国外自2010年起,大英博物馆、美国弗利尔美术馆、荷兰国立博物馆等众多大量的国际博物馆均已开展知识挖掘与表达相关的项目研究与应用,比如大英博物馆关联开放数据项目[3]、俄罗斯文化遗迹云平台、荷兰国立博物馆知识图谱项目、Europeana等。
基于以上各方切实需求,本课题拟建设一套“浙里有谱”家谱知识服务平台,完成“一库查询、一键读懂、一链贯通、一网多端”等应用场景,解决家谱服务传承中“找不到、看不懂、存不久、修不了、传不广、征不多”的六大问题,实现家谱服务全过程线上化,提升工作效率。
2家谱平台总体概述
项目将平台使用的用户进行了划分,分为普通公众、收藏机构、第三方企业以及运营方。不同类型用户对平台的需求如下:
基于对用户需求的理解,项目将平台的需求场景划分为:
一库查询:基于数字化扫描及数据共享,建立统一的家谱数据库,使公众可以在一个平台完成家谱相关信息查询。
一键读懂:归纳梳理形成直观谱系脉络,数字化展示家谱传承信息,让公众快速读懂复杂的家谱信息。
一链贯通:平台汇聚征集、保管、修谱等等各类信息与需求,为公众提供便利的编修、保管服务,为产业机构提供业务来源、为馆藏机构拓宽征集渠道。
一网多端:平台通过PC端、手机端、电视端等多渠道对家谱进行宣传,扩大优秀家风家训的传播力度,增强海内外华人的凝聚力、向心力,增强民族自豪感、自信心。
本课题在家谱数字化基础上,通过关联数据技术,建立家谱数字知识库,并且建立馆藏家谱数据与其他各个公共文化机构之间的数据共享标准,方便合作机构能够快速的获取家谱资源,以及按照统一的数据标准规范对家谱资源进行加工处理。
对于群众用户,平台通过家谱公众服务的搭建,满足其寻根问祖、家谱续修等服务需求;对于文博机构、科研院校等人文研究学者,平台利用关联数据技术提供多维度的可视化浏览、语义搜索、家谱知识挖掘等研究服务;对于产业机构,平台提供在线家谱续修、家谱征集等系列工具。通过建立统一支撑应用平台,最终实现有效打破馆藏各类家谱资源数据库相互隔离的封闭状态,推进数据开放,促进知识流动,提升产业应用价值,在开放利用中充分发掘其潜在价值。
家谱数据蕴含丰富的人文研究资源,对于历史等人文学者从事人文工作具有重要研究意义;此外,越来越多的用户或是在“寻根求源” 思想的驱动下,开始关注自身姓氏、家谱、家族历史变迁等方面,因此家谱知识平台要加大宣传力度,选用PC端网站、手机端小程序、电视等等多种数字媒体渠道等宣传方式,扩大用户群体,使丰富的家谱资源得到充分利用,并根据用户的意见和建议不断完善系统,从而更科学、有效地提高用户持续使用意愿。
3家谱平台关键技术路线
家谱数字化服务平台设计开发涉及多项关键技术,具体如下:
(1)语义检索技术
知识检索引擎是一个支持全文及图的语义检索引擎,它不仅支持简单的关键字检索,还支持多字段检索、分面检索等复杂检索,同时也支持从词语所表达的语义层次上来认识和处理用户的检索需求。区别于传统的关键词匹配检索,其基于领域知识图谱专题库所构建的语义的本体及关联关系,突破用户搜索的关键词、语句的字面意思,结合领域背景,深度理解用户搜索的需求,从而实现复杂的信息检索。
(2)知识图谱技术
在家谱资源的组织上,家谱被作为一种文献资源来提供服务,利用MARC 或 DC元数据对资源的文献 特征和少量内容特征作标引,提供基于题名、纂修者(著者)、版本、谱籍地、堂号、先祖等字段关键词匹配的检索,但是由于缺乏对文献内容的挖掘和理解,没有建立内容中的一些知识对象的关联关系,因此无法提供基于内容和知识的探索。从目前对家谱资源的利用来看,家谱作为一种宝贵的人文研究资料的价值还没有被充分发掘,而数字人文的方法和技术,尤其是知识图谱技术有助于改善这种状况。
知识图谱采用本体的语义技术来重构家谱数据,不仅仅提供描述文献特征的字段关键词的检索,还可以利用时空关联和亲属关系等内容特征来探索家谱资源和人物关系,并且能够用可视化技术展示家谱中人物之间的关系,包括血缘关系、或因处于同一时空而产生的关联关系,可以帮助学者快速地从海量的数据中发现新的知识。
(3)基于机器学习的OCR文本识别技术
光学字符识别(OCR)是指提取图像文件中的文本和语义数据,能够快速高效识别扫描文档,但是在文化领域由于存在海量的古籍资料存在着数字资源庞大、古籍文字字体多、版式较为复杂等问题,难以有效识别类似于家谱、地方志等专题古籍资源。随着深度学习的发展,我们可以通过新的算法技术解决传统OCR的局限性,基于机器学习的OCR文本识别技术主要是通过“文本检测”和“文本识别”。与传统OCR不同的是,基于机器学习的OCR的网络可以在大量的数据中自动学习出有用的特征,用于检测和识别模型,将文本识别人员从人工特征提取工程的过程中解放出来。对于复杂的环境,如不同形状、颜色、大小的字体;不同质量、背景、光照变化、几何变形的图像等,它也能产生比传统OCR更通用的结果。这是因为基于机器学习的OCR网络能够提取不变的特征,而不受变化的影响。此外,由于有大规模GPU并行计算的辅助,其处理速度比传统OCR快得多。
4家谱平台研究成果
天一阁家谱数字化服务平台通过制定数据交互、共享标准,实现家谱数据互通、共享共用;汇聚各方数据,提高家谱查询有效性;基于智能算法,高效挖掘家谱数据价值;发挥平台能力,打通修、编、藏各方需求;通过更广泛渠道,大力弘扬家谱文化,提升民族凝聚力。
家谱查询:支持输入关键词或根据谱名、姓氏、谱籍地、堂号、作者、先祖名人、朝代、馆藏地等条件快速查询已有家谱;支持基于地图查找家谱。
家谱征集:支持用户在线完成家谱捐赠手续;由专家基于用户提供的谱籍地、谱名、责任者、版本、内容、征集方式等信息和家谱图片判断家谱价值以决定是否入藏。
家谱识别:支持基于OCR和机器学习技术识别录入的家谱,导出为可编辑的文本,并支持自动生成世系图;
可对自动识别的内容进行人工审核、修改和反馈,以持续提升识别效果。
家谱续修:该功能可实现家谱快速录入、家谱内容按模块完整录入、家谱出版等,支持多用户操作,用户可以邀请和添加协作人员来帮助共同完成家谱的修撰。修谱前,需要新建机构和添加机构所属人员,才能编辑谱目。用户可以按照系统提示一步步创建家谱。在系统上进行在线修谱或续谱操作应该非常便利,世系表的编辑便捷、人员协作管理方便。
用户如果需要,还可以在创建好的家谱基础上,选择系统提供的家谱封面、样式等,在线发起电子家谱下载或者纸质家谱印制需求,系统可以通过第三方印刷机构帮助用户完成家谱印制。
管理驾驶舱:支持姓氏家谱统计、姓氏婚配统计、姓氏分布统计、平台使用者统计和第三方单位统计等功能;
统计分析结果以可视化图表的形式展示,可支撑家谱相关文化研究和平台管理决策。
5家谱平台创新与局限
本课题的主要创新点在于针对天一阁的文化历史知识,探索一种基于数据资源打通、知识服务为基础的融合性文博知识应用服务建设方法,为文博领域开展智慧化服务、智慧管理、智慧保护提供示范性案例,这将为其他文博单位的有效数据管理和智慧博物馆建设提供重要的借鉴经验。 课题不仅从古籍文物知识库构建领域进行了创新尝试,也从古籍文物的展示利用、修复诊断、知识挖掘等方面拓宽了旧有方式。
古籍文物知识库建设是基础研究性工作,建设的核心是构建古籍文物元数据标准规范,但针对细分类目如家谱、地方志、石刻文献等的元数据规范缺失,这是课题组在开始研究过程中未注意到的地方,在一定程度上影响了本课题的实施进度。针对古籍信息留取及精准表达困难等问题,相关展示管理平台已在信息获取,自动化表达等方面有所体现,但对文物相关记录还仅仅基于文本记录、照片、三维模型等方式,未来需要更全面、更深入、更多样化的进行自动化信息获取,最大程度的实现智能化记录数据。由于本课题的经费和时间有限,对于诸如基于多模态语义的知识检索等内容,仅能提出部分探索性的解决思路,难以进行足量的样本验证。另外如博物馆海量多源数据的存储压缩技术,如何在新型计算机设备或者云服务架构的基础上,高效压缩博物馆各类数据,要求做到数据不变形不丢失;博物馆原生数据与交互数据的边缘阈值如何界定划分,决策数据的(在博物馆某一业务领域)智能化应用等问题。
结束语
本文在课题框架下,结合天一阁博物院的实际工作情况,简要阐述了以家谱为馆藏特色的文物数字资源库建设和应用示范;国家图书馆、上海图书馆等单位近年也陆续进行了类似的有益探索,积累了一些经验和案例,但是对于古籍的知识深度挖掘和关联表达还比较欠缺;未来无论是知识图谱的构建工作,还是将知识数据服务于更多主题知识展览系统都还有许多方面需要进一步深入研究。
参考文献
[1]陈涛,刘炜,单蓉蓉等.知识图谱在数字人文中的应用研究[J].中国图书馆学报,2019,45(6):34-49.
[2]李章超,何琳.文化遗产语义组织研究进展[J].图书情报工作,2020,64(7):4-12.
[3]万静,严欢春,邢立栋.浅析知识图谱在智慧博物馆中的应用前景[C]//互联网时代的数字博物馆,2017.
作者简介
黄刚(1975.8.12—),男,汉族,浙江宁波人,大学本科学历,高级工程师,主要从事古籍数字化、智慧博物馆相关方面研究,现为宁波市天一阁博物院信息网络部主任。



京公网安备 11011302003690号