- 收藏
- 加入书签
基于知识图谱的数据标注在南充清代档案中的应用研究
摘要:本研究旨在归纳回顾与清代地方档案相关的元数据、数据标注的标准文献,以及对字库、图数据库平台应用项目中的技术进展进行追踪。同时,通过百度指数平台的图表数据,探讨平台在不同省份、城市、年龄和性别中的受欢迎程度,并评估智能体应用接入清代地方档案项目的潜在的影响力。为清代地方档案管理者推荐元数据管理、数据标注技术的接入标准,提供技术指南,并科学筛出现象级人工智能助手-- 以算法模型和多模态应用为核心的智能体。
关键词:数据标注;众包平台;智能应用
中图分类号:G275
一、引言
本研究采用文献整理、个案追踪、数据统计、图表分析等研究方法。通过追踪南部档案等清代地方档案的整理情况,提出该档案治理项目可利用图数据库,建立统一的行业标准。通过收集和整理Kimi、Deep Seek 与众包平台在中国的搜索数据。(数据来源为 2013年7 月1 日至2025 年5 月11 日的搜索记录。)从产业发展视角看,数据标注技术的落地离不开政策与组织模式的支撑。国家工业信息安全发展研究中心提出 “优化区域布局” 等建议,为清代地方档案治理的技术选型提供了宏观参考 [1], 。
二、从知识地图到图数据库的技术应用
(一)市内外研究现状述评
1. 知识图谱在数字人文中的理论研究现状:
首先,关于“清代地方档案”资源的研究,2021 年已形成了以中国社会科学引文和中国知网等数据库收录论文为主的文献 18 篇。但仅有几篇议题针对清代档案治理进行综述,重要的如《明确边界:清代地方档案研究的若干问题》。相关学者认为清代地方档案研究的路径至少包括档案保存、流转与整理 , 档案文书学 , 专题研究三个方面(吴佩林,2021)。
近年来,国内学者对“知识图谱”概念的论述较多,主要有:刘峤教授定义知识图谱为结构化的语义知识库(刘峤,2025);李涓子教授认为知识图谱提供了一种更好地组织、管理和理解互联网海量信息的能力(李涓子,2025);知识图谱技术涉及数据、算法、工具和系统等多个维度。它是一种高质量的数据,通过积累高质量的数据沉淀领域知识(陈华钧,2025)。
2. 基于知识图谱的数据标注在数字人文中的具体应用:
在数据标注实践中,组织模式的选择直接影响项目效率。尹丽波主编《人工智能发展报告》提到:国家工业信息安全发展研究中心提供的资料表 14-2 显示,目前主要存在众包、工厂、基地三种数据标注模式 [2],其规模化特征与档案治理需求的匹配度可分阶段进行探讨。
2.1 基于语义知识图谱的数据标注。
国外学者的研究主要围绕基于语义知识图谱的数据标注。二十世纪九十年代,海外学者提出过基于知识辅助搜索 / 或处理的综合管理系统(大卫·比尔曼,1990),它的数据业务管理者可选择“创建一个知识库,该知识库将搜索和处理链接,结果留在计算机记录中,并可将搜索转换为较窄术语或学名”(大卫·比尔曼,1995)。利用计算机对档案资源进行语义分析及构建自动化数据标注模型,通过进行标注,成为一种档案资源归档管理的新范式(德克·鲁达;查尔斯·范登赫维尔 ,2014)。国外通过对 1820 年至 1850 年间收集的 8000 个实地书页的图像扫描来证明语义模型和注释方法的适用性,并与自然和文化历史领域的专家一起进行评估(丽丝·斯托克等,2018)。
而聚焦清代地方档案,省内学者主要围绕基于语义知识图谱进行了数据标注的数据准备工作。首先是以数字化出版物为对象的档案数据信息建设。前期,有学者对我市档案馆收藏的清代地方档案资源之一 -- 清代四川南部县衙档案 -- 的原始文献进行过数字化和网络化的工作。著录和缩微胶片 8 万多件,编成二次文献,如《清代南部县衙档案目录》三卷(左平,2005-2009)。并邀请国家图书馆专家进行数字化,对每一件档案进行摘要(蔡东洲和吴佩林等,2011- 至今)。后期,又对南部县衙档案进行全面规范的整理,出版书籍 100 本。近年,也有相关的学术论述及国家重大社科项目的学术研究成果出版。其次,在具体的项目中开展了丰富的清代地方档案的数字人文的准备工作。南部县衙档案的著录,结合于《明清档案著录细则》,制定了《清代南部县衙档案著录细则》(左平,2015)。
综上,本研究认为众包模式以 10-100 人小微团队为主(如多平台线上接单),而基地模式由地方政府运营,可实现 1000 人以上集中培训,其规模化协作更适合诸如清代南部县衙 8 万件档案的批量处理。
2.2 基于广义知识图谱的数据标注。
国内学者认为,知识图谱可分为基于 RDF 存储的语义知识图谱( 关联数据 ) 和基于图数据库的广义知识图谱。前者侧重于知识的发布和链接,后者侧重于知识的挖掘和计算(刘炜,2019)。一些著作从实践维度拓展“知识图谱”在技术栈、图算法与知识分析等过程中的应用。例如,认为其技术栈涉及从数据来源、数据采集、图谱构建、智能服务和业务应用多个层面。知识问答是利用知识图谱数据的主要形式之一。(陈华钧,2025)。
进而,课题向市内外的重要专家学者进行文献调查与通讯访问。调查得知,吴佩林基于“戳记”(一种图文)的研究,进行了 2945个人工标注(李义敏,余承霖,2019)。
省外学者创造性地利用众包平台活化了清代地方档案资源,有的还搭建了关联数据平台:吴佩林组织了孔府档案相关内容的发布与链接,主要应用是网站与博客;刘炜组织了《盛宣怀档案众包抄录平台》,将语义知识图谱应用于数字人文的系统框架,在此基础上构建了中国历代人物传记资料库的关联数据平台(CBDBLD)。 总之,广义知识图谱研究中丰富的图运算和关联数据的结合将会成为数字人文领域研究的下一个热点, 从而开启数字人文研究的新时代(刘炜,2019)。
“在数字人文项目中,数据标准是至关重要的一环,它涉及到计算机视觉识别产品相关的数据资源进行规范,需要围绕计算机视觉识别产品的全生命周期过程。”这一观点在《计算机信息安全与人工智能应用研究》(缪际星,2023)中有所提及,强调了数据标准在计算机视觉识别产品中的重要性,为数据资源的规范提供了全面的视角。
综上所述,市外的清代档案知识管理已从语义知识图谱平台层面展开了应用研究,并认为知识图谱是清代地方档案数字人文的重要概念。国际上已有国际图象互操作 IIIF 协议与相关图数据库的理论和应用,数字人文前沿理论与最新技术不断深化;在国内,虽也有数据库已收录部分的清代档案,构建了付费的语义知识库。但由于清代地方档案及其众包抄录平台各自存在的实际以及地方档案本身的特异性,乃至国内清代地方档案的数字资源形成数据孤岛,其知识图谱与关联数据仅得到了较为有限的研究应用。
(二)本研究意义与作用:通过研究知识谱图在数据标注实践中的现状与应用,可推进清代地方档案在数字人文方面的发展。为市内外的清代地方档案资源提供数字人文技术指南、数据(集)共享机制、数据标准梳理与数据管理指导意见,增强数据孤岛对于广义知识图谱理论和技术的理解运用。
1. 提供基于数据库项目的字库、图数据库前沿技术指南。
随着资源的开放共享、前沿技术的推广进步,许多学术平台机构数据库已推出基于数据库技术的专类检索子库 -- 图片数据库,如CNKI 学术图片库。国内学者从理论角度,分享了图数据库类型:从检索途径来看,有以关键词搜图和以图搜图两种。(吉久明,孙济庆 2025)[3]。如知网学术图片库 -- 针对学术图片的机构知识库,主要以关键字搜学术图片,并添加了多种针对学术图片的属性标签,可对学术图片进行分类筛选。
而国外的许多大型网络搜索引擎平台推出了基于图片的以图识图功能。另外,国内许多一流研究、文化机构基于元宇宙、数字孪生、物联网、大数据等前沿技术的数字人文项目,融合诸如光学OCR(实物与数字信息的转化 -- 实物图像识别技术)、VR、AR、IV 等技术的多元应用,极大地丰富了历史文化项目的内涵。
本研究基于以上两点,认为在实际项目进程中,常常需要对多模态、多机构知识库的数据进行批量共享、处理、研究。万方数据平台提供的特色资源 -- 科学数据 -- 库中的同类数字人文项目,推荐了众多同类项目数据集。
2. 通过共享 RDF 三元组模型数据集,共建清代地方档案的知识图谱,搭建数据资源平台,为数据孤岛搭建共享机制。
万方数据平台首页推出了特色资源库 -- 科学数据,相关研究人员共享了基于数据集的图数据库数据信息。清代地方档案项目可通过万方数据平台根据学科、主题进行筛选,实现数据资源的有效共享。
清代地方档案的数字人文项目可根据相关标准、协议,分级共享数据集。例如,RDF 数据集的共享。本文所讨论的 RDF 三元组主要也是指包括了元数据各字段内容的资源数据文件。
3. 梳理档案数据多模态类型及其标准,利用专利技术展开治理。
3.1 档案数据类型丰富。
除了原始文本的数字版本,还有各种数据集。诸如档案整理过程中产生的“元数据”。另外,还有针对多模态类型结构化数据的统一管理系统。以及涵盖了图形研究产生的二次、三次文献的数字人文项目-- 数据孤岛。
大量结构化数据与多模态数据共同构成的数据孤岛,其治理需要管理者利用具有应用程序开发功能的操作系统。例如,档案管理者可借鉴图书馆等文化机构的经验,引入诸如 ALEPH500 此类可开发新应用的管理系统。
3.2 海外、国内文化机构已知的档案文献、数据信息管理的相关标准。
通过中国大学 MOOC 智能助手 -- 小慕,本研究对平台中精品课程的内容进行梳理,整理了相关专家、学者关于档案文献的元数据标准如下:
(1)通用标准——文献信息元数据标准分类。元数据按照不同维度有多种分类方式。
(2)专类标准——档案文献元数据标准
档案作为政府出版物是一类特种文献,需要参考其专类标准。其中 iso 23081 系列标准、ead、premis 等是档案领域较为典型和重要的元数据标准,这些标准在规范档案文献元数据管理、实现系统互操作等方面发挥着重要作用。
(3) 垂类标准——数据标注信息标准
另外,在万方数据库进行标准文献的检索、按学科进行相关性筛选,虽无直接针对清代地方档案的具体标准,但与“数据标注”相关的系列标准较多:数据标注相关的标准主要可分为人工智能领域和非此领域两类。
综上所述,针对档案文献的专类标准和数据标注技术的主要标准制定并执行以上通用文献信息元数据、档案专类以及垂类数据标注技术主要相关标准,为实现多模态数据的规范使用与管理奠定了基础。标准体系的缺失制约了多模态数据治理,而国家层面的政策建议为此提供了解决路径。国家工业信息安全发展研究中心建议 “建立数据分级体系”与清代档案元数据管理需求高度契合。例如,可参照该体系对档案 “戳记” 等特殊元数据进行权限划分。进而确保《清代南部县衙档案著录细则》的落地。
3.3 “Folio”的提出,开源软件系统可实现对多模态数据文件的综合利用。
作为一种计算机系统专用文件,Folio 在不同的语境中有不同的含义,以下是与档案管理系统相关的常见解释:文件夹或文件夹中的文件。它指一个文件夹或者文件夹中的文件集合。
4. 为清代地方档案治理提供数据标注的管理实践指导
在开展清代地方档案相关研究和实践时,需注意标签优化、数据来源精简、敏感数据规避、数据库轻量化、数据平台渐进建设、数据标注产业集群化发展以下六个数据管理策略:
(1)例如在档案元数据提取中,聚焦关键信息(如 “戳记”、时间、机构等),而非全面覆盖所有细节字段。
(2)如初期可基于《清代南部县衙档案目录》等已有结构化目录数据开展标注,待验证不足后再引入其他档案影像数据。
(3)例如对档案中涉及个人隐私(如清代官员履历中的家庭信息)或机密信息的内容进行脱敏处理或排除标注范围。
(4)无需建立独立数据库,降低系统搭建和维护成本。适用于小规模档案数据的初步分析,如针对某类专题档案(如赋税档案)的小规模标注实验。
(5)先明确团队用于数据探索和管理的工具(如图数据库查询工具、标注软件等),待需求清晰后,以 “数据湖” 为核心构建集成平台,实现多模态数据(文本、图像、元数据)的统一存储与管理。例如在完成档案数字化、元数据标准制定和标注流程验证后,再基于 “数据湖” 架构整合各类数据资源,避免资源浪费。
(6)标注产业快增,管理者可注重从市场规模、地域分布、AI主导发展方向和特色企业等方面展开决策。
第一,数据标注产业的快速集群化发展为清代地方档案治理带来新机遇。其市场规模迅速增长,形成了以核心城市为中心辐射次级城市的产业布局。第二, AI 技术对数据标注领域产生巨大影响,包括需求增加、标准提升、智能化发展等。AI 技术的发展对清代地方档案标注影响显著。第三,数据标注服务市场的代表企业各具业务特色。[4]
三、人工智能应用的人群画像 -- 公共文化机构应对清代地方档案项目的治理策略。
1950 年,图灵发表《计算机器与智能》,简要对比了基于规则的人工智能和机器学习;1958 年,康奈尔航空实验室研究员弗兰克发明一种机械神经元“感知机”,设计了一个由 400 个光传感器组成的像素为 20 的摄像头,传感器的输出和感知机相连,机器学会识别视觉模式。[5] 而此后十几年,机器学习领域技术被搁置。
但 21 世纪,随着人工智能技术在算法优化、智能应用两个方面的发展与推广,许多文化机构在数字人文项目中已使用人工智能助手。在接入算法模型方面,DEEPSEEK 表现优越,又是本土算法模型,是做历史人文数字项目的首选。
本研究利用指数数据揭示的趋势分析和人群画像,从以下几方面作适合清代地方档案的智能助手分析。
(一)多元智能项目的人群画像
1. 地域分布
通过百度指数平台的图表数据,分析 Kimi、Deep seek 与众包平台在中国各省市的搜索指数。结果显示,广东省的搜索指数最高,其次是北京、江苏、河北、河南、山东、上海、四川、浙江和湖北。广东、北京等地区搜索指数较高,这与 “优化区域布局” 的政策导
4 何静 向安玲 . 解构 Chat GPT. 清华大学出版社 .2024.06.27.
5 李飞飞 . 我看见的世界:李飞飞自传. 中信出版集团.2024.04.01向形成互证-- 政策扶持推动了数据标注产业在经济发达地区的集聚,进而加速了 Deep Seek 等算法模型在当地的档案项目中的应用。在经济发达地区,这些平台的市场渗透率较高。
2. 人群属性分布
图表展示了 Kimi、Deep seek 与众包平台在不同年龄段的搜索占比。20-29 岁年龄段的搜索占比最高,其次是 30-39 岁和 40-49 岁年龄段。这可能与该年龄段用户对新技术的接受度较高有关。
2.1 年龄分布
图表展示了≤19 岁和≥50 岁年龄段的搜索占比相对较低。
根据以上年龄分布研究,结合通讯访问得知众包平台的主要使用者为研究生院学生等实事,本研究认为,工具主要使用者的年龄数据与“搜索占比最高”的数据基本相符。
2.2 性别分布
图表显示了 Kimi、Deep seek 与众包平台在不同性别中的搜索占比。性别分布显示,男性用户对这些平台的关注度更高,这可能与男性用户对科技产品的兴趣较高有关。
图表显示男性用户的搜索占比明显高于女性用户,尤其是在Deep seek 和众包平台中,这一趋势更为明显。
(二)多元智能助手的人群画像
在以上指数数据的量化分析基础上,本研究认为采用接入 deepseek 的智能助手到众包抄录平台的方式,可能提高清代地方档案项目的使用效率。本文具体对比字节跳动的豆包、百度的文小言、腾讯元宝、Kimi 和即梦 AI 等智能工具的搜索指数、人群画像和兴趣分布等数据进行分析。以下通过提取热门智能助手作为同位关键词,进一步分析适合清代地方档案相关数字人文项目的智能助手:具体搜集2011 年1 月1 日至2025 年6 月4 日期间,以上工具的搜索指数变化情况。可见,豆包的搜索指数显著高于其他工具,表明其在用户中的知名度和使用频率较高。Kimi 的搜索指数也相对较高,显示出其在用户中的受欢迎程度。相比之下,文小言、腾讯元宝和即梦AI 的搜索指数较低,表明其在用户中的知名度和使用频率相对较低。
综上本文认为,男性用户的总搜索占比明显高于女性用户,尤其是在算法模型 deepseek 和众包平台中,这一趋势更为明显。而女性则更青睐智能助手 Kimi 、算法 deep seek。档案众包抄录平台项目可根据具体项目的网络 UGC 的受众人群及其性别因素再深入分析。女性用户较多的项目可考虑接入算法模型 deep seek 的 AI 助手 , 具体如豆包、文小言、小慕、腾讯元宝、Kimi 此类个性化的智能助手;而多模态助手如即梦 AI 则更为男性用户所青睐,例如阿里巴巴达摩院研发的通义系列多模态助手则更适合男性用户。男性用户较多的项目可考虑接入了算法模型的多模态智能助手到众包抄录平台。
四、结论
清代档案治理面临数据孤岛、标准不统一等挑战,本研究通过政策对标、文献调研、指数分析,形成以下建议:
(一)区域布局:参考《人工智能发展报告》所述基地模式,在四川等搜索指数较高的地区推动政府主导的标注中心的建设,解决 8 万件档案的规模化处理需求;
(二)标准研制:以 PREMIS、EAD 等档案标准为基础,融合 “数据分级体系” 政策建议(《人工智能发展报告》),结合“数据标注”的相关行业标准文献,特别是人工智能相关现有标准,建立清代档案元数据规范;
(三)技术接入:优先选择 Deep Seek 等本土算法模型,其在20-29 岁高接受度人群中的渗透基本匹配档案众包项目的人员结构。
以上研究,为清代地方档案治理的相关文化机构在数据多模态治理、技术标准、选择 AI 模型、接入智能助手及其方式等方面,提供了具有产业集群效益、高新技术推广价值、智能产品优化意义的参考咨询。
参考文献
[01] 吴佩林 . 明确边界:清代地方档案研究的若干问题 [J]. 南京社会科学 ,2021,(4):173-180
[02] 陈涛 , 刘炜 , 单蓉蓉等 . 知识图谱在数字人文中的应用研究 [J] . 中国图书馆学报 ,2019,45(6):34-49
[03] 张永娟 , 刘炜 , 于建荣等 . 基于 IIIF 和语义知识图谱的印章资源整合与知识发现研究 [J] . 图书情报工作 ,2020,64(7):127-135
[04] 刘炜, 刘倩倩. 生成式人工智能十大趋势与公共文化机构的应对策略 [J]. 图书馆建设 , 2025, (01): 4-14.
作者简介:王黎黎(女、馆员);基金项目:南充市社会科学研究“十四五”规划项目“基于知识图谱的数据标注在南充清代档案中的应用研究”(NC22B221)
京公网安备 11011302003690号