- 收藏
- 加入书签
中共满洲省委旧址知识图谱构建研究
摘要:革命旧址承载的历史信息存在知识单元粗粒度、分散无序等问题,制约其历史价值的系统化传播。本文立足数字人文视角,以中共满洲省委旧址为研究对象,聚焦知识图谱构建核心流程,通过多源数据采集整合革命文化信息,基于文化基因理论,聚焦隐性文化基因提取核心要素,复用通用本体词表构建适配革命文化特征的本体模型,借助 LTP 平台完成知识抽取、融合与Neo4j 存储,最终实现革命旧址隐性文化基因相关信息的结构化整合与可视化呈现。构建的知识图谱包含 1044 个实体节点与1351 对三元组关系,支持精准检索与隐性关系推理,为革命文化的智能化传播与深度价值挖掘提供技术支撑,可为同类革命旧址的数字化保护提供实践范式。
关键词:中共满洲省委旧址;信息可视化;知识图谱
1 引言
中共满洲省委旧址作为中国共产党在东北地区早期革命活动的核心阵地,是辽宁省重要的不可移动革命文物,其承载的历史信息涵盖革命人物、事件、组织、文献等多个维度,是研究东北革命史的重要实物载体。然而,该旧址作为东北地区革命历史的重要载体,其当前的信息体系面临严峻挑战:茧房效应使得传播内容低质化、旧址信息资源缺乏有效组织且旧址数据之间缺乏有效联系[1],不仅限制了历史信息的传播与弘扬,也无法满足大数据时代对知识化数据的需求。
借助智能化的理论方法对革命旧址进行活化利用、精神内涵挖掘和文化基因提炼,是革命旧址“活起来”的关键[2]。技术凭借其在实体关联建模、可视化展示、知识推理等方面的优势,利用旧址间潜在的联系形成三元组,构建革命旧址知识库,实现信息的有效组织,为旧址资源的融合与共享提供基础[1]。现有革命旧址数字化研究多聚焦单一资源采集存储,缺乏细粒度语义关联与可视化整合,而知识图谱在革命旧址领域尚未形成适配其特征的完整构建流程。鉴于革命旧址隐性文化基因集中承载革命人物、事件、组织等核心历史信息,是传承革命精神的关键载体,为此,本文以中共满洲省委旧址为实例,聚焦知识图谱构建全流程,通过要素提取、本体建模、知识抽取、融合、存储、应用的技术主线,实现碎片化革命信息的语义化关联与结构化呈现,为革命文化的创新传播与智能化应用提供技术支撑。
2 构建图谱核心流程框架
2.1 数据采集与要素提取
针对革命旧址信息的数据多样性和空间分散性,采用多源数据采集整合策略:借助八爪鱼采集器等爬虫工具从党史官网、纪念馆数字化平台爬取非结构化文本与半结构化数据, 通过实地考察中共满洲省委旧址纪念馆,补充实物文物信息与场景细节,确保数据全面性与准确性。基于文化基因理论核心思想,聚焦隐性革命文化核心要素提炼,明确图谱构建的核心实体维度,为后续本体建模与知识抽取提供依据。
2.2 本体模型构建
通过构建领域本体模型来实现革命旧址的信息组织。本文“七步法”对领域信息进行逻辑化和体系化描述,并通过本体模型对提取的革命旧址隐性文化基因及其层级关系进行语义化关联体系搭建。复用国际通用本体词表,结合革命文化特殊性补充专属关系定义,形成包含6 类核心实体、18 项数据属性与16 类对象属性的本体模型。
2.3 知识抽取、融合与存储
考虑到数据的多源性以及信息的抽象性,依据本体模型抽取实体、关系与属性,通过实体消歧、属性去重完成知识融合,将标准化RDF 三元组存储于Neo4j 图数据库,实现知识图谱结构化构建。依托Neo4j 可视化功能展现实体关联网络,利用Cypher 语句查询完成革命旧址知识图谱的可视化展示,层层递进的挖掘革命旧址信息资源[3]。
3 革命旧址本体模型核心要素
在数智化时代,挖掘革命文化的符号和内涵,将其提炼为可被计算机识别和存储的文化基因,有利于对数据进行细粒度分析,是对信息进行有效管理和创新应用的基础。采用本体构建方法对隐性文化基因进行有序化组织,并将隐性基因之间的关系作为连线,可以构建数字化的网络关系。由此信息将被整合为具有整体性、层次性和结构性的聚合体,实现系统化整顿、创造性转换。
3.1 革命旧址文化基因的提取
本文以革命旧址为研究对象,从文化基因的研究视角提取和解析旧址中的显隐性文化基因。通过借鉴生物信息学的研究方法,对文化元素进行归类,基于某类文化元素确立具体的旧址信息种群,对种群中的核心文化元素进行提取[4],优先挖掘承载革命历史核心脉络的非物质形态信息,明确图谱构建的核心实体维度:人物、组织、事件、文献、地点、时间,为后续本体建模与知识抽取提供明确依据。
3.2 革命文化信息的本体模型构建
本体作为描述知识的抽象化模型,有利于分析数据信息的结构特征,能够明确领域内概念与概念之间的关系,提供信息沟通和知识共享的形式化规范说明。本研究基于斯坦福大学提出的本体构建“七步法”,构建革命旧址隐性文化信息的知识描述本体模型。重点复用国际通用本体词表确保规范性:参考CIDOC-CRM 本体描述组织、文献等实体,FOAF 本体描述人物属性,SHL 本体描述地点信息,SEM本体描述事件特征,结合革命文化特殊性补充专属关系定义,最终形成包含6 类核心实体、18 项数据属性与16 类对象属性的本体模型,如图1 所示:
图 1 革命旧址本体模型框架

4 中共满洲省委旧址知识图谱构建流程
4.1 知识抽取
获取到的数据大部分来源于人工收集,且非结构化文本主要来自对中共满洲省委旧址的线下调研,由于原始数据缺乏统一的结构化规范,导致数据结构与知识结构之间存在不一致,需采用相应的知识抽取方法将数据转化为易于计算机识别和存储的结构化数据。知识抽取是指参考概念层本体模型,从多源异构数据源中提取所需的信息,将数据转换成“实体−属性−属性值”或“实体−关系−实体”形式的三元组知识, 包括实体抽取、属性抽取及关系抽取[5]。本研究采用目前开源的数据抽取模型——哈尔滨工业大学开发的中文语言技术平台。重点利用该平台的依存句法和语义角色标注功能,依据本体模型定义的语义框架,完成实体、关系与属性的三元组抽取,具体包括 6 类实体、16 类关系和18 个关键属性的提取。
抽取后的知识单元使用RDF 数据模型的语义网络架构标准化表示,通用的表达形式为:“实体-属性-属性值”和“实体-关系-实体”两种三元组框架。例如,以“陈为人1899 年生于湖南省江华县百家屋村”为例,抽取结果可表示为三元组:<陈为人,籍贯,湖南省江华县百家屋村>和<陈为人,出生时间,1899年>;再如“杨靖宇组建中国工农红军第三十二军南满游击队”,可抽取为三元组:<中国工农红军第三十二军南满游击队,创办人,杨靖宇>,实现非结构化数据向结构化知识的转化。
4.2 知识融合
在知识抽取后得到的RDF 三元组,可能会出现术语重叠或多义性等问题,因此需对抽取的数据进行融合。知识融合旨在整合和清理抽取结果,减少冗余和歧义,确保知识的准确性和一致性。本文针对信息数据的知识融合过程,重点在于实体层面的融合以及属性值层面的统一处理。实体融合:针对革命人物姓名存在别名、化名的问题,参考权威党史资料进行规范化处理,统一规范为常用名,并关联其别名完成实体消歧,举例来说,林育英字祚培,曾使用过张浩、李福生、仲丹、陈子贞等化名,本文在综合考量后,统一将其姓名规范为“林仲丹”以完成实体消歧。在属性值融合过程中,依据属性的特性,通常将信息的数据属性划分为单值属性和多值属性。如针对“文献的概述”这一单值属性,需要从多个候选值甄别出最有效、最准确的属性值作为最终值,其思路是计算候选属性值的可信度并按照从小到大的顺序排序,可信度最大的属性值作为该属性的最终值。而对于多属性值,则只需要合并并消除相同表述值即可获得某个属性的最终值[6]。
4.3 知识存储与可视化展示
对于经过抽取和融合后的三元组数据,选用Neo4j 图数据库进行知识存储与可视化展示,其作为典型的知识图谱可视化工具,具备高可用性、可扩展性以及良好的ACID 支持,从而实现高效的知识检索与可视化呈现。Neo4j 通过 Cypher 语言进行数据交互,例如在存储三元组<陈为人,相关文献,《红旗报》>时,构建的存储语句为:
MERGE(head1:人物{name:'陈为人'})MERGE(tail1:文献{name:'《红旗报》'})MERGE(head1)-[:相关文献]->(tail1)。
Neo4j 的图数据库采用图模式存储数据,其中节点代表旧址文化基因中的实体,如人物、时间节点、地点、文献等,边则表示这些实体之间的关系。如图 2 所示,最终构建的中共满洲省委知识图谱,包括1044 个实体节点知识,1351 对三元组关系,形成了覆盖革命人物、组织、事件、文献、地点、时间的完整知识关联网络,实现了革命旧址隐性文化信息的结构化整合。
图2 中共满洲省委文化知识图谱(局部)

5 知识图谱可视化应用与验证
5.1 数据检索与知识查询
利用知识图谱技术搭建的革命旧址知识库,能够实现语义检索、知识推荐、可视化 展示与知识问答等应用研究[3]。其中,Neo4j 图数据库基于Cypher 查询语言实现高效精准检索,相较于传统关系型数据库的结构化查询语言,展现出更高的便捷性和高效性。以“杨靖宇”为例进行检索,通过构建 Cypher查询语句:MATCH(p:人物{name:"杨靖宇"})-[r]-(related) RETURN p,r,related;,用户可以快速准确地获取到与“杨靖宇”相关的节点和关系。查询结果直观地展示了杨靖宇相关的事件(组建抗日游击队)、关联组织(辽宁义勇军)、重要文献(《为响应中日大战告发东北同胞书》)等实体信息,进一步地,基于关系可以对对相邻节点进行查询,清晰呈现其革命活动脉络。
5.2 知识关联与知识推理
知识推理的核心功能在于延伸知识图谱架构,引导用户沿实体间的联系探索更多相关信息,从而发掘新的知识体系。其主要目标是基于现有的实体关联,通过推理在非直接相连的实体间构建新的联系。
在本文构建的知识图谱数据库中,信息通过对象属性而相互关联,形成知识链接。以“辽宁义勇军”为起点的推理过程为例:首先通过“创办地点”关系关联到“辽宁省锦州市”;点击“辽宁省锦州市”节点,发现其通过“创办地点”关系同时关联“中共沟帮子铁路支部”;进一步探索可知,该支部创始人欧阳强通过“组织事件”关系关联“花红运动”,且该事件与刘少奇、杨一辰等人物存在关联。这一推理过程串联起组织、地点、人物、事件等多类实体,实现了隐性历史关联的可视化呈现,帮助用户构建立体化的历史认知。
6 结语
本文立足数字人文视域,以中共满洲省委旧址为研究对象,聚焦知识图谱构建核心流程,通过多源数据采集、隐性文化核心要素提取、本体模型构建、知识抽取与融合、Neo4j 存储与可视化等关键步骤,成功构建了包含1044 个实体节点与 1351 对三元组关系的革命旧址知识图谱。该图谱实现了革命历史信息的结构化整合与可视化呈现,具备精准检索与隐性关系推理功能,为革命文化的智能化传播、党史研究及红色教育提供了高效技术工具。提出的要素提取、本体建模、知识抽取、融合、存储、应用完整流程,可为同类革命旧址的数字化保护与知识图谱构建提供实践范式。
本研究仍存在一定局限性:数据采集范围有限,数据丰富度有待提升;知识抽取后的部分实体和关系存在歧义,依赖人工修正,自动化精度有待提高。未来将从三方面推进研究:扩大数据采集范围,整合东北地区更多革命旧址的历史信息,丰富实体类型与关系数量;基于革命历史文本语料进行数据标注,训练专属知识抽取模型,提升抽取自动化精度,减少人工干预;拓展应用场景,开发基于知识图谱的智能问答系统、革命历史场景还原工具等,为红色教育、纪念馆数字化展览等提供更丰富的服务,推动革命精神的活态传承。
参考文献:
[1] 张 敏 . 面 向 文 物 领 域 的 知 识 图 谱 构 建 技 术 研 究 [D]. 西 北 大学,2021.DOI:10.27405/d.cnki.gxbdu.2021.000022.
[2]洪亮,宋睿,朱丽雅,等.知识关联视角下的文化遗产知识大图研究:理论、方法和趋势[J].图书情报知识,2022,39(02):133-143.DOI:10.13366/j.dik.2022.02.133.
[3]葛勇文.革命文物知识图谱构建研究[D].河北大学,2021.DOI:10.27103/d.cnki.ghebu.2021.001515.
[4]周树斌,高劲松,张强,等.文化基因视域下诗词资源多维知识重组与可视化研究——以茶文化为例[J].图书情报工作,2023,67(16):111-123.DOI:10.13266/j.issn.0252-3116.2023.16.011.
[5]徐绪堪,朱佳莹,陶声婷.水工程文化遗产知识图谱构建与问答应用研究——以大运河江苏段为例[J/OL].情报科学,1-19[2025-12-27].https://link.cnki.net/urlid/22.1264.G2.20240701.1715.016.
[6] 张 云 中 , 李 茜 . 沪 上 名 人 故 居 知 识 图 谱 构 建 与 应 用 研 究 [J]. 情 报 科学,2023,41(10):1-11.DOI:10.13833/j.issn.1007-7634.2023.10.001.
项目基金:2023 年度辽宁省社会科学规划基金项目“辽宁不可移动革命文物的数字化保护和活化利用研究”L23BDJ004
京公网安备 11011302003690号