- 收藏
- 加入书签
数据驱动视角下的高校图书馆AI 馆员系统构建逻辑与技术路径研究
摘要:人工智能时代下,如何利用 AI 技术服务信息需求成为信息服务的新趋势,AI 馆员是高校智慧图书馆建设的重要举措之一。本文定位于“基于超星数据基座的高校图书馆 AI 馆员”的前期理论探索与架构设计,系统梳理了其构建逻辑与技术路径:阐述了高校用户由“获得资源”转变到“发现知识”的必然性,明确了 AI 馆员从“被动回答”到“主动服务”的角色转变,并以此为基础对超星数据基座的数据资源融合管理、知识图谱挖掘方法以及其支撑下的智慧服务的设计思路进行分析,给出了问答推荐、引导阅读、辅导学习等功能的具体设计方法。同时,从工程落地层面提出了系统优化策略,通过引入缓存与负载均衡技术保障高并发场景下的可用性,并借助规范化API 接口实现与统一身份认证平台及LSP 系统的深度集成。
关键词:AI 馆员;智慧图书馆;超星数据基座;知识图谱;个性化服务;人机交互
1 引言
在新一代信息技术不断发展的背景下,“资源中心”到“智能服务中心”的转变是高校图书馆的服务理念由馆藏资源实体的镜像化到服务方式智能化的一种转变。用户需求不再是单纯的阅读、借还书等功能,而是更加注重知识获取、研究支持以及学习帮助等方面的需求。但传统 OPAC 检索服务受制于简单地以词找词,不能完全了解用户的复杂意图;咨询台的服务又受限于时间空间及人力资源,无法实现随时随地的咨询解答。
AI 图书馆员是将人工智能应用于图书馆中的具体实践,以期实现基于类人馆员思维模式的知识服务智能化和个性化的目标 [1]。特别是以超星数据基座为代表的商业平台,为高校图书馆提供了前所未有的数据基础。目前,虽然国内外学者已从多个角度对智慧图书馆进行了深入的研究,但是多数仅停留在单点技术的应用层面或者进行概念性的架构设计上,没有针对“数据-知识-服务”的整体建设路径展开研究。尤其是对于如何利用超星数据基座等海量商业数据平台实现实用化的AI 馆员系统的方法和技术探讨不足。因此,笔者尝试立足于数据驱动的底层逻辑,并基于新技术应用以及具体项目的探索经验,就AI 馆员系统的建设思路、核心技术以及落地场景做简要梳理,旨在为高校图书馆智慧化跨越发展提供参考借鉴依据。
2 用户需求演变与 AI 馆员的服务定位
AI 馆员系统的顶层设计必须锚定用户需求的变化。深入剖析高校师生的行为特征与信息痛点,是系统功能规划的逻辑起点。
2.1 高校图书馆用户需求的深层变革
互联网环境下的大学生信息需求表现出明显的“碎片化”“专业化”等特点。一方面,在浩瀚的数字资源面前,“信息爆炸”与“知识匮乏”现象愈发严重,大学生们常常陷入信息资源碎片化的困境之中而无法获得有效的知识。另一方面,不同层次的学生有着不同的学习需求,如大一学生以通识类知识以及学习方法引导为主,对于研究生和教师来说,关注点是研究进展跟踪、研究技巧更新以及论文撰写咨询。过去粗放式、“一刀切”的服务难以满足此类群体个性化、多元化需求,他们希望由单纯的信息资源提供者转变为事实性信息、对策性意见的提供者。
2.2 AI 馆员的角色重塑与价值锚点针对上述需求偏移,AI 馆员的服务定位应实现三重维度的跃迁:
一是服务模式的主动化。基于对用户的画像及行为的预测,AI 馆员应当能够感知用户可能的需求,实现由“人找书”到“书找人”的转变[2]。
二是服务内容知识化。跳出单纯文献检索的物理范畴,运用知识图谱技术将分散的信息进行语义关联,直接解答事实性问题或者提出解决问题的方法和建议,由单纯的“文献提供者”转变为“知识顾问”。
三是服务场景的全域化。AI 馆员应当打破物理围墙,嵌入教学科研全过程之中,成为学生身边“智能助教”和教师身边“科研伙伴”,提供伴随式的知识帮助。
3 基于海量数据基座的知识图谱构建技术
知识图谱是 AI 馆员产生认知智能的“脑袋”,如何构建高质量的知识图谱,特别是学科领域的知识图谱,是突破数据孤岛、开展语义推理的前提条件。本节主要介绍基于超星数据基座建设知识图谱的方法。
3.1 多源异构数据的整合与清洗
数据是基础,好的数据才能构建出高效的图谱。高校图书馆的数据资源具备多源异构的特点,有 MARC 数据这样的结构性数据,也有 XML、JSON 这样的半结构化数据,还有 PDF 文献、音视频这些非结构化数据。本研究以国内主流的超星数据基座为例,探讨其海量多源数据的整合清洗方法,而超星数据基座是国内规模较大的一个学术资源集成商,在其中积累了大量的图书元数据及期刊文献,为实现海量级学科知识图谱奠定数据基础。
但是,源数据中还存在噪声数据、属性缺失以及语意不一致等情况。如果简单地进行映射会引发推理矛盾[3]。所以第一步是进行数据清洗工作。从实现方式上看,主要包括两个方面:基于本体的模式级融合和面向实体的数据级清理。其中,模式级融合主要解决不同来源数据之间的语义一致性的问题,而数据清理则是指用正则规则提取信息或者借助频率分析消除歧义的过程。
3.2 知识抽取与融合的核心算法
知识图谱的本质就是从非结构化的信息转换为结构化的知识的过程,主要包括本体构建、知识抽取及知识融合。
(1)本体层设计。本体定义了图谱的逻辑骨架。在图书馆场景中,通常构建包含“图书”“作者”“出版社”“学科主题”等核心实体类,以及“撰写”“出版”“引用”“隶属”等语义关系的本体模型。结合《中图法》与领域叙词表,可构建符合特定学科(如医学)特色的知识架构。
(2)实体以及关系抽取。传统的基于规则的方式逐渐被深度学习方式替代,在实体识别(NER)方面 BERT-BiLSTM-CRF 联合模型效果更好。BERT 模型对深层上下文进行编码处理可以解决一词多义的问题,而BiLSTM-CRF 可以提取出序列的特征,进一步提高对书籍名称、姓名、名词等的提取准确率;对于关系抽取来说,在神经网络中利用注意力机制可以学习到隐式的信息来判断两事物之间的潜在关系。
(3)知识融合及补全。针对多源数据的冲突与冗余,知识融合采用实体链接的方法将分散的知识孤岛统一并齐,得到全局一致性知识图谱,并引入 TransE 或者 TransH 表示学习方法进行知识补全,挖掘潜在隐含的关系信息(例如依据引证关系推断主题间的隐含联系),扩充人工智能图书馆员知识库。
3.3 知识推理在智能服务中的应用
知识推理使得 AI 馆员能够由已知推出未知,是将“数据检索”升级为“知识决策”的关键。
第一,隐性知识挖掘层面,AI馆员可通过GNN分析学术社交网络结构,结合学者被引频次及合作网络中心度推断潜在学科带头人,弥补显性标签筛选之不足。
第二,针对精确引文推荐,使用多跳方法进行复杂查询求解,比如根据“作者-学科-文章”三跳完成跨学科相关性提问的解答;采用向量空间模型下的近邻链接预测算法对不直接相连的相关概念进行语义匹配,从而实现新颖性的引文推荐服务[4]。
第三,基于学科演化分析,利用时序知识推理生成学科演化路线图,将学科发展中的研究热点进行可视化展示,有助于开展学科规划工作。既为学校学科建设提供了数据支撑,又能够帮助广大科研工作者掌握学术动态,从而由单纯的“查找式”情报服务转变为更具前瞻性的“预测式”情报服务。
4 AI 馆员功能模块的开发与创新
在知识图谱基础上搭建 AI 馆员平台,实现智能回答用户问题、为用户提供导读以及辅导的功能。
4.1 智能问答模块:语义理解的深化
智能问答是 AI 馆员的高频应用场景。传统基于关键词匹配或规则引擎的问答系统,往往难以应对自然语言的复杂性与多样性。当前技术路径正向深度语义理解转变。通过引入预训练语言模型,AI 馆员能够精准解析用户意图与槽位信息 [5]。结合知识图谱问答技术,系统不仅能回答“《红楼梦》作者是谁”等事实型问题,还能处理“比较深度学习与机器学习差异”等复杂逻辑问题,实现真正意义上的多轮对话与知识交互。
4.2 智能导读与个性化推荐模块
推荐系统是缓解信息过载、实现个性化服务的核心工具。传统推荐算法在图书馆场景中面临诸多瓶颈:协同过滤算法受限于数据稀疏性与冷启动问题,难以覆盖新书资源;基于内容的推荐易陷入“信息茧房”,导致推荐结果同质化。
基于知识图谱的推荐算法为破解上述难题提供了新思路。
一是基于嵌入的方法。采用TransE、RippleNet 等方法对图谱中实体、关系进行嵌入到低维空间,根据向量之间的距离来判断相关性并完成推荐。比如当用户借过一本《数据挖掘导论》,就可以沿着“知识点关联”的边找到其他“机器学习”的视频类知识,在不同类型的资源间建立知识关联来进行推荐。
二是基于路径的推理。利用图谱的多跳关系给出可解释的推荐路径。“推荐您阅读《深度学习》,因为该书作者是您关注领域的专家,并被您导师的论文高频引用。”带有推理链的推荐增加了系统可信度及用户黏性。
在落地过程中,我们采用建立混合推荐引擎的做法。对于新用户采用热度推荐及人口统计学特征进行冷启动;对存量用户使用协同过滤和知识图谱特征相结合,并根据实时行为数据动态调整,实现场景化导读。
4.3 学习辅助模块的拓展
与一般的咨询相比,在 AI 馆员中设置学习支持功能具有一定的增值意义。例如在其中嵌入学术不端数据库和科研方法数据库,可以实现对学生的选题、提纲设计以及引文格式等方面的查询。通过对优秀研究生论文提纲进行统计归纳,向学生展示论文撰写的基本思路,并根据学生所在专业推荐定性和定量的研究方法资料,弥补图书馆对科研过程中指导的缺失。
5 人机交互界面设计与系统集成
5.1 多模态人机交互界面的演进
人机界面是使用者对 AI 馆员提供的服务的第一感受。当今的人机界面注重自然化体验。
多模态交互突破了单一的文本输入,可以是语音、图片甚至手势识别。语音交互技术的应用让移动场景中的服务更加容易获得,并适应用户的碎片化使用习惯。
可视化的展现是知识服务的直接体现。通过建立知识地图、关系网络图等可视化页面,把抽象的知识联系具体形象地表现出来,让用户能够直接看到知识间的联系,提高用户的互动性和专业度。
5.2 系统集成与优化策略
AI 馆员系统并非孤立存在,需与图书馆现有生态深度融合。
在系统架构上采用微服务架构,各个业务模块单独部署、相互解耦,方便后续版本更新及运维。
功能方面,在面对海量用户访问的情况下,应采用缓存技术及负载均衡技术来提高系统的可用性和响应速度,并提供规范化的 API 接口,以支持与统一身份认证平台以及 LSP 的集成,保证信息流和业务流畅通。
6 关键科学问题与挑战
尽管 AI 馆员系统建设已初见成效,但在实际落地过程中仍面临诸多挑战。
一是知识抽取的准确性和全面性。由于中文学术语意的多义性、专有名词的歧义性、长尾信息的稀缺性等问题的存在,对实体消解及关系抽取提出了极大的挑战。如何从大量数据中挖掘出精准全面的知识图谱依然是一个值得进一步研究的问题。
二是语义环境下的理解和推理不足。目前的智能体对简单事实类问题回答较好,但对于用户表述不清、目的不明确或者涉及对话历史记录的问题,其不能进行语境分析以及充分推理,无法具有“人性化”的特点及随机应变的能力。
三是隐私保护和服务精准的博弈。个性化推荐高度依赖于用户的使用数据,涉及用户的个人隐私。如何在严格遵守数据伦理的情况下,建立精准化的用户画像,破除“信息茧房”,也是技术应用必须面对的一个伦理难题。
7 结论与展望
总之,基于对相关数据资源的分析,本文尝试理清高校图书馆 AI 馆员系统的建设思路,提出利用如超星数据基座等大数据资源,创建各领域知识体系,并设计开发具备咨询、推荐及辅导功能的AI 馆员软件产品,有助于推动高校图书馆的服务发展。
对 AI 馆员的发展进行展望,一是基于人工智能技术深度融合,借助LLM 的技术发展优势进一步完善 AI 馆员的自然语言处理能力和多模态的理解能力;二是AI 馆员的应用范围会逐渐扩大,从传统的图书馆应用到教育教学系统以及科研管理信息系统中,二是提供随时随地的泛在知识服务;三是人机协作成为常态,人工智能馆员负责标准化、重复的工作,而人类馆员则有更多的时间去做深层次的学科服务,两者共同构建智慧图书馆的新环境。
参考文献
[1] 牛勇 , 王洁 . 人工智能时代图书馆智慧服务模式构建研究 [J].图书馆工作与研究 ,2019(5):108-113.
[2] 王伟 , 李晓娟 . 高校图书馆数据治理框架构建与实施路径研究[J]. 图书情报工作 ,2021,65(12):30-38.
[3] 刘炜 , 李春旺 . 知识图谱在图书馆中的应用前景与关键问题 [J].中国图书馆学报 ,2019,45(3):4-16.
[4] 邱均平 , 余厚强 . 知识图谱的技术实现及其在图书情报领域的应用 [J]. 图书与情报 ,2020(4):1-9.
[5] 陈文智 , 黄昌勤 . 教育知识图谱构建技术及应用研究综述 [J].开放教育研究 ,2023,29(2):78-89.
作者简介:郑璐(1989-),女,硕士,白城医学高等专科学校图书馆助教。研究方向:信息资源管理。
课题信息:吉林省教育厅科学研究项目《基于超星数据基座的高校图书馆 AI 馆员的研发》,项目编号 JJKH20261874KJ
中图分类号:G250.76 文献标识码:A
京公网安备 11011302003690号