• 收藏
  • 加入书签
添加成功
收藏成功
分享

中文电子图书数据库量化评价研究

孙利
  
科创媒体号
2025年160期
揭阳职业技术学院 522051

摘要:本文通过选取四个有代表性的中文电子图书数据库,基于数据库的形态,对数据库评价标准分割为资源、界面、功能、交互四个板块并赋予一定的权重,每个板块又分割为若干子项,根据每个数据库的情况,通过客观评分和主观评分对每个子项的赋值,并逐级归纳,以形成对每个数据库的量化评分。本文旨在建立对电子图书数据库的准确的评测体系,以对机构或个人的采购决策、电子图书数据库本身的发展提供帮助。关键词:中文电子图书数据库;量化;评价研究

中图分类号:G237

前言

随着互联网时代的到来,电子图书及数据库迎来了高速发展,而2012 年以来移动互联网的兴起,又使电子图书数据库在形态和功能上呈现出多样化的特征,因不同发展阶段的技术水平和资源来源不同,数据库在质量表现上存在着显著差异。目前市场上活跃的中文电子书数据库有一百余种,面对如此众多且不断涌现的电子图书数据库,如何评判其优劣,成了图书馆等采购单位亟待解决的问题。本文希望通过对具有代表性的四个中文电子图书数据库进行分解、量化及对比评价,以形成对电子图书数据库相对准确评测体系。

1、电子图书数据库概念与选取

1.1 电子书及电子图书数据库

电子图书是指将文字、图片、声音、影像等资料,通过数字化处理技术,利用数字化存储设备,并借助终端显示器,以满足人们阅读需求的一种服务性产品,与传统图书相比,它具有图文声像并茂、便于检索、存储量大等优点。[1]由于电子图书在便捷性、经济性、功能性、环保性等多个方面的优势,尤其是以手机为代表的移动设备的普及,电子阅读已超越纸质图书阅读成为主要的阅读方式。基于这种情况,各种类型的电子图书数据库也不断涌现。电子图书数据库是一种集成了大量电子书籍的在线平台,用户可以通过互联网访问和阅读这些书籍,它的核心特点包括海量资源、便捷访问、多样格式、高效检索、智能推荐等。随着数据库相关技术和资源的发展,其平台功能以及对电子图书的开发服务可以不断满足用户越来越高的需求。[2]

目前国内市场上的中文电子图书数据库蓬勃发展,但从出版社的供应端到数据集成商的中间端,再到图书馆的终端都存在各自的问题,产业链上下衔接一直进步缓慢。出版社出于和纸质图书之间的利益权衡往往会延迟电子图书的出版,数据集成商之间的无序竞争带来大量重复建设,图书馆缺乏对电子资源的精细化管理和认识,都使得中文电子图书数据库缺乏统一标准和完善的评价体系,这些问题带来的结果是电子图书数据库利用率偏低,这在很多与图书馆相关的调查中都反应了这个问题。针对电子图书数据库建立一个可以标准化的、量化的评价体系,允许消费者根据量化的相关指标选择数据库,对于图书馆和机构进行电子图书数据库的采购、改善数据库对电子图书的管理、优化电子图书的配置、更好的满足读者的需求都有重大意义。

1.2 中文电子图书数据库样本的选择与介绍

在中文电子图书数据库样本的选择上,倾向于选择类型特征具有代表性的数据库,最终确定为超星汇雅电子书、畅想之星电子书平台、微信读书、科学文库四家。超星汇雅电子书是最大的扫描型中文电子书数据库,以扫描型电子书以 PDF、PDG 格式为主,并兼有网页、矢量型 PDF、EPUB 格式。畅想之星电子书平台以矢量型PDF 格式为主的电子书数据库,兼有EPUB 格式。微信读书是拥有注册用户最多的中文电子书平台,是EPUB格式电子书数据库的代表,也是大众市场化读书应用的代表。科学文库是出版社出品电子书数据库的代表,其电子书全部为科学出版社出版,文件格式绝大多数为矢量型PDF。

1.2.1 超星汇雅电子书

超星汇雅电子书是目前全球最大的中文电子书数据库,拥有 260 多万种图书,除有版权争议的部分,可提供阅读服务的电子图书有 130 多万册,大部分为扫描型电子书,文件格式有 PDF、PDG、EPUB 等,图书内容涵盖各个学科领域,每月更新 3 千种以上。读者可以在浏览器在线阅读图书,也可以用电脑安装超星阅览器后下载图书。可与图书馆超星发现、超星移动图书馆系统无缝对接,同时支持 IOS Android 手机等移动终端安装“超星移动图书馆”APP 来阅读和下载超星书世界图书。数据库一般只针对机构用户包库服务,不对个人用户开放。[3]

1.2.2 畅想之星电子书平台

畅想之星电子书平台是一个和出版社深度合作、建立的集版权管理、新书发布、电子书采购、销售、阅读与知识发现于一体的综合性服务平台。目前该平台已经有 400 余家供货商入驻,提供中文、民国和古籍电子图书服务,全库电子书数量超过 39 万品种,包括近三年新书 7.7 万种,年更新不低于5 万种,其主推的学术类的新书,相比同类产品数量为最多,涉及学科包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学十三大门类。畅想之星电子书平台主要面向B2B 馆配电子图书市场,目前已服务的客户超过2300 家,包括近千家图书馆。[4]

1.2.3 微信读书

微信读书是由广州腾讯科技有限公司推出的基于微信关系链的官方阅读应用,最早发布于2015 年8 月。主要支持移动平台阅读,也支持在线阅读,通过交互网络满足用户碎片时间阅读和筛选优质书籍的需求。微信读书与超千家出版社以及海量优秀作者合作,有超百万册(包含50 万册网文书,在此次评价参数中不参与计算)的海量书籍资源,包含超 50 万册经典名著与畅销佳作,以及超 30 万册的各类专业书籍,年更新约6 万多种,涵盖文学、社科、科技、教育等 二十多个品类。阅读界面提供近二十种字体与丰富的背景选择,搭配智能的夜间模式和便捷的笔记、标注功能,充分满足个性化阅读需求。功能设计上融入交互元素,用户能够实时查看微信好友的读书动态、书评与心得感悟,分享自己的见解,实现阅读社交化。微信读书目前已有3 亿多注册用户。[5]

1.2.4 科学文库

科学文库是中国科技出版传媒股份有限公司(科学出版社)开发的数据库平台,以高质量学术专著和教材为主,几乎囊括科学出版社60 余年来所有获奖作品、知名专家著作、重点丛书,覆盖自然科学、工程与技术科学、人文与社会科学、医药科学、农业科学五大门类的所有一级学科。种类多样,包括专著、教材、图集、报告、工具书等类型。当前拥有图书品种数量为6.7 万种,每年更新约3000 种。[6]

2、数据库研究

2.1 评价标准设定

基于数据库形态,对评价标准分割为资源、界面、功能、交互四个板块进行评价分析,总值设定为100,四个板块相对应的权重分别为 40% 、 20% 、 30% 、 10% 。每个板块又分为若干子项,资源板块分6 个子项,界面板块有13 个子项,功能板块有12 个子项,交互板块有6 个子项。

2.2 资源分析

资源分析指对电子书文件相关的分析,分为 6 个子项,分别为数量、优秀出版社占比、近三年新书比例、年更新数量、同步情况、文件品级(表1)。

表1 资源分析

2.3 界面分析

界面分析主要指对数据库终端可视界面如主页、阅读界面等分析,包含在线网页界面和应用软件界面,分为13 个子项,分别为目录、书签、字体设置、图文复制、笔记、书架、排版还原度、清晰度、响应速度、移动端功能、电脑端功能、在线端功能、界面设计(表2)。

表2 界面分析

2.4 功能分析

功能分析指对数据库提供的与阅读相关的功能配套的分析,分为12 个子项,分别为书目检索、书目高级检索、书内检索、全库检索、AI、语音阅读、图书个性化推荐、新书展示、专题书集、分类导航、榜单、阅读报告(表3)。

表3 功能分析

2.5 交互分析

交互分析指对用户阅读行为的交互互动的分析,分为 6 个子项,分别为书评功能、书评参与度、笔记评论互见、笔记评论参与度、朋友动态推送、互动(表4)。

表4 交互分析

3 数据分析与评价

3.1 各组成要素赋值及说明

对每个板块的子项按重要程度进行赋值,同时根据四个数据库子项的表现分为A、B、C、D、E 五个等级,分别按 0% 、 25% 、 50% 、 75% 、100%计算。

3.1.1 资源子项赋值及说明

在资源子项的赋值上,数量赋值为3,依据各数据库图书总量为0、20 万、40 万、60 万、80 万以上按A、B、C、D、E 五个等级进行加权。优秀出版社占比赋值为1,取数据库的抽样数据,以百佳出版社出版图书占比0% 、 25% 、 50% 、 75% 、 95% 以上按A、B、C、D、E 五个等级进行加权。近三年新书比例赋值为1,以各数据公开的数据,近三年引进图书占全库图书比例 0% 、 5% 、 10% 、 15% 、20%以上按A、B、C、D、E 五个等级进行加权。年更新数量赋值为1,以各数据公开的数据,各数据库每年更新的新书数量0、小于1 万、2 万、3 万、4 万以上按A、B、C、D、E 五个等级进行加权 。 同步情况赋值为 1,以各数据公开的数据,各电子书引进与纸质书出版的时间差大于 2 年、1 年半、1 年、6 个月、3 月以下按 A、B、C、D、E 五个等级进行加权。文件品级赋值为1,可对各数据库文件直接观察,以排版、图像、压缩、优化等方面优劣程度按A、B、C、D、E 五个等级进行加权,如同库中有不同类型文件,按抽样比例加权计算。

3.1.2 界面子项赋值及说明

在界面子项的赋值上,目录赋值为1,书签赋值为1,字体设置赋值为1,图文复制赋值为1,笔记赋值为1,书架赋值为1,排版还原度赋值为1,清晰度赋值为1,响应速度赋值为1,移动端功能赋值为1,电脑端功能赋值为 1,在线端功能赋值为 1,界面设计赋值为 1,对各数据库每个界面子项的设置情况进行观察,以优劣程度按 A、B、C、D、E 五个等级进行加权。排版还原度和清晰度两个子项中,如同数据库中有不同类型文件,则按抽样比例加权计算。

3.1.3 功能子项赋值及说明

在功能子项的赋值上,书目检索赋值为1,书目高级检索赋值为1,书内检索赋值为1,全库检索赋值为1,AI 赋值为 2,语音阅读功能赋值为1,图书个性化推荐赋值为 1,新书展示赋值为1,专题书集赋值为1,分类导航赋值为1,榜单赋值为 1,阅读报告赋值为 1,对各数据库每个功能子项的设置情况进行观察,以优劣程度按 A、B、C、D、E 五个等级进行加权。语音阅读功能子项中,如同数据库中有不同类型文件,则按抽样比例加权计算。

3.1.4 交互子项赋值及说明

在交互子项的赋值上,书评功能赋值为1,书评参与度赋值为1,笔记评论互见赋值为 1,朋友动态推送赋值为1,互动赋值为1,对各数据库每个交互子项的设置情况进行观察,以优劣程度按A、B、C、D、E 五个等级进行加权。

3.2 各组成要素评分与测量

评分等级:对每个子项根据重要程度进行赋值,每个赋值分布到数据库,根据调查结果分为 5 个等级,分别为A、B、C、D、E,分别代表为无、差、一般、好、优。

对各子项的评分分为客观评分和主观评分:客观评分通过直接引用或统计数据库的相关数据,主观评分采用问卷调查,调查问卷共发放 150ξ ,发放对象为课题组成员、在校师生、社会人士,共收回有效问卷132 $$ ,最后对调查结果进行统计。

表5 资源子项等级评价

3.2.1 资源子项评分

表6 界面子项等级评价

3.2.2 界面子项评分
3.2.4 交互子项评分

表7 功能子项等级评价

4.2 各数据库存在的问题及优化策略

4 结论

超星汇雅电子书数据库是中国最早建立的中文电子图书数据库之一,本应具有先发优势,但在此次的评价结果得分只有60.57,落后于后期之秀畅想之星和微信读书。在资源总量上,汇雅有极大优势,但很大一部分是上世纪末加工扫描的图书,存在图书清晰度差、压缩效率低等质量上的问题。此外还面临很多版权争议,至今未能完全解决,使得汇雅虽有 260 万种图书,但可以进入市场的只有 140 万种。这两个原因极大拖累了汇雅本该在资源板块拥有的优势。

汇雅在数据库中使用多种文件类型,包括PDF、PDG、EPUB 格式,PDF 格式又有扫描型pdf 和矢量型pdf。这些格式的特征有很大差异,系统在做功能设置时往往不能统一,尤其是图片型电子书,未进行文字识别,很多功能如图文复制、笔记、书内检索等不能使用,拖累功能和界面板块的得分。在AI 使用上,汇雅有很高的技术,但应用不够恰当,只有在“在线阅读”入口才可以使用AI,影响了子项加分。

表8 交互子项等级评价
3.2.3 功能子项评分

要解决存在的问题,首先要增强资源的质量,对品级差的电子书进行再加工和淘汰,把单纯的扫描型电子书加工成可以文字识别的双层pdf,与其他格式文件达成统一的功能设置。其次要解决版权问题,引进更多的质量较高的新书。再次,在现有的基础上对 AI 进行更合理的设置,从在线阅读扩展到其他入口,使 AI 功能得到更广泛的使用。

4.1 评价结果

通过对每个子项赋值乘以数据库子项等级所赋比例得出每个数据库子项的值,然后对数据库每个板块子项值相加之和按板块所赋比例加权计算得出加权值,四个板块加权值相加得出每个数据库的得分总值。各数据库的得分总值分别为:汇雅电子书总值为60.57,畅想之星总值为67.89,微信读书总值为86.54,科学文库总值为49.04(表9),按高低排列为微信读书、畅想之星、汇雅电子书、科学文库。

4.2.2 畅想之星

4.2.1 汇雅电子书

畅想之星作为后起的电子书数据库,资源构成和汇雅相似,以pdf 格式为主,兼有EPUB,但畅想之星成立时,版权规则、电子书质量、市场成熟度已经很高,不存在历史遗留问题,所以在资源总量上虽不如汇雅,但质量上远远超过,在资源得分上与汇雅相等。有了高质量的电子书,在界面和功能设计上更容易优化,在这两个板块上的得分相对于汇雅也要高一些。但畅想之星的总分值距离微信读书还差很多,主要是交互板块和个性化功能上明显落后,产生这些问题的原因是,畅想之星只支持机构用户,对个人用户和移动互联网的忽略。由于确乏足够数量且长期稳定的个人使用者,交互建立不起来。畅想之星要更进一步发展,就需要在这两个地方补齐短板,把发展重心放在用户众多的移动互联网,开放个人用户市场,建立一个交互化的阅读平台。

4.2.3 微信读书

表9 数据库加权评价结果

微信读书作为互联网巨头腾讯科技有限公司旗下的平台,有雄厚的资金和技术支持,从各个板块子项表现上看,没有明显的短板,都比较均衡且优秀,也是在四个平台中得分最高的原因。微信读书主要支持 EPUB 一种格式,EPUB 在文字编辑方面有极大的灵活性,对移动互联网有很高的的适配性,使其在各种子项设计和交互化设计方面有很大的优势。但 EPUB 格式仍然有自己的缺陷,过于追求对屏幕的适应性,无法提供更复杂更精美排版的图书。相对于PDF 格式在版式设计、深度阅读上存在很大不足。微信读书可以引进一些优质的PDF 书籍,进一步提高平台的阅读体验。另外微信读书的 AI 功能,选择直接引入 DEEPSEEK 模型,没有对数据库的功能进行针对性的优化,造成AI 问答过于冗长,没有考虑图书划线提问功能中上下文的关系,回答经常出现偏离及错误,十分影响读者体验,在这方面还需要加强。

4.2.4 科学文库

科学文库作为出版社自建的电子图书数据库,资源只包括本社出版图书,主要为科学出版社出版的理工学术类图书。其优势在于版权授权和收益分配上没有顾虑,可以把最优质和最新出版的电子图书在第一时间上架到平台上。科学文库只有矢量型 PDF 格式,比扫描型PDF 和双层 PDF 要更优秀,可以做到全书检索和全库检索等功能,在排版方式上与纸质图书完全一致,有更好的版式设计,有利于深度阅读,对于学术类图书而言比较适配,这也是科学文库虽只有单一出版社来源,数量差距很大,却能凭借高质量图书与其他综合性电子图书数据库互较高下的原因。但科学文库要更一步发展,必须要打破封闭性,既要开放授权,也要按数据库的定位引进其他出版社的电子图书,只有这样才能既有利于其他数据库的发展,也有利于自身的长期成长。科学文库在功能板块和交互板块与其他三家在得分上有很大差距,其根本原因也与图书数量有关,数量少则功能及交互设计费效比过高、读者数量不足则很难打造出真正的交互生态。科学文库的图书偏学术性,如今AI 的发展在知识型问答上十分成熟,所以引入或打造自己的AI 模型,相比其他三家的图书结构,科学文库有先天优势,可以成为未来提升数据库得分的关键点之一。

参考文献:

[1]图书馆·情报与文献学名词审定委员会.图书馆·情报与文献学名词(2019)[M].北京:科学出版社,2019:91.

[2]邱均平,楼雯,曾元祥等.我国电子书数字图书馆建设现状的调查分析[J].图书情报工作,2014,58(5):22-27.

[3]向晴,杨新涯,王彦力.超星电子图书发展史[J].图书馆论坛,2022,42(10):17-24.

[4] 张 君 成 . 北 京 畅 想 之 星 : 打 造 纸 电 一 体 采 选 系 统 [N]. 中 国 新 闻 出 版 广 电报,2024-11-04(005).DOI:10.28907/n.cnki.nxwcb.2024.002924.

[5] 孔 伟 . 移 动 阅 读 平 台 用 户 粘 性 影 响 因 素 研 究 [D]. 广 西 民 族 大学,2024.DOI:10.27035/d.cnki.ggxmc.2024.000606.

[6]科学文库产品介绍[EB/OL].科学文库,https://book.sciencereading.cn/shop/helpCenter1.html,2025-05-23.

基金项目:2022 年度科学研究项目“中文电子图书数据库量化评价研究”(项目编号:2022JYCKY21)阶段性研究成果

作者简介:孙利(1985-),男,安徽宿州人,馆员,学士,研究方向:图书馆学、电子图书数据库。

*本文暂不支持打印功能

monitor