• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于Weka科研论文信息分析

——以桂林电子科技大学外国语学院为例

陈小薇 钟海富
  
财讯
2016年8期

本文利用Weka对近三年桂林电子科技大学外国语学院科研论文发表情况从年龄、职称、论文等级三点进行关联分析,发现了教师年龄和职称对发表论文等级的影响,结合实际教师年龄、性别、学科等因素,分析了形成这些的原因。

Weka 论文发表 关联分析

引言

当前科研工作成为高校除了人才培养之外最重要的一项工作,高校的科研能力是学校综合能力表现的重要指标。随着信息技术的发展,高校普遍都开发了适合自身特点的科研管理系统,在使用过程中积累了大量的科研信息数据。目前的高校科研管理系统具有的功能大多停留在存储、修改、查询信息等基本功能上,对统计分析信息功能相对薄弱。在科研管理系统中引入数据挖掘,可以为管理提供决策支持,提高科研管理水平。本文应用Weka,对桂林电子科技大学外国语学院教师2013~2015年论文发表记录进行关联规则的分析,找出其中隐含的规则,达到辅助决策的目的。

数据挖掘概述

关联规则是数据挖掘的主要技术之一,它是寻找描述数据库中数据项之间隐藏的相互关系,找出大量数据之间隐藏的依赖关系,如购物篮分析,购买手机的顾客会买贴膜、手机套等配件。规则的支持度和置信度是规则兴趣度的两种重要度量,如果满足最小支持度(support)和最小置信度(confidence),则该规则被称为有趣的。;。仅支持度和置信度时不足以过滤掉无趣的关联规则,这时用提升度来反映项集的依赖关系。,当提升度小于1时,A和B呈现负向关系,即一个出现可能导致另外一个不出;如果大于1,A和B是正向关系,每一个的出现都蕴含另外一个的出现;如果值为1,A和B的出现是独立的①。

论文发表关系分析

Weka②是是新西兰怀卡托大学WEKA小组用Java开发的机器学习/数据挖掘开源软件,得到了广泛的认可,在第11届ACMSIGKDD会议上获得了数据挖掘和知识探索领域的最高服务奖。它是集数据预处理、学习算法(分类、回归、聚类、关联分析)和评估方法等为一体的综合性数据挖掘工具,有交互可视化界面,提供接口,实现自己的数据挖掘算法。它使用arff的数据结构,包括两部分,第一部分给出头信息,包括关系声明和属性声明;第二部给数据信息。在Explorer模块的关联规则Associate标签下可以实现对数据集的关联分析操作,本文使用Apriori算法,它是关联分析中一种基本算法,利用频繁项集的先验知识,使用逐层搜索的迭代方法,用于挖掘布尔关联规则频繁项集。

论文数据表属性为:序号,论文题目,发表刊名,发表卷期,论文页码,作者ID,作者排名,等级,支撑项目,所属学科,研究类别。本文对论文的等级,作者年龄,职称进行关联规则分析年龄、职称等因素对论文等级的影响,为制定更好科研发展策略调动科研积极性提供依据。对原始论文表中的数据要进行离散化处理,将论文分为“一类核心”行业内高水平期刊论文、“普通核心”、“普通论文”;职称分为“正高”、“副高”、“中级”;年龄分为“老年”50岁以上、“中年”40~50岁、“青年”40岁以下。使用Weka提供的Apriori算法进行分析。使用此算法,选择恰当的支持度和可信度是挖掘有效关联规则的关键,支持度和可信度的增加,规则数目在逐渐减小。2013~2015年,外国语学院教师共发表论文184篇,其中核心论文27篇。通过实验,最终将参数设置为.Apriori -N 20 -T 0 -C 0.75 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -c -1。分析结果如下:

1. 年龄=老年 22 ==> 论文等级=普通 21 lift:(1.12)lev:(0.01) [2] conv:(1.61)

2. 年龄=青年 论文等级=普通 88 ==> 职称=讲师 81 lift:(1.66) lev:(0.18) [32] conv:(4.9)

3. 职称=讲师 102 ==> 年龄=青年 93 lift:(1.57) lev:(0.18) [33] conv:(4.27)

4. 职称=讲师 论文等级=普通 89 ==> 年龄=青年 81 lift:(1.57) lev:(0.16) [29] conv:(4.14)

5. 职称=副高 年龄=中年 41==>论文等级=普通 37 lift:(1.06) lev:(0.01)[2] conv:(1.2)

6. 年龄=中年55==>论文等级=普通 48 lift:(1.02) lev:(0.01) [1] conv:(1.01)

7. 职称=讲师 102 ==> 论文等级=普通 89 lift:(1.02) lev:(0.01) [1] conv:(1.07)

8. 职称=讲师 年龄=青年 93 ==> 论文等级=普通 81 lift:(1.02) lev:(0.01) [1] conv:(1.05)

9. 年龄=青年 107 ==> 职称=讲师 93 lift:(1.57) lev:(0.18) [33] conv:(3.18)

10. 職称=副高 59 ==> 论文等级=普通 51 lift:(1.01) lev:(0) [0] conv:(0.96)

11. 年龄=青年 107 ==> 论文等级=普通 88 lift:(0.96) lev:(-0.02) [-3] conv:(0.79)

12. 职称=讲师 102 ==> 年龄=青年 论文等级=普通 81 lift:(1.66) lev:(0.18) [32] conv:(2.42)

13. 年龄=中年 论文等级=普通 48 ==> 职称=副高 37 lift:(2.4) lev:(0.12) [21] conv:(2.72)

14. 年龄=青年 107 ==> 职称=讲师 论文等级=普通 81 lift:(1.57) lev:(0.16) [29] conv:(2.05)

从分析结果可以看出,所有年龄段和职称的老师都是发表普通期刊论文完成工作量。青年教师多是讲师职称,多发表普通论文。然而,青年教师和普通论文发表呈现负向关系。随着年龄增长,教师的职称获得提升,但随着职称的提升,发表论文的质量并没有明显提升。中年获得副高职称后,更倾向发表普通论文。

核心论文发表数量远低于普通论文,所以单独分析核心论文的发表情况,设置参数Apriori -N 10 -T 0 -C 0.75 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -c -1

Best rules found:

1. 职称=中级 13 ==>年龄=青年 12 lift:(1.31) lev:(0.11) [2] conv:(1.93)

2. 职称=中级 13 ==>论文等级=普通核心 12 lift:(1.25) lev:(0.09) [2] conv:(1.69)

3. 职称=中级论文等级=普通核心 12 ==>年龄=青年 11 lift:(1.3) lev:(0.09) [2] conv:(1.78)

4. 职称=中级年龄=青年 12 ==>论文等级=普通核心 11 lift:(1.24) lev:(0.08) [2] conv:(1.56)

5. 职称=中级 13 ==>年龄=青年论文等级=普通核心 11 lift:(1.63) lev:(0.16) [4] conv:(2.09)

6. 年龄=青年论文等级=普通核心 14 ==>职称=中级 11 lift:(1.63) lev:(0.16) [4] conv:(1.81)

7. 职称=副高 8 ==>论文等级=普通核心 6 lift:(1.01) lev:(0)[0] conv:(0.69)

外国语学院教师发普通核心论文为主,高水平论文少。中级职称的青年教师比是发表核心论文的主力军,但是论文的平均水平并不高。随着取得更高级的职称,并没有倾向发表更多高水平论文。

原因分析

结合实际情况,桂林电子科技大学外国语学院是2001年建立前身是大学英语课部,教师年龄30~40岁占总人数的60%以上,女性为主,学历硕士85%博士人数10%。

桂电是电子通信特色鲜明的工科院校,但随着高等教育管理体制的改革,人才培养和大学自身发展的需要,陆续建立一系列人文社科类专业。相对已经形成的工科优势或特色专业如通信工程、电子信息类专业,外国语学院建立时间短,学科基础薄弱,学术研究能力较弱,只有二级学科硕士点和翻译专业硕点。科研经费投入非常有限,纵向项目获得困难,无法和传统综合性大学相比。人数绝大多数占多数青年女性教师普遍学历为硕士,入职后面临婚姻、生育等問题,相较男性教师在科研上处于劣势。但是为了自身的职业发展考虑,也会积极参与科研。由于学科发展、学术积累等因素,科研难取得高水平的成果。40岁取得高级职称后科研热情下降,“每天把课上好,完成论文工作量就行了“,进取心逐渐减弱。

结语

本文利用Weka对2013~2015年桂林电子科技大学外国语学院科研论文发表情况进行关联分析,发现了教师年龄、职称、发表论文质量这三点之间的关联规则,分析了造成这个结果的可能原因。为今后科研管理工作的开展提供依据。

作者简介:陈小薇(1980-),女,湖北武汉人,硕士研究生,桂林电子科技大学讲师,研究方向:计算机应用,工控系统;钟海富(1983-),男,广西玉林人,MBA硕士研究生,桂林电子科技大学讲师,研究方向:公司治理、项目管理。

①Jiawei Han Micheline Kamber Jian Pei.数据挖掘概念和技术[M].范明,孟小峰译,北京:机械工业出版社,2011:157-172

②Weka 3: Data Mining Software in Java[EB/OL],http://www.cs.waikato.ac.nz/ml/weka/

*本文暂不支持打印功能

monitor