
- 收藏
- 加入书签
基于《教育信息化2.0行动计划》的职业院校大数据平台建设研究
摘 要:本文是在各职业院校落实教育部《教育信息化2.0行动计划》加强智慧校园建设的背景下,针对职业院校大数据平台建设过程中的问题,探索大数据平台的关键技术和大数据平台的建设方案,为推动职业院校高质量发展、教育教学改革和管理创新提供信息技术支撑。
关键字:大数据平台、大数据平台关键技术、大数据应用
1 概述
随着《教育信息化2.0行动计划》工作推进,各职业院校都在加强智慧校园建设,学校对数据资源调用、数据服务的需求越来越密集;对数据资源的关联分析要求越来越高;对数据价值的应用和挖掘度也提出了新的要求。因此越来越多的学校探索大数据平台的建设,对全校各部门内相互孤立的数据进行梳理、整合、共享,形成统一的数据资源池,数据赋能学校的教育教学、管理和决策,有效提升学校管理能力和治理水平。然而,在大数据平台的建设过程中存在一些问题,这些问题不仅影响大数据平台的性能,甚至还会限制大数据的应用。首先是数据质量问题,在数据收集、存储和处理过程中没有一套完整的数据质量管理体系,缺乏专门的数据质量检测和评估机制,以确保数据的质量和可靠性。其次是数据处理能力问题,海量的数据和分布式存储,需要强的计算资源和数据处理能力,同时还需要引入先进的算法和模型,以实现对大规模、复杂数据的快速处理和分析。第三是数据安全和隐私问题,在大数据推广应用的同时,由于技术和管理等方面的原因,大数据平台加大了数据泄露、黑客攻击等安全风险。第四是数据应用问题,大数据平台建设的最终目的是为了实现数据的应用价值,然而,大数据平台存在数据应用不足或不合理的情况,需要加强数据的挖掘和分析工作。
2 大数据平台建设目标
(1)搭建数据管理平台,规范数据管理体系
通过开发数据管理工具,提升数据运维及开放服务的管理效率,降低人力管理成本,提升管理效能。通过工具化的建设,实现血缘管理、数据地图、数据标准、数据质量等管理。
(2)开展多源数据治理,梳理全域数据资产
基于学校现行的数据标准结合各业务部门实际的业务属性,通过线下调研,为数据确权,实现一数一源,消除多头管理。明确数据质量的主体责权及形成对应的数据质量管理制度规范。利用管理工具对数据归口部门进行标记,并在使用的过程中得以呈现。通过对数据的采集及建模,建设数据湖、数据仓库、并制定对应的标准管理制度规范。
(3)建设个性化数仓,提升个人数据质量
利用数据治理的成果数据,提供全域相关数据的聚合展示,通过设计个人数仓填报表单对师生数据进行采集,并提供数据纠错补录能力。通过个性化数仓的建设,解决师生在实际填表业务中重复填报的问题,利用个性数仓数据开展全国职业教育智慧大脑数据对接工作,自动带出学校现有业务数据,采集其他数据,自动对接到全国职业教育智慧大脑平台。
(4)搭建场景化大数据应用,补齐数据应用短板
通过建设数字驾驶舱(学校、班级、学生、教师、课程等大屏画像),主题分析(教师、学生、科研、教学等主题),对比分析(学院、专业、班级、课程、教师、学生对比)等大数据应用场景,为科学决策、师生个人服务、部门管理提供大数据场景化服务,补齐学校信息化短板。
建设基于学校全域的数据中心,推动教育信息资源整合和公共数据互联、共享与开放。围绕学校各项业务需求,结合大数据的发展趋势,通过数据信息采集处理、汇总分析,从而建设数据智能决策分析平台,促进教育教学改革,提高对学校整体状况的把控,为领导提供数据支持和决策参考,推动学校管理服务科学化、教学科研高效化、决策应用智能化发展。赋能学校数字化转型升级,助力职业院校数字校园建设试点校、职业院校信息化标杆校的立项和建设。
3 大数据平台总体框架设计
大数据平台的总体技术框架分为数据源层、数据汇聚层、大数据平台层、数据开发层、数据服务层和数据应用、数据服务层,如下图所示:
数据源层:数据源包含校内外两方面数据。校外数据主要指互联网数据,如微信、微博、贴吧、各教育网、政府网等各领域的数据。校内数据主要是各部门应用系统所产生的业务数据(如:教务系统、办公系统、财务系统等)及校内其他数据(如:上网行为数据、监控视频流数据等)。系统针对的不同的数据源实现数据汇聚,这些多源异构的数据源是数据分析的基础资源。
数据汇聚层:针对不同种类的数据源,通过ETL、API、消息队列、数据流等多种采集手段提供相应的数据采集工具和数据接口,例如:视频、图片、感知信息、社交网络信息,都需要建立专门的采集和处理工具,形成统一的采集平台,方便用户操作。
大数据平台层:构建基于iceberg的数仓一体的大数据存储、运算平台,平台以HDFS作为存储底层,基于Kafka,Azkaban,Yarn等作为队列、任务管理、资源协调的工具。原始的数据、预处理后的数据,集中存放到的iceberg上,按照不同的管理和应用需求,将数据转化为规范的数据,形成主题数据库,保证各数据使用者可以方便、高效、安全地使用数据。
数据治理:包含了从元数据管理、数据质量监控、参考数据管理、数据安全中心、数据指标体系、数据模型设计等模块。
数据开发层:利用可视化工具、ETL、AI应用能力平台等系统支撑数据的离线开发、自助分析和数据测试功能。
数据服务:根据数据开发的结构,封装各类数据访问API为上层应用服务,对外提供统一的数据共享服务接口。
数据应用:针对不同的业务场景,组织各类数据资源和服务工具,建立基于大数据技术的业务应用,解决具体的业务问题。不同的应用场景,提供不一样的数据格式和优化形式,具有各自的分析功能和展示界面,例如:学生上网行为分析、学校舆情分析等;不同的身份角色、不同的业务处室可获取到与自身相关的所有数据,并拥有看到管理范围内的完整数据的权限。
4 大数据平台关键技术
(1)大数据汇聚
大数据汇聚平台面向结构化数据、半结构化数据、非结构化数据进行汇集管理。根据数据结构的不同,大数据汇聚平台提供对各类数据类型的一站式的采集适配,包括结构化数据采集、半结构化数据采集、非结构化数据采集,从而完成对内部数据资源、外部数据资源的全面采集,其汇聚过程如下图所示。
(2)大数据治理
大数据治理是大数据平台建设关键技术,实现数据元管理、数据标准管理和数据质量管理。
元数据管理可以快速实现元数据自动化采集,进行元数据分析,理清数据上游关系,构建数据知识图谱,为企业提供高质量数据基础。分析当前学校各项数据的构成,编制学校元数据标准,明确元数据战略、标准、架构、模型。构建元数据库、搭建元数据管理的平台,实现元数据管理。元数据管理模块能够对数据元进行查看添加、编辑、删除、废止、提交审核、撤回审核等操作,做到元数据的生命周期管理,元数据管理流程如下图所示。
数据标准管理可以快速建立数据标准基线,进行自动落标核标,检验数据质量,生成数据标准知识图谱,助力企业全方位了解标准数据资产。
数据质量管理是以数据标准为检索依据,元数据为检索对象,通过内置复杂函数规则库进行数据质量检验,生成数据质量报告和评估结果,实现全生命周期的数据质量管理。
(3)大数据服务
大数据服务通过实时统一的数据访问入口提供数据服务,屏蔽异构数据的复杂性,同时控制数据访问与数据内容的安全性。广泛应用于即时查询、报表实时数据展现、虚拟数据仓库和Web方式数据共享等应用场景。大数据服务包含API管理服务、API查询服务、统一查询服务和网关服务等。
(1)API管理服务
API管理服务负责数据源登记、API配置管理、测试和发布、API调用状态查询等业务逻辑。API管理服务无系统级别的状态,只需要保证单个用户访问session在一个节点,就能保证操作流畅。
(2)API查询服务
用以接受用户的请求,根据请求头信息、请求方法、请求URL、请求Body信息解析出调用的API ID、调用参数,并形成统一查询服务的SQL,调用统一查询服务,获取到查询结果后封装返回。API查询服务自身是无状态的只读节点,通过多副本节点的方式来保证高可用。
(3)网关服务
网关服务起到内部组件相互调用的路由作用,组件对组件的访问都必须经过网关服务;能对某些服务调用起到限流作用;也可主动发现某种服务的节点变化;网关服务自身是无状态的只读节点,通过多副本节点的方式保证高可用。
(4)大数据安全管理
利用数据管理平台的安全管控能力,通过多种手段和策略对实现数据安全管理。首先是“一数一源”管理,梳理各部门的责任清单明确各部门的数据权责和使用需求。其次是数据分级管理,设定数据的安全等级(计划划分为普通共享、有条件共享和不予共享三个级别),针对不同安全等级的数据设计相应的审核流程和管理角色,实现分权管理。第三是数据脱敏加密,数据共享时通过对敏感数据的加密或脱敏,保障数据安全。
5 大数据应用
(1)面向学生应用
学生概况分析:在校生情况、学生总数据量、男女生比例、年龄段分布、年级分布、民族分布、专业人数分布、应届毕业生报到率、就业率等指标进行分析展示。
基于学生管理系统、图书馆系统、勤工俭学系统、教学管理一体化,一卡通数据、校内网络日志等各类数据,构建学生综合画像、学生上网行为分析、学生生源分析、学生综合预警等、学生精准资助、学生轨迹分析等智慧应用。
从院系、专业、去向类别、行业、就业地域等角度分析就业情况,同时结合学生的专业、成绩等各方面因素深入挖掘与就业的内在关系。
(2)面向教师应用
分析学校教师的结构、教师的活跃、对教师的教学进行有效的监测和激励,构建教师综合画像。
师资结构分析:根据在校平均人数、用工结构(校内、校外)、职能结构、性别结构、年龄结构、学历结构、工龄结构、职称结构等相关指标进行分析展示。
专任教师结构分析:专任教师数量、双师型教师数量、外籍教师数量、博士学历数量、高层次人才数、性别分布、年龄段分布、职称分布、学位分布、毕业院校分布、国际化情况、近五年专任教师数量趋势进行分析展示。
管理人员结构分析:总数(党政管理)、性别分布、各单位管理人员分布、管理人员编制类别、年龄段、学历分布、学位分布、职务级别等。
(3)面向教学分析应用
本学期开课课程数量、生均课程门数、课程思政课程、省市精品在线开放课程数量、线上线下混合教学课程数量、等指标进行分析展示。
分析教学过程的内容,包括实时展示教学状态、教学质量评估、生源质量评估与诊断、师资队伍数量与结构情况、教学改革分析、实践教学分析、专业/专业群分析等。
(4)面向资产分析应用
实时分析全校的各类资产的情况,从部门、资产类型、时间等角度分析资产的现状和使用情况,加强资源使用情况监控,来逐步提高资产管理绩效。
6 结论
根据职业院校对数据和应用服务的需求,对全校各业务系统的数据进行汇聚、治理和共享,构建全域数据中心。通过建设数字驾驶舱、主题分析和对比分析等大数据分析手段构建数据智能决策分析平台,为师生个人服务、管理部门科学决策提供大数据场景化服务,促进教育教学改革,推动学校管理服务工作现代化、科学化、决策应用智能化发展。
参考文献
[1]李灵曦.大数据对我国高校教育管理的影响及对策研究[J].中国管理信息化,2022,25(02):239-241.
[2]雷文彬.智慧校园环境下高校大数据的治理及应用策略[J].工程技术研究,2022,7(05): 210-213.
[3]王欣,翟羽婷.大数据技术在高校发展中的应用策略[J].电子技术,2022,51(01):272-273.
[4] 陈健,张志华,吴毅生,等.大数据技术在高校智慧校园建设中的应用[J].微机电脑应用,2021,37(7):79-81.
基金项目:2021年湖南省职业院校教育教学改革研究项目“职业院校教育信息化2.0试点研究”,项目编号:ZJZD2021015