- 收藏
- 加入书签
高校数据治理框架构建研究
摘要:本文首先分析高校数据治理中的数据采集范围不广、数据孤岛仍然存在、数据治理思路不清、数据开放共享不畅、数据开发应用率低等现状和问题,设计标准和技术两大支撑体系,提出包括感知系统、数据中台、应用中台、智慧应用等功能数据治理框架,以“双中台”赋能高校现代化治理,以数据标准中枢全程监管数据中台分层数据治理,以应用中台开放数据共享和应用,释放数据动能,提升治理效能。
关键词:数据治理; 数据中台;治理框架
1 引言
2020年10月,中共中央、国务院印发《深化新时代教育评价改革总体方案》,利用现代信息技术开展学生全过程学习纵向评价和全要素横向评价[1]。2021年11月,中央网信办发布《提升全民数字素养与技能行动纲要》推进高校数字技能基础课程和实习实训基地建设[2]。基于此,教育部在《教育部2022年工作要点》中强化数据挖掘和分析,构建基于数据的教育治理新模式[3]。但我国高校当前处于数据治理初级阶段,一方面对数据采集不够重视,导致数据维度不多,如何开展数据治理思路不清晰,不足以支撑教育现代化治理的要求;另一方面数据如何发挥作用和价值,也未见有效应用路径,师生信息化获得感不强。本研究探索数据治理构架体系,结合高校信息化困境,从采集、对接、治理、共享、应用五个层面提出数据治理方案。
2 研究现状
2.1 数据采集范围不广
数据治理的对象是数据,本科教育质量监测国家数据平台在数据采集方面存在共用性不够、特色性不足、新理念凸显、时代性不足等问题[4]。《职业院校数字校园规范》(下称“规范”)设计了师生发展、数字资源、教育教学、管理服务、支撑条件、网络安全和组织体系等7项一级指标、20项二级指标、34项三级指标和72个观测点[5],高职人才培养工作状态数据采集平台从实践教学条件、师资队伍、专业等11个方面的采集数据,平台的数据采集点与《规范》的要求尚有一定的差距[6]。当前高校数据采集来源是学校业务系统,通常是教务、学工、科研、财务、人事、教学、一卡通等校内关键业务系统,对物联网、日志、音视频等非关键系统的数据采集较少[7]。可见,从教育行政部门到高校,存在数据采集范围广度不够,源头数据不足,在数据治理后期,将给下游单位繁重的人工补录数据工作。
2.2 数据孤岛仍然存在
高校各部门自行管理业务系统,缺乏完善的数据管理组织架构[8],导致系统“烟囱”林立,数据对接难度大,业务不愿意配合数据对接工作。随着云计算技术的发展,系统上云逐步成为趋势,高校一部分系统逐渐saas化,该类系统由互联网对接到高校内部,容易受网络攻击和安全设备拦截,另外,云端平台的注重功能迭代升级,忽视接口改进,导致接口经常失效。可见,从高校内部、外部的系统应用中,仍然存在数据孤岛情况,主要原因是系统共享意愿不高[9], 数据资源的联通难以实现[10]。高校的发展离不开数据驱动的院校管理服务和治理决策[11],数据孤岛是数据治理中需要解决问题。
2.3 数据治理思路不清
当前,高校信息化进入智慧校园时期,教育数字化转型成为提高人才培养的重要手段,数据成为学校现代治理的关键要素。高校片面认为数字化转型就是建系统,数据治理就是纸质表格变成在线共享文档,数据治理思路不清晰。高校数据治理把数据视作治理对象和工具,从而实现高职院校治理能力的提升治理[12],从数据治理、业务系统改造、技术引入和人才培养方面入手解决数据治理实践问题[13],构建数据“管、通、用”的数据中台[14],助力高校数字化教育转型和教育治理模式的现代化变革[15]。
2.4 数据开放共享不畅
高校数据治理由数据管理部门实施,管理部门不清楚数据使用部门需要什么数据,数据使用部门不清楚到如何申请使用数据,数据开放共享不畅通。高校建设全域数据中台,统一数据标准,统一接口实现数据互联互通[16],发布数据共享目录,设计数据使用流程,建立公共数据平台交换机制,明确数据管理部门和使用部门职责,确保数据在学校各个部门使用[17], 开发数据视图、webapi、webservice、导出等多种共享方式,实现数据管理部门与数据使用部门数据需求、产生、使用、管理之间闭环。
2.5 数据开发应用率低
高校将在较长一段时间内处于智慧发展的初级阶段[18],高校仍需侧重于基础设施、业务系统、数据标准的建设,对数据开发尚未有足够的思考,数据应用效率较低。数据治理的最终落实到数据应用中,数据驱动智慧校园创新与应用深度融合,全面支撑起学校人才培养、科学研究、管理服务、文化创新等核心业务[19],郝志杰[20]通过数据治理中构建“一张表”应用,在学校岗位考核、职称评审工作中切实的减少了数据填报的工作量,提升教师信息化获得感。
3 数据治理框架与实践
贯彻治理和应用两大数据治理目标,以标准和技术两大体系为支撑,以数据“采集、对接、治理、共享、应用”的视角构建数据标准体系框架,如图2所示。
3.1 感知系统
感知系统是数据生产源头,一是结构化数据,包括教务、学工、人事、科研、财务等业务系统的业务数据。二是非结构数据,包括物联网感知采集的数据、硬件或应用系统的日志数据、生物识别设备的智能行为感知数据、空间定位数据、交互信息数据等。高校通过完善业务系统建设,丰富数据源头,打造多维数据生产中心。一方面,提升高校信息素养,树立“万物皆数”的意识,通过人工智能、物联网、大数据建设感知型智慧校园,识别并结构化人、物、行为、环境、情感等场景数据。另一个方面,重视业务系统建设与应用,加强系统的从能用向好用的个性化升级,激励管理部使用系统开展业务工作,从业务系统中挖掘更多数据。最后,挖掘日志数据价值,日志数据和空间感知数据,结合时间因素,能够在师生行为预警提供参考。多方打造高校全量感知系统,丰富高校业务域数据,为数据中台提供数据源。
3.2 数据中台
2015年,阿里巴巴提出“数据中台”概念,实现高速处理结构化和非结化数据,快捷响应应用需求。为解决高校大数据分析应用,教育数据中台应运而生,实践中有两种方式,一是升级,在现有主数据基础上加入规范化治理功能,并扩展数据库性能。二是重建数据中心。无论哪种方式,都应该围绕数据的规范化治理和共享两个目标而开展。
3.2.1 大数据仓库
大数据仓库是高校数据存储中心,向下对接来自感知系统进入数据仓库的源数据,对进入仓库数据进行规范化治理,向上提供数据与第三方对接共享,管理数据的入口和出口,起承上启下作用。在智慧校园总体框架(GBT36342-2018)对数据治理的要求:根据数据标准体系,应用技术、工具和方法,实现数据从无序到有序,从零散到关联的过程。本文以升级数据中台方式,提出数据分层治理的理念,引入数据标准中枢全程检验数据的方法,开展高校数据治理。相比Hadoop、HDFS、Hive等重建数据中台方式,以较少的成本和资源开销,获得高性价比的数据治理成效和高性能的数据响应性能。其做法是,在现有主数据平台的基础上,重新设计数据库实例或重构数据表,把数据划分为全量层、拉练层、主题层,实现发现数据、加工数据、应用数据的功能。数据标准中枢对分别全量层、拉练层、主题层进行基础编码、数据合规、数据安全的校验,输出校验预警状态和标记数据迭代版本。
3.2.2 数据全量层
全量层面向感知系统对接而来的数据,对接原则是应接尽接,全量层只关注“有”数据的问题。简之而言,只要感知系统有的数据,全部接入到全量层,本层主要治理的工作是从业务系统中挖掘数据。虽然全量层存储业务原始数据,但数据标准中枢仍然作用于全量层,校验教工号、学号、专业代码、课程代码等基础数据编码规则,编码是数据仓库数据关联依据,为拉练层数据治理提供依赖,体现数据价值。
3.2.3 数据拉练层
数据拉练层负责数据有序加工处理,本层主要治理的工作是梳理人、财、物、专业、课程、项目等对象全部属性,设计对象数据宽表,以任务定时更新,把全量层属性数据拉取更新到对象宽表。一是挖掘对象属性,综合调研各业务系统的数据,发现对象属性,如学生的属性数据,包括在教务系统中学籍信息,学工系统中是状态标签数据,在一卡通系统中是身份扩展身份数据等,宽表综合以上所有属性,完整描述该对象,对象属性越多,主题层越快速构建应用主题。二是宽表数据索引,宽表不断增加数据列不断扩展对象属性,数据应用主要是数据查询操作,数据索引提提高数据实时响应效率。三是宽表数据拉取,以定时任务的方式,从全量层中定时拉取数据到宽表中,一张宽表对应多张全量层数据表,通过ODI(Oracle Data Integrator)、ETL(Extract Transform Load)、DTS(Data Transmission Service)等方式调度。此外,全量层不能够满足对象宽表所有属性的采集时,需要对数据进行人工补录,需要设计相应的数据补录采集工作。数据标准中区作用于数据拉练层,主要是校验数据合规性,如发现电话号码、身份证的异常,数据状态超范围,数据冲突等,向用户提示告警,提供数据订正的功能,并对数据修订进行版本控制,做到数据异动溯源。
3.2.4 数据主题层
数据主题层面向数据应用,以业务划分主题,进行分门别类管理。高校数据应用主要有数据交换、诊断改进、状态数据、高基报表、大数据分析等主题,每个主题包含若干数据表。主题层数据表从对象宽表中选择属性数据,以数据够用、面向应用为原则,建立应用简表。数据标准中区在主题层中负责检验数据安全性,包括数据权限控制、数据脱敏处理、数据开放申请等。对身份证、电话、重点人员状态等数据进行敏感编码,提供数据开放申请流程,保证数据安全可控。
3.2.5 数据标准中枢
数据标准中枢是以数据标准体系设计成为软件功能,融入数据中台,负责数据校验。中枢以数据标准体系为参照,并用软件实现其规则,分别作用于全量层、拉练层和主题层的数据检测。在应用中,通过动态设置检测策略的方式,以保证中枢随时响应数据标准体系调整。另外,中枢应及时推送数据异常提醒给用户,记录数据修订版本,提供数据异动溯源。
3.3 应用中台
应用中台以数据主题层为数据源,构建数据开放目录、数据共享、API接口和数据可视化等应用功能。数据开放目录向高校内各部门开放数据资产,以应用场景开放数据共享方式,包括数据视图、API接口、webservice等。数据视图应用于批量数据共享场景,需公开数据库IP、端口、用户和密码等信息,存在一定的安全隐患。API接口应用在数据量较小、实时性较高的场景,使用token签名认证方式,保证数据交换安全,该方式需对方在代码上实现接口,有额外的对接开销成本。webservice为早期数据共享方式,与API接口相似,更多应用在端到端的场景。数据可视化以BI展示工具,快速实现数据应用分析,提高数据治理效果。
3.4 业务应用场景
业务应用场景体现数据应用价值,由应用中台构建共享数据流,实现业务逻辑。以数据流为应用关键,提高智慧校园顶层设计能力,以数据应用为抓手,构建领导决策、师生一张表、一网通办、数据智能上报、教学教研、个性化学习等智慧校园生态链。以学生请假服务流程为例,下行数据流是从人事、教务的源头读取学校组织架构用作审批节点,上行数据流是把流程审批完成的结果数据同步分发给学工系统、个性化应用等,共享数据流实现了源头数据统一维护,无需每个系统都维护,流程数据可一次审批多次分发给第三方系统。以数据流建构智慧校园应用,一方面打造学校特色的应用,延长应用生命周期;另一方面满足个性化需求,增强师生获得感,深化系统推广和应用,在感知系统中产生更多数据,从而实现业务系统闭环。
3.5 标准体系
数据标准是治理的依据,高校发展的各项指标纳入数据标准体系,指导和促进高校数据治理,形成数据治理的工作标准和参考手册。指标包含合国家标准、行业标准,学校自定标准,也要兼顾数据安全和通用基础标准。2021年9月1日《中华人民共和国数据安全法》实施后,数据安全要求提高到国家安全高度,安全指标纳入标准体系,保障智慧校园安全与健康发展。另外,从标准体系中抽取出管理监控指标,设计成为数据标准中枢,监控大数据仓库的数据迭代和异常情况。
3.6 技术体系
技术是数据治理的支撑基座,提供数据治理的环境、方案和工具。在在智慧校园建设中,算法、算力、数据成为高校现代化理治的关键资源。一是高校洞察前沿技术,结合业务发展,打造更具价值的智能场景。二是高校建设充足的计算资源,满足教学、科研、管理等业务的计算资源需求。云架构解决资源按需分配,云架构的弹性伸缩快速响应数据计算和存储需求,实现应用连续性,解决数据的合规性要求。三是数据治理解决方案,是数据治理的成败关键,综合校内信息化环境、数据治理主体的信息化素养、校内外技术团队能力、科技企业数据治理方法论等因素,制订符合高校自身的数据治理方案,形成治理合力,支撑和推进数据治理。
结束语
当前高校正进入教育数字化转型的关键期,本文研究设计数据治理框架,给高校开展数据治理提供思路和方法,以数据驱动教学、科研、管理和服务等工作,加快教育数字化转型进程,促进高校教育教学高质量发展。
参考文献:
[1]新华社.中共中央、国务院印发《深化新时代教育评价改革总体方案》[EB/OL].[2020-11-08].http://www.gov.cn/zhengce/2020-10/13/content_5551032.htm.
[2]中央网络安全和信息化委员会.中央网络安全和信息化委员会印发《提升全民数字素养与技能行动纲要》[EB/OL].[2021-11-05].http://www.cac.gov.cn/2021-11/05/c_1637708867754305.htm.
[3] 教育部.《教育部2022年工作要点》[EB/OL].[2022-02-08].http://www.moe.gov.cn/jyb_sjzl/moe_164/202202/t20220208_597666.html.
[4]黄贤明,梁爱南,张汉君,冯兆.教育信息化2.0背景下基于数据中台的高校数据治理方案研究[J].现代信息科技,2022,6(18):24-27.
[5]毛文卉,吴驰,刘雅琴,李凯,秦楠,严帆.数据治理背景下高校数据共享框架的研究与实践[J].实验室研究与探索,2022,41(08):297-303.
[6]韩红光.基于数据中台模式的校园信息预测模型分析[J].电子技术,2022,51(08):67-69.
[7]张辉,李健明,杨强.大数据视角下高校数据治理体系研究与实践[J].中国高等教育,2022(Z2):16-18.
[8]姜建峰.基于数据价值开发的校园大数据生态治理研究[J].江苏经贸职业技术学院学报,2022(04):26-28.
[9]吴志康.高校数据治理现状分析及思考[J].网络安全技术与应用,2022(05):104-105.
[10]张芳.高校智慧校园的建设实践及创新应用——以中央财经大学为例[J].现代教育技术,2022,32(04):113-125.
[11]李运福,徐菲,李贝.高等教育质量监测国家数据平台现状分析与改进建议[J].中国远程教育,2022(04):65-75.
[12]王珂,王小军,郝喆,王运,杜娟,蔡会霞.基于数据治理的智慧校园建设路径[J].信息技术与信息化,2021(09):127-130.
[13]张秦,孙长坪.数据治理:高职院校治理方式的创新[J].中国职业技术教育,2021(27):32-37.
[14]翟雪松,楚肖燕,张紫徽,陈文智.基于中台架构的教育信息化数字治理研究[J].电化教育研究,2021,42(06):40-46.
[15]刘革平,罗杨洋,韩锡斌.职业院校数字校园中的数据治理探究——《职业院校数字校园规范》解读之五[J].中国职业技术教育,2021(04):32-38.
[16]韩锡斌,崔依冉,罗杨洋.职业院校数字校园的内涵、框架及要求——《职业院校数字校园规范》解读之一[J].中国职业技术教育,2020(34):5-9.
[17]宋苏轩,杨现民,宋子强.智能时代高校数据中心的新内涵及其体系架构[J].现代教育技术,2020,30(07):81-88.
[18]余鹏,李艳.智慧校园视域下高等教育数据生态治理体系研究[J].中国电化教育,2020(05):88-100.
[19]许宇飞,罗尧成.高职院校教师队伍类型结构分析及优化建议——基于X省高职院校人才培养状态数据的分析[J].职业技术教育,2020,41(08):68-71.
[20]郝志杰,李莉,荣娟.数据治理在解决“一张表”问题中的实践[J].实验室研究与探索,2019,38(12):261-265+307.
作者简介:韦永军,高级工程师,硕士,主要研究方向:计算机应用、信息安全
课题基金:广西高校中青年教师科研基础能力提升项目“数据治理角度下的高校信信息数据标准体系构建研究”(2020KY44016)

京公网安备 11011302003690号