
- 收藏
- 加入书签
人工智能视域下教育数据标签体系建设与实践研究
摘要:基于人工智能视域下对教育数据需求,需运用“数据标签体系”理论,结合教育行业的特点,阐述了教育数据标签体系的概念,提出按人工智能需求构建教育数据标签体系的方法,设计了相应的管理体系。构建教育数据标签体系,提升数据质量,通过实践证明明,数据标签对教育领域人工智能应用场景建设行之有效。
关键词:人工智能,数据标签,标签体系
一、教育数据标签的建设背景
党的二十大将教育作为全面建设社会主义现代化国家的基础性、战略性支撑进行系统谋划,极具战略意义和深远影响[1]。国家教育数字化战略行动提出发展人工智能赋能教育教学,海量教育数据归集治理是人工智能形成规模效应的重要基础。随着我国引进并推广数据库技术,其在我国生产建设的应用范围变得更加广泛[2]。数据库技术应用于教育治理,可以便于教育信息数据的有效管理,明确教育体制机制和组织架构,是教育治理数字化改革的重要技术手段。要让这些数据资产发挥价值就需要把它转化成一类对教育管理有价值输出的产物[3],实现上层业务的创新应用,真正将数据变为实现业务价值的创新利器[4]。
二、教育数据支撑人工智能现状
全国教育系统的信息化,积累了大量个人信息甚至是个人敏感信息,海量教育数据面临着严峻的数据安全风险[5]。虽然各地教育部门对数据安全和个人信息保护原则性要求提出了工作指南,但尚未明确技术手段建设的具体要求与规范标准,无法有效推动教育数据中心开展数据安全技术手段的研发与应用[6];数据分类分级和质量评估效率较低。数据分类分级管理是数据实现共享和开放最基础的工作[7],由于人工智能对数据信息体量需求极大,具有多源异构型数据要求且存在道德伦理方面的风险,数据分类和评估费时费力。
三、教育数据标签体系定义
教育数据标签是对教育数据某个维度特征的描述,能反应特定维度的显著特征。传统的标签生成方法主要采用经验模式结合特征分析来实现标签体系的搭建和应用,而人工智能技术的发展为标签的计算、存储和应用提供了高效的技术支持[8]。
教育数据标签体系是根据教育管理的要求,分业务(部门)、分类别、分层级建立的一套知识标签体系,包括静态属性和动态属性标签,主要用于开展以标签为维度的数据深度分析、以标签为维度的业务应用提升、以标签为维度的跨部门管理创新[9]。形成标签管理的闭环流程,实现教育数据的价值在人工智能应用场景的快速落地。
四、教育数据标签体系的构建
教育数据标签主要可以分为事实特征标签、统计数据标签和预测分析标签三大类。如基于老师的基本信息、兴趣爱好等数据可以对老师进行不同特征的标签划分。而基于时序特征的培训情况、获奖情况、科研情况、学生评价情况等行为数据,结合老师的特征化标签和时间轴,可以构建面向老师在培训、奖惩、科研、评价等多维度的成长数据链及统计类数据标签。事实特征标签和统计类数据标签是基于现有的数据计算得到的标签,而预测分析标签是在事实特征标签和统计类数据标签的基础上,进一步构建预测分析模型衍生得出的预测标签。这类标签能更好地对未来教育的发展趋势提供决策支撑。
教育数据标签体系的构建必须以教育数据中心已有的可靠、可信、可控的数据为依托,从教育管理的各个维度为各类对象建立标签化的描述体系。
教育数据标签体系模型的设计主要包括三个步骤:
(1)部门业务流程的调研梳理:对各教育业务部门进行走访调研,了解熟悉、并梳理各部门的业务管理流程,理解部门的决策流程,熟悉部门的核心业务需求,明确业务数据和学生、老师及管理者的行为。
(2)明确部门标签分类:根据各部门的业务管理目标,对教育管理流程所涉及的业务数据和用户行为等属性进行标签分类,建立不超过3级的标签类别体系。
(3)建立数据标签体系模型:在标签类别体系的基础上,根据时效性将标签分为静态属性(长期甚至永远都不会发生改变)和动态属性(需要定期地更新,保证标签的有效性)标签,或者从数据获取维度来分为事实特征标签(从原始数据中提取)、统计数据标签(定义规则,建立统计模型来计算得出标签实例)和预测分析标签(预测行为、喜好或趋势)。整个模型可以包括业务类型、规则策略、管理方式、统计维度、算法挖掘、权限归属等类别,并最终形成完整的教育数据标签体系模型。
在建立教育数据标签体系模型后,还需要借助教育数据标签管理系统来实现对标签体系的定期更新维护,包括标签的提出、标签的生成、标签的审批和标签的执行四个过程,确保标签体系能及时满足各教育主管部门新业务、新数据、新目标的需要。另外,教育数据标签体系的设计过程中要实现标签的最小颗粒度要触达到具体业务事实数据,同时支持对应标签实例的规则自定义;不同的标签可以相互组合为新的上级标签来更好地表述对象间的不同层级和不同视角关系。
五、教育数据标签体系在人工智能中的实践
以作者所在区域为例,当前优质教育资源相对短缺,中高职、初中、小学等入学依然是社会关注的焦点,本文以建设人工智能体进行学校招生情况互动为主要目标来阐述数据标签体系的具体应用方法,促进招生入学体制机制的创新,提高教育管理部门的办事效率和用户服务的满意度。该应用例子中共包括2个一级标签、6个二级标签和29个三级标签。
整个招生入学数据标签体系的处理,主要由数据预处理、数据建模和数据分析三大块组成。数据预处理包括数据缺失值处理、异常值处理、变量变换、数据离散化等过程,如采用均值填充,随机森林方法,最小值填充等方法来解决缺失值问题。对于连续属性值进行离散处理,如家庭经济情况可以通过聚类分析方法划分为优越、良好与贫困等离散值。对于预测分析标签则利用机器学习方法建立相应模型来实现标签的计算,如设计求解损失函数极值,将损失函数泰勒展开到二阶函数来进行计算,且在损失函数中加入了正则化项等方法来设计标签预警模型。基于上述过程可以建立面向学生和老师的各种应用场景数据标签体系,以及管理部门的管理效率、服务效率、服务质量等的绩效评估数据标签,来展现现代化教育的多样性、便捷性、共享性、时效性、互动性、丰富性。
六、结论与展望
基于“标签数据”技术理论,通过对其进行分析研究,构建教育数据标签体系,呈现多维度、多视觉、系统性的教育数字画像,一方面有助于形成教育人工智能分析挖掘的方法和技术,另一方面帮助教育从业人员和管理者更好地洞察和理解教育规律。因此,不断提高教育数据的广度、数据的质量、数据分析模型的科学性、标签设计的合理性,将是未来教育智能化技术发展的重要方向。
参考文献:
[1] 国家教育行业数据安全分类分级实施指南及防护指引行业标准[J]. 国家信息中心互联网门户网站,2024 (1).
[2] 李勇,陈晓婷,黄格.基于招聘数据的人工智能人才画像与培养对策 [J]. 智能技术与教育,2021 (8).
[3] 李三希.不断推动数据安全产业高质量发展 [J]. 全国哲学社会科学,2023 (2).
[4] 如何推进政府主导、多方参与的消费者隐私保护合作——基于跨国问卷的建议 [J]. 北京大学光华管理学院,2020 (11).
[5] 赵永国.大数据挖掘的用户画像人才标签体系生成方法 [J]. 中国知网,2021.
[6] 李剑.基于数据挖掘的零售客户精准营销模型研究 [J]. 现代情报,2020, 40 (08): 141-147. DOI:10.3969/j.issn.1008-0821.2020.08.018.
[7] 刘俊.数据标签化在电力营销客户细分中的应用 [J]. 电力大数据,2021, 24 (06): 67-73. DOI:10.19317/j.cnki.1008-083x.2021.06.010.
[8] 《2021 年全国教育事业发展统计公报》.教育部网站,2022.
[9] 张涛.数据库技术在信息管理系统中的应用与优化策略 [J]. 信息技术与信息化,2022 (03): 218-220. DOI:10.3969/j.issn.1672-9528.2022.03.068.