基于人工智能技术的现实增强学龄前儿童识字APP设计与研究

——以字初始APP为例

佘勇黄俊峰杨云霓

贵州电子信息职业技术学院

打开文本图片集

摘要人工智能技术在近几年内迅速崛起并掀起一番浪潮。人工智能是计算机科学的一个分支，英文缩写为AI（Artificial Intelligence）。人工智能的目的在于使用计算机编程生产出与人类相似的智能机器人，还包括语言识别、图像识别等。人工智能的体现在对人的思维过程的模拟然后高效的输出，但人的思维过程比较繁杂，它包括识别、分析、比较、概括、判断、推理等。这些尖端技术逐渐普及到各行各业中，特别是在学龄前儿童教育方面有着举足轻重的作用，学龄前儿童教育是为学校教育和终身教育做基奠，理应积极应对人工智能教育的需求。

关键词：人工智能;学龄前儿童识字;文字识别

一、引言

针对学龄前儿童做启蒙教育引领他们自主学习为目的，从合理性、应用性、随机性等方面可实现对平时书本上随处可见的汉字所见即所得，VR扫描展示汉字笔画特点、音形释义、词组例句等信息，不仅仅是对书本的识别还可以对路旁广告牌上的文字信息进行扫描并事实显示出对应的信息，提高了识字系统的通用性，这也是本论文的核心点创新。

1.1研究背景

在“双减”政策不断升温的同时也意味着学前教育的改革即将到来，识字APP作为减压增效的智能载体，从而导致人工智能的迅猛发展。人工智能技术可以进行自我学习、不断迭代且具有更好的试错和自我学习、自我更新的能力，能够帮助孩子进行自主学习的同时对学习产生浓厚兴趣。现在AI+教育的发展理念已经基本达成共识，已经落地的人工智能教育应用场景可划分为教、学、管、考。技术层面目前发展较为成熟，感知识别技术应用场景广泛，从而受到资本关注，2013年-2019年，AI+教育领域共发生274笔融资事件，总融资额达145亿。而近两年以来，由于疫情的爆发，线上教育的普及爆发就在一瞬间，教育数据量增长迅速，为AI+教育提供了大量的基础数据。根据大数据的统计计算出人们的对哪方面线上的需求较为迫切，通过人工智能技术进行解决和提升。学龄前儿童教育是为学校教育和终生教育做基奠，理应积极应对人工智能教育的需求，针对学龄前儿童的身心发展特点，研究了字初识APP，让小朋友在人工智能的加持下，可以自主学习汉字，在户外对大自然的动植物感到疑惑时可以通过人工智能现实增强技术让小朋友立即了解相关信息，让家长少一点“烦恼”。未来，为了进一步结合课堂教育改革的需求，AI教育将持续升级，实现AI辅助实现的策略化点播和发散性学习将是重中之重。

1.2社会痛点

在近两年间，教育行业发展的热度持续高涨，各种各样的教育培训机构层出不穷，不仅跑出了一条星光灿烂的大道，更是成就了不少“独角兽”。然而，在教育机构赚的盆满钵满的时，“内卷”家长和孩子的现象频发，教育行业一时之间也是乱象频发。当下儿童识字教育方面也存在不少问题。忽视汉字的结构和来源，一个汉字的真正意义，一味的追求识字量而忽视汉字的实际应用。中华文化博大精深，文化则首要体现在汉字方面，而现在大多数是应试性教育，过分按照目标教育，忽视孩子兴趣阅读，久而久之形成厌学心理，丢失阅读识字兴趣和积极性，也没有达到识字的目的。在阅读时，识字量少的孩子大多数采取逐字阅读模式，低效又易错;反之识字量多的孩子总是通过组词成句式阅读的，高效也易于理解。儿童在课堂上学习到的汉字总是有限的，还是需要平时生活和阅读的日积月累才能有个自己的识字系统。部分孩子看到生难字会出现读半边或者直接跳过的现象，这充分说明了孩子对汉字的认识还远远不够，也对阅读识字产生了一定的排斥，更加无法对阅读产生兴趣了。而人工智能教育的出现，将改变这一系列现象。

二、软件开发相关技术

2.1ARcore技术

ARCore 是 Google 用于构建增强现实体验的平台。使用不同的 API，ARCore 使您的手机能够感知其环境、了解世界并与信息交互。ARCore 使用运动追踪、用户交互、增强图像功能将虚拟内容与通过手机摄像头看到的现实世界相结合。

2.2 TTS技术

让语音助手说话的技术叫 TTS（text-to-speech），也就是语音合成。本质上来说也就是从文本转化为语音的过程，通过这种方式让机器开口说话。

2.3 OCR技术

光学符号识别，即 OCR （Optical Character Recognition），是计算机视觉领域的一个重要分支，主要用于将图像中的文本转换为机器可读的形式。OCR图像预处理、智能字符识别、后处理。

三、核心技术逻辑

本软件的核心技术是：通过ARcore三维相机截取文字图片后压缩成JPG格式发送到OCR服务器，获取文字数据发送到汉字解释服务器返回文字数据识别结果，将文字面板UI展示类获取的数据进行处理，展示3D文字模型和汉字解释与词组列表，最后向TTS服务器发送请求，服务器返回语音解释并进行播放。

（1）利用ARcore的锚点定位功能，将预加载面板的锚点设定在离相机前30～60厘米的位置，每隔3秒检测一次三维空间的位置，自动重置到当前相机的锚点位置

（2）调用截图功能，将截取到的范围纹理渲染转换为JPG图片

（3）向OCR服务器上传JPG图片，返回识别到的文字集合渲染到选字面板UI的集合列表当中，用户通过滑动选择汉字以后，将获取的文字转化为3D文字模型，然后3d文字模型展示到屏幕空间，并且配以文字释义、笔画演示、词语示例

（4）向笔画服务器发送了请求后，服务器返回笔画视频渲染到UI面板播放汉字笔画书写

（5）向汉字解释服务器发送了请求后，服务器返回汉字解释数据，渲染到UI面板展示汉释义

（6）向词语服务器发送了请求后，服务器返回词语集合渲染到UI面板展示汉字相关的组词

（7）所有数据渲染成功后，向TTS服务器发送汉字解释文字，服务器返回汉字解释语音，客户端接收到语音后自动播放。

（8）用户点击其他词语，向TTS服务器发送词语解释，服务器返回词语解释语音，暂停正在播放的语音，重新播放当前词语解释的语音。

这段代码的逻辑如下：

首先我们从Session中得到标记为new的DetectedPlane，并将这些检测到的平面赋给mNewPlanes list表，然后我们根据新检测到的mNewPlanes数量，对每一个新检测到的平面实例化一个我们之前制作的VisualDetectedPlane平面，并将新实例化的平面赋给planeObject以便显示和利用。最后我们还保留一份所有检测到的平面的副本。完整代码如下：

四、总结与展望

人工智能（AI）已经深入现代教育革命，这门技术被广泛应用于教育信息发展方向，推动人工智能技术与教育的融合创新发展的同时也深刻地改变了过去的教、学、考的教育形式。“AI+教育”目前发展势头强劲，为识别汉字提供了更为新颖的学习方式，以VR扫描为主然后用生动的模型展示，增加了学习的趣味性、交互性，让学龄前儿童能够主动参与学习和更加有效的接受和吸收知识。未来还会结合现实增强技术联合谷歌眼镜，达到简易高效识别，获取大量信息，提高儿童学习自主能动性和趣味性。

*本文暂不支持打印功能