- 收藏
- 加入书签
自然语言处理技术及其应用综述
摘要:本文系统梳理自然语言处理的核心技术框架与应用场景。本文阐释了自然语言生成的关键步骤,包括内容规划、句子规划与句子实现,并对比基于规则与机器学习的语义识别方法。另外,本文通过融媒体接口平台、自动文摘系统等案例,展示自然语言处理技术在人机交互、智能写作等领域的实践价值。
关键词:自然语言处理;语义识别方法;融媒体接口平台;深度学习模型
1 引言
人类所使用的语言称为自然语言,这是相对于人工语言而言的。人工语言即计算机语言(如C语言Java)世界语等。自然语言是人类智能中思维活动的主要表现形式,是人工智能中模拟人类智能的一种重要应用,称为自然语言处理(NLP)。
对自然语言理解的大多数研究是致力于寻找通用的表示形式,它既可以适用于广范围内的应用,又可以很好地适应给定领域的特定结构[1]。针对这一目标,人们已经开发出了很多不同的技术(其中大多是对语义网络的扩展或修改),并使用这些技术开发出了可以理解特定但有趣知识领域中自然语言的程序。
2 自然语言处理概述
计算机中的思维意图用人工智能中的知识模型表示后,再转换生成自然语言被人类所理解,称为自然语言生成。在自然语言生成中也大量用到人工智能技术。一般而言,自然语言生成结构可以由三个部分构成:内容规划、句子规划和句子实现[2]。
2.1 内容规划
内容规划是生成的首要工作,其主要任务是将计算机中的思维意图用人工智能中的知识模型表示,包括内容确定和结构构造两部分。
内容确定的功能是决定生成的文本应该表示什么样的问题,即计算机中的思维意图的表示。
结构构造则是完成对已确定内容的结构描述,即建立知识模型。具体来说,就是用一定的结构将所要表达的内容按块组织,并决定这些内容块是怎样按照修辞方法互相联系起来,以便更加符合阅读和理解的习惯。
2.2 句子规划
在内容规划基础上进行句子规划。句子规划的任务就是进一步明确定义规划文本的细节,具体包括选词、优化聚合、指代表达式生成等。
(1)选词
在规划文本的细节中,必须根据上下文环境、交互目标和实际因素用词或短语来表示。选择特定的词、短语及语法结构以表示规划文本的信息。这意味着对规划文本进行消息映射。有时只用一种选词方法来表示信息或信息片段,在多数系统中允许多种选词方法。
(2)优化聚合
在选词后,对词按一定规则进行聚合,从而组成句子初步形态。优化后使句子更为符合相关要求。
(3)指代表达式生成
指代表达式生成决定什么样的表达式。句子或词汇应该被用来指代特定的实体或对象。在实现选词和聚合之后,对指代表达式生成的工作来说,就是让句子的表达更具语言色彩,对已经描述的对象进行指代以增加文本的可读性。
句子规划的基本任务是确定句子边界,组织材料内部的每一句话,规划句子交叉引用和其他的回指情况,选择合适的词汇或段落来表达内容,确定时态、模式,以及其他的句法参数等,即通过句子规划,输出的应该是一个子句集列表,且每一个子句都应该有较为完善的句法规则。事实上,自然语言是有很多歧义性和多义性的,各个对象之间大范围的交叉联系等情况,造成完成理想化句子规划是一个很难的任务。
2.3 句子实现
在完成句子规划后,即进入最后阶段句子实现。它包括语言实现和结构实现两部分,具体地讲就是将经句子规划后的文本描述映射至由文字、标点符号和结构注解信息组成的表层文本。句子实现生成算法首先按主谓宾的形式进行语法分析,并决定动词的时态和形态,再完成遍历输出。其中,结构实现完成结构注解信息至文本实际段落、章节等结构的映射;语言实现完成将短语描述映射到实际表层的句子或句子片段。
早期的语音识别技术多基于信号处理和模式识别方法。随着技术的进步,机器学习方法越来越多地应用到语音识别研究中,特别是深度学习技术,它给语音识别研究带来了深刻变革。同时,语音识别通常需要集成语法和语义等高层知识来提高识别精度,和自然语言处理技术息息相关。另外,随着数据量的增大和计算能力的提高,语音识别越来越依赖数据资源和各种数据优化方法,这使得语音识别与大数据、高性能计算等新技术广泛结合。语音识别是一门综合性应用技术,集成了包括信号处理、模式识别、机器学习、数值分析、自然语言处理、高性能计算等一系列基础学科的优秀成果,是一门跨领域、跨学科的应用型研究。
3 语义识别方法概述
传统的文本分析主要是基于规则的实现方法,主要思路是尽可能地将文字中的分词规范、发音方式罗列起来,总结出规则,依靠这些规则进行文本处理。这些方法的优点在于结构较为简单、直观,易于实现;缺点是需要时间去总结规则,且模块性能的好坏严重依赖于设计人员的经验以及他们的背景知识。由于这些方法能取得较好的分析效果,因此,依然被广泛使用[3]。
近几年来,统计学方法以及人工神经网络技术在计算机多个领域中获得了成功的应用,计算机从大量数据中自动提取规律已完全成为现实。因此出现了基于数据驱动的文本分析方法,二元语义法、三元语义法、隐马尔可夫模型法和神经网络法等方法成为主流。
语言分析、文本处理和音素处理的结果是得到了分词、注音和词性等基本信息,以及一定的语法结构。然而这些基本信息通常不能直接用来进行韵律处理,需要在前者的基础上引入韵律节奏的预测机制,从而实现文本处理和韵律处理的融合,并从更深层次上分析韵律特性。韵律节奏主要通过重音组合和韵律短语等综合体现,可以利用规则或韵律模型对韵律短语便捷位置进行预测。
3.1 基于规则的韵律短语预测
利用韵律结构与语法结构的相似性研究韵律结构,使用人工的标注方法实现对汉语韵律短语的识别。从文本分析中获得分词信息并进行韵律组词,然后利用获得的句法信息,构建韵律结构预测树来预测文本的停顿位置分布和停顿等级,最后输出韵律结构。
利用规则的方法便于理解、实现简单,但是存在着缺陷。首先,规则的确定往往是由专家从少量的文本中总结归纳的,不能够代表整个文本;其次,由于人的个人意识和偏好,难免会受到经验及能力的限制,且规则的复用度低,可移植性差。因此,目前有关于韵律短语预测主要集中在基于机器学习的预测模型上。
3.2 基于机器学习的韵律短语预测
利用统计韵律模型计算概率出现的频度实现对韵律词边界的预测和韵律短语边界的识别。韵律模型可以从韵律的声学参数上直接建模,如基频模型、音长模型、停顿模型等。
通常情况下可以利用文本分析得到分词、注音和词性等结果,建立语法结构到韵律节奏的模型,包括韵律短语预测和重音预测等,然后进一步通过重音和韵律短语信息和韵律短语信息结合成统一的语境信息,最终实现韵律声学参数的预测和进行选音的步骤。
如果直接将挑选得到的合成单元拼接容易导致语音的不连续,因此必须对拼接单元进行平滑处理。
在得到拼接单元后,如果将它们单纯地拼接起来,则在拼接的边界处会由于数据的“突变”而产生一些高频噪声,因此,在拼接时还需要在各个单元的衔接处进行平滑处理,提高合成语音的自然度。
一般相邻的语音基元之间会存在一定数量和程度的重叠部分,这样就会进行过渡性的平滑,使得不会产生边界处的咔嗒声,而对于不相邻的两段语音基元之间,要想将它们拼接起来,可以在要拼接的两个基元之间人为地插入经过韵律参数调整过的语音过渡段,这样就可以保证前后音节拼接点处的基频或是幅度不会出现大的突变,使得它们之间可以平滑连接起来。音节与音节之间可以分为两部分:一是来自同一音频文件的单元;二是来自不同音频文件的单元。第一种情况下拼接单元谱能量基本不变,所以只需重点处理第二种情况即可。
4 自然语言处理应用实例
自然语言处理应用很多,知名的如机器翻译、人机交互、军事指挥、机器人等领域应用,其范围已进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个方面[4]。
4.1 计算机应用系统与融媒体接口平台
在传统的计算机应用系统中(一般都含有数据库或知识库)都有固定格式的人机交互界面,目前大都用HTML编写而成。这种界面内容固定,形式单一,操作复杂,不适合用户对系统多方面、多层次、多形式的需求。为解决此问题,出现统一的融合多种媒体、多种方式所组成的融媒体接口平台。这种平台与计算机应用系统的结合为应用系统的使用提供了方便、灵活与实用的界面。
融媒体接口平台由三部分内容组成,分别是:①多种通信方式:包括过去的电话、传真等通信方式等,以及现代网络终端上的传统固定方式、邮件方式、微博方式、App方式等;移动终端上的微信方式、QQ方式、App方式等。②多种媒体方式:包括固定参数方式、数字方式、自然语言文字方式、自然语言语音方式以及图像方式等。目前以自然语言文字方式及自然语言语音方式最为流行与方便。③统一接口:融媒体接口平台是一个独立的软件,它可以与任何计算机应用系统接口。这种接口是该平台中的一个模块,通过固定操作方式可与任意计算机应用系统接口。在完成接口后,计算机应用系统即可使用它建立起方便的人机交互界面,特别是可使用自然语言文字方式及自然语言语音方式与应用系统对话。
4.2 融媒体接口平台中自然语言文字方式与语音方式的实现
由于目前融媒体接口平台中最为方便与有效的方式是自然语言文字方式及语音方式,下面介绍其实现方式:
(1)自然语言文字方式的实现
自然语言文字方式的实现是通过自然语言理解与自然语言生成而实现的。其原理是:通过自然语言理解将用户查询文本转换成计算机中知识模型,以此为依据转换成数据库中的查询语句,同时以获得查询结果。以查询结果为准构造自然语言生成中的知识模型,通过自然语言生成转换成查询结果文本输出。
(2)自然语言语音方式的实现
与上述类似的方法,通过语音识别与语音合成实现从语音查询为输入,最终得到语音的查询结果输出。
自然语言人机交互界面的应用很多,如苹果手机中著名的Siri即是以语音作为系统交互界面。
4.3 自动文摘
利用自然语言理解技术可以对浩如烟海中的文本作出摘录,以方便查找、搜索所需的文档,这就是自动文摘。
自动文摘目前常用的方法是基于理解的自动文摘,其原理即通过自然语言理解获得文本的内在语法、语义、语用、语境的信息,在此基础上进行知识推理,以获得文本提取信息,再据此进行适当归整,文摘生成,最终得到的是文本的文摘。
自动文摘的操作原则是:对每篇文章从句子开始,到段落、节、章、篇等顺序进行。
自动文摘的步骤是:从文本开始依次进行语法分析、词法分析、语义分析等自然语言理解等几个过程,最终得到相应文本的知识模型,接着据此进行知识推理及文摘生成,最终得到文本的文摘。
文本文摘在图书、情报、资料等单位广泛应用,在现代网络信息查阅中也有不可估量的实际应用价值。目前有很多自动文摘工具可供使用,著名的如IBM公司的沃森系统等。
5. 总结
未来,自然语言处理领域的发展方向将呈现以下几个趋势:一是深度学习模型的持续优化与创新,包括模型结构的改进、训练方法的优化以及模型可解释性的提升;二是跨语言自然语言处理的深入研究,包括多语言模型的构建、语言迁移学习等;三是低资源环境下的自然语言处理技术的突破,包括无监督学习、弱监督学习等方法的应用;四是自然语言处理技术的广泛应用与落地,包括智能客服、智能写作助手、智能翻译等应用场景的拓展。
致谢
本文研究工作受到人工智能翻译陕西省高校工程研究中心资助。
参考文献
[1]荣蓉. 基于人工智能的自然语言处理技术辅助写作应用研究[J]. 科学技术创新, 2024, (11): 96-99.
[2]李博. 深度学习在自然语言处理中的应用[J]. 电子技术, 2024, 53(04): 425-427.
[3]景雯雯. 自然语言处理技术在新闻分析中的应用[J]. 中国报业, 2025, (13): 156-157.
[4]王立栩. 全渠道智能客服平台中自然语言处理技术的应用与优化[J]. 中国宽带, 2025, 21(09): 22-24.
京公网安备 11011302003690号