• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于规则的组块合并研究

黄雨菲
  
大鑫媒体号
2025年58期
武汉工程大学管理学院 湖北武汉 430000

摘 要:针对句法分析组块识别中粒度难衡量、语法易丢失的问题,提出基于规则的多层次组块合并模型。先定义词与组块的二元或三元合并规则,再结合合并粒度与规则优先级,引入多层层级关系并设合并顺序,通过层级匹配对应规则完成合并。该模型以层级与规则约束合并过程,有效解决上述问题,助力计算机精准抽取文本信息、理解语义,提升自然语言理解的准确性与效率。

关键词:组块;句法分析;规则;层次结构

中图分类号:TP391 文献标识码:A

0 引言

组块的研究中主要有基于规则的方法、基于统计学习的方法、基于深度学习的方法以及混合的方法。目前使用较多的是基于规则和统计学习混合的方法,谷波等[1]提出了一种基于 RNN 的中文二分结构句法分析,但忽略了中文部分语句不满足二分结构而满足三元结构的语句状况,导致其句法分析正确率偏低。Nguyen 等[2]提出了一种改进的神经网络模型进行词性识别和依存句法分析,在实验语料中效果较好。但基于深度学习方法的可解释性较差,数据资源和计算力成

本高,且仍不能得到较好的组块分析结果。

本文提出了一个基于规则的多层次组块合并模型,在预先定义好的规则中,设置规则的优先级去定义层级,通过规则和层次顺序合并出粒度合适的组块。

1 提出问题

目前基于规则、统计、深度学习的方法在组块研究上已取得较好的成果,但当前对组块分析上还存在以下不足:

(1)组块粒度衡量难是当前句法分析的突出问题:现有方法仅能识别细粒度或粗粒度组块,粒度过大易丢失细语义信息、导致组块信息模糊,过小则使组块信息量不足,还会增加模型计算复杂度、提升噪音干扰风险

(2)组块合并易丢失语法规则:中文语法词序固定,多为 “主谓宾” 结构,且含定语、状语等成分,成分间存在主谓、定中、状中等关系。但现有组块合并多为一次合并,仅识别名词短语、动词短语等基础结构,未考虑部分名词、动词作修饰成分与中心词的定中、状中关系,导致语法规则缺失。

针对以上基于组块研究的不足及分析,本文根据句子的合并规则及优先级,以数学应用题语义理解为研究对象,提出基于规则的多层次组块合并模型。

3 基于规则的多层次组块合并模型研究

3.1 构建词和组块合并规则

为构建基于规则的多层次组块合并模型,首先应定义组块合并的规则,本文以数学应用题文本为例,结合哈工大 LTP[3]对于已词性标注的句子进行词合并组块,通过黄教授团队定义的44 种依存关系并且结合数学应用题文本提炼出三种词的合并规则,其中涉及到的组块标准参考文献[4]。

① 名词性短语合并:修饰成分(“的” 字结构、形容词、名词)与名词构成定语依存关系,可合并为名词性短语,如 “存放的稻谷”“普通公路”“小学校园”,合并规则为: a+n=np ; r+n=np;n(p)+n(p)=np ; m/v(p)+ 的 +n(p)=np 。

② 动词性短语合并:修饰成分(状语,多位于动词前)与动词,或数学应用题中连续出现的两个动词,可合并为动词性短语,如 “约有”“宣传教育”,合并规则为:v+v=vp ; d+v=vp。

③ 其他词性短语合并:数字与量词、名词复数(“们” 字结构)、名词“和” 字关系、代词与名词可合并为名词性短语(如 “200 平方米”“同学们”“小明和小黄”“这个粮仓”);代词与量词可合并为其他词性短语(如 “多少米”),合并规则为: m+q=qp ; 这 +q=qp ; ∣n+1∣]=np ;

(n)+ 在/p +n=np ; n(p)+ 和 +n(p)=np ; r+q=qp 。

3.2 组块合并的层次顺序

在定义词合并规则之后,要考虑词合并规则的优先顺序,以及将词或组块合并的粒度,组块粒度过小会导致包含的信息不足,过大会导致组块信息过于模糊,丢失细粒度信息,因此在一个句子中将组块合并到合适粒度至关重要。

表 1 层次关系

本文在以数学应用题为例,在对数学应用题文本进行组块分析时,发现引入三层层级关系可以将该文本组块划分为粒度大小合适的组块,并在每个层级关系中设置对应的词合并规则形成优先顺序,通过层级关系和词合并规则对组块进行合并,最终合并成粒度合适的组块,如表1。

3.3 模型构建步骤

确定词合并规则与层级关系后,基于规则的多层次组块合并模型构建步骤如下:

第一层:预处理句子,用哈工大 LTP 完成词性标注,输入预处理语句块,按预定规则合并组块;

第二层:先判断语句块是否符合合并规则,无则输出结果,有则按第二层规则合并;

第三层:重复判断流程,按预定规则合并。能进入此层意味着语句已合并出较大粒度组块,且保留小粒度关键动词组块,可解决组块粒度衡量难题。

由构建步骤可知,基于规则的多层次组块合并模型是根据预先定义的词合并规则和组块合并层次顺序逐步生成的,词和组块合并规则是根据依存句法中依存关系定义,组块合并层次用来设置合并规则的优先级,因此在数学应用题领域中,该模型可以将句子合并为粒度大小合适的组块,并且符合中文语法规则。

4 结语

组块分析可助力计算机提取文本信息、理解语义,提升自然语言理解的准确性与效率,但当前研究存在组块粒度难衡量、易丢失语法规则等问题。本文以数学应用题领域为切入点,深入分析句子依存关系,构建词与组块的合并规则并加入层次关系,设计出基于规则的多层次组块合并模型。在该领域应用此模型,可有效解决上述问题、提升文本处理效率;且通过定义不同合并规则与层次,模型可拓展至其他领域,进一步提高自然语言处理效果。

参考文献

[1]谷波,王瑞波,李济洪,等.基于 RNN 的中文二分结构句法分析[J].中文信息学报,2019,33(01):35-45.

[2]Kitaev N, Klein D. Constituency parsing with a self-attentive encoder[C]// TThe 56th Annual Meeting of the Association for Computational Linguistics.[S.l.]: Association for Computational Linguistics,2018:2676-2686.

[3]Che W, Feng Y, Qin L, et al. N-LTP: An open-source neural language technology platform for Chinese[J]. arXiv preprint arXiv:2009.11616,2020.

[4]仵永栩,吕学强,周强,等.汉语概念复合块的自动分析[J].中文信息学报,2016,30(02):1-11.

作者简介】

黄雨菲(2001--),女,湖北孝感人,硕士研究生在读,研究方向:数据挖掘与商务智能

项目基金号:武汉工程大学研究生教育创新基金项目NO:CX2024139

*本文暂不支持打印功能

monitor