基于规则的多层次组块合并研究.pdf
与
信息技术信息化网络与信息安全
基于规则的多层次组块合并研究
1112
余小鹏黄雨菲徐健儿姚小桐
摘要针对句法分析组块研究中存在的组块识别粒度难衡量问题,为解决组块识别后语法易丢失等问题,提出
一种基于规则的多层次组块合并模型。先定义词和组块的二元或三元合并规则,然后考虑组块合并粒度
和规则的优先顺序,相比于目前的一次合并,引入多层层级关系,设置组块合并的层次顺序,通过在不
同层级中设置对应的合并规则形成优先顺序来合并组块。该模型通过层级关系和合并规则对组块合并进
行约束,解决了组块粒度难以衡量和语法易丢失等问题,可以帮助计算机更好地抽取文本信息、理解语
义,提高自然语言理解的准确性和效率。
关键词组块;句法分析;规则;层次结构
doi:10.3969/j.issn.1672-9528.2025.01.019
0引言这些不足,相关学者尝试使用深度学习的方法,谷波等人[3]
提出了一种基于RNN的中文二分结构句法分析,但忽略了
在自然语言处理中,组块分析作为一种重要的技术手段,
中文部分语句不满足二分结构而满足三元结构的语句状况,
正逐渐受到广泛关注。组块分析旨在将文本中的单词组合成
导致其句法分析正确率偏低。Kitaev等人[4]提出了一种改进
有意义的、句法相关的单元,即组块。这种分析方法为语言
的神经网络模型进行词性识别和依存句法分析,在实验语料
理解和处理带来了诸多益处,能够简化文本的句法结构,使
中效果较好。但基于深度学习方法的可解释性较差,数据资
复杂的句子变得更易于理解和处理。通过识别组块,可以清
源和计算力成本高,且仍不能得到较好的组块分析结果。
晰地把握句子的核心成分和语义关系,从而为信息检索、机
本文提出了一个基于规则的多层次组块合并模型,在预
器翻译、问答系统等应用提供更准确的基础。例如,在信息
先定义好的规则中,设置规则的优先级去定义层级,通过规
检索中,组块分析可以帮助其提取关键信息,提高检索的准
则和层次顺序合并出粒度合适的组块。
确性和效率;在机器翻译中,有助于更好地理解源语言的句
法结构,从而生成更符合目标语言习惯的译文。组块分析无1相关研究
疑为自然语言处理的进一步发展和应用开辟了新的途径,具[5]
Abney(1991)将句法分析问题分为三个阶段:(1)
有重要的研究价值和实践意义。
块识别:利用基于有限状态分析机制的块识别器识别出句子
组块的研究中主要有基于规则的方法、基于统计学习的
中所有的块。(2)块内结构分析:对每