一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种自然语言查询领域的汉语词块组合方法与流程

2022-10-13 01:02:02 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,具体为一种自然语言查询领域的汉语词块组合方法。


背景技术:

2.句法分析是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析得到句法结构的处理过程。传统依存句法分析中大多以词作为最小单元,进行依存标注之后,由于词的词性、词义较为灵活,部分细粒度的词并不容易解析出其在整体的词义,而且在依存句法分析中过于关注“词和词”之间的关系,会使句子的依存结构更为繁琐,并且词与词之间的关系复杂、多变,依存关系类别划分的太细,会降低标注的可操作性,导致词的词义解析不准确,从而导致整体语义分析错误。


技术实现要素:

3.本发明的目的在于提供一种自然语言查询领域的汉语词块组合方法,通过对细粒度的词的分析,将已切分好的词根据实词作为核心,找到符合该实词的词块组合规则的其他连续词语或语素组成词块,并进行词块的词性标注,再分析每个词块中的结构进行词义的解析,不仅可以更加准确的识别每个词在整个句子中贡献的语义,还可以降低依存结构的复杂度,提升整个句子依存分析标注的准确性,从而提升整个句子的语义分析的准确性,达到简化句法分析任务的目的,以解决上述背景技术中提出的问题。
4.为实现上述目的,本发明提供如下技术方案:
5.一种自然语言查询领域的汉语词块组合方法,包括如下步骤:
6.s1、词块组合规则状态机规则库构建;
7.s2、词块识别;
8.s3、词块的词性标注;
9.s4、词块结构分析;
10.s5、词块的语义解析。
11.作为本发明的一种自然语言查询领域的汉语词块组合方法优选的,所述s1中词块组合规则状态机规则库构建具体为:
12.先通过收集自然语言查询问句,并将其整理成问句数据集,然后对数据集中的各个问句进行分类,再将各个分类中的问句进行统一自然语言分词,分析每一类实词与其他连续词语或语素之间的关系,抽象成各类实词与其他词组成词组的统一规则,组成一个状态机规则库。
13.作为本发明的一种自然语言查询领域的汉语词块组合方法优选的,基于初始的状态机对问句数据集中的问句进行验证,初期通过部分人工干预,标记状态机的状态流转优先级,后续基于问句数据集验证进行状态流转的次数进行记录,并自动调整状态的优先级。
14.作为本发明的一种自然语言查询领域的汉语词块组合方法优选的,所述s2中词块
识别具体为:
15.将已分好的词的集合,遍历状态机规则库中的状态做正向最长匹配,根据匹配出来的一个或多个规则,根据状态机流转次数以及优先级进行打分,取分数最高的作为该问句的词块识别结果。
16.作为本发明的一种自然语言查询领域的汉语词块组合方法优选的,所述s3中词块的词性标注具体为:
17.根据已获取的词块识别结果进行遍历,获取每个词组中的核心词的词性,进行词块的词性标注,用于后续词块间的依存分析。
18.作为本发明的一种自然语言查询领域的汉语词块组合方法优选的,所述s4中词块结构分析具体为:
19.对每个词块的组成成分进行分析,对词块中的所有词进行关系上的连接标记。
20.作为本发明的一种自然语言查询领域的汉语词块组合方法优选的,所述s5中词块的语义解析具体为:
21.根据词块结构分析的结果,进行词块的词义解析,把自然语言词转换为计算机可以理解的结构化语言,作为该词块的词义,用于语义解析转换为数据查询语言。
22.与现有技术相比,本发明的有益效果是:
23.1.本发明提出了一种使用词块粒度的词义分析替代了自然语言处理中基于传统的细粒度的词的分析,使问句整体的切分,语义的解析更加清楚、简单。
24.2.基于词块粒度的依存分析中,使其降低了依存结构的复杂度,提升整个句子依存分析标注的准确性。
25.3.与传统的基于词粒度的句法分析相比,明显简化了句法分析任务的复杂度。
附图说明
26.图1为本发明的流程示意图。
具体实施方式
27.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
29.为了达到简化句法分析任务的目的,本发明提出了一种自然语言查询领域的汉语词块组合方法。通过句子中每个词的词性以及每一类实词类型的词块组合规则,将细粒度的词分析升级为更大粒度的词块分析,对词块进行分析,更加准确的识别每个词在整个句子中贡献的语义,降低依存结构的复杂度,提升整个句子依存分析标注的准确性。主要包括词块组合规则库构建、词块识别、词块的词性标注、分析词块结构、词块的语义解析五个主
要步骤。
30.请参阅图1,为了达到简化句法分析任务的目的,本发明提供了一种自然语言查询领域的汉语词块组合方法,通过句子中每个词的词性以及每一类实词类型的词块组合规则,将细粒度的词分析升级为更大粒度的词块分析,对词块进行分析,更加准确的识别每个词在整个句子中贡献的语义,降低依存结构的复杂度,提升整个句子依存分析标注的准确性。
31.该自然语言查询领域的汉语词块组合方法主要包括词块组合规则状态机规则库构建、词块识别、词块的词性标注、词块结构分析、词块的语义解析五个主要步骤。
32.其中:
33.1.词块组合规则状态机规则库构建具体为:先通过收集自然语言查询问句,并将其整理成问句数据集,然后对数据集中的各个问句进行分类,再将各个分类中的问句进行统一自然语言分词,分析每一类实词与其他连续词语或语素之间的关系,抽象成各类实词与其他词组成词组的统一规则,组成一个状态机规则库。基于初始的状态机对问句数据集中的问句进行验证,初期通过部分人工干预,标记状态机的状态流转优先级,后续基于问句数据集验证进行状态流转的次数进行记录,并自动调整状态的优先级。
34.2.词块识别具体为:将已分好的词的集合,遍历状态机规则库中的状态做正向最长匹配,根据匹配出来的一个或多个规则,根据状态机流转次数以及优先级进行打分,取分数最高的作为该问句的词块识别结果。
35.3.词块的词性标注具体为:根据已获取的词块识别结果进行遍历,获取每个词组中的核心词的词性,进行词块的词性标注,用于后续词块间的依存分析。
36.4.词块结构分析具体为:对每个词块的组成成分进行分析,对词块中的所有词进行关系上的连接标记。
37.5.词块的语义解析具体为:根据词块结构分析的结果,进行词块的词义解析,把自然语言词转换为计算机可以理解的结构化语言,作为该词块的词义,用于语义解析转换为数据查询语言。
38.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献