一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种自然语言查询领域的汉语词块组合方法与流程

2022-10-13 01:02:02 来源:中国专利 TAG:

技术特征:
1.一种自然语言查询领域的汉语词块组合方法,其特征在于,包括如下步骤:s1、词块组合规则状态机规则库构建;s2、词块识别;s3、词块的词性标注;s4、词块结构分析;s5、词块的语义解析。2.根据权利要求1所述的一种自然语言查询领域的汉语词块组合方法,其特征在于,所述s1中词块组合规则状态机规则库构建具体为:先通过收集自然语言查询问句,并将其整理成问句数据集,然后对数据集中的各个问句进行分类,再将各个分类中的问句进行统一自然语言分词,分析每一类实词与其他连续词语或语素之间的关系,抽象成各类实词与其他词组成词组的统一规则,组成一个状态机规则库。3.根据权利要求2所述的一种自然语言查询领域的汉语词块组合方法,其特征在于,基于初始的状态机对问句数据集中的问句进行验证,初期通过部分人工干预,标记状态机的状态流转优先级,后续基于问句数据集验证进行状态流转的次数进行记录,并自动调整状态的优先级。4.根据权利要求3所述的一种自然语言查询领域的汉语词块组合方法,其特征在于,所述s2中词块识别具体为:将已分好的词的集合,遍历状态机规则库中的状态做正向最长匹配,根据匹配出来的一个或多个规则,根据状态机流转次数以及优先级进行打分,取分数最高的作为该问句的词块识别结果。5.根据权利要求4所述的一种自然语言查询领域的汉语词块组合方法,其特征在于,所述s3中词块的词性标注具体为:根据已获取的词块识别结果进行遍历,获取每个词组中的核心词的词性,进行词块的词性标注,用于后续词块间的依存分析。6.根据权利要求5所述的一种自然语言查询领域的汉语词块组合方法,其特征在于,所述s4中词块结构分析具体为:对每个词块的组成成分进行分析,对词块中的所有词进行关系上的连接标记。7.根据权利要求6所述的一种自然语言查询领域的汉语词块组合方法,其特征在于,所述s5中词块的语义解析具体为:根据词块结构分析的结果,进行词块的词义解析,把自然语言词转换为计算机可以理解的结构化语言,作为该词块的词义,用于语义解析转换为数据查询语言。

技术总结
本发明公开了一种自然语言查询领域的汉语词块组合方法,包括如下步骤:S1、词块组合规则状态机规则库构建;S2、词块识别;S3、词块的词性标注;S4、词块结构分析;S5、词块的语义解析。该自然语言查询领域的汉语词块组合方法使用词块粒度的词义分析替代了自然语言处理中基于传统的细粒度的词的分析,使问句整体的切分,语义的解析更加清楚、简单,基于词块粒度的依存分析中,使其降低了依存结构的复杂度,提升整个句子依存分析标注的准确性,与传统的基于词粒度的句法分析相比,明显简化了句法分析任务的复杂度。任务的复杂度。任务的复杂度。


技术研发人员:曹钢
受保护的技术使用者:数预智能科技(上海)有限公司杭州分公司
技术研发日:2022.07.18
技术公布日:2022/10/11
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献