一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种领域建模词汇表的构建方法和装置与流程

2021-12-07 20:52:00 来源:中国专利 TAG:

技术特征:
1.一种领域建模词汇表的构建方法,其特征在于,包括:对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表;将所述原始词汇表中的各个分词分别转换成词向量;基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇;将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表。2.根据权利要求1所述的方法,其特征在于,所述基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇,包括:聚类步骤:基于聚类算法对各个所述分词的词向量进行聚类,从而得到多个簇;筛选步骤:从各个所述簇内分别筛选出与质心分词之间的距离大于有效距离的待定分词;对各个所述待定分词重复执行聚类步骤和筛选步骤,直到聚类结果中每个簇内只有一个分词为止。3.根据权利要求1所述的方法,其特征在于,在所述基于聚类算法和有效距离对各个所述分词的词向量进行聚类之前,还包括:利用爬虫程序爬取中文词典中若干组已知近义词组;分别计算每组所述已知近义词组的组内距离;计算每组所述已知近义词组的组内距离的算术平均值,从而得到有效距离。4.根据权利要求3所述的方法,其特征在于,对于每组所述已知近义词组,采用如下方法计算所述已知近义词组的组内距离:计算所述已知近义词组内两两词语的距离;计算所述两两词语的距离的算术平均值,从而得到所述已知近义词组的组内距离。5.根据权利要求1所述的方法,其特征在于,所述对每组近义词组增加补充信息,从而得到领域建模词汇表,包括:通过调用接口的方式,获取每组近义词组的词义信息和译文信息;对每组所述近义词组增加所述词义信息和所述译文信息,从而得到领域建模词汇表。6.根据权利要求1所述的方法,其特征在于,所述将所述原始词汇表中的各个分词分别转换成词向量,包括:采用word2vec模型将所述原始词汇表中的各个分词分别转换成词向量。7.根据权利要求1所述的方法,其特征在于,所述聚类算法为k-means算法。8.一种领域建模词汇表的构建装置,其特征在于,包括:分词模块,用于对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表;转换模块,用于将所述原始词汇表中的各个分词分别转换成词向量;聚类模块,用于基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇;补充模块,用于将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,
从而得到领域建模词汇表。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现如权利要求1-7中任一所述的方法。10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。

技术总结
本发明公开了一种领域建模词汇表的构建方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表;将所述原始词汇表中的各个分词分别转换成词向量;基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇;将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表。该实施方式能够解决构建词汇表的效率低的技术问题。式能够解决构建词汇表的效率低的技术问题。式能够解决构建词汇表的效率低的技术问题。


技术研发人员:刘沛文
受保护的技术使用者:北京京东世纪贸易有限公司
技术研发日:2020.07.01
技术公布日:2021/12/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献