一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

词语相似度确定方法、装置、存储介质及计算机设备与流程

2022-06-01 06:49:45 来源:中国专利 TAG:

技术特征:
1.一种词语相似度确定方法,其特征在于,包括:获取需确定相似度的第一词语和第二词语;基于同义词词林确定第一词语所对应的第一义项集合和第二词语所对应的第二义项集合;基于同义词词林确定第一义项集合中处于叶子结点的第一义项在所述叶子结点中的同义词义项集合,作为第一同义词义项集合,以及确定第二义项集合中处于叶子结点的第二义项在所述叶子结点中的同义词义项集合,作为第二同义词义项集合;根据所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项、以及所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项,确定各第一义项和各第二义项之间的义项相似度;根据所述义项相似度确定所述第一词语和所述第二词语之间的相似度。2.根据权利要求1所述的词语相似度确定方法,其特征在于,所述根据所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项、以及所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项,确定各第一义项和各第二义项之间的义项相似度的步骤,包括:根据所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项、以及所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项,确定各第一义项和各第二义项之间的义项共同特征和义项差异特征;根据所述义项共同特征和所述义项差异特征确定各第一义项和各第二义项之间的义项相似度。3.根据权利要求2所述的词语相似度确定方法,其特征在于,所述根据所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项、以及所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项,确定各第一义项和各第二义项之间的义项共同特征和义项差异特征的步骤,包括:确定所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项之间的第一相似度;确定所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项之间的第二相似度;根据所述第一相似度和所述第二相似度确定各第一义项和各第二义项之间的义项共同特征;基于各第一义项和各第二义项的最短路径长度,确定各第一义项和各第二义项之间的义项差异特征。4.根据权利要求3所述的词语相似度确定方法,其特征在于,所述根据所述第一相似度和所述第二相似度确定各第一义项和各第二义项之间的义项共同特征的步骤,包括:将第二相似度按照从高到低的顺序排列,并获取前预设数量的目标第二相似度;获取第一超参数以及预设数量的第二超参数,所述第二超参数与所述目标第二相似度一一对应,所述第一超参数和预设数量的所述第二超参数相加之后的和为一;利用所述第一超参数、所述第二超参数分别与所述第一相似度、所述目标第二相似度进行加权求和,以得到各第一义项和各第二义项之间的义项共同特征。
5.根据权利要求3所述的词语相似度确定方法,其特征在于,所述基于各第一义项和各第二义项的最短路径长度,确定各第一义项和各第二义项之间的义项差异特征的步骤,包括:获取各第一义项和各第二义项的最短路径长度、各第一义项和各第二义项的最近公共父结点;获取所述最近公共父结点所对应的层数权重,以及确定所述最近公共父结点的直接孩子数、各第一义项和各第二义项所在的所述最近公共父结点的分支距离;根据所述最短路径长度、所述层数权重、所述直接孩子数和所述分支距离确定各第一义项和各第二义项之间的义项差异特征。6.根据权利要5所述的词语相似度确定方法,其特征在于,所述获取各第一义项和各第二义项的最短路径长度的步骤,包括:根据第一词语所对应的各第一义项与所述第二词语所对应的各第二义项的最近公共父结点和叶子结点中是否存在所述第一词语或者所述第二词语来确定各第一义项和各第二义项的最短路径长度。7.根据权利要求6所述的词语相似度确定方法,其特征在于,所述根据第一词语所对应的各第一义项与所述第二词语所对应的各第二义项的最近公共父结点和叶子结点中是否存在所述第一词语或者所述第二词语来确定各第一义项和各第二义项的最短路径长度的步骤,包括:当所述第一词语所对应的第一义项和所述第二词语所对应的第二义项的最近公共父结点中包括所述第一词语或者所述第二词语,则所述第一义项和所述第二义项的最短路径长度为所述最近公共父结点与所述第二义项所对应的分支结点的路径长度,或者为所述最近公共父结点与所述第一义项所对应的分支结点的路径长度;当所述第一词语所对应的第一义项和所述第二词语所对应的第二义项仅在叶子结点中出现,则所述第一义项和所述第二义项的最短路径长度为所述第一义项所对应的叶子结点到所述最近公共父结点之间的路径长度、与所述第二义项所对应的叶子结点到所述最近公共父结点之间的路径长度之和;当所述第一词语所对应的第一义项与所述第二词语所对应的第二义项的最近公共父结点中不包括第一词语或者第二词语,但第一词语或者第二词语既在叶子结点中出现,同时也在非最近公共父结点中出现,则所述第一义项和所述第二义项的最短路径长度为所述第一义项所对应的叶子结点到所述最近公共父结点之间的路径长度、与所述第二义项所对应的叶子结点到所述最近公共父结点之间的路径长度之和;当所述第一词语所对应的第一义项与所述第二词语所对应的第二义项不仅在所述最近公共父结点中出现,同时也在对应的叶子结点中出现,则所述第一义项和所述第二义项的最短路径长度为所述第一义项所对应的叶子结点到所述最近公共父结点之间的路径长度、与所述第二义项所对应的叶子结点到所述最近公共父结点之间的路径长度之和。8.一种词语相似度确定装置,其特征在于,包括:获取模块,用于获取需确定相似度的第一词语和第二词语;第一义项确定模块,用于基于同义词词林确定第一词语所对应的第一义项集合和第二词语所对应的第二义项集合;
第二义项确定模块,用于基于同义词词林确定第一义项集合中处于叶子结点的第一义项在所述叶子结点中的同义词义项集合,作为第一同义词义项集合,以及确定第二义项集合中处于叶子结点的第二义项在所述叶子结点中的同义词义项集合,作为第二同义词义项集合;第一相似度确定模块,用于根据所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项、以及所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项,确定各第一义项和各第二义项之间的义项相似度;第二相似度确定模块,用于根据所述义项相似度确定所述第一词语和所述第二词语之间的相似度。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载以执行权利要求1至7任一项所述的词语相似度确定方法中的步骤。10.一种计算机设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器电性连接,所述存储器用于存储指令和数据,所述处理器用于执行权利要求1至7任一项所述的词语相似度确定方法中的步骤。

技术总结
本申请公开了一种词语相似度确定方法、装置、存储介质及计算机设备,该方法应用于计算机设备中,包括:基于同义词词林确定第一词语所对应的第一义项集合和第二词语所对应的第二义项集合,并确定第一义项集合中处于叶子结点的第一义项在叶子结点中的第一同义词义项集合,以及确定第二义项集合中处于叶子结点的第二义项在叶子结点中的第二同义词义项集合,根据各第一义项和各第二义项、以及第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义项,确定各第一义项和各第二义项之间的义项相似度,根据义项相似度来确定第一词语和第二词语之间的相似度。本申请实施例提高了词语相似度确定的准确性。本申请实施例提高了词语相似度确定的准确性。本申请实施例提高了词语相似度确定的准确性。


技术研发人员:ꢀ(74)专利代理机构
受保护的技术使用者:深圳TCL新技术有限公司
技术研发日:2022.02.25
技术公布日:2022/5/31
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献