一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本相似度计算方法、装置、设备及存储介质与流程

2022-02-22 03:41:02 来源:中国专利 TAG:

技术特征:
1.一种文本相似度计算方法,其特征在于,包括下述步骤:识别待比对文本中的数学符号,根据预设的符号-文字字典查找所述数学符号对应的文字描述,并将所述待比对文本中的数学符号替换成查找到的文字描述;对待比对文本进行分词,基于所述分词计算所述待比对文本中每个句子的初级表征向量,其中所述待比对文本至少为两个;将不同的所述待比对文本中每个句子的初级表征向量输入到语义编码器,通过所述语义编码器计算得到所述待比对文本的最终表征向量,所述语义编码器至少为两个;以及所述语义编码器将所述待比对文本的最终表征向量输入到相似度计算器,获取不同两个待比对文本的相似度。2.根据权利要求1所述的文本相似度计算方法,其特征在于,所述基于所述分词计算所述待比对文本中每个句子的初级表征向量的步骤,具体包括:根据词向量模型,获得所述分词的词嵌入向量;根据题库模型,获得所述分词的语义角色向量;根据所述分词在句子中的索引位置,获得所述分词的位置向量;将所述待比对文本中每个句子分词后的词嵌入向量、语义角色向量和位置向量中每个维度的元素相加,得到每个句子的初级表征向量。3.根据权利要求2所述的文本相似度计算方法,其特征在于,所述题库模型预设了词语的核心论元、辅助论元和词语的语义角色;所述根据题库模型,获得所述分词的语义角色向量的步骤,具体包括:统计所述待比对文本中各语义角色出现的频次,除以语义角色出现的总频次数,得到语义角色权重;根据所述核心论元、辅助论元和语义角色权重形成所述语义角色向量。4.根据权利要求3所述的文本相似度计算方法,其特征在于,所述根据所述核心论元、辅助论元和语义角色权重形成所述语义角色向量的步骤,具体包括:识别语义角色的种类,以所述词语的核心论元的种类为主,辅助论元的种类为辅,采用独热编码形式形成n维向量;在所述n维向量的所述核心论元所在的维度上,分别加上分词的所述语义角色权重,以形成所述语义角色向量。5.根据权利要求2所述的文本相似度计算方法,其特征在于,根据所述分词在句子中的索引位置,获得所述分词的位置向量的步骤,具体包括:根据以下公式计算所述位置向量pe:pe:其中,pos表示分词在句子中处于第几个词,i为位置向量中的维度,dmodel表示给定的位置向量的维度。6.根据权利要求3所述的文本相似度计算方法,其特征在于,所述将不同的所述待比对
文本中每个句子的初级表征向量输入到语义编码器的步骤之前,还包括:预先构建多语义编码器汇入相似度计算器的文本相似度计算模型,其中语义编码器至少为两个,所述语义编码器结构相同。7.根据权利要求6所述的文本相似度计算方法,其特征在于,所述语义编码器将所述待比对文本的最终表征向量输入到相似度计算器,获取不同两个待比对文本的相似度的步骤,具体包括:基于所述多语义编码器汇入相似度计算器的文本相似度计算模型,将每个所述语义编码器接收到的待比对文本的最终表征向量输入到相似度计算器,所述相似度计算器对不同待比对文本的进行两两相似度计算,获取不同两个待比对文本的相似度。8.一种文本相似度计算装置,其特征在于,包括:第一处理模块,用于识别待比对文本中的数学符号,根据预设的符号-文字字典查找所述数学符号对应的文字描述,并将所述待比对文本中的数学符号替换成查找到的文字描述;第二处理模块,用于对待比对文本进行分词,基于所述分词计算所述待比对文本中每个句子的初级表征向量,其中所述待比对文本至少为两个;第三处理模块,用于将不同的所述待比对文本中每个句子的初级表征向量输入到语义编码器,通过所述对应的语义编码器计算得到所述待比对文本的最终表征向量,所述语义编码器至少为两个;文本相似度计算模块,用于接收至少两个语义编码器输入的所述待比对文本的最终表征向量,计算不同两个待比对文本的相似度。9.一种文本相似度计算设备,其特征在于,所述文本相似度计算设备包括处理器,存储器以及存储在所述存储器中的文本相似度计算程序,所述文本相似度计算程序被所述处理器运行时,实现如权利要求1-7中任一项所述的文本相似度计算方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本相似度计算程序,所述文本相似度计算程序被处理器运行时,实现如权利要求1-7中任一项所述的文本相似度计算方法的步骤。

技术总结
本发明实施例属于人工智能领域,尤其涉及一种文本相似度计算方法、装置、设备及存储介质,所述方法包括:识别待比对文本中的数学符号,根据预设的符号-文字字典查找数学符号对应的文字描述,并将待比对文本中的数学符号替换成查找到的文字描述;对待比对文本进行分词,基于分词计算待比对文本中每个句子的初级表征向量,其中待比对文本至少为两个;将不同的待比对文本中每个句子的初级表征向量输入到语义编码器,通过语义编码器计算得到待比对文本的最终表征向量,语义编码器至少为两个;及语义编码器将待比对文本的最终表征向量输入到相似度计算器,获取不同两个待比对文本的相似度。本发明提高了相似性度计算的稳定性和准确性。准确性。准确性。


技术研发人员:王伟 黄勇其 于翠翠 张黔
受保护的技术使用者:润联智慧科技(西安)有限公司
技术研发日:2021.09.26
技术公布日:2022/1/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献