一种语义相似度处理方法、装置、系统以及存储介质

2022-11-14 02:25:36 来源：中国专利 TAG：

技术特征：
1.一种语义相似度处理方法，其特征在于，包括如下步骤：导入原始句子数据集，并对所述原始句子数据集进行筛选，得到多个待测句子，并将多个所述待测句子两两组合得到多个待测句子组；分别对各个所述待测句子组进行提取关键字的分析，得到各个所述待测句子组的句子关键信息组以及意图信息组；分别对各个所述待测句子组、各个所述句子关键信息组以及各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层；分别根据与各个所述待测句子组对应的所述待测句子隐藏层、所述句子关键信息隐藏层以及所述意图信息隐藏层进行目标相似度分数的评价分析，得到各个所述待测句子组的目标相似度分数，并将所有所述待测句子组的目标相似度分数作为语义相似度处理结果。2.根据权利要求1所述的语义相似度处理方法，其特征在于，所述对所述原始句子数据集进行筛选，得到多个待测句子的过程包括：按照多个预设句子长度区间对所述原始句子数据集中的原始句子进行分类，得到基于句子长度分类的多个句子分类数据集；分别对各个所述句子分类数据集中的原始句子进行下采样处理，得到与各个所述句子分类数据集一一对应的待判断句子数据集；统计各个所述待判断句子数据集中待判断句子的总数量以及语义相似度为第一预设值的待判断句子的数量；基于第一式，根据各个所述待判断句子数据集中待判断句子的总数量以及语义相似度为第一预设值的待判断句子的数量进行平均正例子率的计算，得到各个所述待判断句子数据集的平均正例子率，所述第一式为：其中，t为所述待判断句子数据集的平均正例子率，a1为所述待判断句子数据集中语义相似度为第一预设值的待判断句子的数量，a为所述待判断句子数据集中待判断句子的总数量；分别判断各个所述待判断句子数据集的平均正例子率是否等于预设正例子率；若是，则将该所述待判断句子数据集中的待判断句子作为待测句子；若否，则将该所述待判断句子数据集删除。3.根据权利要求1所述的语义相似度处理方法，其特征在于，所述待测句子组包括第一待测句子和第二待测句子，所述分别对各个所述待测句子组进行提取关键字的分析，得到各个所述待测句子组的句子关键信息组以及意图信息组的过程包括：利用textrank算法分别对各个所述待测句子组中的第一待测句子以及第二待测句子进行关键字提取，对应得到各个所述待测句子组中第一待测句子的句子关键信息以及第二待测句子的句子关键信息；分别将各个所述待测句子组中第一待测句子的句子关键信息以及第二待测句子的句子关键信息进行组合，对应得到各个所述待测句子组的句子关键信息组；利用textcnn模型，分别根据各个所述待测句子组中的第一待测句子及其句子关键信
息进行意图预测，对应得到各个所述待测句子组中第一待测句子的意图信息；利用所述textcnn模型，分别根据各个所述待测句子组中的第二待测句子及其句子关键信息进行意图预测，对应得到各个所述待测句子组中第二待测句子的意图信息；分别将各个所述待测句子组中第一待测句子的意图信息与第二待测句子的意图信息进行组合，对应得到各个所述待测句子组的意图信息组。4.根据权利要求1所述的语义相似度处理方法，其特征在于，所述分别对各个所述待测句子组、各个所述句子关键信息组以及各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层的过程包括：通过第二式分别对各个所述待测句子组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层，所述第二式为：h
a,b
＝plm([ω
cls
；s
a,b
])，其中，h
a,b
为待测句子隐藏层，plm为bert语言模型，s
a,b
为待测句子组，ω
cls
为预设句子最前端特殊字符；通过第三式分别对各个所述句子关键信息组进行隐藏层计算，得到各个所述待测句子组的句子关键信息隐藏层，所述第三式为：其中，为句子关键信息隐藏层，plm为bert语言模型，为句子关键信息组，ω
cls
为预设句子最前端特殊字符；通过第四式分别对各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的意图信息隐藏层，所述第四式为：其中，为意图信息隐藏层，plm为bert语言模型，为意图信息组，ω
cls
为预设句子最前端特殊字符。5.根据权利要求4所述的语义相似度处理方法，其特征在于，所述分别根据与各个所述待测句子组对应的所述待测句子隐藏层、所述句子关键信息隐藏层以及所述意图信息隐藏层进行目标相似度分数的评价分析，得到各个所述待测句子组的目标相似度分数的过程包括：获取第一权重值、第二权重值以及第三权重值，分别对所述第一权重值、所述第二权重值以及所述第三权重值进行随机初始化处理，得到初始化后第一权重值、初始化后第二权重值以及初始化后第三权重值；通过第五式根据所述初始化后第一权重值、所述初始化后第二权重值以及所述初始化后第三权重值进行总权重矩阵的计算，得到总权重矩阵，所述第五式为：h＝[h,h
k
,h
i
]，其中，h为总权重矩阵，h为初始化后第一权重值，h
k
为初始化后第二权重值，h
i
为初始化后第三权重值；获取第一可训练权重、第二可训练权重以及第三可训练权重，并通过第六式根据所述第一可训练权重以及各个所述待测句子组的待测句子隐藏层进行第一概率值的计算，得到
各个所述待测句子组的第一概率值，所述第六式为：p(y|s
a
,s
b
)＝softmax(h
a,b
w
t
)，其中，p(y|s
a
,s
b
)为第一概率值，为句子关键信息隐藏层，w
t
为第一可训练权重；通过第七式根据所述第二可训练权重以及各个所述待测句子组的句子关键信息隐藏层进行第二概率值的计算，得到各个所述待测句子组的第二概率值，所述第七式为：其中，为第二概率值，为句子关键信息隐藏层，为第二可训练权重；通过第八式根据所述第三可训练权重以及各个所述待测句子组的意图信息隐藏层进行第三概率值的计算，得到各个所述待测句子组的第三概率值，所述第八式为：其中，为第三概率值，为意图信息隐藏层，为第三可训练权重；通过第九式根据各个所述待测句子组的第二概率值以及所述第三概率值进行联合概率值的计算，得到各个所述待测句子组的联合概率值，所述第九式为：其中，p(y
k
,y
i
|s
a
,s
b
)为联合概率值，为第二概率值，为第三概率值；通过第十式根据所述总权重矩阵以及各个所述待测句子组的第一概率值、所述第二概率值以及所述第三概率值进行初始相似度分数的计算，得到各个所述待测句子组的初始相似度分数，且所述第十式的限制条件为所述第六式至所述第九式，所述第十式为：max z＝yh
t
其中，具体地，z为初始相似度分数，y为总概率矩阵，h为总权重矩阵,t为转置，p(y|s
a
,s
b
)为第一概率值，为第二概率值，为第三概率值；通过所述总权重值、所述第一可训练权重、所述第二可训练权重、所述第三可训练权重以及各个所述待测句子组的初始相似度分数、所述第一概率值、所述第二概率值、所述第三概率值以及所述联合概率值进行表格制作，得到初始单纯形表；对所述初始单纯形表进行相似度分数的优化，得到各个所述待测句子组的目标相似度分数。6.根据权利要求5所述的语义相似度处理方法，其特征在于，所述对所述初始单纯形表进行相似度分数的优化，得到各个所述待测句子组的目标相似度分数的过程包括：s1：通过第十一式根据所述初始单纯形表中初始化后第一权重值或所述初始化后第二权重值或所述初始化后第三权重值以及所述初始单纯形表中各个所述待测句子组的第一概率值或所述第二概率值或所述第三概率值进行检验数的计算，得到各个所述待测句子组
的多个检验数，所述第十一式为：其中，λ
nj
为第n个待测句子组的第j个检验数，k
n
为第n个待测句子组的第一概率值或第二概率值或第三概率值，h
′
为初始化后第一权重值或初始化后第二权重值或初始化后第三权重值，m为待测句子组的总数；s2：判断所有所述待测句子组的所有所述检验数是否均小于或者等于预设目标判别值，若否，则执行步骤s3；若是，则执行步骤s5；s3：通过第十二式分别根据所述初始化后第二权重值以及各个所述待测句子组的初始相似度分数进行换出变量判定值的计算，得到各个所述待测句子组的换出变量判定值，并执行步骤s4；所述第十二式为：其中，θ为换出变量判定值，h
k
为初始化后第二权重值，z
n
为第n个待测句子组的初始相似度分数；s4：根据所述初始化后第二权重值以及所有所述待测句子组的所有所述换出变量判定值对所述初始单纯形表进行基变换处理，得到处理后的单纯形表，并将所述处理后的单纯形表作为下一次迭代过程的初始单纯形表，并返回步骤s1；s5：将所述初始单纯形表中各个所述待测句子组的初始相似度分数分别作为各个所述待测句子组的目标相似度分数。7.一种语义相似度处理装置，其特征在于，包括：数据集筛选模块，用于导入原始句子数据集，并对所述原始句子数据集进行筛选，得到多个待测句子，并将多个所述待测句子两两组合得到多个待测句子组；关键字分析模块，用于分别对各个所述待测句子组进行提取关键字的分析，得到各个所述待测句子组的句子关键信息组以及意图信息组；隐藏层计算模块，用于分别对各个所述待测句子组、各个所述句子关键信息组以及各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层；相似度处理结果获得模块，用于分别根据与各个所述待测句子组对应的所述待测句子隐藏层、所述句子关键信息隐藏层以及所述意图信息隐藏层进行目标相似度分数的评价分析，得到各个所述待测句子组的目标相似度分数，并将所有所述待测句子组的目标相似度分数作为语义相似度处理结果。8.根据权利要求7所述的语义相似度处理装置，其特征在于，所述数据集筛选模块具体用于：按照多个预设句子长度区间对所述原始句子数据集中的原始句子进行分类，得到基于句子长度分类的多个句子分类数据集；分别对各个所述句子分类数据集中的原始句子进行下采样处理，得到与各个所述句子分类数据集一一对应的待判断句子数据集；统计各个所述待判断句子数据集中待判断句子的总数量以及语义相似度为第一预设值的待判断句子的数量；
基于第一式，根据各个所述待判断句子数据集中待判断句子的总数量以及语义相似度为第一预设值的待判断句子的数量进行平均正例子率的计算，得到各个所述待判断句子数据集的平均正例子率，所述第一式为：其中，t为所述待判断句子数据集的平均正例子率，a1为所述待判断句子数据集中语义相似度为第一预设值的待判断句子的数量，a为所述待判断句子数据集中待判断句子的总数量；分别判断各个所述待判断句子数据集的平均正例子率是否等于预设正例子率；若是，则将该所述待判断句子数据集中的待判断句子作为待测句子；若否，则将该所述待判断句子数据集删除。9.一种语义相似度处理系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，当所述处理器执行所述计算机程序时，实现如权利要求1至6任一项所述的语义相似度处理方法。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至6任一项所述的语义相似度处理方法。

技术总结
本发明提供一种语义相似度处理方法、装置、系统以及存储介质，属于语言处理领域，方法包括：对原始句子数据集的筛选得到多个待测句子组；对待测句子组的提取关键字分析得到句子关键信息组以及意图信息组；对待测句子组、句子关键信息组以及意图信息组的隐藏层计算得到待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层；根据待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层的目标相似度分数评价分析得到语义相似度处理结果。本发明能够免受匹配语句长度的分歧，利用关键信息和潜在意图判断句子语义相似，以及利用最优化中的单纯形法保证了最优化句子匹配，提高了语义相似度结果的准确率，使得匹配的结果更加理想。想。想。

技术研发人员：蔡晓东蒋鹏
受保护的技术使用者：桂林电子科技大学
技术研发日：2022.08.22
技术公布日：2022/11/11

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：阴影估计方法、装置、电子设备和可读存储介质与流程

一种语义相似度处理方法、装置、系统以及存储介质

相关文献

最热文献