一种语义相似度处理方法、装置、系统以及存储介质

2022-11-14 02:25:36 来源：中国专利 TAG：

1.本发明主要涉及语言处理技术领域，具体涉及一种语义相似度处理方法、装置、系统以及存储介质。

背景技术：

2.文本匹配是给定一对文本确定它们之间的语义相似度，该技术被广泛应用在信息检索、问答、重复检测等应用领域。然而目前的语义匹配模型在数据集中采用浅层启发式而不是捕捉它们的潜在语义，从而导致获得的语义相似度结果准确率低，匹配的结果不理想。

技术实现要素：

3.本发明所要解决的技术问题是针对现有技术的不足，提供一种语义相似度处理方法、装置、系统以及存储介质。
4.本发明解决上述技术问题的技术方案如下：一种语义相似度处理方法，包括如下步骤：
5.导入原始句子数据集，并对所述原始句子数据集进行筛选，得到多个待测句子，并将多个所述待测句子两两组合得到多个待测句子组；
6.分别对各个所述待测句子组进行提取关键字的分析，得到各个所述待测句子组的句子关键信息组以及意图信息组；
7.分别对各个所述待测句子组、各个所述句子关键信息组以及各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层；
8.分别根据与各个所述待测句子组对应的所述待测句子隐藏层、所述句子关键信息隐藏层以及所述意图信息隐藏层进行目标相似度分数的评价分析，得到各个所述待测句子组的目标相似度分数，并将所有所述待测句子组的目标相似度分数作为语义相似度处理结果。
9.基于上述一种语义相似度处理方法，本发明还提供一种语义相似度处理装置。
10.本发明解决上述技术问题的另一技术方案如下：一种语义相似度处理装置，包括：
11.数据集筛选模块，用于导入原始句子数据集，并对所述原始句子数据集进行筛选，得到多个待测句子，并将多个所述待测句子两两组合得到多个待测句子组；
12.关键字分析模块，用于分别对各个所述待测句子组进行提取关键字的分析，得到各个所述待测句子组的句子关键信息组以及意图信息组；
13.隐藏层计算模块，用于分别对各个所述待测句子组、各个所述句子关键信息组以及各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层；
14.相似度处理结果获得模块，用于分别根据与各个所述待测句子组对应的所述待测句子隐藏层、所述句子关键信息隐藏层以及所述意图信息隐藏层进行目标相似度分数的评
价分析，得到各个所述待测句子组的目标相似度分数，并将所有所述待测句子组的目标相似度分数作为语义相似度处理结果。
15.基于上述一种语义相似度处理方法，本发明还提供一种刻线刀控制系统。
16.一种语义相似度处理系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的语义相似度处理方法。
17.基于上述一种语义相似度处理方法，本发明还提供一种计算机可读存储介质。
18.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的语义相似度处理方法。
19.本发明的有益效果是：通过对原始句子数据集的筛选，得到待测句子组，对待测句子组的提取关键字分析得到句子关键信息组以及意图信息组，分别对待测句子组、句子关键信息组以及意图信息组的隐藏层计算得到待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层，根据待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层的目标相似度分数评价分析得到语义相似度处理结果，能够免受匹配语句长度的分歧，利用关键信息和潜在意图判断句子语义相似，保证了最优化句子匹配，提高了语义相似度结果的准确率，使得匹配的结果更加理想。
附图说明
20.图1为本发明实施例提供的一种语义相似度处理方法的流程示意图；
21.图2为本发明实施例提供的对初始单纯形表进行相似度分数优化的流程示意图；
22.图3为本发明实施例提供的一种语义相似度处理装置的模块框图。
具体实施方式
23.以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。
24.图1为本发明实施例提供的一种语义相似度处理方法的流程示意图。
25.如图1和2所示，一种语义相似度处理方法，包括如下步骤：
26.导入原始句子数据集，并对所述原始句子数据集进行筛选，得到多个待测句子，并将多个所述待测句子两两组合得到多个待测句子组；
27.分别对各个所述待测句子组进行提取关键字的分析，得到各个所述待测句子组的句子关键信息组以及意图信息组；
28.分别对各个所述待测句子组、各个所述句子关键信息组以及各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层；
29.分别根据与各个所述待测句子组对应的所述待测句子隐藏层、所述句子关键信息隐藏层以及所述意图信息隐藏层进行目标相似度分数的评价分析，得到各个所述待测句子组的目标相似度分数，并将所有所述待测句子组的目标相似度分数作为语义相似度处理结果。
30.上述实施例中，通过对原始句子数据集的筛选，得到待测句子组，对待测句子组的
提取关键字分析得到句子关键信息组以及意图信息组，分别对待测句子组、句子关键信息组以及意图信息组的隐藏层计算得到待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层，根据待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层的目标相似度分数评价分析得到语义相似度处理结果，能够免受匹配语句长度的分歧，利用关键信息和潜在意图判断句子语义相似，保证了最优化句子匹配，提高了语义相似度结果的准确率，使得匹配的结果更加理想。
31.可选地，作为本发明的一个实施例，所述对所述原始句子数据集进行筛选，得到多个待测句子的过程包括：
32.按照多个预设句子长度区间对所述原始句子数据集中的原始句子进行分类，得到基于句子长度分类的多个句子分类数据集；
33.分别对各个所述句子分类数据集中的原始句子进行下采样处理，得到与各个所述句子分类数据集一一对应的待判断句子数据集；
34.统计各个所述待判断句子数据集中待判断句子的总数量以及语义相似度为第一预设值的待判断句子的数量；
35.基于第一式，根据各个所述待判断句子数据集中待判断句子的总数量以及语义相似度为第一预设值的待判断句子的数量进行平均正例子率的计算，得到各个所述待判断句子数据集的平均正例子率，所述第一式为：
[0036][0037]
其中，t为所述待判断句子数据集的平均正例子率，a1为所述待判断句子数据集中语义相似度为第一预设值的待判断句子的数量，a为所述待判断句子数据集中待判断句子的总数量；
[0038]
分别判断各个所述待判断句子数据集的平均正例子率是否等于预设正例子率；若是，则将该所述待判断句子数据集中的待判断句子作为待测句子；若否，则将该所述待判断句子数据集删除。
[0039]
优选地，所述第一预设值可以为1。
[0040]
应理解地，按照多个预设句子长度区间对所述原始句子数据集中的原始句子进行分类是为了防止句子长度偏差对语义相似度模型带来的扰动。
[0041]
应理解地，下采样(即所述下采样处理)也称为抽取，对于一个样值序列间隔几个样值取样一次，这样得到新序列就是原序列的下采样。下采样相对于最初的连续时间信号而言，还是要满足采样定理才行，否则这样的下采样会引起信号成分混叠。
[0042]
应理解地，
[0043]
t表示平均正例子率，a表示原始总样本数(即待判断句子的总数量)，a1表示原始语义相似度为1的样本(即语义相似度为第一预设值的待判断句子的数量)。
[0044]
具体地，对原始数据集(即所述原始句子数据集)根据长度进行分类，并对每一个类别进行下采样，使其与整个训练集的平均正例子率相一致且构建训练集为原数据集的子集(即多个所述待测句子)。
[0045]
上述实施例中，通过对原始句子数据集的筛选得到多个待测句子，防止了句子长
度偏差对语义相似度模型带来的扰动，筛选出了更加精准的句子。
[0046]
可选地，作为本发明的一个实施例，所述待测句子组包括第一待测句子和第二待测句子，所述分别对各个所述待测句子组进行提取关键字的分析，得到各个所述待测句子组的句子关键信息组以及意图信息组的过程包括：
[0047]
利用textrank算法分别对各个所述待测句子组中的第一待测句子以及第二待测句子进行关键字提取，对应得到各个所述待测句子组中第一待测句子的句子关键信息以及第二待测句子的句子关键信息；
[0048]
分别将各个所述待测句子组中第一待测句子的句子关键信息以及第二待测句子的句子关键信息进行组合，对应得到各个所述待测句子组的句子关键信息组；
[0049]
利用textcnn模型，分别根据各个所述待测句子组中的第一待测句子及其句子关键信息进行意图预测，对应得到各个所述待测句子组中第一待测句子的意图信息；
[0050]
利用所述textcnn模型，分别根据各个所述待测句子组中的第二待测句子及其句子关键信息进行意图预测，对应得到各个所述待测句子组中第二待测句子的意图信息；
[0051]
分别将各个所述待测句子组中第一待测句子的意图信息与第二待测句子的意图信息进行组合，对应得到各个所述待测句子组的意图信息组。
[0052]
应理解地，寻找句子中的关键信息和潜在意图。
[0053]
应理解地，若textcnn模型对第一待测句子及其句子关键信息进行预测无法得到预测结果，或利用textcnn模型对第二待测句子及其句子关键信息进行预测无法得到预测结果，则通过搜狗知识图库对第一待测句子及其句子关键信息进行预测，或对第二待测句子及其句子关键信息进行预测。
[0054]
具体地，所述textrank算法是一种基于图的用于关键词抽取和文档摘要的排序算法，由谷歌的网页重要性排序算法pagerank算法改进而来，它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词，它能够从一个给定的文本中抽取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法抽取出该文本的关键句。
[0055]
上述实施例中，通过分别对待测句子组的提取关键字分析得到句子关键信息组以及意图信息组，寻找到了句子中的关键信息和潜在意图，利用关键信息和潜在意图判断句子语义相似，提高了语义相似度结果的准确率，使得匹配的结果更加理想。
[0056]
可选地，作为本发明的一个实施例，所述分别对各个所述待测句子组、各个所述句子关键信息组以及各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层的过程包括：
[0057]
通过第二式分别对各个所述待测句子组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层，所述第二式为：
[0058]ha,b
＝plm([ω
cls
；s
a,b
])，
[0059]
其中，h
a,b
为待测句子隐藏层，plm为bert语言模型，s
a,b
为待测句子组，ω
cls
为预设句子最前端特殊字符；
[0060]
通过第三式分别对各个所述句子关键信息组进行隐藏层计算，得到各个所述待测句子组的句子关键信息隐藏层，所述第三式为：
[0061]
[0062]
其中，为句子关键信息隐藏层，plm为bert语言模型，为句子关键信息组，ω
cls
为预设句子最前端特殊字符；
[0063]
通过第四式分别对各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的意图信息隐藏层，所述第四式为：
[0064][0065]
其中，为意图信息隐藏层，plm为bert语言模型，为意图信息组，ω
cls
为预设句子最前端特殊字符。
[0066]
应理解地，所述预设句子最前端特殊字符ω
cls
与所述待测句子组一一对应。
[0067]
应理解地，[h
cls
；h
a，b
]＝plm([ω
cls
；s
a，b
])，
[0068]
其中，plm表示bert语言模型，ω
cls
表示每个句子最前端特殊字符，h
cls
表示最终隐藏层信息，w
t
表示可训练的权重。s
a，b
表示句子a和句子b的联合序列(即所述待测句子组)，h
a，b
表示句子对的隐藏层(即所述待测句子隐藏层)。
[0069]
上述实施例中，通过对待测句子组、句子关键信息组以及意图信息组的隐藏层计算得到待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层，寻找到了句子中的关键信息和潜在意图，利用关键信息和潜在意图判断句子语义相似，提高了语义相似度结果的准确率，使得匹配的结果更加理想。
[0070]
可选地，作为本发明的一个实施例，所述分别根据与各个所述待测句子组对应的所述待测句子隐藏层、所述句子关键信息隐藏层以及所述意图信息隐藏层进行目标相似度分数的评价分析，得到各个所述待测句子组的目标相似度分数的过程包括：
[0071]
获取第一权重值、第二权重值以及第三权重值，分别对所述第一权重值、所述第二权重值以及所述第三权重值进行随机初始化处理，得到初始化后第一权重值、初始化后第二权重值以及初始化后第三权重值；
[0072]
通过第五式根据所述初始化后第一权重值、所述初始化后第二权重值以及所述初始化后第三权重值进行总权重矩阵的计算，得到总权重矩阵，所述第五式为：
[0073]
h＝[h，hk，hi]，
[0074]
其中，h为总权重矩阵，h为初始化后第一权重值，hk为初始化后第二权重值，hi为初始化后第三权重值；
[0075]
获取第一可训练权重、第二可训练权重以及第三可训练权重，并通过第六式根据所述第一可训练权重以及各个所述待测句子组的待测句子隐藏层进行第一概率值的计算，得到各个所述待测句子组的第一概率值，所述第六式为：
[0076]
p(y|sa，sb)＝softmax(h
a，bwt
)，
[0077]
其中，p(y|sa，sb)为第一概率值，为句子关键信息隐藏层，w
t
为第一可训练权重；
[0078]
通过第七式根据所述第二可训练权重以及各个所述待测句子组的句子关键信息隐藏层进行第二概率值的计算，得到各个所述待测句子组的第二概率值，所述第七式为：
[0079]
[0080]
其中，为第二概率值，为句子关键信息隐藏层，为第二可训练权重；
[0081]
通过第八式根据所述第三可训练权重以及各个所述待测句子组的意图信息隐藏层进行第三概率值的计算，得到各个所述待测句子组的第三概率值，所述第八式为：
[0082][0083]
其中，为第三概率值，为意图信息隐藏层，w
it
为第三可训练权重；
[0084]
通过第九式根据各个所述待测句子组的第二概率值以及所述第三概率值进行联合概率值的计算，得到各个所述待测句子组的联合概率值，所述第九式为：
[0085][0086]
其中，p(yk，yi|sa，sb)为联合概率值，为第二概率值，为第三概率值；
[0087]
通过第十式根据所述总权重矩阵以及各个所述待测句子组的第一概率值、所述第二概率值以及所述第三概率值进行初始相似度分数的计算，得到各个所述待测句子组的初始相似度分数，且所述第十式的限制条件为所述第六式至所述第九式，所述第十式为：
[0088]
max z＝yh
t
[0089]
其中，
[0090]
具体地，z为初始相似度分数，y为总概率矩阵，h为总权重矩阵，t为转置，p(y|sa，sb)为第一概率值，为第二概率值，为第三概率值；
[0091]
通过所述总权重值、所述第一可训练权重、所述第二可训练权重、所述第三可训练权重以及各个所述待测句子组的初始相似度分数、所述第一概率值、所述第二概率值、所述第三概率值以及所述联合概率值进行表格制作，得到初始单纯形表；
[0092]
对所述初始单纯形表进行相似度分数的优化，得到各个所述待测句子组的目标相似度分数。
[0093]
应理解地，所述第一权重值以及所述第一可训练权重均为所有所述待测句子组的权重，即所有所述待测句子组对应一个所述第一权重值以及一个所述第一可训练权重，所述第二权重值以及所述第二可训练权重均为所有所述句子关键信息组的权重，即所有所述句子关键信息组对应一个所述第二权重值以及一个所述第二可训练权重，所述第三权重值以及所述第三可训练权重均为所有所述意图信息组的权重，即所有所述意图信息组对应一个所述第三权重值以及一个所述第三可训练权重。
[0094]
应理解地，所述第一权重值为所有待测句子组的设定的权重，所述第二权重值为所有句子关键信息组的设定的权重，所述第三权重值为所有意图信息组的设定的权重，所述第一可训练权重所有句子关键信息隐藏层的设定的权重，所述第二可训练权重所有句子关键信息隐藏层的设定的权重，所述第三可训练权重所有意图信息隐藏层的设定的权重。
[0095]
应理解地，通过遵循分而治之思想的特殊训练目标，并使用kl-分歧来确保全局匹配分布与分解关键词和意图的综合解决方案的分布相似。
[0096]
具体地，概率计算表达式为下式：
[0097]
p(y|sa，sb)＝softmax(h
a，bwt
)，
[0098]
其中，w
t
表示可训练的权重，h
a，b
表示句子对的隐藏层(即所述待测句子隐藏层)，sa表示句子a的向量表示，sb表示句子b的向量，p(y|sa，sb)表示在句子a和句子b的条件下它们之间的相似度(即所述第一概率值)。
[0099]
具体地，为了细化计算句子中的关键信息和意图对句子匹配的影响程度进行了如下计算：
[0100][0101]
这里cn和cm分别表示目标类，它们反映了匹配程度，当cm＞cn表示cm比cn有更高的匹配分数。例如，在三类场景中，y∈{2，1，0}分别表示完全匹配、部分匹配和不匹配，而q(y＝0)是至少有一个子问题被推断为不匹配的概率。
[0102]
具体地，为了给待匹配语句的关键信息和意图子问题建模，本发明重新使用所述第三式、所述第四式和所述第五式中的匹配模型，分别比较关键词和意图，得到条件概率(即所述第二概率值)和(即所述第三概率值)。sk和si代表文本序列，其中意图或关键词的标记分别被屏蔽。那么，在独立子问题的假设下，yk和yi的条件联合分布(即所述联合概率值)是：
[0103][0104]
p(yk，yi|sa，sb)表示在句子sa和sb条件下yk和yi的联合条件概率(即所述联合概率值)，表示在句子关键信息和条件下yk的条件概率(即所述第二概率值)，表示在句子意图信息和条件下yi的条件概率(即所述第三概率值)。
[0105]
应理解地，利用单纯性法最大化关键信息和潜在意图，进而完成句子匹配。
[0106]
应理解地，将待匹配句子的最优关键信息和意图与权重相乘得到目标函数，本发明认为句子相似性计算是一个运输问题的解决方法，其目的是将一个句子的语境化标签集合运输到另外一个句子中的标记，作为该问题的副产品，本发明得到了一个成本矩阵和一个运输矩阵，它们分别编码了跨句子所有关键信息和意图的相似性和它们对句子相似性的贡献。
[0107]
具体地，z＝yh
t
[0108]
s.t. p(y|sa，sb)＝softmax(h
a，bwt
)
[0109][0110][0111][0112]
其中，y＝[y，yk，yi]表示待匹配语句、它的关键信息和意图的概率值(即是所述第一概率值、所述第二概率值以及所述第三概率值)，h＝[h，hk，hi]表示对句子相似性的贡献即权重值(即所述总权重值)，z表示利用最优化方法求得的待匹配语句最终相似度分数(即
所述初始相似度分数)。
[0113]
应理解地，通过求初始基本可行解，列出初始单纯形表。
[0114]
具体地，初始单纯形表中，上面一行的数字是各变量在目标函数中的系数值，最左端一列数字是与各基变量对应的目标函数中的系数值h，最右端一列数字是在确定换人变量后，按θ规则计算后填入的。最后一行称为检验数行，对应各非基变量yr；，检验数等于它下面这一列数字与h中同行的数字分别相乘，再用它上端的yi，值减去上述乘积之和。因此，初始单纯形表中yi，下面这一列数字就是pj中各元素的值。
[0115]
上述实施例中，通过待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层的目标相似度分数评价分析得到目标相似度分数，编码了跨句子所有关键信息和意图的相似性以及它们对句子相似性的贡献，保证了最优化句子匹配，提高了语义相似度结果的准确率，使得匹配的结果更加理想。
[0116]
可选地，作为本发明的一个实施例，所述对所述初始单纯形表进行相似度分数的优化，得到各个所述待测句子组的目标相似度分数的过程包括：
[0117]
s1：通过第十一式根据所述初始单纯形表中初始化后第一权重值或所述初始化后第二权重值或所述初始化后第三权重值以及所述初始单纯形表中各个所述待测句子组的第一概率值或所述第二概率值或所述第三概率值进行检验数的计算，得到各个所述待测句子组的多个检验数，所述第十一式为：
[0118][0119]
其中，λ
nj
为第n个待测句子组的第j个检验数，kn为第n个待测句子组的第一概率值或第二概率值或第三概率值，h
′
为初始化后第一权重值或初始化后第二权重值或初始化后第三权重值，m为待测句子组的总数；
[0120]
s2：判断所有所述待测句子组的所有所述检验数是否均小于或者等于预设目标判别值，若否，则执行步骤s3；若是，则执行步骤s5；
[0121]
s3：通过第十二式分别根据所述初始化后第二权重值以及各个所述待测句子组的初始相似度分数进行换出变量判定值的计算，得到各个所述待测句子组的换出变量判定值，并执行步骤s4；所述第十二式为：
[0122][0123]
其中，θ为换出变量判定值，hk为初始化后第二权重值，zn为第n个待测句子组的初始相似度分数；
[0124]
s4：根据所述初始化后第二权重值以及所有所述待测句子组的所有所述换出变量判定值对所述初始单纯形表进行基变换处理，得到处理后的单纯形表，并将所述处理后的单纯形表作为下一次迭代过程的初始单纯形表，并返回步骤s1；
[0125]
s5：将所述初始单纯形表中各个所述待测句子组的初始相似度分数分别作为各个所述待测句子组的目标相似度分数。
[0126]
应理解地，通过最优化理论中的单纯形法寻找最优解进而可以得到最终语义相似度得分s(即所述目标相似度分数)。单纯形法是一种多变量函数的寻优方法，其主要思想是先寻找一个基本可行解，判断是否为最优解，如果不是则寻找另外一个解，再进行判断，如此迭代计算，直到判定为最优解或判定其无解。
[0127]
应理解地，单纯形表中最上面一行数字是个变量在目标函数z中的系数值y，最左端是一列数字是与各基变量对应的系数值yc，最右端一列数字是在确定换入变量后，按照θ规则填入的。最后一行称为检验数行，对应各个非基变量hi检验数等于它下面的这一行数字与yi中的同行数字分别相乘，再用它上端的数字yi值减去上述乘积之和。因此，初始单纯行表中的hi下面这一行数字就是pj中的各元素的值。
[0128]
应理解地，所述基变换处理是指在典范型线性规划中，对基本可行解x
°
＝(b1，b2，
…
，bm，0，
…
，0)
t
，如果某些检验数σj＞0，m 1≤j≤n，则xj增加，目标函数还可以增加，这时应将该非基变量xj换到基变量中去，而从原可行基中换出一个基变量，组成一个新的可行基，这就是基变换。
[0129]
具体地，寻优方法具体为：
[0130]
(1)进行最优性检验。
[0131]
如果表中所有检验数λj≤0。则表中的基可行解就是问题的最优解，计算到此结束；否则转人下一步。
[0132]
(2)进行基变换，列出新的单纯形表。
[0133]
1、确定换出变量。根据通过下式确定θ规则计算，公式如下：
[0134][0135]
确定xj为换出变量。元素h
ik
决定了从一个基可行解到另一个基可行解的转移方向，称为主元素。
[0136]
2、以h
ik
为主元素进行迭代，把xk所对应的列向量
[0137]
pk＝(0，0，0，....，1，...，0)
[0138]
(3)重复第一、二步，一直到计算终止。
[0139]
通过上述步骤得到y
*
，它是最终评价分数(即所述目标相似度分数)。
[0140]
上述实施例中，对初始单纯形表的相似度分数优化得到目标相似度分数，保证了最优化句子匹配，提高了语义相似度结果的准确率，使得匹配的结果更加理想。
[0141]
可选地，作为本发明的另一个实施例，本发明采用对抗性训练语义相似模型、寻找句子中的关键信息和潜在意图，通过最优化方法中的单纯性法并利用关键信息和潜在意图判别句子相似度。
[0142]
可选地，作为本发明的另一个实施例，本发明能够通过对抗训练使其模型免受匹配语句长度分歧，利用关键信息和潜在意图判断句子语义相似，为保证最优化句子匹配本研究利用单纯性法。
[0143]
可选地，作为本发明的另一个实施例，本发明首先对原始数据集根据长度进行分类，并对每一个类别进行下采样，使其与整个训练集的平均正例子率相一致且构建训练集为原数据集的子集。其次，寻找待匹配语句的关键信息和潜在意图。最后利用单纯性法最大化关键信息和潜在意图，进而完成句子匹配。
[0144]
可选地，作为本发明的另一个实施例，本发明还包括如下公式获得h
a，b
、以及公式如下：
[0145]
[0146][0147][0148]
和是通过textrank提取关键字得到了，提取关键字后将其与信息作为意图信息和分别为句子a和b的关键信息和意图信息的最终隐藏层信息，为和连接后关键信息最终隐藏层信息(即所述句子关键信息隐藏层)，为连接后意图最终隐藏层信息(即所述意图信息隐藏层)。
[0149]
图3为本发明实施例提供的一种语义相似度处理装置的模块框图。
[0150]
可选地，作为本发明的另一个实施例，如图3所示，一种语义相似度处理装置，包括：
[0151]
数据集筛选模块，用于导入原始句子数据集，并对所述原始句子数据集进行筛选，得到多个待测句子，并将多个所述待测句子两两组合得到多个待测句子组；
[0152]
关键字分析模块，用于分别对各个所述待测句子组进行提取关键字的分析，得到各个所述待测句子组的句子关键信息组以及意图信息组；
[0153]
隐藏层计算模块，用于分别对各个所述待测句子组、各个所述句子关键信息组以及各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层；
[0154]
相似度处理结果获得模块，用于分别根据与各个所述待测句子组对应的所述待测句子隐藏层、所述句子关键信息隐藏层以及所述意图信息隐藏层进行目标相似度分数的评价分析，得到各个所述待测句子组的目标相似度分数，并将所有所述待测句子组的目标相似度分数作为语义相似度处理结果。
[0155]
可选地，作为本发明的一个实施例，所述数据集筛选模块具体用于：
[0156]
按照多个预设句子长度区间对所述原始句子数据集中的原始句子进行分类，得到基于句子长度分类的多个句子分类数据集；
[0157]
分别对各个所述句子分类数据集中的原始句子进行下采样处理，得到与各个所述句子分类数据集一一对应的待判断句子数据集；
[0158]
统计各个所述待判断句子数据集中待判断句子的总数量以及语义相似度为第一预设值的待判断句子的数量；
[0159]
基于第一式，根据各个所述待判断句子数据集中待判断句子的总数量以及语义相似度为第一预设值的待判断句子的数量进行平均正例子率的计算，得到各个所述待判断句子数据集的平均正例子率，所述第一式为：
[0160][0161]
其中，t为所述待判断句子数据集的平均正例子率，a1为所述待判断句子数据集中语义相似度为第一预设值的待判断句子的数量，a为所述待判断句子数据集中待判断句子的总数量；
[0162]
分别判断各个所述待判断句子数据集的平均正例子率是否等于预设正例子率；若是，则将该所述待判断句子数据集中的待判断句子作为待测句子；若否，则将该所述待判断
句子数据集删除。
[0163]
可选地，本发明的另一个实施例提供一种语义相似度处理系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的语义相似度处理方法。该系统可为计算机等系统。
[0164]
可选地，本发明的另一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的语义相似度处理方法。
[0165]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0166]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0167]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
[0168]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0169]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0170]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0171]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：阴影估计方法、装置、电子设备和可读存储介质与流程

一种语义相似度处理方法、装置、系统以及存储介质

相关文献

最热文献