一种句子相似度的度量方法、装置、介质及设备与流程

2022-03-09 06:01:45 来源：中国专利 TAG：

1.本技术涉及语言处理技术领域，特别是一种句子相似度的度量方法、装置、存储介质及计算机设备。

背景技术：

2.句子相似度是指评估两个句子之间在语义上有多接近，比如“苹果是一种水果”和“梨子是一种水果”，这两个句子在语义上比较接近，但是“苹果是一种水果”和“我爱吃梨子”在语义相似度上就比较低。句子相似度模型就是要准确判断给定两个句子在语义上的相似度有多大。
3.传统的句子相似度模型训练需要给定由一个句对及其相似度得分组成的数据集，用这个数据集训练句子相似度模型。然而，这样的标注数据比较缺乏，因为两个句子之间的相似度需要人工标注，而句子之间的相似度度量可以从很多方面评估，人工打分效率较低，这就导致了现有的标注数据规模都比较小。比如常用的sts数据集就只有8600个训练样本，sick数据集只有9800个训练样本，二者都没有达到万级数据，这样训练出来的模型效果不一定很好。

技术实现要素：

4.本发明提供一种句子相似度的度量方法、装置、存储介质及计算机设备，完全不需要标注数据即可完成对句子相似度的计算，减少了对标注数据的依赖，计算过程简单。
5.为了解决上述问题，本发明采用的一个技术方案是：提供一种句子相似度的度量方法，该方法包括：
6.利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型；
7.从无标注语料库中获取与多个待计算相似度句子相关的上下文得到共享上下文集合，并利用上下文匹配模型计算每个待计算相似度句子，与共享上下文集合中每个上下文的上下文得分，进一步利用所有上下文得分得到每个待计算相似度句子的上下文得分向量；以及，
8.计算每个上下文得分向量与其余上下文得分向量之间的余弦相似度，从而得到上下文得分向量对应的待计算相似度句子与其余待计算相似度句子之间的句子相似度。
9.本发明采用的另一个技术方案是：提供一种句子相似度的度量装置，该装置包括：
10.用于利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型的模块；
11.用于从无标注语料库中获取与多个待计算相似度句子相关的上下文得到共享上下文集合，并利用上下文匹配模型计算每个待计算相似度句子，与共享上下文集合中每个上下文的上下文得分，进一步利用所有上下文得分得到每个待计算相似度句子的上下文得分向量的模块；以及，
12.用于计算每个上下文得分向量与其余上下文得分向量之间的余弦相似度，从而得到上下文得分向量对应的待计算相似度句子与其余待计算相似度句子之间的句子相似度的模块。
13.在本发明的另一个技术方案中，提供一种计算机可读存储介质，其存储有计算机指令，其中计算机指令被操作以执行方案中的句子相似度的度量方法。
14.在本发明的另一技术方案中，提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中，处理器操作计算机指令以执行方案中的句子相似度的度量方法。
15.本发明技术方案可以达到的有益效果是：本发明提出一种句子相似度的度量方法、装置、存储介质及计算机设备，完全不需要标注数据即可完成对句子相似度的计算，减少了对标注数据的依赖，计算过程简单。
附图说明
16.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
17.图1为本发明一种句子相似度的度量方法一个具体实施方式的示意图；
18.图2为本发明一种句子相似度的度量方法一个具体实例的示意图；
19.图3为本发明一种句子相似度的度量装置一个具体实施方式的示意图。
20.通过上述附图，已示出本技术明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围，而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
21.下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。
22.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
23.图1所示为本发明一种句子相似度的度量方法一个具体实施方式的示意图。
24.在该具体实施方式中，句子相似度的度量方法主要包括：
25.过程s101：利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型；
26.过程s102：从无标注语料库中获取与多个待计算相似度句子相关的上下文得到共
享上下文集合，并利用上下文匹配模型计算每个待计算相似度句子，与共享上下文集合中每个上下文的上下文得分，进一步利用所有上下文得分得到每个待计算相似度句子的上下文得分向量；
27.过程s103：计算每个上下文得分向量与其余上下文得分向量之间的余弦相似度，从而得到上下文得分向量对应的待计算相似度句子与其余待计算相似度句子之间的句子相似度。
28.通过本发明提出的一种句子相似度的度量方法，完全不需要标注数据即可完成对句子相似度的计算，减少了对标注数据的依赖，计算过程简单。
29.在图1所示的具体实施方式中，本发明的句子相似度的度量方法包括过程s101，利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型。此过程预先确定无标注语料库，减少了对标注数据的依赖，并得到上下文匹配模型，以便于进一步根据上下文匹配模型得到每个待计算相似度句子的上下文得分向量，从而进一步得到待计算相似度句子之间的句子相似度。
30.具体地，实际应用中可以是将无标注语料库输入语言模型工具，这个语言模型工具对无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型，此处的无监督学习即不标注任何数据，使其获得可以输出上下文匹配得分的功能。此过程以便于进一步根据上下文匹配模型得到每个待计算相似度句子的上下文得分向量，从而进一步得到待计算相似度句子之间的句子相似度。
31.在本发明的一个具体实施例中，无标注语料库包括通过互联网爬取的无标注数据。此过程减少了对标注数据的依赖，并且可以根据无标注语料库训练得到上下文匹配模型，以便于进一步根据上下文匹配模型得到每个待计算相似度句子的上下文得分向量，从而进一步得到待计算相似度句子之间的句子相似度。
32.具体地，可以直接从互联网上爬取海量的无标注数据组成无标注语料库，如从百科知识、论坛、新闻资讯、社交媒体等爬取海量的无标注数据组成无标注语料库。此处的无标注数据即未经处理过的数据。
33.在图1所示的具体实施方式中，本发明的句子相似度的度量方法包括过程s102，从无标注语料库中获取与多个待计算相似度句子相关的上下文得到共享上下文集合，并利用上下文匹配模型计算每个待计算相似度句子，与共享上下文集合中每个上下文的上下文得分，进一步利用所有上下文得分得到每个待计算相似度句子的上下文得分向量。此过程计算每个待计算相似度句子的上下文得分向量以便于进一步得到待计算相似度句子之间的句子相似度。
34.在本发明的一个具体实施例中，上述从无标注语料库中获取与多个待计算相似度句子相关的上下文得到共享上下文集合的过程包括，从无标注语料库中获取多个待计算相似度句子中，每个待计算相似度句子相关的上下文；将所有上下文进行合并得到共享上下文集合。此过程获得共享上下文集合以便于进一步计算上下文得分向量。
35.在本发明的一个具体实施例中，上述从无标注语料库中获取多个待计算相似度句子中，每个待计算相似度句子相关的上下文的过程包括，利用词频-逆文档频率算法，从无标注语料库中获取每个待计算相似度句子相关的上下文。此过程以便于降低噪声，提高后续得到的上下文得分向量的准确性。
36.其中上述词频-逆文档频率算法是一种成熟的现有技术，其目的是比较粗略地找到待计算相似度句子相关的上下文。
37.具体地，参照本发明图2提供的一种句子相似度的度量方法一个具体实例的示意图，先从无标注语料库中获取两个给定的待计算相似度句子相关的上下文，即从无标注语料库中获取句子s1与句子s2相关的上下文c1与c2，假如给定的句子s1为“苹果是一种水果”，给定的句子s2为“我爱吃梨子”，句子1“苹果是一种水果”相关的上下文c1实际上是一个上下文集合，c1中可以包含多个与“苹果是一种水果”相关的上下文，假如c1中包含3个与“苹果是一种水果”相关的上下文，将这3个与“苹果是一种水果”相关的上下文分别可以用编号a、b、c代替，因此c1＝{a，b，c}，同理，假如c2中也包含3个与“我爱吃梨子”相关的上下文，将这3个与“我爱吃梨子”相关的上下文分别可以用标号d、e、f代替，因此c2＝{d，e，f}。再将句子s1与句子s2相关的上下文c1、c2进行合并得到共享上下文集合c，所谓合并，就是数学上的求并集，因此共享上下文集合c＝c1∪c2＝{a，b，c，d，e，f}。
38.在本发明的一个具体实例中，利用上下文匹配模型计算每个待计算相似度句子，与共享上下文集合中每个上下文的上下文得分，进一步利用所有上下文得分得到每个待计算相似度句子的上下文得分向量。由于上述过程已经得到的给定句子s1与句子s2的共享上下文集合c＝{a，b，c，d，e，f}，首先先计算句子s1与共享上下文集合c的上下文得分，将句子s1与共享上下文集合c输入上下文匹配模型，将句子s1与共享上下文集合c中的每一个上下文进行匹配得分，例如先将句子s1与共享上下文集合c中的上下文1匹配，那么s1与上下文a的得分就是：[p(s1a) p(as1)]2，假设s1与上下文a的得分为2分，同理，假设s1与上下文b的得分为3分，s1与上下文c的得分为4分，s1与上下文d的得分为2分，s1与上下文e的得分为1分，s1与上下文f的得分为2分。从而得到句子s1与共享上下文集合c的上下文得分向量υ1＝{2，3，4，2，1，2}。同理，句子s2与共享上下文集合c的上下文得分计算过程与上述s1的计算过程相同，假如句子s2与共享上下文集合c的上下文得分向量υ2＝{1，4，3，3，2，2}。
[0039]
在图1所示的具体实施方式中，本发明的句子相似度的度量方法包括过程s103，计算每个上下文得分向量与其余上下文得分向量之间的余弦相似度，从而得到上下文得分向量对应的待计算相似度句子与其余待计算相似度句子之间的句子相似度。此过程计算上下文得分向量之间的余弦相似度，以便于进一步参考余弦相似度得到待计算相似度句子之间的句子相似度。
[0040]
在本发明的一个具体实例中，参照本发明图2提供的一种句子相似度的度量方法一个具体实例的示意图，由于过程s102的实例中已经计算出句子s1与共享上下文集合c的上下文得分向量υ1＝{2，3，4，2，1，2}，句子s2与共享上下文集合c的上下文得分向量υ2＝{1，4，3，3，2，2}。继续对上下文得分向量υ1与上下文得分向量υ2计算余弦相似度sim(υ1,υ2)，计算公式如下：
[0041]
sim(υ1,υ2)＝cos(υ1,υ2)
[0042]
此过程计算出的余弦相似度sim(υ1,v2)表示上下文得分向量υ1与上下文得分向量v2之间夹角的大小，余弦相似度与句子相似度正相关。夹角越小，余弦值越大，句子越相似。从而根据上述实例汇总的所有过程可以计算出句子s1与句子s2的相似度，即“苹果是一种水果”与“我爱吃梨子”之间的相似度。
[0043]
图3所示为本发明一种句子相似度的度量装置一个具体实施方式的示意图。
[0044]
在该具体实施方式中，句子相似度的度量装置主要包括：
[0045]
模块301：用于利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型的模块。此模块预先确定无标注语料库，减少了对标注数据的依赖，并得到上下文匹配模型，以便于进一步根据上下文匹配模型得到每个待计算相似度句子的上下文得分向量，从而进一步得到待计算相似度句子之间的句子相似度。
[0046]
模块302：用于从无标注语料库中获取与多个待计算相似度句子相关的上下文得到共享上下文集合，并利用上下文匹配模型计算每个待计算相似度句子，与共享上下文集合中每个上下文的上下文得分，进一步利用所有上下文得分得到每个待计算相似度句子的上下文得分向量的模块。此模块计算每个待计算相似度句子的上下文得分向量以便于进一步得到待计算相似度句子之间的句子相似度。
[0047]
模块303：用于计算每个上下文得分向量与其余上下文得分向量之间的余弦相似度，从而得到上下文得分向量对应的待计算相似度句子与其余待计算相似度句子之间的句子相似度的模块。此模块计算上下文得分向量之间的余弦相似度，以便于进一步参考余弦相似度得到待计算相似度句子之间的句子相似度。
[0048]
在本发明的一个具体实施例中，上述模块301还包括用于通过互联网爬取无标注数据获得无标注语料库的子模块。此子模块减少了对标注数据的依赖，并且可以根据无标注语料库训练得到上下文匹配模型，以便于进一步根据上下文匹配模型得到每个待计算相似度句子的上下文得分向量，从而进一步得到待计算相似度句子之间的句子相似度。
[0049]
在本发明的一个具体实施例中，上述模块302还包括用于利用词频-逆文档频率算法，从无标注语料库中获取每个待计算相似度句子相关的上下文的子模块。此子模块以便于降低噪声，提高后续得到的上下文得分向量的准确性。
[0050]
通过本发明句子相似度的度量装置的应用，完全不需要标注数据即可完成对句子相似度的计算，减少了对标注数据的依赖，计算过程简单。
[0051]
本发明提供的一种句子相似度的度量装置，可用于执行上述任一实施例描述的句子相似度的度量方法，其实现原理和技术效果类似，在此不再赘述。
[0052]
在本发明的另一个具体实施方式中，一种计算机可读存储介质，其存储有计算机指令，其特征在于，计算机指令被操作以执行任一实施例描述的句子相似度的度量方法。其中，该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
[0053]
软件模块可驻留在ram存储器、快闪存储器、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可装卸盘、cd-rom或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。
[0054]
处理器可以是中央处理单元(英文：central processing unit，简称：cpu)，还可以是其他通用处理器、数字信号处理器(英文：digital signal processor，简称：dsp)、专用集成电路(英文：application specific integrated circuit，简称：asic)、现场可编程门阵列(英文：field programmable gate array，简称：fpga)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如dsp与微处理器的组合、多个微处理器、结合dsp核心的一个或一个以上微
处理器或任何其它此类配置。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在asic中。asic可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。
[0055]
在本技术的一个具体实施方式中，一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中：处理器操作计算机指令以执行任一实施例描述的句子相似度的度量方法。
[0056]
在本技术所提供的实施方式中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0057]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0058]
以上仅为本技术的实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于业务系统的数据共享方法与流程

一种句子相似度的度量方法、装置、介质及设备与流程

相关文献

最热文献