一种转述文本生成方法、装置、介质及设备与流程

2022-03-05 06:22:40 来源：中国专利 TAG：

1.本技术涉及语言处理技术领域，特别是一种转述文本生成方法、装置、存储介质及计算机设备。

背景技术：

2.转述文本生成(paraphrase generation)是指给定一句话，模型去生成与它有相同语义，但是在形式上不同的句子，比如“你真漂亮”与“你看起来真美”表达的意思是基本相同的，但是在表现形式上(如词汇、语法)是不同的。
3.现有的文本转述生成方法大多采用“监督学习”的方法训练模型，也就是对大量的标注数据进行学习一个转述文本生成模型，转述文本生成模型可以学会标注数据中蕴含的转述规则，用于未标注的转述生成。但是，这种监督学习的方法依赖大量的已标注转述文本对，这对数据量是一个较大的挑战，因为人工生成转述文本是比较耗时的，尤其是想要大量的标注数据的时候。比如，当前流行的已标注转述文本对数据集quora包含140k个句对，仍然不能满足训练大规模神经网络模型的需求。

技术实现要素：

4.本发明提供一种转述文本生成方法、装置、存储介质及计算机设备，完全不需要标注数据即可得到高质量的转述文本，减少了对标注数据的依赖，缩短了生成标注数据所需的耗时，减少工作量。
5.为了解决上述问题，本发明采用的一个技术方案是：提供一种转述文本生成方法，该方法包括：
6.利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型；
7.利用上下文匹配模型得到至少一个给定句子的多个上文和多个下文，将每个给定句子、每个给定句子的上文或者每个给定句子的下文两两组合得到每个给定句子分别对应的多个候选转述文本对，进而得到每个给定句子的候选转述文本对集合；
8.根据每个候选转述文本对的两个文本的语义和不同词，对每个候选转述文本对集合中低质量的候选转述文本对进行筛除，得到每个给定句子对应的高质量候选转述文本对集合；以及，
9.利用语言模型工具对每个高质量候选转述文本对集合中每个候选转述文本对的转述规则进行无监督学习得到转述文本生成模型，进一步利用转述文本生成模型进行转述文本的生成。
10.本发明采用的另一个技术方案是：提供一种转述文本生成装置，该装置包括：
11.上下文匹配模型生成模块，用于利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型的模块；
12.候选转述文本对集合生成模块，用于利用上下文匹配模型得到至少一个给定句子
的多个上文和多个下文，将每个给定句子、每个给定句子的上文或者每个给定句子的下文两两组合得到每个给定句子分别对应的多个候选转述文本对，进而得到每个给定句子的候选转述文本对集合的模块；
13.高质量候选转述文本对集合生成模块，用于根据每个候选转述文本对的两个文本的语义和不同词，对每个候选转述文本对集合中低质量的候选转述文本对进行筛除，得到每个给定句子对应的高质量候选转述文本对集合的模块；以及，
14.转述文本生成模块，用于利用语言模型工具对每个高质量候选转述文本对集合中每个候选转述文本对的转述规则进行无监督学习得到转述文本生成模型，进一步利用转述文本生成模型进行转述文本的生成的模块。
15.在本发明的另一个技术方案中，提供一种计算机可读存储介质，其存储有计算机指令，其中计算机指令被操作以执行方案中的转述文本生成方法。
16.在本发明的另一技术方案中，提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中，处理器操作计算机指令以执行方案中的转述文本生成方法。
17.本发明技术方案可以达到的有益效果是：本发明提出一种转述文本生成方法、装置、存储介质及计算机设备，完全不需要标注数据即可得到高质量的转述文本，减少了对标注数据的依赖，缩短了生成标注数据所需的耗时，减少工作量。
附图说明
18.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
19.图1为本发明一种转述文本生成方法一个具体实施方式的示意图；
20.图2为本发明一种转述文本生成方法一个具体实例的示意图；
21.图3为本发明一种转述文本生成装置一个具体实施方式的示意图。
22.通过上述附图，已示出本技术明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围，而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
23.下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。
24.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
25.图1所示为本发明一种转述文本生成方法一个具体实施方式的示意图。
26.在该具体实施方式中，转述文本生成方法主要包括：
27.过程s101：利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型；
28.过程s102：利用上下文匹配模型得到至少一个给定句子的多个上文和多个下文，将每个给定句子、每个给定句子的上文或者每个给定句子的下文两两组合得到每个给定句子分别对应的多个候选转述文本对，进而得到每个给定句子的候选转述文本对集合；
29.过程s103：根据每个候选转述文本对的两个文本的语义和不同词，对每个候选转述文本对集合中低质量的候选转述文本对进行筛除，得到每个给定句子对应的高质量候选转述文本对集合；
30.过程s104：利用语言模型工具对每个高质量候选转述文本对集合中每个候选转述文本对的转述规则进行无监督学习得到转述文本生成模型，进一步利用转述文本生成模型进行转述文本的生成。
31.通过本发明提出的一种转述文本生成方法，完全不需要标注数据即可得到高质量的转述文本，减少了对标注数据的依赖，缩短了生成标注数据所需的耗时，减少工作量。
32.在图1所示的具体实施方式中，本发明的转述文本生成方法包括过程s101，利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型。此过程预先确定无标注语料库，减少了对标注数据的依赖，缩短了生成标注数据所需的耗时，减少工作量，并且此过程得到上下文匹配模型，以便于进一步根据上下文匹配模型得到给定句子的上文及下文，从而进一步得到候选转述文本对。
33.具体地，实际应用中可以是将无标注语料库输入语言模型工具，这个语言模型工具对无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型，此处的无监督学习即不标注任何数据，使其获得可以输出上下文以及打分的功能。其中，语言模型工具以及学习过程均为现有技术，不进行赘述。此过程进一步根据上下文匹配模型得到给定句子的上文及下文，从而进一步得到候选转述文本对。
34.在本发明的一个具体实施例中，无标注语料库包括通过互联网爬取的无标注数据。此过程减少了对标注数据的依赖，并且可以根据无标注语料库训练得到上下文匹配模型，以便于进一步根据上下文匹配模型得到给定句子的上文及下文，从而进一步得到候选转述文本对。
35.具体地，可以直接从互联网上爬取海量的无标注数据组成无标注语料库，如从百科知识、论坛、新闻资讯、社交媒体等爬取海量的无标注数据组成无标注语料库。此处的无标注数据即未经处理过的数据。
36.在图1所示的具体实施方式中，本发明的转述文本生成方法包括过程s102，利用上下文匹配模型得到至少一个给定句子的多个上文和多个下文，将每个给定句子、每个给定句子的上文或者每个给定句子的下文两两组合得到每个给定句子分别对应的多个候选转述文本对，进而得到每个给定句子的候选转述文本对集合。此过程以便于进一步将候选转述文本对集合中低质量的候选转述文本对筛除，得到高质量的候选转述文本对，进而得到高质量候选转述文本对集合。
37.具体地，参照本发明图2提供的一种转述文本生成方法一个具体实例的示意图，例
如将给定句子s输入到上下文匹配模型中，上下文匹配模型可以进行多样化解码得到s的多个上文和多个下文，生成的上文及下文的数量可以人为设定。其中的“多样化解码”是指给定一个句子，上下文匹配模型可以生成很多该句子的上下文，以“我爱北京”为例，从人的视角来看，“我爱北京”后面或前面本身就可以有很多的可能性，上下文匹配模型可以生成“大学”，也可以是“圆明园”等。因此“多样化解码”实际上是在模仿人类写句子的思路，也就是一个句子后面可以有很多其他的下文，一个句子前面也可以有很多其他的上文，且都符合我们的语言习惯。参照图2，给定句子s输入到上下文匹配模型中，生成了上文s1、上文 s2、下文s3、下文s4。
38.由于所有生成的下文或上文都是基于给定句子s而言的，它们都承接了给定句子s的语义，那就有可能在语义上是相近的，当然，生成的下文或上文也有可能与给定句子s语义相近。比如给定了“我爱北京”，上下文匹配模型生成了下文“圆明园”，那么就可以组成一对“候选转述文本对”。再比如给定的句子是“我很爱她，但是”，上下文匹配模型可能生成的下文有“她不爱我”，“她不是很喜欢我”，这两个下文都承接了句子“我很爱她，但是”，而且都表达了同样的意思，所以可以构成两对“候选转述文本对”。
39.因此，将给定句子s、上文s1、上文s2、下文s3、下文s4两两组合得到多个候选转述文本对，例如给定句子s与上文s1组合得到候选转述文本对1，给定句子s与上文s2组合得到候选转述文本对2，给定句子s与下文s3组合得到候选转述文本对3，给定句子s与下文s4组合得到候选转述文本对4，上文s1与上文s2组合得到候选转述文本对5，上文s1 与下文s3组合得到候选转述文本对6，上文s1与下文s4组合得到候选转述文本对7，上文 s2与下文s3组合得到候选转述文本对8，上文s2与下文s4组合得到候选转述文本对9，下文s3与下文s4组合得到候选转述文本对10。将这10个候选转述文本对求并集，进而得到候选转述文本对集合。
40.在图1所示的具体实施方式中，本发明的转述文本生成方法包括过程s103，根据每个候选转述文本对的两个文本的语义和不同词，对每个候选转述文本对集合中低质量的候选转述文本对进行筛除，得到每个给定句子对应的高质量候选转述文本对集合。此过程以便于进一步提高转述文本生成模型的转述精度，提高转述质量。
41.在本发明的一个具体实施例中，上述根据每个候选转述文本对的两个文本的语义和不同词，对每个候选转述文本对集合中低质量的所述候选转述文本对进行筛除，得到每个给定句子对应的高质量候选转述文本对集合的过程包括，利用打分函数根据候选转述文本对的两个文本的语义对候选转述文本对的匹配性得分以及相似性得分进行打分，并且根据候选转述文本对的两个文本中的不同词的个数对候选转述文本对的多样性得分进行打分；根据匹配性得分、相似性得分以及多样性得分对每个候选转述文本对集合中低质量的候选转述文本对进行筛除，得到每个给定句子对应的高质量候选转述文本对集合。
42.其中，匹配性得分为将候选转述文本对对应的给定句子作为其上下文时，候选转述文本对与其对应的给定句子之间的匹配程度得分；相似性得分为候选转述文本对的两个文本的语义相似程度得分；多样性得分为候选转述文本对的两个文本的形式差异程度得分。
43.具体地，匹配性得分指的是将候选转述文本对对应的给定句子s作为其上下文时，候选转述文本对与其对应的给定句子s之间的匹配程度得分，此得分鼓励候选转述文本对
中的两个文本都能匹配相同的上下文s，该得分越高，表示候选转述文本对与上下文的连贯性越高，关于匹配性得分的打分函数计算公式如下：
44.s
lm
(si，sj)＝p(si|c) p(sj|c)
45.式中，p(si|c)表示的是句子si在上下文c中的匹配性得分，p(sj|c)表示的是句子sj在上下文c中的匹配性得分，s
lm
(si，sj)表示的是候选转述文本对(si，sj)在相同的上下文c中的匹配性得分，此公式中的c即上述实例中的给定句子s。
46.相似性得分指的是候选转述文本对的两个文本的语义相似程度得分，也可以理解为两个文本的连贯性，两个语义相近的句子它们在连贯性上也更强，而完全无关的两个句子的连贯性就很差。所以，如果两个句子的连贯性更强，它们在语义上相似的可能性也就越大。关于相似性得分的打分函数计算公式如下：
47.s
mutual
(si，sj)＝p(si|sj) p(sj|si)
48.式中，p(si|sj)表示的是句子si与句子sj之间的相似性，p(sj|si)表示的同样是句子si与句子sj之间的相似性，只是与p(si|sj)的方向不同。
49.多样性得分指的是候选转述文本对的两个文本的形式差异程度得分，该得分鼓励句对之间形式的差异更大。关于多样性得分的打分函数计算公式如下：
[0050][0051]
式中，|si∩sj|表示的是句子si与句子sj中相同词的个数，|si∪sj|表示的是句子si与句子sj中不同词的个数。
[0052]
实际应用中，可以为匹配性得分设置一个匹配性阈值，为相似性得分设置一个相似性阈值，为多样性得分设置一个多样性得分阈值。由于匹配性得分以及相似性得分与语义相关，多样性得分与不同词的个数相关，因此如果不考虑精度，可以选择这三个得分中的至少一个作为筛除低质量的候选转述文本对的标准，例如选用匹配性得分与多样性得分作为评判标准，当候选转述文本对的匹配性得分小于匹配性阈值，并且候选转述文本对的多样性得分小于多样性阈值，则将这个候选转述文本对为低质量的候选转述文本对，将其筛除，得到给定句子对应的高质量候选转述文本对集合。
[0053]
在本发明的一个具体实施例中，根据匹配性得分、相似性得分以及多样性得分对每个候选转述文本对集合中低质量的候选转述文本对进行筛除的过程包括，计算匹配性得分、相似性得分以及多样性得分之和得到候选转述文本对的句对得分，若句对得分小于预设的得分阈值，则将候选转述文本对进行筛除，得到每个给定句子对应的高质量候选转述文本对集合。
[0054]
优选的，为了最大限度的提高转述精度，将上述三个得分均作为筛除低质量的候选转述文本对的标准，在本发明的具体实例中，计算匹配性得分、相似性得分以及多样性得分之和得到候选转述文本对的句对得分，预先设置一个得分阈值，若句对得分小于预设的得分阈值，则将这个候选转述文本对筛除，得到给定句子对应的高质量候选转述文本对集合。
[0055]
在图1所示的具体实施方式中，本发明的转述文本生成方法包括过程s104，利用语言模型工具对每个高质量候选转述文本对集合中每个候选转述文本对的转述规则进行无
监督学习得到转述文本生成模型，进一步利用转述文本生成模型进行转述文本的生成。此过程以便于利用训练好的转述文本生成模型生成高质量的转述文本。
[0056]
在本发明的一个具体实施例中，在得到上述高质量候选转述文本对集合之后，利用语言模型工具对高质量候选转述文本对集合以及已标注转述文本对集合中每个文本对的转述规则进行学习得到转述文本生成模型，进一步利用转述文本生成模型进行转述文本的生成。此过程充分结合有监督学习和无监督学习的优势，使转述文本生成模型在某些特定领域仍能保证输出高质量的转述文本。
[0057]
具体地，由于本发明的转述文本生成模型完全以无监督的方式训练，因此可能不能覆盖所有类型的输入文本，比如某些特定领域的文本。因此，可以进一步使用少量的标注数据训练转述文本生成模型，使其更好地感知学习特定领域转述文本生成的规律，充分结合有监督学习和无监督学习的优势。
[0058]
图3所示为本发明一种转述文本生成装置一个具体实施方式的示意图。
[0059]
在该具体实施方式中，转述文本生成装置主要包括：
[0060]
模块301：上下文匹配模型生成模块，用于利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型的模块。此模块预先确定无标注语料库，减少了对标注数据的依赖，缩短了生成标注数据所需的耗时，减少工作量，并且此过程得到上下文匹配模型，以便于进一步根据上下文匹配模型得到给定句子的上文及下文，从而进一步得到候选转述文本对。
[0061]
模块302：候选转述文本对集合生成模块，用于利用上下文匹配模型得到至少一个给定句子的多个上文和多个下文，将每个给定句子、每个给定句子的上文或者每个给定句子的下文两两组合得到每个给定句子分别对应的多个候选转述文本对，进而得到每个给定句子的候选转述文本对集合的模块。此模块以便于进一步将候选转述文本对集合中低质量的候选转述文本对筛除，得到高质量的候选转述文本对，进而得到高质量候选转述文本对集合。
[0062]
模块303：高质量候选转述文本对集合生成模块，用于根据每个候选转述文本对的两个文本的语义和不同词，对每个候选转述文本对集合中低质量的候选转述文本对进行筛除，得到每个给定句子对应的高质量候选转述文本对集合的模块。此模块以便于进一步提高转述文本生成模型的转述精度，提高转述质量。
[0063]
模块304：转述文本生成模块，用于利用语言模型工具对每个高质量候选转述文本对集合中每个候选转述文本对的转述规则进行无监督学习得到转述文本生成模型，进一步利用转述文本生成模型进行转述文本的生成的模块。此模块以便于利用训练好的转述文本生成模型生成高质量的转述文本。
[0064]
在本发明的一个具体实施例中，上述模块301中的无标注语料库包括通过互联网爬取的无标注数据。此过程减少了对标注数据的依赖，并且可以根据无标注语料库训练得到上下文匹配模型，以便于进一步根据上下文匹配模型得到给定句子的上文及下文，从而进一步得到候选转述文本对。
[0065]
在本发明的一个具体实施例中，上述模块304，还可以用于利用语言模型工具对每个高质量候选转述文本对集合以及已标注转述文本对集合中每个文本对的转述规则进行学习得到转述文本生成模型，进一步利用转述文本生成模型进行转述文本的生成的模块。
此模块充分结合有监督学习和无监督学习的优势，使转述文本生成模型在某些特定领域仍能保证输出高质量的转述文本。
[0066]
通过本发明转述文本生成装置的应用，完全不需要标注数据即可得到高质量的转述文本，减少了对标注数据的依赖，缩短了生成标注数据所需的耗时，减少工作量。
[0067]
本发明提供的一种转述文本生成装置，可用于执行上述任一实施例描述的转述文本生成方法，其实现原理和技术效果类似，在此不再赘述。
[0068]
在本发明的另一个具体实施方式中，一种计算机可读存储介质，其存储有计算机指令，其特征在于，计算机指令被操作以执行任一实施例描述的转述文本生成方法。其中，该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
[0069]
软件模块可驻留在ram存储器、快闪存储器、rom存储器、eprom存储器、eeprom 存储器、寄存器、硬盘、可装卸盘、cd-rom或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。
[0070]
处理器可以是中央处理单元(英文：central processing unit，简称：cpu)，还可以是其他通用处理器、数字信号处理器(英文：digital signal processor，简称：dsp)、专用集成电路(英文：application specific integrated circuit，简称：asic)、现场可编程门阵列(英文：fieldprogrammable gate array，简称：fpga)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如 dsp与微处理器的组合、多个微处理器、结合dsp核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在 asic中。asic可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。
[0071]
在本技术的一个具体实施方式中，一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中：处理器操作计算机指令以执行任一实施例描述的转述文本生成方法。
[0072]
在本技术所提供的实施方式中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0073]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0074]
以上仅为本技术的实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于数据处理的监控数据分配方法及系统与流程

一种转述文本生成方法、装置、介质及设备与流程

相关文献

最热文献