一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本处理方法、计算机设备及存储介质与流程

2022-04-09 06:41:41 来源:中国专利 TAG:


1.本技术涉及语言处理技术领域,尤其涉及一种文本处理方法、计算机设备及存储介质。


背景技术:

2.文本润色是指对文本包含的文字内容进行修饰和再加工,从而使得文本的内容更加饱满,文本更加具有文采的过程。由于文本润色不仅需要掌握词汇、语法等基础的语言运用能力,还需要考虑成语、修辞手法等较为高级的语言表达能力,使得要实现文本内容自动润色存在较大的难度。
3.目前,常依赖于文本批改技术校验文本内容的质量。而现有的文本批改技术仅能够识别出文本中是否使用了修辞手法,无法准确地确定一个语句是否与应用场景相契合,更无法准确地对一个表达不准确的语句进行合理的润色。因此,现有技术中亟需一种可以高效、准确地提高文本内容质量的方法。


技术实现要素:

4.本技术提供了一种文本处理方法、计算机设备及存储介质,能够对文本从语句、语句的修饰词和/或语句的词汇层级进行润色处理,可以高效准确地提高文本内容的质量。
5.第一方面,本技术提供了一种文本处理方法,所述方法包括:获取待处理文本,所述待处理文本包括至少一条自然语言语句;
6.将所述待处理文本输入预训练的文本润色模型,对所述自然语言语句、所述自然语言语句中的修饰词,和/或所述自然语言语句中的待优化词汇进行润色处理,得到目标文本。
7.第二方面,本技术还提供了一种计算机设备,包括:
8.存储器和处理器;
9.所述存储器用于存储计算机程序;
10.所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上第一方面所述的文本处理方法的步骤。
11.第三方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上第一方面所述的文本处理方法的步骤。
12.本技术公开了一种文本处理方法、计算机设备及存储介质,首先通过获取待处理文本,所述待处理文本包括至少一条自然语言语句;然后将所述待处理文本输入预训练的文本润色模型,对所述自然语言语句、所述自然语言语句中的修饰词,和/或所述自然语言语句中的待优化词汇进行润色处理,得到目标文本。能够对文本从语句、语句的修饰词和/或语句的词汇层级进行润色处理,可以高效准确地提高文本内容的质量。
附图说明
13.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
14.图1是本技术一实施例公开的文本处理方法的应用场景架构示意图;
15.图2是本技术实施例提供的文本处理系统的结构示意图;
16.图3是本技术另一实施例提供的文本处理方法的应用场景示意图;
17.图4是本技术一实施例提供的文本处理方法的实现流程示意图;
18.图5是本技术另一实施例提供的文本处理方法的实现流程图;
19.图6是图5中s502的具体实现流程图;
20.图7是第一目标网络分支的原理示意图;
21.图8是第二目标网络分支的原理示意图;
22.图9是第三目标网络分支的原理示意图;
23.图10是本技术实施例提供的计算机设备的结构示意性框图。
具体实施方式
24.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
25.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
26.应当理解,在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
27.还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
28.本技术的实施例提供了一种文本处理方法、计算机设备及存储介质。本技术实施例提供的文本处理方法可用于将待处理文本输入预训练的文本润色模型,对所述待处理文本中的自然语言语句、自然语言语句中的修饰词,和/或自然语言语句中的待优化词汇进行润色处理,可以高效准确地提高文本内容的质量,得到高质量的目标文本。
29.需要说明的是,在自然语言处理领域,文章润色一般是指对文本中的文字内容进行修饰加工,使得文章内容更加饱满,更加具有文采的过程。由于文章的表达需要在掌握词汇、语法等基础语言运用能力之后才可以写出字词正确、句法结构完整的语句。如果人们在语言表达上的积累和练习不到位,不会使用成语等较为高级的词汇,也不注重比喻、拟人等修辞手法的使用,则写出来的语句内容就会存在干瘪,文字平淡等问题。因此,语言表达能力是影响写作者能力的一个较为重要的因素。
30.目前,为了帮助提高学生的作文水平,已开发了比较成熟的作文批改技术以及作
文推荐技术。作文批改技术可以指出一篇作文中存在的病句,但是其需要借助作文推荐技术从素材库中搜索出与当前语句在语义上比较相近的语句。而作文推荐技术受限于素材库的规模以及对上下文信息的利用,通过文本匹配技术得到的这些语句基本上是很难契合当前作文的语境的,这在一定程度上影响了学生对这些语句的学习和感知。因此,提出了作文自动润色技术,希望将作文自动润色技术与作文批改技术相结合,对部分语句进行改写,以使整个文章中的语句能够与当前语境相契合,并且在优美程度和流畅程度上优于原句。
31.有鉴于此,本技术提出了一种文本处理方法、计算机设备及存储介质,实现了从文本的语句、片段、词三个层次对文本内容进行全方位的润色,达到提高文本内容质量的目的。
32.请参阅图1,图1是本技术一实施例公开的文本处理方法的应用场景架构示意图。如图1所示,文本处理方法可应用于计算机设备10,在所述计算机设备10中集成有文本处理系统11。其中,所述计算机设备10可以是服务器或者终端设备,所述服务器可以是远程服务器、云端服务器或者服务器集群等可以用于运行文本处理系统11的服务器。所述终端设备可以是个人电脑、笔记本、pad、机器人或者具有一定计算能力的手持智能终端设备。所述终端设备也可以用于运行文本处理系统11。所述文本处理系统11为集成在计算机设备10上的具有文本处理功能的应用程序。
33.应理解,本技术实施例中所描述的文本处理方法可以适用于所有在计算机设备10中集成文本处理系统11,通过文本处理系统11对文本内容进行润色的应用场景。
34.示例性地,请参阅图2所示,图2是本技术实施例提供的文本处理系统的结构示意图。由图2可知,文本处理系统11包括:
35.获取模块111,用于获取待处理文本,所述待处理文本包括至少一条自然语言语句;
36.润色模块112,用于将所述待处理文本输入预训练的文本润色模型,对所述自然语言语句、所述自然语言语句中的修饰词,和/或所述自然语言语句中的待优化词汇进行润色处理,得到目标文本。
37.由于上述各模块的功能,本技术实施例提供的文本润色系统能够对文本从语句、语句的修饰词和/或语句的词汇层级进行润色处理,可以高效准确地提高文本内容的质量。
38.此外,所述文本处理系统11可以由多个子系统组成,例如,所述文本处理系统11包括训练子系统101和处理子系统102。应理解,所述训练子系统111和所述处理子系统102均可以集成在一段计算机程序中,在计算机设备10中,所述文本处理系统11作为应用程序用于完成对文本内容的润色处理。或者,在计算机设备10中,所述训练子系统101和所述处理子系统102集成在同一应用程序中,用于完成对文本内容的润色处理。
39.应理解,训练子系统101和处理子系统102也可以以两个不同的应用程序分别集成在计算机设备10中,计算机设备10通过分别调用对应的应用程序完成各自的功能。示例性地,计算机设备10通过调用训练子系统101对应的应用程序完成对文本润色模型的训练,计算机设备10通过调用处理子系统102对应的应用程序完成基于文本润色模型对待处理文本的进行润色处理。
40.应理解,当计算机设备10具有较高的计算能力时,例如为服务器或者服务器集群时,对应的训练子系统101和处理子系统102可以均集成在计算机设备10中。当计算机设备
10为计算能力有限的终端设备如手持智能终端设备时,可以考虑在终端设备中仅集成处理子系统102,而将训练子系统101部署在与终端设备通讯连接的云端。
41.示例性地,如图3所示,图3是本技术另一实施例提供的文本处理方法的应用场景示意图。在图3中,文本处理方法由云平台20和计算机设备10共同实现。需要说明的是,云平台20包括云数据中心和云服务平台(图中未示出),云数据中心包括云服务提供商拥有的大量基础资源,例如预设语言模型;云数据中心包括的计算资源可以是大量的计算机设备,例如服务器或者服务器集群。
42.在本实施例中,云服务平台上部署有预设语言模型,云数据中心上部署有训练子系统。训练子系统可以对云服务平台上的预设语言模型进行训练,得到文本润色模型,以保证计算机设备10通过文本润色模型对待处理文本基于所述文本润色模型进行润色处理。
43.在一些实施例中,训练子系统用于预先根据训练样本,对云服务平台中预设语言模型进行训练,得到预训练的文本润色模型,将预训练的文本润色模型发送至计算机设备10,以使计算机设备10对待润色处理文本,例如作文进行语句级别的润色,修饰语级别的润色以及词级别的润色,从而提高一些契合语境的优秀表达句、修饰语或词语的使用样例,以达到辅助写作者,例如学生自主学习、提高学生写作能力的目的。
44.需要说明的是,在本技术的实施例中,为了提高待处理文本内容的质量,定义了优秀表达句生成任务,修饰词补充任务以及词汇升格任务。其中,优秀表达句生成任务包括:给定一个语句的前半部分,自动补全这个语句的后半部分,从而使得整个语句优美、流畅、契合这个语句当前的语境。修饰词补充任务包括:给定一个语句,自动预测这个语句中需要进行文本插入的位置,并且生成一个符合当前语句语义的修饰片段和/或修饰词,将生成的修饰片段和/或修饰词补充到需要进行文本插入的位置;词汇升格任务实际上为文本中词汇的替换任务,即给定一个语句,自动预测需要被替换的词语,并给出一个或多个可以替换到语句中的词语,将对应需要被替换的词语替换掉。
45.示例性地,如表1所示,表1是优秀表达句生成,修饰词补充以及词汇升格应用的示例性说明。
[0046][0047]
表1
[0048]
由表1可知,将原语句:她有一个有一点点肥肉的小身体,还有一点矮。通过优秀表达句生成任务进行文本补全后,得到优秀表达句:她有一个有一点点肥肉的小身体,个子还有点小小的,看起来非常的可爱。将原语句:你会发现苹果身上长满了白色小圆点。通过修饰词补充任务进行修饰词补充后,得到的语句为:你会发现苹果身上长满了像小芝麻似的白色小圆点。将原语句:在困难面前我们一定要坚持。通过词汇升格任务进行文本替换后,得到的语句为:在困难面前我们一定要持之以恒。
[0049]
由于目前没有成型的作文自动润色系统,本技术实施例主要借鉴了一些基于预训练模型的自然语言生成技术来实现文本润色的相关功能。在自然语言处理领域,常见的有以下两种基于预训练模型的自然语言生成技术:一种是语言模型式的自然语言生成技术,以无监督的学习生成(gererate pre-training model,gpt)模型为代表;另一种是条件语言模型式的自然语言生成技术,以条件生成(bidirectional and auto-regressive transformers,bart)模型为代表。
[0050]
其中,gpt模型的结构为多层堆叠的transfomerdecoder。gpt模型在预训练时采用语言模型任务进行预训练,即在文本序列中用前一个字符预测其后一个字符,从而实现在大规模文本上的自监督训练。gpt模型已经在各种自然语言生成以及自然语言理解任务上得到了广泛的应用。比较有代表性的基于gpt的模型有dialogpt模型、cpm模型等。dialogpt是gpt模型在对话生成任务上的应用,其在多个对话生成任务的数据集上取得了具有竞争力的效果。cpm模型是一个中文版本的gpt模型,该模型使用了大规模多来源的中文文本进行预训练,并且修改了原始gpt模型的词表,使其更加适用于中文。
[0051]
bart模型采用了序列到序列的模型结构,使用多层堆叠的transformer encoder作为编码器以及多层堆叠的tranformer decoder作为解码器。为了实现条件语言模型式的自监督预训练,bart模型在预训练时首先使用了多种破坏文本的方式对原始的文本序列进行破坏,然后将破坏后的文本序列作为编码器端的输入,将破坏前的文本序列作为解码器端的输出。这些破坏文本序列的方式包括随机替换文本序列中的字符为“[mask]”、随机删除文本序列中的字符、打乱文本序列中语句的顺序等。这种条件语言模型式的预训练模型更适用于机器翻译、语法纠错、文本摘要等序列到序列形式的自然语言生成任务。
[0052]
对于优秀表达句生成任务,直接使用gpt模型有可能会获得比较流畅的生成结果。但是,这些生成结果的优美程度以及和上下文的衔接程度是很难保证的。直接使用gpt模型很有可能生成出一个优美程度不如原句且与原句内容相差甚远的语句,这肯定达不到文本润色的目的。因此,一方面为了保证生成结果的优美程度,首先使用优秀表达句识别模型在海量文本语料中抽取置信度较高的优秀表达句作为后续微调gpt模型的语料。另一方面为了保证生成结果与上下文的衔接程度,采用了一种关键词信息引导微调的方法对gpt模型进行微调,在一定程度上保证了生成结果与上下文的衔接程度。
[0053]
此外,对于修饰片段与修饰词补充任务,需要解决的技术问题有两个:第一个问题是如何确定修饰片段与修饰词的插入位置;第二个问题是如何保证生成结果是流畅且符合当前文本的语义的。目前,常使用一个指针网络去预测一个位置,然后提取这个位置的向量表示输入到一个随机初始化的多层堆叠的transformer decoder中进行插入片段的生成。上述方案的主要缺点在于其使用的transformer decoder是随机初始化的,其训练成本较高,只有依赖大规模的数据去训练才能获得较好的生成结果。另一方面,在bert模型上叠加transformer decoder的方式增加了模型的复杂度,影响了模型的训练及推理速度。鉴于以上两点问题,本技术实施例中,采用了基于bart的指针生成网络来完成修饰片段与修饰词补充任务。由于bart的编码器和解码器都是在大规模文本上进行预训练过的,因此,只需要使用较小规模的数据就可以获得很好的生成结果。
[0054]
对于词汇升格任务,首先需要解决的问题是同义词的获取问题,即如何获取待升格词的同义词。然后需要解决的问题是这些同义词的排序问题,即如何从这些同义词中选择出一些适合当前语境的且使用后表达效果更好的词。对于同义词的获取问题,常见的技术方案通常是使用计算词向量相似度的方法去获取,但是直接计算待升格词与词表中所有词的词向量相似度会影响计算速度并且可能会引入一些噪音词。且对于同义词的排序任务,使用计算语言模型困惑度的方式对同义词进行排序时,由于困惑度只能保证使用该词后语句更加流畅,不能保证使用该词后语句更加优美。鉴于以上两点问题,在本技术的实施例中,通过一个由词语释义构建的同义词词图去获取同义词,提升了同义词获取的效率及效果,并且通过使用gpt模型以及优秀表达句识别模型对这些同义词进行打分和排序,能够从多方面提高文本内容的表达质量。
[0055]
请参阅图4所示,图4是本技术一实施例提供的文本处理方法的实现流程示意图。本实施例提供的文本处理方法可以由图1所示计算机设备10完成。详述如下:
[0056]
s401,获取待处理文本,所述待处理文本包括至少一条自然语言语句。
[0057]
其中,所述待处理文本包括但不限于小学生作文、初学写作者的文章、业务写作爱好者的文章等。在所述待处理文本中,由于文本作者对语句语法、常用词汇、典故、修饰语等
的理解不到位,导致待处理文本内容中可能存在语法错误、乱用修饰语、词汇运用错误的问题。在本技术的实施例中,通过预训练的文本润色模型,可以对待处理文本中存在的上述问题进行优化,得到具有优秀表达句的文本。具体地,所述待处理文本包括至少一条自然语言语句,通过预训练的文本润色模型对自然语言语句进行处理,可以得到高质量的文本。
[0058]
s402,将所述待处理文本输入预训练的文本润色模型,对所述自然语言语句、所述自然语言语句中的修饰词,和/或所述自然语言语句中的待优化词汇进行润色处理,得到目标文本。
[0059]
其中,预训练的文本润色模型为根据预设数量的训练样本对预设语言模型进行训练得到。具体地,预设语言模型包括:第一网络架构、第二网络架构和第三网络架构。
[0060]
其中,第一网络架构的主要功能是产生语句级的润色结果,其组成为基于关键词引导的gpt语句生成网络模型。该基于关键词信息引导的gpt生成模型主要用于聚焦对景物、外貌、神态等描写句的生成。能够对自然语言语句从语句层级进行润色处理,得到优美语句,提高语句表达的效果。
[0061]
第二网络架构是修饰片段与修饰词补充生成模块。修饰片段与修饰词补充生成模块的主要功能是产生片段级别或词级别的润色结果,其组成部分为基于bart的指针生成网络模型。基于bart的指针生成网络模型主要聚焦在语句中插入一些使用比喻修饰手法的修饰片段或插入一些形容词、副词等。能够对自然语言语句从语句的修饰词层级进行润色处理,使得自然语言语句中引入合理的修饰词汇,达到用修饰词汇生动表达的效果。
[0062]
第三网络架构是词汇生成模块。词汇生成模块的主要功能是产生词级别的润色结果,其组成部分为基于替换句引导的gpt词汇生成网络模型。其中,基于替换句引导的gpt词汇生成网络模型可以包括一个同义词词图和一个基于bert模型和优秀表达句识别模型的同义词打分网络,所述同义词打分网络主要聚焦对动词、形容词、副词进行升格。能够对自然语言语句从语句的词汇层级进行润色处理,将文本中使用不当的词汇或者使用普通的词汇替换为更准确更有表达力的词汇,以提高文本的质量。
[0063]
在一些实施例中,所述预训练的文本润色模型包括相互独立的第一目标网络分支、第二目标网络分支和第三目标网络分支;所述第一目标网络分支,用于检测所述待处理文本中需润色的自然语言语句,对所述需润色的自然语言语句进行润色处理,得到第一目标语句;所述第二目标网络分支,用于检测各条所述自然语言语句中需补充修饰词的目标位置,对所述目标位置进行修饰词补充,得到第二目标语句;所述第三目标网络分支,用于检测各条所述自然语言语句中待优化的词汇,对所述待优化的词汇进行优化处理,得到目标词汇。
[0064]
通过上述分析可知,本技术实施例提供的文本处理方法,首先通过获取待处理文本,所述待处理文本包括至少一条自然语言语句;然后将所述待处理文本输入预训练的文本润色模型,对所述自然语言语句、所述自然语言语句中的修饰词,和/或所述自然语言语句中的待优化词汇进行润色处理,得到目标文本。能够对文本从语句、语句的修饰词和/或语句的词汇层级进行润色处理,可以高效准确地提高文本内容的质量。
[0065]
请参阅图5所示,图5是本技术另一实施例提供的文本处理方法的实现流程图。由图5可知,本实施例与图4所示实施例相比,s501与s401以及s503与s402的具体实现过程相同,不同之处在于,在s503之前还包括s502,应理解,s502与s501为并列执行关系,可择一执
行。详述如下:
[0066]
s501,获取待处理文本,所述待处理文本包括至少一条自然语言语句。
[0067]
s502,获取预设数量的训练样本,对预设语言模型进行训练,得到所述文本润色模型。
[0068]
应理解,预设语言模型包括对文本具有不同润色功能的第一网络、第二网络和第三网络,在本技术的实施例中,分别针对第一网络、第二网络和第三网络的训练过程进行示例性说明。
[0069]
如图6所示,图6是图5中s502的具体实现流程图。由图6可知,s502包括s5021至s5023。详述如下:
[0070]
s5021,获取第一预设数量的第一训练样本,基于所述第一训练样本对预设的第一网络架构进行训练,得到所述第一目标网络分支。
[0071]
所述获取第一预设数量的第一训练样本,包括:获取第一目标数量的文本数据;基于预设的优秀文本批改策略对所述文本数据进行筛选,得到所述第一预设数量的优秀语句,以所述优秀语句为所述第一训练样本。
[0072]
其中,所述基于所述第一训练样本对所述第一网络架构进行训练,得到所述第一目标网络分支,包括:针对任意一条所述优秀语句,根据预设的关键词抽取算法对所述优秀语句进行关键词抽取,得到至少一个关键词;分别生成所述优秀语句的第一序列和所述关键词的第二序列;将所述第二序列补充到所述第一序列,得到目标序列;将每条所述优秀语句对应的所述目标序列,输入所述第一网络架构,对所述第一网络架构基于所述目标序列进行训练,得到所述第一目标网络分支。
[0073]
应理解,所述将所述第二序列补充到所述第一序列,得到目标序列,可以包括:将所述第二序列补充到所述第一序列之前,或者将所述第二序列补充到所述第一序列之后,得到所述目标序列。
[0074]
在一些实施例中,所述对所述第一网络架构基于所述目标序列进行训练,得到所述第一目标网络分支,包括:对所述第一网络架构基于所述目标序列进行训练,检测第一损失函数的值;若所述第一损失函数的值小于或等于第一预设阈值,则确定对所述第一网络架构的训练结束,得到所述第一目标网络分支。
[0075]
应理解,为了使得第一目标网络分支能够生成优秀表达句,首先需要获得优秀表达句的训练语料。在本技术的实施例中,通过优秀文本批改策略可以获取优秀表达句的训练语料。其中,优秀文本批改策略为使用预先训练好的比喻识别模型、拟人识别模型、排比识别模型、引用识别模型、描写识别模型、优秀表达句识别模型等在海量文本语料中抽取了预设数量例如350万高置信度的优秀表达句作为训练语料。这些优秀表达句的训练语料在一定程度上是可以保证训练得到的第一目标网络分支的能够生成符合要求的优秀表达句。
[0076]
具体地,优秀文本批改策略集合了很多预训练好的网络模型,会自动输出具有修辞手法的语句。
[0077]
示例性地,如图7所示,图7是第一目标网络分支的原理示意图。由图7可知,在本技术的实施例中,待润色语句中的关键词为:枣树枣子,待润色语句为:枣树枝头挂满了许多的枣子。在经过第一目标网络分支进行润色后,输出的优秀语句包括:枣树枝头挂满了红彤彤的果实;枣树枝头挂满了又大又红的红枣;以及枣树枝头挂满了沉甸甸的冬枣,那一颗枣
子就好像红宝石一样,晶莹剔透。
[0078]
具体地,第一目标网络分支的训练过程包括:在获得优秀表达句的语料后,采用了基于关键词信息引导的方法对gpt模型进行微调。
[0079]
其中,对于由优秀表达句组成的训练集中的一个语句,假设该语句对应的序列表示为:s={w1,w2,...,wn},通过关键词提取算法,例如用于文本的基于图的text rank算法抽取出该语句中的若干个关键词,组成的关键词序列假设为:k={k1,k2,...,km},其中m<n,n表示语句s序列中词的个数,m表示关键词序列中关键词的个数。将关键词序列k补充到语句序列s的前面,并用“[sep]”分隔符将关键词序列k和语句序列s进行分隔,得到微调gpt模型最终的输入序列s
*
={s1,s2,...,s
n m 1
}。将所有语句对应的输入序列s
*
送入到gpt模型中进行训练,根据gpt模型的第一损失函数,确定对gep模型的训练结束。
[0080]
示例性地,第一损失函数可以表示为:
[0081]hi
=transformerdecoder(si)
[0082]yi 1
=softmax(linear(hi))
[0083]
lossi=crossentropy(y
i 1
,s
i 1
)
[0084]
其中hi表示字符si经gpt的编码层transformerdecoder编码后的向量表示,y
i 1
表示根据hi预测得到的下一个字符,lossi表示预测字符y
i 1
和真实字符s
i 1
的交叉熵(cross entropy)损失值。
[0085]
应理解,在完成gpt模型的微调后,可以将其应用到优秀表达句生成中,也即,完成微调后的gpt模型是训练得到的第一目标网络分支。
[0086]
应理解,当需要针对景物、外貌、神态等进行描写时,若需要生成优秀表达句,则可以使用第一目标网络分支识别出对应文本中属于景物、外貌和神态的描写句,然后再从上述描写句中优秀表达句置信度较低的语句作为需要进行润色的语句。最后,对于需要进行润色的语句,将这个语句的关键词通过分隔符与该语句进行拼接后,生成该语句的优秀表达句。
[0087]
应理解,为了保证第一目标网络分支生成的优秀表达句的质量和多样性,在训练第一目标网络分支的过程中,可以使用重排关键词序列的方法生成多个不同的关键词序列,对第一目标网络分支进行训练,进而得到具有多种润色结果的第一目标网络分支。此外,在对第一目标网络分支进行训练时,还可以进一步使用gpt语言模型的困惑度对多种润色结果进行排序,筛选得到最优的优秀表达句。
[0088]
s5022,获取第二预设数量的第二训练样本,基于所述第二训练样本对预设的第二网络架构进行训练,得到所述第二目标网络分支。
[0089]
其中,所述获取第二预设数量的第二训练样本,包括:获取第二目标数量的文本数据;基于预设的优秀文本批改策略对所述文本数据进行筛选,得到所述第二预设数量的优秀语句;提取所述优秀语句中修饰词,得到无修饰词的语句;根据所述无修饰词的语句和所述修饰词的第一位置生成语料对,以所述语料对为所述第二训练样本。
[0090]
在一些实施例中,所述基于所述第二训练样本对所述第二网络架构进行训练,得到所述第二目标网络分支,包括:针对任意一对所述语料对,基于所述第二网络架构分析所述无修饰词的语句,得到所述无修饰词的语句中每个词的词向量;基于预设的指针网络预测所述修饰词在所述词向量中的第二位置;计算所述第一位置和所述第二位置的交叉熵,
根据所述交叉熵确定所述修饰词的插入位置;根据所有所述修饰词的插入位置生成位置向量;将所述位置向量和所述词向量,输入预设编码器进行各个所述插入位置的修饰词预测;根据第二损失函数的值确定对所述第二网络架构的训练结束,得到所述第二目标网络分支。
[0091]
在一些实施例中,所述根据第二损失函数的值确定对所述第二网络架构的训练结束,得到所述第二目标网络分支,包括:若所述第二损失函数的值小于或等于预设阈值,则确定对所述第二网络架构训练结束,得到所述第二目标网络分支。
[0092]
应理解,为了训练得到第二目标网络分支,首先需要构造出一些无修饰词和/或无修饰片段的语句,以无修饰词和/或无修饰片段的语句到可插入对应的修饰词和/或修饰片段的成对训练语料。例如,常见的修饰词如比喻修饰词、形容词、副词等,可以借助比喻识别模型以及一些人工规则去构造特定类型的无修饰句到可插入修饰片段的成对训练语料。
[0093]
此外,对于比喻修饰片段类型的成对训练语料,可以使用文本批改策略中的比喻识别模型在海量文本语料中抽取出比喻句,并可在抽取的比喻句上抽取比喻词与边界词构成比喻片段,例如将比喻句中的“像
……
一样”、“如同
……
似的”等比喻词与边界词抽取。将抽取比喻片段的语句作为无修饰的语句。对于形容词、副词类型的成对训练语料,只需要借助分词、词性标注、句法分析等自然语言处理工具在语句中抽取出充当修饰成分的形容词、副词后就可以以同样的方式构造出形容词、副词类型的成对训练语料。应理解,在本技术的实施例中,将各种修饰类型的成对训练语料混合到一起进行第二目标网络分支的训练。
[0094]
应理解,在获得上述的成对训练语料之后,可以基于成对的训练语料训练预设第二网络如基于bart的指针生成网络。
[0095]
示例性地,如图8所示,图8是第二目标网络分支的原理示意图。由图8可知,假设输入文本中包括的语句为:桂林的景色非常美丽动人。将该语句输入第二目标网络分支后,得到无修饰的语句为x={x1,x2,...,xn},该无修饰的语句对应的修饰片段为y={y1,y2,...,ym}。首先,将无修饰的语句x输入到bart的编码器中获得每个字符的向量表示,然后,通过一个指针网络预测出可以进行插入的位置p
*
,p
*
∈[1,n]。具体地,通过一个指针网络预测出可以进行插入的位置p
*
的过程可以由如下公式表示:
[0096]
h=bartencoder(x)
[0097]
p
*
=softmax(pointernn(h))
[0098]
其中,h表示无修饰的语句x经过编码器bartencoder编码后,获得该语句的向量。
[0099]
应理解,在预测出可插入位置p之后,可以计算其与真实的插入位置p的交叉熵损失,预测插入位置。在本技术的实施例中,可以用定位损失loss
p
来表示预测插入位置。示例性地,loss
p
可以表示为:
[0100]
loss
p
=crossentropy(p
*
,p)
[0101]
应理解,对于可插入位置p,抽取出可插入位置p处的经bart的编码器bartencoder编码之后的向量表示h
p
作为后续生成的指导信号,将h
p
以及编码器bartencoder端的每个字符的向量表示h送入到bart的编码器bartencoder中去预测修饰片段y中的第一个字符y1,并依次预测修饰片段y中的每一个字符,对应的计算过程可以表示如下:
[0102]
h0=bartdecoder(h
p
,h)
[0103]ht 1
=bartdecoder(h
t
,h
0:t-1
,h)
[0104][0105][0106]
此外,需要采用多任务联合损失实现对第二目标网络分支(基于bart的指针生成网络)的训练。应理解,多任务联合损失函数为第二目标网络分支对应的第二损失函数,表示为:
[0107]
loss
joint
=(loss
p
lossg)/2
[0108]
其中,h
p
表示可插入位置p处的经bart编码器编码之后的向量;h0,表示h
p
经过bart解码器获得的向量;y
t 1
,表示修饰片段中的第t 1个词;表示根据h
t 1
预测得到的第t 1个词;loss
p
表示预测插入位置任务的损失;lossg表示生成修饰片段任务的损失;loss
joint
表示预测插入位置任务和生成修饰片段任务的联合损失。最后,经过第二目标网络分支进行修饰语润色后,输出的语句为:桂林的景色像一副栩栩如生的画一样非常美丽动人。
[0109]
s5023,获取第三预设数量的第三训练样本,基于所述第三训练样本对预设的第三网络架构进行训练,得到所述第三目标网络分支。
[0110]
其中,所述获取第三预设数量的第三训练样本,包括:获取第三目标数量的目标词语,构建所述目标词语的同义词词图;基于预设搜索算法在所述同义词词图中,分别获取各个所述目标词语的替换词;依次将目标语句中的所述目标词语,替换为各自对应的所述替换词,得到替换语句;获取第三预设数量的所述替换语句,以所述替换语句为所述第三训练样本。
[0111]
在一些实施例中,所述基于所述第三训练样本对所述第三网络架构进行训练,得到所述第三目标网络分支,包括:将所述第三预设数量的替换语句输入第三网络架构,分别计算每个所述替换语句的困惑度;基于预设的优秀文本批改策略获取每个所述替换语句的优美度;根据所述困惑度和所述优美度确定对所述第三网络架构的训练结束,得到所述第三目标网络分支。
[0112]
在一些实施例中,所述根据所述困惑度和所述优美度确定对所述第三网络架构的训练结束,得到所述第三目标网络分支,包括:若所述困惑度小于预设困惑度阈值的比例大于第一预设比例阈值,且所述优美度大于预设优美度阈值的比例大于第二预设比例阈值,则确定对所述第三网络架构训练结束,得到所述第三目标网络分支。
[0113]
需要说明的是,对于一个词语wq以及其对应的释义p={w1,w2,...,wn},计算词语wq与释义中每个词语的词向量相似度,如果词语wq与释义中的某几个词语的相似度高于一定的阈值,就用一条指向wq的有向边将释疑中的词语与wq连接起来。示例性地,可以通过对《新华字典》中所有的词进行处理,获得一个同义词词图。
[0114]
在获得了同义词词图后,可以使用一些高效的搜索算法在同义词图中获取一些待升格词的同义词。然后将这些同义词作为替换词逐个替换到待升格词所在的语句中得到若干个替换后的语句。最后使用gpt模型计算每个语句的困惑度,使用优秀表达句识别模型计算每个语句的优秀表达句置信度。其中,优秀表达句识别模型是文本批改策略中的一个模型。示例性地,优秀表达句识别模型可以是一个二元分类器,会计算出每个语句是否是优秀表达句的概率,对应地,计算得到的优秀表达句的概率为优秀表达句的置信度。
[0115]
应理解,在一个语句只有一个替换后的语句的困惑度和优秀表达句置信度都超过
原句时,才将这个语句中的替换词作为待升格词的一个升格后的词汇。示例性地,如图9所示,图9是第三目标网络分支的原理示意图。图9中的待升格词为:坚持;根据待升格词坚持的同义词词图,确定待升格词坚持的替换词包括:持之以恒、执着、坚决和保持。
[0116]
在本实施例中,第一目标网络分支、第二目标网络分支和第三目标网络分支的训练过程是相互独立的,应理解,在本技术的其它一些实施例中,还可以将第一目标网络分支、第二目标网络分支和第三目标网络分支进行联合训练。具体地,在将第一目标网络分支、第二目标网络分支和第三目标网络分支进行联合训练的过程中,可以根据联合损失函数来评估对各目标网络分支的训练是否结束。其中,联合损失函数可以是第一损失函数、第二损失函数和第三损失函数的加权损失函数。在加权损失函数中,第一损失函数、第二损失函数和第三损失函数分别对应有预设的加权系数。具体地,加权损失函数可以由各个损失函数与各自对应的加权系数相乘后,再相加来表示。其中,各个损失函数的加权系数可以预先进行设置,在此不做任何具体限定。
[0117]
s503,将所述待处理文本输入预训练的文本润色模型,对所述自然语言语句、所述自然语言语句中的修饰词,和/或所述自然语言语句中的待优化词汇进行润色处理,得到目标文本。
[0118]
通过上述分析可知,本技术实施例提供的文本处理方法,首先通过获取待处理文本,所述待处理文本包括至少一条自然语言语句;然后将所述待处理文本输入预训练的文本润色模型,对所述自然语言语句、所述自然语言语句中的修饰词,和/或所述自然语言语句中的待优化词汇进行润色处理,得到目标文本。能够对文本从语句、语句的修饰词和/或语句的词汇层级进行润色处理,可以高效准确地提高文本内容的质量。
[0119]
请参阅图10,图10是本技术实施例提供的计算机设备的结构示意性框图。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
[0120]
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种计算机方法。
[0121]
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
[0122]
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种计算机方法。
[0123]
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0124]
应当理解的是,处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0125]
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实
现如下步骤:
[0126]
获取待处理文本,所述待处理文本包括至少一条自然语言语句;
[0127]
将所述待处理文本输入预训练的文本润色模型,对所述自然语言语句、所述自然语言语句中的修饰词,和/或所述自然语言语句中的待优化词汇进行润色处理,得到目标文本。
[0128]
在一个实施例中,在所述将所述待处理文本输入预训练的文本润色模型之前,还包括:获取预设数量的训练样本,对预设语言模型进行训练,得到预训练的所述文本润色模型;其中,所述文本润色模型包括相互独立的第一目标网络分支、第二目标网络分支和第三目标网络分支;
[0129]
所述第一目标网络分支,用于检测所述待处理文本中需润色的自然语言语句,对所述需润色的自然语言语句进行润色处理,得到第一目标语句;
[0130]
所述第二目标网络分支,用于检测各条所述自然语言语句中需补充修饰词的目标位置,对所述目标位置进行修饰词补充,得到第二目标语句;
[0131]
所述第三目标网络分支,用于检测各条所述自然语言语句中待优化的词汇,对所述待优化的词汇进行优化处理,得到目标词汇。
[0132]
在一个实施例中,所述预设语言模型包括:第一网络架构、第二网络架构和第三网络架构;所述获取预设数量的训练样本,对预设语言模型进行训练,得到预训练的所述文本润色模型,包括:
[0133]
获取第一预设数量的第一训练样本,基于所述第一训练样本对所述第一网络架构进行训练,得到所述第一目标网络分支;
[0134]
获取第二预设数量的第二训练样本,基于所述第二训练样本对所述第二网络架构进行训练,得到所述第二目标网络分支;
[0135]
获取第三预设数量的第三训练样本,基于所述第三训练样本对所述第三网络架构进行训练,得到所述第三目标网络分支。
[0136]
在一个实施例中,所述获取第一预设数量的第一训练样本,包括:
[0137]
获取第一目标数量的文本数据;
[0138]
基于预设的优秀文本批改策略对所述文本数据进行筛选,得到所述第一预设数量的优秀语句,以所述优秀语句为所述第一训练样本。
[0139]
在一个实施例中,所述基于所述第一训练样本对预设的第一网络架构进行训练,得到所述第一目标网络分支,包括:
[0140]
针对任意一条所述优秀语句,根据预设的关键词抽取算法对所述优秀语句进行关键词抽取,得到至少一个关键词;
[0141]
分别生成所述优秀语句的第一序列和所述关键词的第二序列;
[0142]
将所述第二序列补充到所述第一序列,得到目标序列;
[0143]
将每条所述优秀语句对应的所述目标序列,输入所述第一网络架构,对所述第一网络架构基于所述目标序列进行训练,得到所述第一目标网络分支。
[0144]
在一个实施例中,所述对所述第一网络架构基于所述目标序列进行训练,得到所述第一目标网络分支,包括:
[0145]
对所述第一网络架构基于所述目标序列进行训练,检测第一损失函数的值;
[0146]
若所述第一损失函数的值小于或等于第一预设阈值,则确定对所述第一网络架构的训练结束,得到所述第一目标网络分支。
[0147]
在一个实施例中,所述获取第二预设数量的第二训练样本,包括:
[0148]
获取第二目标数量的文本数据;
[0149]
基于预设的优秀文本批改策略对所述文本数据进行筛选,得到所述第二预设数量的优秀语句;
[0150]
提取所述优秀语句中修饰词,得到无修饰词的语句;
[0151]
根据所述无修饰词的语句和所述修饰词的第一位置生成语料对,以所述语料对为所述第二训练样本。
[0152]
在一个实施例中,所述基于所述第二训练样本对预设的第二网络架构进行训练,得到所述第二目标网络分支,包括:
[0153]
针对任意一对所述语料对,基于所述第二网络架构分析所述无修饰词的语句,得到所述无修饰词的语句中每个词的词向量;
[0154]
基于预设的指针网络预测所述修饰词在所述词向量中的第二位置;
[0155]
计算所述第一位置和所述第二位置的交叉熵,根据所述交叉熵确定所述修饰词的插入位置;
[0156]
根据所有所述修饰词的插入位置生成位置向量;
[0157]
将所述位置向量和所述词向量,输入预设编码器进行各个所述插入位置的修饰词预测;
[0158]
根据第二损失函数的值确定对所述第二网络架构的训练结束,得到所述第二目标网络分支。
[0159]
在一个实施例中,所述根据第二损失函数的值确定对所述第二网络架构的训练结束,得到所述第二目标网络分支,包括:
[0160]
若所述第二损失函数的值小于或等于预设阈值,则确定对所述第二网络架构训练结束,得到所述第二目标网络分支。
[0161]
在一个实施例中,所述获取第三预设数量的第三训练样本,包括:
[0162]
获取第三目标数量的目标词语,构建所述目标词语的同义词词图;
[0163]
基于预设搜索算法在所述同义词词图中,分别获取各个所述目标词语的替换词;
[0164]
依次将目标语句中的所述目标词语,替换为各自对应的所述替换词,得到替换语句;
[0165]
获取第三预设数量的所述替换语句,以所述替换语句为所述第三训练样本。
[0166]
在一个实施例中,所述基于所述第三训练样本对预设的第三网络架构进行训练,得到所述第三目标网络分支,包括:
[0167]
将所述第三预设数量的替换语句输入第三网络架构,分别计算每个所述替换语句的困惑度;
[0168]
基于预设的优秀文本批改策略获取每个所述替换语句的优美度;
[0169]
根据所述困惑度和所述优美度确定对所述第三网络架构的训练结束,得到所述第三目标网络分支。
[0170]
在一个实施例中,所述根据所述困惑度和所述优美度确定对所述第三网络架构的
训练结束,得到所述第三目标网络分支,包括:
[0171]
若所述困惑度小于预设困惑度阈值的比例大于第一预设比例阈值,且所述优美度大于预设优美度阈值的比例大于第二预设比例阈值,则确定对所述第三网络架构训练结束,得到所述第三目标网络分支。
[0172]
在一个实施例中,所述第一网络架构为基于关键词引导的gpt语句生成网络模型;
[0173]
所述第二网络架构为基于bart的指针生成网络模型;所述第三网络架构为基于替换句引导的gpt词汇生成网络模型。
[0174]
本技术的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本技术图1所示实施例提供的计算机方法。
[0175]
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。
[0176]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献