一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种NLU任务的处理方法、系统、电子设备及存储介质与流程

2022-03-09 00:43:20 来源:中国专利 TAG:

一种nlu任务的处理方法、系统、电子设备及存储介质
技术领域
1.本技术涉及自然语言处理技术领域,特别涉及一种nlu任务的处理方法、系统、电子设备及存储介质。


背景技术:

2.自然语言处理技术的迅速发展催生了预训练语言模型(plm,pre-trained language model)的诞生,其中比较具有代表性的模型结构是gpt和bert。预训练语言模型的产生从某种意义上降低了自然语言处理模型的使用门槛,因为人们只要针对自己需要的下游任务对已有的预训练模型进行微调,而不需要从头开始训练模型,进而大大降低了自然语言模型的使用成本。由于预训练语言模型的开发者并不知道模型会被用来做什么样的下游任务,因此往往会使用大量语料、训练一个规模较大的模型,以确保模型获得执行不同任务的能力。
3.生成类语言模型(如gpt模型)为用于执行自然语言生成任务的预训练语言模型,生成类语言模型可以不改变参数,进行零样本学习(zero-shot learning)和小样本学习(few-shot learning),但是在使用生成类语言模型处理nlu任务的精准度较差。
4.因此,如何提高生成类语言模型执对nlu任务的处理精准度是本领域技术人员目前需要解决的技术问题。


技术实现要素:

5.本技术的目的是提供一种nlu任务的处理方法、系统、一种电子设备及一种存储介质,能够提高生成类语言模型执对nlu任务的处理精准度。
6.为解决上述技术问题,本技术提供一种nlu任务的处理方法,该nlu任务的处理方法包括:
7.获取预训练语言模型;其中,所述预训练语言模型为生成类语言模型;
8.接收nlu任务,并对所述nlu任务对应的数据内容进行格式转换,得到目标文本;其中,所述目标文本包括文本内容语句和标签语句,所述标签语句为所述目标文本的最后一个句子,所述标签语句为待填写所述文本内容语句的标签词的句子;
9.将所述目标文本输入所述预训练语言模型得到所述文本内容语句的标签词,根据所述文本内容语句的标签词生成所述nlu任务的处理结果。
10.可选的,将所述目标文本输入所述预训练语言模型得到所述文本内容语句的标签词,包括:
11.将所述目标文本输入所述预训练语言模型,得到所述预训练语言模型在所述标签语句中填写的预测标签词token;
12.判断所述预测标签词token是否为所述文本内容语句的标准标签词;
13.若是,则将所述预测标签词token设置为所述文本内容语句的标签词。
14.可选的,在判断所述预测标签词token是否为所述文本内容语句的标准标签词之
后,还包括:
15.若所述预测标签词token不为所述文本内容语句的标准标签词,则利用所述预训练语言模型计算标签词集合中每一备选标签词出现在所述标签语句的概率;
16.将概率最高的备选标签词设置为所述文本内容语句的标签词。
17.可选的,所述对nlu任务对应的数据内容进行格式转换,得到目标文本,包括:
18.确定所述数据内容中的文本内容语句和标准标签词;
19.构建包括所述标准标签词的目标语句,并删除所述目标语句中的所述标准标签词得到所述标签语句;
20.构建包括所述文本内容语句和所述标签语句的所述目标文本。
21.可选的,所述构建包括所述标准标签词的目标语句,包括:
22.构建包括所述标准标签词且所述标准标签词处于句子尾部的所述目标语句。
23.可选的,所述预训练语言模型具体为gpt结构的预训练语言模型。
24.可选的,在根据所述文本内容语句的标签词生成所述nlu任务的处理结果之后,还包括:
25.将所述nlu任务的处理结果传递至下游任务。
26.本技术还提供了一种nlu任务的处理系统,该系统包括:
27.模型获取模块,用于获取预训练语言模型;其中,所述预训练语言模型为生成类语言模型;
28.格式转换模块,用于接收nlu任务,并对所述nlu任务对应的数据内容进行格式转换,得到目标文本;其中,所述目标文本包括文本内容语句和标签语句,所述标签语句为所述目标文本的最后一个句子,所述标签语句为待填写所述文本内容语句的标签词的句子;
29.处理模块,用于将所述目标文本输入所述预训练语言模型得到所述文本内容语句的标签词,根据所述文本内容语句的标签词生成所述nlu任务的处理结果。
30.本技术还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述nlu任务的处理方法执行的步骤。
31.本技术还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述nlu任务的处理方法执行的步骤。
32.本技术提供了一种nlu任务的处理方法,包括:获取预训练语言模型;其中,所述预训练语言模型为生成类语言模型;接收nlu任务,并对所述nlu任务对应的数据内容进行格式转换,得到目标文本;其中,所述目标文本包括文本内容语句和标签语句,所述标签语句为所述目标文本的最后一个句子,所述标签语句为待填写所述文本内容语句的标签词的句子;将所述目标文本输入所述预训练语言模型得到所述文本内容语句的标签词,根据所述文本内容语句的标签词生成所述nlu任务的处理结果。
33.本技术在接收到nlu任务后,对nlu任务对应的数据内容进行格式转换,得到目标文本。目标文本包括文本内容语句和标签语句,所述标签语句为所述目标文本的最后一个句子,所述标签语句为待填写所述文本内容语句的标签词的句子。在将目标文本输入到预训练语言模型后,相当于将nlu任务转化为生成类语言模型擅长处理的自然语言生成任务。因此,本技术能够提高生成类语言模型执对nlu任务的处理精准度。本技术同时还提供了一
种nlu任务的处理系统、一种电子设备和一种存储介质,具有上述有益效果,在此不再赘述。
附图说明
34.为了更清楚地说明本技术实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1为本技术实施例所提供的一种nlu任务的处理方法的流程图;
36.图2为本技术实施例所提供的一种nlu任务的处理系统的结构示意图。
具体实施方式
37.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
38.下面请参见图1,图1为本技术实施例所提供的一种nlu任务的处理方法的流程图。
39.具体步骤可以包括:
40.s101:获取预训练语言模型;
41.其中,本实施例可以应用于智能对话系统,上述预训练语言模型为生成类语言模型,生成类语言模型为能够执行自然语言生成任务(natural language generating)的模型。具体的,上述生成类语言模型一般为gpt(generative pre-training transformer,生成式预训练网络)结构的预训练语言模型。
42.s102:接收nlu任务,并对所述nlu任务对应的数据内容进行格式转换,得到目标文本;
43.其中,nlu(natural language understanding)为自然语言理解任务,在接收到自然语言理解任务之后,本实施例对数据内容进行格式转换得到目标文本,以便将自然语言理解任务转换为自然语言生成任务。本实施例中的目标文本包括文本内容语句和标签语句,所述标签语句为所述目标文本的最后一个句子,所述标签语句为待填写所述文本内容语句的标签词的句子。具体的,本实施例可以根据目标文本的语义确定标签语句,该过程可以由工作人员实现。
44.具体的,本实施例可以用过以下方式得到目标文本:确定所述数据内容中的文本内容语句和标准标签词;构建包括所述标准标签词的目标语句;构建包括所述文本内容语句和所述标签语句的所述目标文本。具体的,本实施例可以构建包括所述标准标签词且所述标准标签词处于句子尾部的所述目标语句。
45.例如,nlu任务对应的数据内容为:“明天的天气晴朗,建议开窗通风,请注意防晒”,文本内容语句为“明天晴朗,建议开窗通风,请注意防晒”,标准标签词为“天气”,构建包括所述标准标签词且所述标准标签词处于句子尾部的所述目标语句为:“这条信息的主题为天气”,删除所述目标语句中的所述标准标签词得到所述标签语句“这条信息的主题为__”,最终构建的目标文本为“明天晴朗,建议开窗通风,请注意防晒,这条信息的主题为_”。
46.s103:将所述目标文本输入所述预训练语言模型得到所述文本内容语句的标签词,根据所述文本内容语句的标签词生成所述nlu任务的处理结果。
47.其中,本实施例可以通过以下方式得到文本内容语句的标签词:将所述目标文本输入所述预训练语言模型,得到所述预训练语言模型在所述标签语句中填写的预测标签词token;判断所述预测标签词token是否为所述文本内容语句的标准标签词;若是,则将所述预测标签词token设置为所述文本内容语句的标签词;若否,则利用所述预训练语言模型计算标签词集合中每一备选标签词出现在所述标签语句的概率,进而将概率最高的备选标签词设置为所述文本内容语句的标签词。
48.本实施例在接收到nlu任务后,对nlu任务对应的数据内容进行格式转换,得到目标文本。目标文本包括文本内容语句和标签语句,所述标签语句为所述目标文本的最后一个句子,所述标签语句为待填写所述文本内容语句的标签词的句子。在将目标文本输入到预训练语言模型后,相当于将nlu任务转化为生成类语言模型擅长处理的自然语言生成任务。因此,本实施例能够提高生成类语言模型执对nlu任务的处理精准度。
49.作为一种可行的实施方式,在根据所述文本内容语句的标签词生成所述nlu任务的处理结果之后,还可以将所述nlu任务的处理结果传递至下游任务。下游任务可以为返回所述处理结果对应的答复内容的任务。
50.下面通过在实际应用中的实施例说明上述实施例描述的流程。
51.在预训练语言模型应用于下游任务时,不同类型的预训练语言模型存在不同的特点。以bert和gpt结构为例:在使用bert时,通常会将bert针对某下游任务进行微调(fine-tune),调节模型中的相关参数,从而获得在下游任务上的优秀表现。bert的双向transformer的特征提取结构有助于有效提取上下文信息,以及masked language model的预训练方式,使其更容易在nlu任务上取得好成绩。只是在借助上下文对序列进行编码时,也容易使预训练过程与中的数据与微调的数据不匹配,通常来说难以适应生成式任务。在实际应用中,可以用bert做客户评论的情感分析,根据已有信息辅助搜索等。而gpt是一个单向的生成式预训练模型,在特征提取时采用多层transformer解码器。作为自回归语言模型,gpt的模型结构天生适合处理生成类语言任务(nlg)任务。但因为没办法综合上下文的信息进行考量,在nlu任务上的表现会相对弱一些,尤其是在判断两句之间关系、总结文本内容这类的任务上。gpt结构的模型同样可以针对下游任务做微调。但相比其他结构的模型,gpt的优势之处在于可以不改变参数,进行零样本学习(zero-shot learning)和小样本学习(few-shot learning),因为无需微调,可以更进一步地降低模型的使用成本。在实际应用中,通常可以使用gpt做文本生成的相关工作,比如机器翻译、文档生成、对话生成等。
52.由于gpt结构的模型拥有零样本学习的优势,本实施例提供的模型不仅可以用于做生成类任务,也可以有方法克服其结构上的弱点,将nlg任务的思路应用在nlu任务的解决上。nlu任务是所有支持机器理解文本内容的方法任务的总称,通常来说包括分词、句法分析、文本分类、信息检索、信息抽取、文字校对、文本聚类等任务,该类任务通常偏重于对文本语义的理解,基本不需要做额外的文本生成,也可以将其看作是文本生成任务的基础。
53.现有的方案中,gpt模型处理nlu任务时,采用预训练 微调的方式:在第一阶段用大量无标签的语料做无监督预训练,使用语言模型的loss;在第二阶段则针对不同的任务,在预训练模型后加一个线性变换层,结合不同任务的loss做微调。该方案在gpt模型诞生初
期针对nlu任务的解决方案,该方案也沿用了在此之前预训练语言模型的处理方式,在两步训练中均需要对模型参数进行调整。但是上述方案的缺点是:在两阶段训练中均需要调整模型参数。也就是说,用户在拿到预训练的模型之后,在执行下游任务时依旧要消耗计算资源对模型进行第二阶段训练,这对计算资源的消耗不可忽略。
54.gpt模型可以通过零样本学习做下游任务,即不更新网络的参数,通过只对任务做描述得到想要的结果。用户在拿到预训练模型后,可以不再进行下一步训练,可以节省这一步的计算资源。目前有很多工作尝试用gpt零样本学习来解决nlu的任务,但绝大多数没有详细介绍零样本学习的具体方案,并且gpt在本质上还是一个生成类的模型,当前在下游任务中做零样本学习的工作大多没有利用gpt模型的生成特性,这是对该模型的文本生成能力的浪费。
55.为了克服上述现有技术存在的缺陷,本技术提供一种将自然语言理解类任务转换为自然语言生成类任务的方案,本方案能够将gpt模型的文本生成能力应用在nlu下游任务中,从而在不额外增加模型参数的前提下提升在nlu任务上的精度。本方案还能够在使用gpt做下游任务时,不对模型参数做微调,减少对计算资源的消耗。
56.本实施例的基本思路是借助gpt的文本生成能力解决nlu问题,在解决问题的过程中直接使用gpt结构的预训练模型,不再针对下游任务改变模型结构或参数;针对nlu的任务特点改写文本,设法将标签的位置留在句子的最后;将改写后的文本输入模型,令模型生成一个token;最后将生成的token与标签进行比对。本实施例可以包括以下步骤:
57.步骤1:获取gpt结构的预训练模型,做零样本学习
58.步骤2:数据处理。
59.本步骤可以分析nlu任务的文本内容和标签特点,在处理文本格式时将标签的位置空出,放在最后一个token。如果标签的长度大于1个token,则将标签转换为1个token。本步骤将nlu任务的数据添加提示词后改写,将语句放在前面,最后一句写成半句的形式,最后空出一个token的位置给标签。
60.以情感分类任务为例:数据集包括句子s1,和标签0(负面)和1(正面)。在处理数据时,我们会加一些提示词,将语句和标签改写为“s1,这家餐厅很_____”的形式,将最后一位空出。
61.以判断两句之间的语义是否一致为例:数据集包括句子s1/s2,以及标签0(不同)和1(相同)。在处理数据时,将语句和标签改写为“s1.问题:s2.两句话的意思____”的形式,最后一位空出。其他的nlu任务同理,都是将语句的信息放在前面,将最后一句设置成补全句子的形式,而空出的、需要补全的部分就是标签(即答案)的位置。
62.步骤3:将上一步处理过的数据输入预训练模型,令模型生成一个token,补全最后一句话。生成该token时用的算法不变。同时,计算生成的token、以及所有标签词会出现在此位置的概率。
63.步骤4:如果模型生成的token就是标签之一,则答案就是该token;如果不是,则选出所有标签词中出现在此处概率最高的一个作为答案。
64.上述过程令模型生成一个token,如果直接生成了标签中的一个,则该token是模型预测的答案;如果没有,则比较所有标签词在此处可能出现的概率,取概率值最大的那个标签词作为模型预测的答案。
65.上述实施例能够合理地将nlu任务的数据集转化为便于被gpt结构模型处理的形式,从而将gpt结构模型不擅长的nlu任务转化为nlg任务,有效提升nlu任务的精度。当模型无法生成我们想要的标签词时,也可以将任务转化为标签词出现概率的比较,确保能最大限度地利用gpt模型的零样本学习能力,避免在处理nlu任务时改变模型结构或微调,从而避免计算资源的额外消耗。上述实施例还可以应用于与gpt结构相似的其他自回归语言模型上,具有相同的技术效果。
66.请参见图2,图2为本技术实施例所提供的一种nlu任务的处理系统的结构示意图,该系统可以包括:
67.模型获取模块201,用于获取预训练语言模型;其中,所述预训练语言模型为生成类语言模型;
68.格式转换模块202,用于接收nlu任务,并对所述nlu任务对应的数据内容进行格式转换,得到目标文本;其中,所述目标文本包括文本内容语句和标签语句,所述标签语句为所述目标文本的最后一个句子,所述标签语句为待填写所述文本内容语句的标签词的句子;
69.处理模块203,用于将所述目标文本输入所述预训练语言模型得到所述文本内容语句的标签词,根据所述文本内容语句的标签词生成所述nlu任务的处理结果。
70.本实施例在接收到nlu任务后,对nlu任务对应的数据内容进行格式转换,得到目标文本。目标文本包括文本内容语句和标签语句,所述标签语句为所述目标文本的最后一个句子,所述标签语句为待填写所述文本内容语句的标签词的句子。在将目标文本输入到预训练语言模型后,相当于将nlu任务转化为生成类语言模型擅长处理的自然语言生成任务。因此,本实施例能够提高生成类语言模型执对nlu任务的处理精准度。
71.进一步的,处理模块203用于将所述目标文本输入所述预训练语言模型,得到所述预训练语言模型在所述标签语句中填写的预测标签词token;还用于判断所述预测标签词token是否为所述文本内容语句的标准标签词;若是,则将所述预测标签词token设置为所述文本内容语句的标签词;若否,则利用所述预训练语言模型计算标签词集合中每一备选标签词出现在所述标签语句的概率,并将概率最高的备选标签词设置为所述文本内容语句的标签词。
72.进一步的,格式转换模块202用于确定所述数据内容中的文本内容语句和标准标签词;还用于构建包括所述标准标签词的目标语句,并删除所述目标语句中的所述标准标签词得到所述标签语句;还用于构建包括所述文本内容语句和所述标签语句的所述目标文本。
73.进一步的,格式转换模块202构建包括所述标准标签词的目标语句的过程包括:构建包括所述标准标签词且所述标准标签词处于句子尾部的所述目标语句。
74.进一步的,所述预训练语言模型具体为gpt结构的预训练语言模型。
75.进一步的,还包括:
76.结果传递模块,用于在根据所述文本内容语句的标签词生成所述nlu任务的处理结果之后,将所述nlu任务的处理结果传递至下游任务。
77.由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
78.本技术还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
79.本技术还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
80.说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
81.还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献