一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本分类方法、装置、设备及可读存储介质与流程

2022-07-13 17:47:25 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,特别是涉及一种文本分类方法、装置、设备及可读存储介质。


背景技术:

2.文本分类是自然语言处理领域的基本问题,它在工业界有着广泛的应用,比如在金融风控领域,通过文本分类可以根据产生的各种文本信息(搜索记录、浏览日志等)来预测用户逾期的可能性。但是在实际应用中,特别在风控领域,正样本和负样本的比例非常悬殊,达到一比几十甚至一比几百,在这种类别极端不平衡的情况下,模型通常会发生严重的过拟合现象,导致实际识别过程精准度难以保证。
3.当前,自然语言处理领域中解决类别不平衡问题主要方法有:重采样、重加权以及迁移学习,但是在实际应用中重采样方法模型存在低鲁棒性、低泛化性的问题,重加权方法存在低通用性、普适性差的问题,迁移学习存在适用条件严苛和高成本的问题。
4.综上所述,如何使得模型在有更强的分类能力的同时,保证模型的泛化能力,是目前本领域技术人员急需解决的技术问题。


技术实现要素:

5.本发明的目的是提供一种文本分类方法、装置、设备及可读存储介质,以使得模型在有更强的分类能力的同时,保证模型的泛化能力。
6.为解决上述技术问题,本发明提供如下技术方案:
7.一种文本分类方法,包括:
8.获取待分类文本的数字序列;
9.调用语义表征器对所述数字序列进行向量转化,生成语义向量;
10.调用分类器根据所述语义向量进行语义分类计算,得到文本类别;
11.其中,所述语义表征器以及所述分类器为根据训练模型进行识别训练得到;所述训练模型包括:掩码语言模型解码器、所述语义表征器以及所述分类器;所述掩码语言模型解码器与所述分类器并列连接于所述语义表征器的输出端。
12.可选地,所述语义表征器以及所述分类器的训练方法,包括:
13.对第一样本数据中部分字符进行符号替换后进行数字化转换得到变量样本,根据所述变量样本对所述分类器和所述掩码语言模型解码器进行联合训练,得到第一分类器和第一掩码语言模型解码器;其中,所述联合训练包括:对所述分类器的类别预测训练以及对所述掩码语言模型解码器的字符预测训练;
14.根据所述第一样本数据对所述第一分类器和所述语义表征器进行参数优化训练,得到第二分类器和第二语义表征器;
15.根据第二样本数据对所述第二分类器进行重训练,得到第三分类器;
16.输出所述第三分类器以及所述第二语义表征器。
17.可选地,所述根据所述变量样本对所述分类器和所述掩码语言模型解码器进行联合训练,包括:
18.将所述变量样本输入至所述训练模型;
19.获取所述分类器输出的预测分类,以及所述掩码语言模型解码器输出的预测序列;
20.计算所述预测分类与对应的分类标签间的损失,作为分类损失;
21.计算所述预测序列与所述第一样本数据中对应的实际序列间的损失,作为序列损失;
22.根据所述分类损失以及所述序列损失对所述分类器和所述掩码语言模型解码器的模型参数进行优化调整。
23.可选地,所述计算所述预测序列与所述第一样本数据中对应的实际序列间的损失,包括:
24.计算所述预测序列中被替换的字符与所述第一样本数据中对应的实际字符间的损失。
25.可选地,所述根据第二样本数据对所述第二分类器进行重训练,包括:
26.将所述第二分类器的模型参数进行随机初始化设置,得到初始化分类器;
27.从样本数据中按比例均衡提取出各类别对应的数据,作为所述第二样本数据;
28.对所述第二样本数据进行数字化预处理后输入至所述训练模型;
29.根据所述分类器输出的预测分类与对应的实际分类间的损失对所述分类器的模型参数进行优化调整。
30.一种文本分类装置,包括:
31.序列获取单元,用于获取待分类文本的数字序列;
32.向量转化单元,用于调用语义表征器对所述数字序列进行向量转化,生成语义向量;
33.语义分类单元,用于调用分类器根据所述语义向量进行语义分类计算,得到文本类别;
34.其中,所述向量转化单元中调用的所述语义表征器以及所述语义分类单元中调用的所述分类器为训练单元根据训练模型进行识别训练得到;所述训练单元调用的所述训练模型包括:掩码语言模型解码器、所述语义表征器以及所述分类器;所述掩码语言模型解码器与所述分类器并列连接于所述语义表征器的输出端。
35.可选地,所述训练单元包括:
36.第一训练子单元,用于对第一样本数据中部分字符进行符号替换后进行数字化转换得到变量样本,根据所述变量样本对所述分类器和所述掩码语言模型解码器进行联合训练,得到第一分类器和第一掩码语言模型解码器;其中,所述联合训练包括:对所述分类器的类别预测训练以及对所述掩码语言模型解码器的字符预测训练;
37.第二训练子单元,用于根据所述第一样本数据对所述第一分类器和所述语义表征器进行参数优化训练,得到第二分类器和第二语义表征器;
38.第三训练子单元,用于根据第二样本数据对所述第二分类器进行重训练,得到第三分类器;
39.模型输出子单元,用于输出所述第三分类器以及所述第二语义表征器。
40.可选地,所述第一训练子单元具体包括:
41.变量输入子单元,用于将所述变量样本输入至所述训练模型;
42.结果获取子单元,用于获取所述分类器输出的预测分类,以及所述掩码语言模型解码器输出的预测序列;
43.分类损失计算子单元,用于计算所述预测分类与对应的分类标签间的损失,作为分类损失;
44.序列损失计算子单元,用于计算所述预测序列与所述第一样本数据中对应的实际序列间的损失,作为序列损失;
45.参数调整子单元,用于根据所述分类损失以及所述序列损失对所述分类器和所述掩码语言模型解码器的模型参数进行优化调整。
46.一种计算机设备,包括:
47.存储器,用于存储计算机程序;
48.处理器,用于执行所述计算机程序时实现上述文本分类方法的步骤。
49.一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本分类方法的步骤。
50.本发明实施例所提供的方法,调用包括掩码语言模型解码器、语义表征器以及分类器的训练模型,对其中的语义表征器以及掩码语言模型解码器分类器进行参数优化训练,通过掩码语言模型解码器训练语义表征能力,可以为分类器部分提供更有效的语义表征向量,从而提升了模型的语义表征能力,这样使得模型在实际应用中的语义分类数据集上的收敛速度更快,保证了训练得到的语义表征器以及掩码语言模型解码器分类器在具有更强的分类能力的同时,又保证了其泛化性,从而提升了对于待分类文本的分类效果。
51.相应地,本发明实施例还提供了与上述文本分类方法相对应的文本分类装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
52.为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
53.图1为本发明实施例中一种文本分类方法的实施流程图;
54.图2为本发明实施例中一种分类器结构示意图;
55.图3为本发明实施例中一种掩码语言模型解码器结构示意图;
56.图4为本发明实施例中一种分类和掩码语言模型联合训练示意图;
57.图5为本发明实施例中一种模型整体微调训练示意图;
58.图6为本发明实施例中一种分类器微调训练示意图;
59.图7为本发明实施例中一种实际应用过程的文本分类示意图;
60.图8为本发明实施例中一种文本分类装置的结构示意图;
61.图9为本发明实施例中一种计算机设备的结构示意图。
具体实施方式
62.本发明的核心是提供一种文本分类方法,该方法的分类能力和泛化能力强。
63.为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
64.当前,自然语言处理领域中解决类别不平衡问题主要有如下方法:
65.(1)重采样
66.重采样分为对高比例类别样本的欠采样和对低比例类别样本的过采样,本质上它是通过各种手段使得模型在训练过程中输入的样本类别比例大致相同。比如,对于欠采样,在训练过程中以比较低的概率采集多数类的样本,以比较高的概率采集少数类的样本;对于过采样,可以通过数据增强扩充少数类样本,例如对于文本数据,通过随机插入、删除、替换个别字符造出相似样本。该方法在自然语言处理、图像、机器学习等领域有着广泛的研究和应用。
67.但是,该方法由于人为的改变了样本原来的分布,降低了模型语义表征的能力,具体地,欠采样时,真实分布的多数类样本得不到充分的学习;过采样时,少数类样本被反复学习;两者都导致了模型的鲁棒性和泛化性较弱。
68.(2)重加权
69.通常认为,类别不平衡条件下,模型在训练过程中对于少数类的样本拟合度不够,是造成过拟合现象的原因。重加权即是给予不同类别不同的损失权重,多数类别样本的损失值有较低的权重,少数类别样本的损失值有较高的权重。这样,模型在训练过程中多数类样本对模型的影响减小,少数类样本对模型的影响加强,反向抵消了类别不平衡的影响。
70.这类方法最大的问题是需要人为的对不同类别的样本赋予不同的权重,对于不同的任务和模型结构,权重可能都不同,很难通用,普适性较差。
71.(3)迁移学习
72.自然语言处理领域中的迁移学习一般指预训练加微调的范式。文本分类问题中,模型可以看成由两部分组成,分别是语义表征部分和分类器。语义表征部分将文本信息表示成一个语义向量,分类器根据语义向量计算出类别。通过大量数据预训练后的模型具有很强的语义表征能力,它只需要通过少量的有标注数据训练就能有效的表征不同类别的样本,因此缓解了数据类别不平衡的问题。
73.但是,预训练模型通常都有限制条件,例如限制输入序列的长度和输入的字典集合,并不一定适用于所要解决的问题。比如,开源的预训练中文模型bert、roberta等,都限制了序列长度最大512,而很多文本分类任务面对的都是几千甚至几万的长文本(例如通过搜索记录对人群分类,需要将一个用户一段时间的搜索记录组合,样本长度一般都在几千的级别),无法直接使用预训练模型;而且选择自己训练适合的预训练模型非常的消耗时间和资金成本。
74.针对于此,如何解决类别不平衡条件下文本分类模型的过拟合问题,同时避开了重采样方法模型的低鲁棒性、低泛化性,重加权方法的低通用性,迁移学习的适用性和高成本等问题,是本发明的主要目标。为此,本发明提出了一种文本分类方法,请参考图1,图1为
本发明实施例中一种文本分类方法的流程图,该方法包括以下步骤:
75.s101、获取待分类文本的数字序列;
76.获取的数字序列指文本的数字化形式序列,以实现数字化识别。具体地文本转化为数字序列可以通过对中文序列(即待分类文本)分词或者分字后,根据词典将文字序列转化得到的数字id序列。以一个文本为例介绍数字序列的生成过程,比如待分类文本为“今天天气怎么样”,将“今天天气怎么样”分字后得到序列[“今”,“天”,“天”,“气”,“怎”,“么”,“样”]。然后根据每个字在词典中的id,就可以将序列转化为数字id序列[5,100,100,20,101,489,57]。本实施例中仅以上述数字序列的生成方式为例进行介绍,其他生成方式均可参照本实施例的介绍,在此不再赘述。
[0077]
s102、调用语义表征器对数字序列进行向量转化,生成语义向量;
[0078]
语义表征器通过复杂的计算,将输入的数字序列转化为一组向量,作为语义向量(也可以称为语义表征向量)。
[0079]
根据识别任务类型的不同,可以选择使用不同的序列建模模型作为语义表征器,本实施例中对于调用的语义表征器的类型不做限定,例如应用于短文本的向量转化可以使用lstm、transformer等模型,应用于长文本(本发明的主要优化场景)的向量转化可以选用longformer作为语义表征器。语义表征器中输出序列和输入序列的长度相等,例如输入长度是n个id,输出必须是n*h的语义表征矩阵,h是模型的超参数,没有限制。其中每个h维的向量由它对应位置的输入id的语义表示,包含了丰富的上下文信息。
[0080]
s103、调用分类器根据语义向量进行语义分类计算,得到文本类别;
[0081]
分类器根据语义向量计算出类别。如图2所示,分类器具体可以包括:
[0082]
pooling层(池化层):将n*h的语义矩阵转换成一个h维的向量,这个向量是代表了整个序列的语义向量。我们在这里直接取n*h的语义矩阵中的第一行。
[0083]
dropout:将h维向量中的数值以一定的概率p置零,p=0.1。
[0084]
dense layer tanh:将h维向量乘上[h,h]的参数矩阵,并通过tanh激活函数。tanh激活函数公式如下:
[0085][0086]
dropout:将h维向量中的数值以一定的概率p置零,p=0.1。
[0087]
dense layer softmax:将h维向量乘上[h,c]的参数矩阵,c是类别个数,通过softmax函数转换为c维的向量,每个维度上的值在0-1之间,代表了这个样本属于对应类别的概率。
[0088]
以上为一种分类器的常见结构介绍,本实施例中仅以图2所示的结构为例进行分类器功能的介绍,其他结构均可参照本实施例的介绍,在此不再赘述。
[0089]
需要注意的是,传统方法中的文本分类的训练模型中仅包括语义表征器以及分类器,将样本数据直接输入至语义表征器以及分类器中进行识别训练,训练后得到可供实际应用的文本分类模型(即由语义表征器和分类器组成的模型)。但是由于样本数据中正负样本比例的失衡的问题,以及适用对象等问题,传统方法无法实现全面精准的分类识别。针对于此,本方法中调用的语义表征器以及分类器对应的训练模型中除了语义表征器以及分类器之外,还进一步包括:掩码语言模型解码器。
[0090]
一种掩码语言模型解码器的结构如图3所示,其中,dense layer gleu:将输入n*h的矩阵乘上h*h的矩阵,并通过gelu函数进行非线性映射,gleu函数公式如下:
[0091][0092]
layer norm:层归一化操作。
[0093]
dense softmax:将输入n*h的矩阵转化为n*d的矩阵,d是字典的大小,其中第(i,j)个元素的含义是,预测第i个输入位置是字典中第j个符号的概率(假设下表从1计数)。
[0094]
在训练模型中,掩码语言模型解码器与分类器并列连接于语义表征器的输出端,在分类器和语义表征器的基础上,通过掩码语言模型解码器去训练语义表征能力,可以为分类器部分提供更有效的语义表征向量,这样使得模型在分类数据集上收敛更快,在具有更强的分类能力的同时,又保证了其泛化性,从而提升了分类器的效果。
[0095]
调用包含掩码语言模型解码器的训练模型对语义表征器以及分类器进行优化训练的具体过程本实施例中不做限定,可以根据实际优化对象进行训练过程的设置,本实施例中对此不再赘述。
[0096]
基于上述介绍,本发明实施例所提供的技术方案,调用包括掩码语言模型解码器、语义表征器以及分类器的训练模型,对其中的语义表征器以及掩码语言模型解码器分类器进行参数优化训练,通过掩码语言模型解码器训练语义表征能力,可以为分类器部分提供更有效的语义表征向量,从而提升了模型的语义表征能力,这样使得模型在实际应用中的语义分类数据集上的收敛速度更快,保证了训练得到的语义表征器以及掩码语言模型解码器分类器在具有更强的分类能力的同时,又保证了其泛化性,从而提升了对于待分类文本的分类效果。
[0097]
需要说明的是,基于上述实施例,本发明实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在本文的优选/改进实施例中不再一一赘述。
[0098]
上述实施例中对于调用包含掩码语言模型解码器的训练模型对语义表征器以及分类器进行优化训练的具体过程不做限定,为加深理解,本实施例中提出一种三步训练法,可以显著加强语义表征器在数据集上的表征能力。
[0099]
本实施例中将训练过程分为依次递进的三步,分类和掩码语言模型联合训练、整体微调和分类器微调,三步训练完成后得到最终模型用于文本分类的预测模型。具体地,语义表征器以及分类器的训练方法可以按照以下步骤来实现:
[0100]
(1)对第一样本数据中部分字符进行符号替换得到变量样本,并根据变量样本对分类器和掩码语言模型解码器进行联合训练,得到第一分类器和第一掩码语言模型解码器;
[0101]
如图4所示为一种分类和掩码语言模型联合训练示意图,原始输入的样本文本数据首先被切分成字或者词的序列,对于序列中每个字符,以一定的概率(比如15%)将其替换为特殊符号“[mask]”(使用[mask]符号是领域的惯用手法,也可以选用其他字符,具体参照相关技术的介绍,在此不做限定),并在序列头部添加特殊符号“[cls]”,以使用它的语义表征作为整个文本序列的表征,送给分类器去分类。联合训练指两个任务的联合,第一个任务是对分类器的类别预测训练,即预测原始输入的类别标签,第二个任务是对掩码语言模
型解码器的字符预测训练,指预测输入中被“[mask]”符号替换的原字符。
[0102]
如图4所示,假设原始输入是“今天天气怎么样”,它最终分类的类别记为“标签1”。句子处理过后变为序列[“[cls]”,“今”,“[mask]”,“天”,“[mask]”,“怎”,“么”,“样”]。根据字符在字典中对应的id,将字符序列转换为id序列[0,5,1,100,1,101,489,57]。第二个任务需要预测被“[mask]”替换的符号是什么。在这个例子中,被替换的字符是“天”和“气”,对应的id分别是100和20,标签2可以记为[-1,-1,100,-1,20,-1,-1,-1],其中
“‑
1”代表此位置不需要预测。
[0103]
可选地,一种联合训练步骤如下:
[0104]
(1.1)将变量样本输入至训练模型;
[0105]
id序列输入模型后,分类器部分的输出记为输出1,它是一个c维向量,c是类别个数,每一个值代表样本属于某个类别的概率。
[0106]
(1.2)获取分类器输出的预测分类,以及掩码语言模型解码器输出的预测序列;
[0107]
(1.3)计算预测分类与对应的分类标签间的损失,作为分类损失;
[0108]
输出1和标签1之间计算(交叉熵)损失,记为损失1。
[0109]
(1.4)计算预测序列与第一样本数据中对应的实际序列间的损失,作为序列损失;
[0110]
掩码语言模型解码器部分输出[n,d]维度的矩阵,记为输出2,n是输入序列的长度,d是字典大小,相当于在每个位置上预测该位置原始输入是什么。输出2与标签2之间计算(交叉熵)损失,同时,为避免未被进行变量替换的字符对于损失计算的干扰,对于标签2中为
“‑
1”的位置,损失可以直接设置为0,该部分的总损失记为损失2。
[0111]
(1.5)根据分类损失以及序列损失对分类器和掩码语言模型解码器的模型参数进行优化调整。
[0112]
根据分类损失(即损失1)以及序列损失(即损失2)对分类器和掩码语言模型解码器的模型参数进行优化调整。具体根据损失值进行模型参数优化的过程可以参照相关技术的实现,本实施例中不再赘述。
[0113]
(2)根据第一样本数据对第一分类器和语义表征器进行参数优化训练,得到第二分类器和第二语义表征器;
[0114]
图5是整体微调部分的示意图,在这一步中,只训练语义表征器和分类器,如图中灰色部分。
[0115]
将原始输入序列化后在头部添加特殊符号“[cls]”,然后将字符序列转换为id序列输入模型。
[0116]
使用分类器的输出1与标签1计算(交叉熵)损失训练,具体可以参照上述联合训练步骤的介绍,在此不再赘述。
[0117]
(3)根据第二样本数据对第二分类器进行重训练,得到第三分类器;
[0118]
通过前两步的训练,可以得到一个在数据集上有效的语义表征器。在本步骤中,只需要训练分类器部分,如图6为一种分类器微调训练示意图,模型其他部分的参数可以固定不变。对于分类器部分的单独训练,根据分类器的输出和实际分类标签间的损失对分类器进行参数微调,具体可以参照相关技术的实现。
[0119]
可选地,根据第二样本数据对第二分类器进行重训练的一种实现步骤如下:
[0120]
(3.1)将第二分类器的模型参数进行随机初始化设置,得到初始化分类器;
[0121]
首先将分类器部分的参数重新随机初始化。
[0122]
(3.2)从样本数据中按比例均衡提取出各类别对应的数据,作为第二样本数据;
[0123]
训练过程中,可以通过欠采样的方式,将训练数据中不同类别的数据比例保持在大致相等的比例,以保证分类器的训练效果。
[0124]
(3.3)对第二样本数据进行数字化预处理后输入至训练模型;
[0125]
样本序列化后在头部添加特殊符号“[cls]”,然后将字符序列转换为id序列输入模型。使用分类器的输出1与标签1计算(交叉熵)损失训练。
[0126]
(3.4)根据分类器输出的预测分类与对应的实际分类间的损失对分类器的模型参数进行优化调整。
[0127]
本实施例中仅以上述分类器的训练过程为例进行介绍,其他训练方式均可参照本实施例的介绍,在此不再赘述。
[0128]
(4)输出第三分类器以及第二语义表征器,作为优化训练后的文本分类模型。
[0129]
训练完成后,只保留模型的语义表征器和分类器用于文本分类预测。对于一个待预测的样本,将其序列化后在头部添加特殊符号“[cls]”,然后将字符序列转换为id序列输入模型,分类器的输出结果即是预测结果,如图7所示为一种实际应用过程的文本分类示意图。
[0130]
基于上述介绍,本实施例提出的三步训练法中,在训练的第一步,分类与掩码语言模型两个任务相互促进。掩码语言模型任务使模型在分类数据集上收敛更快,分类任务相当于给语义表征器的表征空间施加了一个约束边界,使得它处于一个有利于分类任务的流空间内。这样,也就使得模型在有更强的分类能力的同时,保证了模型的泛化性;
[0131]
第一步中训练分类器同时要联合训练掩码语言模型解码器,输入的部分需要将原始输入的一些字符换成特殊字符[mask],训练掩码语言模型解码器预测[mask]位置的原始符号,这样可以加强语义表征器的能力。但是引入[mask]对分类器来说是某种“噪音”,因此在第二步中需要将[mask]特殊符号去掉,使用原本的数据对分类器和语义表征器进行整体的微调,使整个模型达到比较好的状态。需要说明的是,在第二步和第三步的训练中都不需要使用[mask];
[0132]
在第三步中,通过数据重采样后单独训练分类器,使得分类器和语义表征器解耦,分类器更专注于在语义空间中寻找分割面,从而提升模型的分类能力。
[0133]
相应于上面的方法实施例,本发明实施例还提供了一种文本分类装置,下文描述的文本分类装置与上文描述的文本分类方法可相互对应参照。
[0134]
参见图8所示,该装置包括以下模块:
[0135]
序列获取单元110主要用于获取待分类文本的数字序列;
[0136]
向量转化单元120主要用于调用语义表征器对数字序列进行向量转化,生成语义向量;
[0137]
语义分类单元130主要用于调用分类器根据语义向量进行语义分类计算,得到文本类别;
[0138]
其中,向量转化单元中调用的语义表征器以及语义分类单元中调用的分类器为训练单元140根据训练模型进行识别训练得到;训练单元调用的训练模型包括:掩码语言模型解码器、语义表征器以及分类器;掩码语言模型解码器与分类器并列连接于语义表征器的
输出端。
[0139]
在本发明的一种具体实施方式中,训练单元140具体包括:
[0140]
第一训练子单元,用于对第一样本数据中部分字符进行符号替换后进行数字化转换得到变量样本,根据变量样本对分类器和掩码语言模型解码器进行联合训练,得到第一分类器和第一掩码语言模型解码器;其中,联合训练包括:对分类器的类别预测训练以及对掩码语言模型解码器的字符预测训练;
[0141]
第二训练子单元,用于根据第一样本数据对第一分类器和语义表征器进行参数优化训练,得到第二分类器和第二语义表征器;
[0142]
第三训练子单元,用于根据第二样本数据对第二分类器进行重训练,得到第三分类器;
[0143]
模型输出子单元,用于输出第三分类器以及第二语义表征器。
[0144]
在本发明的一种具体实施方式中,第一训练子单元具体包括:
[0145]
变量输入子单元,用于将变量样本输入至训练模型;
[0146]
结果获取子单元,用于获取分类器输出的预测分类,以及掩码语言模型解码器输出的预测序列;
[0147]
分类损失计算子单元,用于计算预测分类与对应的分类标签间的损失,作为分类损失;
[0148]
序列损失计算子单元,用于计算预测序列与第一样本数据中对应的实际序列间的损失,作为序列损失;
[0149]
参数调整子单元,用于根据分类损失以及序列损失对分类器和掩码语言模型解码器的模型参数进行优化调整。
[0150]
相应于上面的方法实施例,本发明实施例还提供了一种计算机设备,下文描述的一种计算机设备与上文描述的一种文本分类方法可相互对应参照。
[0151]
该计算机设备包括:
[0152]
存储器,用于存储计算机程序;
[0153]
处理器,用于执行计算机程序时实现上述方法实施例的文本分类方法的步骤。
[0154]
具体的,请参考图9,为本实施例提供的一种计算机设备的具体结构示意图,该计算机设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储器332通信,在计算机设备301上执行存储器332中的一系列指令操作。
[0155]
计算机设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
[0156]
上文所描述的文本分类方法中的步骤可以由计算机设备的结构实现。
[0157]
相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种文本分类方法可相互对应参照。
[0158]
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执
行时实现上述方法实施例的文本分类方法的步骤。
[0159]
该可读存储介质具体可以为u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
[0160]
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献