多语种文本分类方法、装置、设备及介质

2023-04-05 13:55:19 来源：中国专利 TAG：

1.本发明涉及文本分类技术领域，尤其涉及一种多语种文本分类方法、装置、设备及介质。

背景技术：

2.文本分类是自然语言处理中的一个基础研究课题，其目的是为分类器提供一个文本，并根据文本返回一个标签。由于文本分类任务可以帮助业务自动构建和增强数据驱动的决策，它已被广泛应用于许多领域，如情感分析和攻击识别。随着世界各地互联网络的发展，人们越来越多地使用社交媒体用不同的语言写评论来分享他们的观点。
3.然而，人们通过社交媒体发表观点、评论所采用的语种类型已经不仅限于中文、英文这样常见的语种，一些其他国家的非常见语言也出现在互联网上，如dravidian作为世界第四大语系，拥有26种语言，已广泛用于社交媒体。目前文本分类技术仍还仅是针对某种单一语种来实现文本分类，不能考虑多种语种的语言特征，无法实现对多种语种文本的分类识别。

技术实现要素：

4.本发明实施例多个方面提供一种多语种文本分类方法、装置、设备及介质，能将多个语种的语言之间的相关性知识融入模型中学习，并通过模型对多语种文本进行分类，从而更好地对多语种文本进行分类。
5.本发明实施例第一方面提供一种多语种文本分类方法，包括：
6.获取目标文本和预先训练的学习模型，所述学习模型包括共享特征提取网络和多个子任务识别网络；其中，每一所述子任务识别网络与每一语种一一对应；其中，所述子任务识别网络包括语种自学习模块、拼接模块和分类器，且所述多个子任务识别网络中的语种自学习模块的参数共享；
7.调用所述共享特征提取网络中的表示模块对所述目标文本进行处理，得到所述目标文本的句向量表示；和调用所述共享特征提取网络中的语种分类模块对所述目标文本进行处理，得到所述目标文本的语种识别预测结果；
8.基于所述语种识别预测结果，确定所述目标文本所对应的语种；
9.基于对应语种，调用所述学习模型中对应语种的子任务识别网络中的语种自学习模块对所述对应语种进行处理，得到对应语种的语种描述符，并基于所述对应语种的语种描述符，调用所述对应语种的子任务识别网络中的拼接模块对所述对应语种的语种描述符和所述句向量表示进行处理，得到所述目标文本的多维特征向量；
10.基于所述多维特征向量，调用所述对应语种的子任务识别网络中的分类器对所述多维特征向量进行处理，得到所述目标文本的分类结果。
11.本发明实施例第二方面提供一种多语种文本分类装置，包括：
12.获取模块，用于获取目标文本和预先训练的学习模型，所述学习模型包括共享特
征提取网络和多个子任务识别网络；其中，每一所述子任务识别网络与每一语种一一对应；其中，所述子任务识别网络包括语种自学习模块、拼接模块和分类器，且所述多个子任务识别网络中的语种自学习模块的参数共享；
13.语种识别模块，用于调用所述共享特征提取网络中的表示模块对所述目标文本进行处理，得到所述目标文本的句向量表示；和调用所述共享特征提取网络中的语种分类模块对所述目标文本进行处理，得到所述目标文本的语种识别预测结果；还用于基于所述语种识别预测结果，确定所述目标文本所对应的语种；
14.特性向量获取模块，用于基于对应语种，调用所述学习模型中对应语种的子任务识别网络中的语种自学习模块对所述对应语种进行处理，得到对应语种的语种描述符，并基于所述对应语种的语种描述符，调用所述对应语种的子任务识别网络中的拼接模块对所述对应语种的语种描述符和所述句向量表示进行处理，得到所述目标文本的多维特征向量；
15.分类模块，用于基于所述多维特征向量，调用所述对应语种的子任务识别网络中的分类器对所述多维特征向量进行处理，得到所述目标文本的分类结果。
16.本发明实施例第三方面提供一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述实施例提供的多语种文本分类方法。
17.本发明实施例第四方面提供一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如上述实施例提供的多语种文本分类方法。
18.与现有技术相比，本发明实施例提供的多语种文本分类方法通过获取目标文本和预先训练的学习模型，所述学习模型包括共享特征提取网络和多个子任务识别网络；通过所述共享特征提取网络对所述目标文本进行处理，得到目标文本的句向量表示和语种识别预测结果，并根据语种识别预测结果，调用对应语种的子任务识别网络对所述句向量表示模块进行处理，其中，所述子任务识别网络中的语种自学习模块通过对对应语种进行多个语种之间的相关性学习，以得到对应语种的语种描述符，并通过子任务识别网络中的拼接模块将对应语种的语种描述符与句向量表示进行拼接，得到目标文本的多维特征向量，最后基于对应语种的子任务识别网络中的分类器对所述多维特征向量进行处理，得到所述目标文本的分类结果。本发明实施例能将多个语种的语言之间的相关性知识融入模型中学习，并通过模型对多语种文本进行分类，从而更好地对多语种文本进行分类。相应地，本发明实施例还提供一种多语种文本分类装置、设备及介质。
附图说明
19.图1是本发明实施例提供的多语种文本分类方法的流程示意图；
20.图2是本发明实施例提供的多语种文本分类框架结构图。
具体实施方式
21.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于
本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
22.多语种文本分类是自然语言处理领域的研究热点之一，目前虽然也有对多语种文本分类的研究，但是，现有对多语种文本进行分类的模型中主要集中在单个语种上，无法解决多个语种的共性问题。其次，对于某些语系而言，该语系所涵盖的多个语种之间存在相似的词汇和共同的语言共性，如dravidian语系。不同语种间存在着一定的相关性，现有的模型仅仅对单一语种进行研究而没有学习语种之间的相关性，难以体现出相应语种背后的深层次规律和特征，因此无法对于整个语系的系统研究产生必要的帮助。
23.为了解决现有的多语种文本分类模型忽略多个语种之间的相关性的问题，本发明实施例提供一种多语种文本分类方法，通过获取目标文本和预先训练的学习模型，所述学习模型包括共享特征提取网络和多个子任务识别网络；通过所述共享特征提取网络对所述目标文本进行处理，得到目标文本的句向量表示和语种识别预测结果，并根据语种识别预测结果，调用对应语种的子任务识别网络对所述句向量表示模块进行处理，其中，所述子任务识别网络中的语种自学习模块通过对对应语种进行多个语种之间的相关性学习，以得到对应语种的语种描述符，并通过子任务识别网络中的拼接模块将对应语种的语种描述符与句向量表示进行拼接，得到目标文本的多维特征向量，最后基于对应语种的子任务识别网络中的分类器对所述多维特征向量进行处理，得到所述目标文本的分类结果。本发明实施例能将多个语种的语言之间的相关性知识融入模型中学习，并通过模型对多语种文本进行分类，从而更好地对多语种文本进行分类。
24.下面结合附图对本发明实施例的多语种文本分类方法进行详细说明。
25.参见图1，本发明实施例提供的多语种文本分类方法，包括：
26.s11、获取目标文本和预先训练的学习模型，所述学习模型包括共享特征提取网络和多个子任务识别网络；其中，每一所述子任务识别网络与每一语种一一对应；其中，所述子任务识别网络包括语种自学习模块、拼接模块和分类器，且所述多个子任务识别网络中的语种自学习模块的参数共享。
27.在本发明实施例中，针对多语种文本分类问题，引入了多任务学习。多任务学习是基于共享表示，把多个相关的任务放在一起学习的一种机器学习方法。
28.具体的，在本发明实施例中，所述学习模型包括共享特征提取网络和多个子任务识别网络，所述共享特征提取网络通过分支节点分别与各个子任务识别网络连接；所述共享特征提取网络为子任务识别网络共用的网络；子任务识别网络的数量与多任务学习的任务的数量相同。其中，所述共享特征提取网络用于文本的特征提取，通过所述共享特征提取网络对目标文本进行特征提取后，即可以便捷的进行多个不同任务的执行过程，如多个不同语种的文本情感分类识别任务。
29.s12、调用所述共享特征提取网络中的表示模块对所述目标文本进行处理，得到所述目标文本的句向量表示；和调用所述共享特征提取网络中的语种分类模块对所述目标文本进行处理，得到所述目标文本的语种识别预测结果；基于所述语种识别预测结果，确定所述目标文本所对应的语种。
30.在本发明实施例中，所述共享特征提取网络对所述目标文本进行处理时，不仅得到所述目标文本的句向量表示，还得到所述目标文本对应的语种信息。例如，所述共享特征
提取网络通过对所述目标文本处理，输出的所述目标文本的语种预测结果为：kannada语种的概率为1/4，tamil语种的概率为14，malayalam语种的概率为1/2，则选取概率较大的语种预测结果确定为所述目标文本所对应的语种。通过识别所述目标文本的对应的语种信息，以便于后续的语种之间的相关性学习，并能作为一个辅助信息，辅助所述机器学习选择对应语种的子任务识别网络对目标文本作进一步处理。
31.s13、基于对应语种，调用所述学习模型中对应语种的子任务识别网络中的语种自学习模块对所述对应语种进行处理，得到对应语种的语种描述符，并基于所述对应语种的语种描述符，调用所述对应语种的子任务识别网络中的拼接模块对所述对应语种的语种描述符和所述句向量表示进行处理，得到所述目标文本的多维特征向量。
32.在本发明实施例中，在通过所述共享特征提取网络提取所述目标文本的含有的语种信息后，基于对应语种，所述机器学习模块选择对应语种的子任务识别网络对对应语种信息和所述句向量表示进行处理，得到所述目标文本的分类结果。例如，通过所述共享特征提取网络识别所述目标文本所对应的语种为malayalam语种，则选择与malayalam语种对应的子任务识别网络对多维特征向量进行处理，得到所述目标文本的分类结果。
33.具体的，所述子任务识别网络包括语种自学习模块、拼接模块和分类器，且所述多个子任务识别网络中的语种自学习模块的参数共享。所述语种自学习模块用于学习对应语种所包含的各语种之间的相互信息，所述拼接模块用于将所述表示模块输出的句向量表示与所述语种自学习模块输出的对应语种的语种描述符进行拼接，以获得所述目标文本的语义表示与语种之间的相关性信息。所述分类器用于对文本进行情感分类。
34.s14、基于所述多维特征向量，调用所述对应语种的子任务识别网络中的分类器对所述多维特征向量进行处理，得到所述目标文本的分类结果。
35.基于本发明实施例提供的多语种文本分类方法，其通过获取目标文本和预先训练的学习模型，所述学习模型包括共享特征提取网络和多个子任务识别网络；通过所述共享特征提取网络对所述目标文本进行处理，得到目标文本的句向量表示和语种识别预测结果，并根据语种识别预测结果，调用对应语种的子任务识别网络对所述句向量表示模块进行处理，其中，所述子任务识别网络中的语种自学习模块通过对对应语种进行多个语种之间的相关性学习，以得到对应语种的语种描述符，并通过子任务识别网络中的拼接模块将对应语种的语种描述符与句向量表示进行拼接，得到目标文本的多维特征向量，最后基于对应语种的子任务识别网络中的分类器对所述多维特征向量进行处理，得到所述目标文本的分类结果。本发明实施例能将多个语种的语言之间的相关性知识融入模型中学习，并通过模型对多语种文本进行分类，从而更好地对多语种文本进行分类。
36.在一种可选的实施方式中，所述表示模型采用labse模型。labse是一种多语言bert嵌入向量模型，使用了170亿个单语句子和60亿个双语句子对进行预训练。训练出的模型可为109种语言生成语言无关的跨语言句子嵌入向量，对训练期间没有可用数据的低资源语言也有效。labse采用的训练方法和bert略有不同，它去掉了nsp训练任务，并将mlm训练修改为级联翻译对tlm(或者称翻译语言建模，translation language modeling，tlm)。最终同时使用mlm和tlm进行训练。
37.具体的，对于文本分类问题，目标文本中的第一个位置被标记为[cls]起始符号，且其token对应的最终隐藏状态hi通常被作为分类任务的聚合序列表示。对于给定句子中
的每一个token，它的输入表示是通过对相应的token、segment和position嵌入进行求和来构造的。
[0038]
在本发明实施例中，labse模型通过获取最终隐藏状态的第一个token([cls])，来表示其句子编码s，获得文本的句向量表示。
[0039]
在一种可选的实施方式中，所述基于对应语种，调用所述学习模型中对应语种的子任务识别网络中的语种自学习模块对所述对应语种进行处理，得到对应语种的语种描述符，具体包括：
[0040]
基于对应语种，调用所述学习模型中对应语种的子任务识别网络中的语种自学习模块，以使得所述语种自学习模块初始化语种描述矩阵，并将所述语种描述矩阵和预设的对应语种的初始语种描述符输入自注意力模块中，得到对应语种的语种描述符。
[0041]
具体的，在本发明实施例中，为了更好地识别不同语种之间的的相互作用，本实施例在基于自注意力机制的基础上，引入了语种描述符进行语种表示自学习，来模拟语种之间的相互作用。
[0042]
具体来说，假设一个语种描述符代表一种语种的标签i∈rm，其中m为表示为从表示模块得到的维度，则所有语种的语种描述符可以形成一个矩阵n∈rn×m，其中n代表语种数量。因此，可以得到某一语种i通过语种自学习方法得到的语种描述符
[0043][0044]
式中，ni为语种i的初始语种描述符。
[0045]
结合上述公式可知，本实施例的语种自学习模块进行语种自学习的步骤包括：首先，使用正态分布函数来随机初始化语种描述矩阵，接着使用语种i的初始语种描述符ni与该语种描述矩阵的转置矩阵进行点积，并使用softmax激活函数对其进行归一化，得到当前语种i下各语种之间所对应的语种权重，最后将该权重与该语种描述矩阵再进行点积，得到所有语种相对于语种i的加权和，也即包含各语种相互信息的新的语种描述符
[0046]
可见，在该可选的实施例中，在基于自注意力机制的基础上，采用了语种描述符进行语种信息自学习，来模拟语种之间的相互作用，对于dravidian语系等这类语种之间相关性较大的多语种文本，能更好地进行多语种文本分类。
[0047]
在一种可选的实施方式中，所述子任务识别网络还包括语种信息扰动模块，则所述方法还包括：
[0048]
调用所述学习模型中对应语种的子任务识别网络中的语种信息扰动模块对所述对应语种进行处理，生成所述目标文本中每一词汇的扰动值，并在所述句向量表示的基础上叠加每一所述词汇的扰动值，生成对抗句向量表示；其中，所述目标文本包含多个词汇；
[0049]
则，所述调用所述对应语种的子任务识别网络中的拼接模块对所述对应语种的语种描述符和所述句向量表示进行处理，包括；
[0050]
调用所述对应语种的子任务识别网络中的拼接模块对所述对应语种的语种描述符和所述对抗句向量表示进行处理。
[0051]
在本发明实施例中，通过在原始的目标文本中添加扰动值，以生成所述目标文本的干扰信息。
[0052]
在一种可选的实施方式中，每一词汇的扰动值可以为终端设备预设的的一个对抗
扰动值。
[0053]
在另一种可选的实施方式中，所述每一所述词汇的扰动值还可以通过如下步骤确定：
[0054]
将所述目标文本中的重要词汇的扰动值赋值为第一扰动值，将所述目标文本中的非重要词汇的扰动值赋值为第二扰动值；其中，所述第一扰动值大于所述第二扰动值。
[0055]
在本发明实施例中，为了使模型具有更好的语言泛化能力，通过对所述目标文本终端中的重要词汇和非重要词汇进行识别，并增加对那些重要词汇的词嵌入的对抗性扰动。
[0056]
在一种可选的实施方式中，所述识别所述目标文本的重要词汇，具体包括：
[0057]
基于所述目标文本，调用所述共享特征提取网络中的所述重要词汇提取模块对所述目标文本中的每一个词汇进行掩码处理，得到多个掩码文本；
[0058]
将所述多个掩码文本和所述目标文本输入语种分类网络中，得到所述目标文本的语种预测概率与每一掩码文本的语种预测概率，并确定所述目标文本的语种预测概率中最大的概率值和每一所述掩码文本的语种预测概率中最大的概率值；
[0059]
当所述掩码文本的语种预测概率最大值大于所述目标文本的语种预测概率最大值时，获取对应的掩码文本中被掩码的分词作为所述目标文本的重要词汇。
[0060]
在本发明实施例中，所述学习模型中的语种信息扰动模块先基于mlm策略，筛选出目标文本的重要词汇，然后对重要词汇叠加更高的扰动值。
[0061]
示例性的，假设输入的目标文本为“my name is xxx”，输入语种分类网络中会输出为“english”的概率为0.9，接着依次mask掉目标文本中的每个词，即最后会得到四个掩码文本：
[0062]
(1)[mask]name is xxx.
[0063]
(2)my[mask]is xxx.
[0064]
(3)my name[mask]xxx.
[0065]
(4)my name is[mask].
[0066]
将这四个掩码文本分别输入语种分类网络中，得到掩码文本(1)、(2)、(3)、(4)输出“english”的概率分别为0.7、0.3、0.5、0.6，并用原始目标文本对应的语种预测概率中最大的概率值减去掩码文本对应的语种预测概率中最大的概率值，若相减结果大于0，说明该掩码文本中被mask掉的词汇为重要词汇，学习模型对这类重要词汇进行处理时，增加更多的扰动值。
[0067]
可见，在该可选的实施方式中，所述学习模型通过对目标文本中的重要词汇的识别，并采用对抗的方式对重要词汇进行正则化扰动操作，能避免多语种文本分类中出现的语种信息偏差问题。
[0068]
在一种可选的实施方式中，所述预先训练的学习模型通过如下步骤训练：
[0069]
获取文本训练集，并将所述文本训练集输入到所述学习模型中；所述训练文本集包括多类不同语种的训练文本；每一所述训练文本标注有对应的语种标签和分类标签；
[0070]
响应于输入的所述文本训练集，所述学习模型将所述文本训练集输入到所述学习模型中的共享特征提取网络进行训练，以得到每一所述训练文本的句向量表示和对应的语种信息；
[0071]
响应于获得的所述对应的语种信息，所述学习模型基于对应的语种信息将每一训练文本的句向量表示分别输入到所述学习模型中对应语种的子任务识别网络中，以对所述多个子任务识别网络进行训练；
[0072]
响应于所述多个子任务识别网络满足训练完成条件，完成对所述学习模型的训练。
[0073]
具体的，所述共享特征提取网络的训练过程包括对所述共享特征提取网络中的表示模块、语种分类模块和重要词汇提取模块的训练过程。对于重要词汇提取模块，其训练过程包括如下步骤：
[0074]
s1、获取文本训练集；每一所述训练文本标注有对应的语种标签和分类标签；
[0075]
s2、分别对将每一训练文本中每一个词汇(token)，构建出n个带有mask标志的掩码文本x
′
＝[x\x1,x\x2,x\xi,...,x\xn]，其中x\xi＝[x1,x2,...,[mask],...,n]指的是将句子x中的xi代替为[mask]。接着，在引入语言分类网络预测输入句子x及其对应的n个掩码样本x'的概率分布后，将它们之间的概率差作为带掩码标记的句子所包含的语言信息。语言分类网络m的目标是检测输入句子属于哪种语种标签，并输出概率最高的标签的概率。因此，词汇xi的语言信息ixi被定义为：
[0076]
ixi＝()-(\)
[0077]
其中，my()指的是语言分类网络m对正确语言标签y的输出预测概率。
[0078]
在获得每一词汇xi的语言信息ixi，选取ixi大于0的词汇作为重要词汇加入重要词汇集合i中。
[0079]
具体的，所述子任务识别网络中通过所述语种信息扰动模块增加了对模型的对抗训练过程。对抗训练过程如下：
[0080]
s1、在由所述通用特征提取网络得到所述训练文本的句向量表示和重要词汇集i后，在句向量表示的基础上叠加每一词汇的扰动值
[0081][0082]
g＝wtl(v,,)
[0083]
l(v,y,θ)＝logp(y|v；θ)
[0084][0085]
其中，xi表示训练文本中的第i个词汇，wt表示训练文本的词嵌入向量维度，v指原始的训练文本x的词嵌入，且v＝[v1,v2,...,t,...,n]，其中vt∈rd，d为句向量表示的维度，n是训练文本中的词汇个数，也即token数，θ是子任务识别网络模型的超参数，y是训练文本对应的分类标签；l(v,,)是分类器；g是用于反向传播的原始梯度，
∝
是一个权重矩阵，表示词汇的扰动程度。
[0086]
s2、在训练过程中，使用扰动梯度进行反向传播和参数更新，然后去除嵌入层的噪声，恢复原始梯度，进行下一个epoch的迭代训练。在同一批次内，子任务识别网络模型的原始损失l(θ)和对抗性损失ladv()分别为：
[0087][0088][0089]
所以，该子任务识别网络模型的最终损失为：
[0090]
l＝l(θ) ladv(θ)
[0091]
为了更好地理解本发明实施例的技术方案，参见图2，图2示出了本发明实施例的多语种文本分类方法所采用的框架。一方面，该框架使用labse预训练模型作为基模型，针对多任务学习中参数共享层过多地关注语种特定信息与文本信息偏置的问题，提出以基于mlm策略的重要提取方法筛选出输入文本中的重要词汇，并使用对抗训练对不同语种的重要词汇进行正则化扰动操作。另一方面，针对多语种多任务学习中，模型无法很好地识别和利用语种之间的相关性问题，本实施例提出语种信息自学习方法，采用self-attention的技术使语种描述符自学习与丰富语义信息，然后使用语种描述符将语种之间的关联信息融入模型。
[0092]
相应地，本发明实施例还提供一种多语种文本分类装置，包括：
[0093]
获取模块，用于获取目标文本和预先训练的学习模型，所述学习模型包括共享特征提取网络和多个子任务识别网络；其中，每一所述子任务识别网络与每一语种一一对应；其中，所述子任务识别网络包括语种自学习模块、拼接模块和分类器，且所述多个子任务识别网络中的语种自学习模块的参数共享；
[0094]
语种识别模块，用于调用所述共享特征提取网络中的表示模块对所述目标文本进行处理，得到所述目标文本的句向量表示；和调用所述共享特征提取网络中的语种分类模块对所述目标文本进行处理，得到所述目标文本的语种识别预测结果；还用于基于所述语种识别预测结果，确定所述目标文本所对应的语种；
[0095]
特性向量获取模块，用于基于对应语种，调用所述学习模型中对应语种的子任务识别网络中的语种自学习模块对所述对应语种进行处理，得到对应语种的语种描述符，并基于所述对应语种的语种描述符，调用所述对应语种的子任务识别网络中的拼接模块对所述对应语种的语种描述符和所述句向量表示进行处理，得到所述目标文本的多维特征向量；
[0096]
分类模块，用于基于所述多维特征向量，调用所述对应语种的子任务识别网络中的分类器对所述多维特征向量进行处理，得到所述目标文本的分类结果。
[0097]
需说明的是，本发明实施例提供的多语种文本分类装置用于执行上述实施例提供的多语种文本分类方法的全部步骤和流程，两者的工作原理和有益效果一一对应，这里不再作过多的赘述。
[0098]
在一种可选的实施方式中，所述基于对应语种，调用所述学习模型中对应语种的子任务识别网络中的语种自学习模块对所述对应语种进行处理，得到对应语种的语种描述符，具体包括：
[0099]
基于对应语种，调用所述学习模型中对应语种的子任务识别网络中的语种自学习
模块，以使得所述语种自学习模块初始化语种描述矩阵，并将所述语种描述矩阵和预设的对应语种的初始语种描述符输入自注意力模块中，得到对应语种的语种描述符。
[0100]
在一种可选的实施方式中，所述子任务识别网络还包括语种信息扰动模块，则所述方法还包括：
[0101]
调用所述学习模型中对应语种的子任务识别网络中的语种信息扰动模块对所述对应语种进行处理，生成所述目标文本中每一词汇的扰动值，并在所述句向量表示的基础上叠加每一所述词汇的扰动值，生成对抗句向量表示；其中，所述目标文本包含多个词汇；
[0102]
则，所述调用所述对应语种的子任务识别网络中的拼接模块对所述对应语种的语种描述符和所述句向量表示进行处理，包括；
[0103]
调用所述对应语种的子任务识别网络中的拼接模块对所述对应语种的语种描述符和所述对抗句向量表示进行处理。
[0104]
在一种可选的实施方式中，所述每一所述词汇的扰动值通过如下步骤确定：
[0105]
将所述目标文本中的重要词汇的扰动值赋值为第一扰动值，将所述目标文本中的非重要词汇的扰动值赋值为第二扰动值；其中，所述第一扰动值大于所述第二扰动值。
[0106]
在一种可选的实施方式中，所述共享特征提取网络还包括重要词汇提取模块，则，所述方法还包括：
[0107]
基于所述目标文本，调用所述共享特征提取网络中的所述重要词汇提取模块对所述目标文本中的每一个词汇进行掩码处理，得到多个掩码文本；
[0108]
将所述多个掩码文本和所述目标文本输入语种分类网络中，得到所述目标文本的语种预测概率与每一掩码文本的语种预测概率，并确定所述目标文本的语种预测概率中最大的概率值和每一所述掩码文本的语种预测概率中最大的概率值；
[0109]
当所述掩码文本的语种预测概率最大值大于所述目标文本的语种预测概率最大值时，获取对应的掩码文本中被掩码的分词作为所述目标文本的重要词汇。
[0110]
在一种可选的实施方式中，所述预先训练的学习模型通过如下步骤训练：
[0111]
获取文本训练集，并将所述文本训练集输入到所述学习模型中；所述训练文本集包括多类不同语种的训练文本；每一所述训练文本标注有对应的语种标签和分类标签；
[0112]
响应于输入的所述文本训练集，所述学习模型将所述文本训练集输入到所述学习模型中的共享特征提取网络进行训练，以得到每一所述训练文本的句向量表示和对应的语种信息；
[0113]
响应于获得的所述对应的语种信息，所述学习模型基于对应的语种信息将每一训练文本的句向量表示分别输入到所述学习模型中对应语种的子任务识别网络中，以对所述多个子任务识别网络进行训练；
[0114]
响应于所述多个子任务识别网络满足训练完成条件，完成对所述学习模型的训练。
[0115]
相应地，本发明实施例还提供一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述实施例提供的多语种文本分类方法，例如图1的s11～s14。
[0116]
相应地，本发明实施例还提供一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如上述实施例提供的
多语种文本分类方法，例如图1的s11～s14。
[0117]
以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：具有公共数据结构的阶段式查询编译的制作方法

多语种文本分类方法、装置、设备及介质

相关文献

最热文献