语种分类模型的训练方法及电子设备和存储介质与流程

2023-02-06 12:35:49 来源：中国专利 TAG：

1.本发明属于语种分类模型技术领域，尤其涉及一种语种分类模型的训练方法及电子设备和存储介质。

背景技术：

2.随着现代社会信息的全球化，语种识别成为语音识别技术研究热点之一。语种识别技术能够制造一种模仿人的思维对语音进行语种辨识的机器，从语音信号中提取出各语种的差异信息，并以此为依据判断所属语种。
3.在现有技术中，普通话和另一个语种/方言的语种分类模型，例如，中英/中俄/中川语种分类模型，(以下简称为1 1的语种分类模型)。1 1的语种分类模型，本质是一种深度学习网络，被广泛应用与语音交互系统中，与情感识别，年龄识别等功能相类似，用于提供语音识别之外的功能属性。1 1的语种分类模型，往往仅支持普通话和另外一个单一语言种类，无法同时支持多个语种。传统的语种分类模型更新方式中，如果需要优化某个特例，需要重新训练整个模型，因此更新频率受限，整个更新流程比较冗长。
4.发明人发现：上述技术提供的能力是单一的，在产品的设计不能满足用户的实际需求，每个1 1语种分类模型，是单独的模块，缺乏一种优质的模型迭代策略，对这些模型进行统一的自动化式更新，无法实现不同语种分类模型的自动化快速迭代方案。

技术实现要素：

5.本发明实施例旨在至少解决上述技术问题之一。
6.第一方面，本发明实施例提供一种语种分类模型的训练方法，包括：将训练样例输入第一语种分类模型进行训练，获取所述第一语种分类模型输出的语种分类，其中，所述第一语种分类模型为1 n语种分类模型；基于所述语种分类确定待训练第二语种分类模型，其中，所述第二语种分类模型为1 1语种分类模型；提取所述第一语种分类模型的至少一个特征值，将所述特征值输入至所述第二语种分类模型以对所述第二语种分类模型进行训练。
7.第二方面，本发明实施例提供一种语种分类模型的训练装置，包括：第一训练模块，用于将训练样例输入第一语种分类模型进行训练，获取所述第一语种分类模型输出的语种分类，其中，所述第一语种分类模型为1 n语种分类模型；确定模块，用于基于所述语种分类确定待训练第二语种分类模型，其中，所述第二语种分类模型为1 1语种分类模型；第二训练模块，用于提取所述第一语种分类模型的至少一个特征值，将所述特征值输入至所述第二语种分类模型以对所述第二语种分类模型进行训练。
8.第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语种分类模型的训练方法。
9.第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个
包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语种分类模型的训练方法。
10.第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语种分类模型的训练方法。
11.本发明实施例通过将训练样例输入至1 n语种训练模型进行训练并将训练结果进行特征提取，再输入至1 1语种分类模型训练，来实现不同语种分类模型的自动化快速迭代方案，同时减少上线模型的内存占用与计算量。
附图说明
12.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
13.图1为本发明的语种分类模型的训练方法的一实施例的流程图；
14.图2为本发明的语种分类模型的训练方法的另一实施例的流程图；
15.图3为本发明的语种分类模型的训练装置的结构示意图；
16.图4为本发明一实施例提供的一种语种分类模型的训练过程流程图；
17.图5为本发明的电子设备的一实施例的结构示意图。
具体实施方式
18.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
20.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
21.在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
22.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
23.本发明实施例提供一种语种分类模型的训练方法，该方法可以应用于电子设备。电子设备可以是电脑、服务器或者其他电子产品等，本发明对此不作限定。
24.请参考图1，其示出了本发明一实施例提供的一种语种分类模型的训练方法。
25.如图1所示，在步骤101中，将训练样例输入第一语种分类模型进行训练，获取所述第一语种分类模型输出的语种分类，其中，所述第一语种分类模型为1 n语种分类模型；
26.在步骤102中，基于所述语种分类确定待训练第二语种分类模型，其中，所述第二语种分类模型为1 1语种分类模型；
27.在步骤103中，提取所述第一语种分类模型的至少一个特征值，将所述特征值输入至所述第二语种分类模型以对所述第二语种分类模型进行训练。
28.在本实施例中，对于步骤101，将训练样例输入至第一语种分类模型进行训练，训练样例可以是一段已经存储的音频或者是由麦克风设备直接拾取的音频，该音频中至少包含一段语音音频，将语音音频输入至第一分类模型进行训练，获取第一分类模型的训练结果，其中该第一分类模型为1 n语种分类模型，1 n语种分类模型是一个多层的深度神经网络模型，训练结果为第一语种分类模型输出的语种分类。第一语种分类模型是采用多语种训练数据，预测每一个样本属于哪一类语种。模型输出为n 1类语种时获得的是一个多分类结果；采用第一语种分类模型的中间隐层充当特征值。例如该分类模型是一个1 4的五语种分类，模型输入特征为440维。模型由两层1024的全连接层构成，输出节点为5。根据输出节点的数值来判定是哪一个语种，采用该模型中间隐层的1024节点构成的矢量；来作为给第二语种分类模型作为特征值。如果多个语种分类对应的网络层的特征值是同一个，第一语种分类模型是多个语种共同的特征提取器，训练样本经过第一语种分类模型获得相对应的特征向量。之后，对于步骤102，根据第一语种分类模型训练的输出结果语种分类来确定待训练第二语种分类模型，其中第二语种分类模型为1 1语种分类模型，1 1语种分类模型也是一个多层的深度神经网络模型，在本技术中1 1语种分类模型也可以称之为1 language x模型，该模型是一个可输出两类语种标签，即普通话(class 1)和一种方言/小语种(class x)的模型。
29.最后，对于步骤103，提取第一语种分类模型神经网络层的至少一个(bottleneck)特征值，将该特征值输入至第二语种分类模型进行训练，其中将特征值输入至第二语种分类模型以对第二语种分类模型进行训练，例如，提取到的特征值为bottleneck 1与bottleneck m，bottleneck 1与bottleneck m分别指代网络第1层和第m层的bottleneck值，当1 n语种分类模型预测语种输出为class x，则保留bottleneck 1与bottleneck m值，并将bottleneck 1与bottleneck m进行拼接，拼接之后的结果就是第二语种分类模型也为1 language x模型的输入，再对1 language x模型进行训练。
30.本技术实施例的方法通过将训练样例输入至1 n语种训练模型进行训练并将训练
结果进行特征提取，再输入至1 1语种分类模型训练，来实现不同语种分类模型的自动化快速迭代方案，同时减少上线模型的内存占用与计算量。
31.需要说明的是，第一语种分类模型是一个多语种分类模型(n 1语种)；第二语种分类模型是1 x的二分类的语种模型(1指普通话，x泛指一种方言)；前者的训练样本包含多个语种的训练数据。
32.需要说明的是，在本技术中1 n语种分类模型具有分类n个语言种类的功能，语种输出包含class 1到class n,其中class x指代某一个语种输出，并且class 1特指普通话；1 language x语种分类模型，具有分类普通话和language x的功能，language x中的x与class x相对应。
33.在一些可选的实施例中，提取第一语种分类模型的多个网络层的特征值，即bottleneck 1与bottleneck m值，将bottleneck 1与bottleneck m值进行拼接，得到拼接特征结果，再把拼接特征结果输入至第二语种分类模型进行训练，例如，当1 n语种分类模型预测语种输出为class x，其中class x为小语种,保留bottleneck 1与bottleneck m值，拼接之后作为1 language x模型的输入，将拼接特征结果直接输入至1 language x模型进行训练。
34.在一些可选的实施例中，提取第一语种分类模型的多个网络层中第一层的特征值和最后一层的特征值，提取的第一语种分类模型的多个网络层的特征值为第一层的特征值和最后一层的特征值，其中bottleneck 1表示网络第一层的特征值、bottleneck m表示网络最后一层的特征值，第一语种分类模型的网络层的数量大于第二语种分类模型的网络层的数量，相当于第一语种分类模型的bottleneck m大于第二语种分类模型bottleneck m，1 n语种分类模型的bottleneck m大于1 language x模型的bottleneck m。模型中的靠近输出层的隐层向量偏向于包含语种信息，靠近输入层的隐层向量偏向于包含训练语音样本的声学信息；从节省内存角度考虑尽可能少的选取隐层，为兼顾特征信息的多样性与内存考虑，选择1层和m层。前面的模型需要支持n 1类的语种分类功能，后者在使用前者提取的具备更强语种信息的荧屏表达的基础上进行2语种分离。对比二者，前者需要更深的模型机构增强模型额建模能力。所以前者需要更深的模型结构。
35.请参考图2，其示出了本发明一实施例提供的另一种语种分类模型的训练方法。该流程图主要是对流程图图1当所述训练样例为多个语种数据集合时进一步限定的步骤的流程图。
36.如图2所示，在步骤201中，将所述训练样例输入第一语种分类模型进行训练，获取所述第一语种分类模型输出的与所述多个语种数据集合对应的多个语种分类；
37.在步骤202中，基于所述多个语种分类确定对应的多个第二语种分类模型；
38.在步骤203中，提取所述第一语种分类模型的至少一个特征值，将所述至少一个特征值分别输入至所述多个第二语种分类模型以对所述多个第二语种分类模型进行训练。
39.在本实施例中，对于步骤201，将训练样例输入至第一语种分类模型进行训练，训练样例可以是一段已经存储的音频或者是由麦克风设备直接拾取的音频，该音频中至少包含一段语音音频，将语音音频输入至第一分类模型进行训练，获取第一分类模型的训练结果，第一分类模型的输出训练结果与多个语种数据集合对应为多个语种分类。
40.对于步骤202，根据第一语种分类模型输出的多个语种分类来确定对应的多个第
二语种分类模型，通过确定多个语种分类来确定多个第二语种分类模型的输入，其中多个语种分类对应多个第二语种分类模型，多个语种分类为多个第二语种分类模型的输入。
41.最后，对于步骤203，提取第一语种分类模型神经网络层的至少一个(bottleneck)特征值，将该特征值分别输入至多个第二语种分类模型进行训练，其中将特征值分别输入至多个第二语种分类模型以对多个第二语种分类模型进行训练，例如，提取到的特征值为bottleneck 1与bottleneck m，bottleneck 1与bottleneck m分别指代网络第1层和第m层的bottleneck值，当1 n语种分类模型输出为多个语种，则保留每个语种对应的bottleneck 1与bottleneck m值，并将每个语种对应的bottleneck 1与bottleneck m进行拼接，得到多个拼接结果，将多个拼接结果输入至多个第二语种分类模型进行训练。
42.本技术实施例的方法通将过对语种数据的集合做为语种分类模型的训练样例，实现各类语种数据同时参与训练，数据增益大于分别训练。
43.在一些可选的实施例中，第二语种分类模型的训练结果为两类语种标签，两类语种标签分为普通话和任一语种，其中普通话为(class 1)表示，任一语种相当于小语种为(class x)表示。
44.需要说明的是，当1 n语种分类模型进行模型更新，对应的bottleneck值将流入n-1个1 language x模型，进行参数更新。某种程度上，1 n语种分类模型是一个自适应的语种特征提取器，提取的特征(bottleneck值)输入1 language x模型进行模型训练。1 n语种分类模型以一定的频率进行更新，n-1个1 language x模型随之进行更新。1 language x模型被用于不同场景中，相比1 n语种分类模型，内存与计算量降低了约(m-m)/m。此架构一方面可实现定期快速自动化语种分类模型迭代，同时也降低了线上模型内存与计算量。
45.请参考图3，其示出了本发明一实施例提供的一种语种分类模型的训练装置的结构示意图，该装置可执行上述任意实施例所述的语种分类模型的训练方法，并配置在终端中。
46.如图3所示，本实施例提供的一种语种分类模型执行装置100包括：第一训练模块110，确定模块120、第二训练模块130。
47.其中，110第一训练模块，用于将训练样例输入第一语种分类模型进行训练，获取所述第一语种分类模型输出的语种分类，其中，所述第一语种分类模型为1 n语种分类模型；确定模块120，用于基于所述语种分类确定待训练第二语种分类模型，其中，所述第二语种分类模型为1 1语种分类模型；第二训练模块130，用于提取所述第一语种分类模型的至少一个特征值，将所述特征值输入至所述第二语种分类模型以对所述第二语种分类模型进行训练。
48.请参考图4，其出示了本发明的语种分类模型的训练方法的实现流程图。其中，class表示分类，language表示语种，bottleneck表示瓶颈层特征，layer表示网络层。
49.如图4所示，1 n语种分类模型具有分类n个语言种类的功能，语种输出包含class 1到class n,其中class x指代某一个语种输出，并且class1特指普通话；1 language x语种分类模型，具有分类普通话和language x的功能，language x中的x与class x相对应。
50.1 n语种分类模型是一个m层的深度神经网络模型，bottleneck 1与bottleneck m,分别指代网络第1层和第m层的bottleneck值；当1 n模型预测语种输出为class x,保留bottleneck 1与bottleneck m值，拼接之后作为1 language x模型的输入。1 language x
也是一个m层的深度神经网络模型，m《m；该模型是一个可输出两类语种标签，即普通话(class 1)和一种方言/小语种(class x)。
51.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
52.在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语种分类模型的训练方法。
53.在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语种分类模型的训练方法。
54.在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语种分类模型的训练方法。
55.图5是本技术另一实施例提供的执行语种分类模型的训练方法的电子设备的硬件结构示意图，如图5所示，该设备包括：
56.一个或多个处理器510以及存储器520，图5中以一个处理器510为例。
57.执行语种分类模型的训练方法的设备还可以包括：输入装置530和输出装置540。
58.处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。
59.存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本技术实施例中的语种分类模型的训练方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语种分类模型的训练方法。
60.存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语种分类模型的训练设备的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至语种分类模型的训练设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
61.输入装置530可接收输入的数字或字符信息，以及产生与语种分类模型的训练设
备的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。
62.所述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的语种分类模型的训练方法。
63.上述产品可执行本技术实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术实施例所提供的方法。
64.本技术实施例的电子设备以多种形式存在，包括但不限于:
65.(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
66.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等。
67.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
68.(4)其他具有数据交互功能的机载电子装置，例如安装上车辆上的车机装置。
69.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
70.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
71.最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种业务活动推送方法、装置、计算机和存储介质与流程

语种分类模型的训练方法及电子设备和存储介质与流程

相关文献

最热文献