语音识别模型的训练方法、装置、服务器及存储介质与流程

2022-04-30 02:16:50 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种语音识别模型的训练方法、装置、服务器及存储介质。

背景技术：

2.随着计算机人工智能技术的飞速发展，语音识别技术也取得了突破性的成就。得益于人工智能及云计算服务的发展，生活中出现了许多的人工智能产品或人工智能平台。语音识别技术作为常见的人工智能应用，已进入人们生活的方方面面，例如各种智能家电，软件中的语音消息转文字等。
3.当前的语音识别技术在获取到语音信号的特征向量之后，通过声学模型，语言模型，以及发音词典对该特征向量进行处理，得到语音信号的输出文本。但是在多语言混合场景中，不同语言存在发音相似的情况，因此存在语音识别模型对于语言切换点位置的预测的不准确从而导致语音识别错误的技术问题。

技术实现要素：

4.本发明实施例提供了一种语音识别模型的训练方法、装置、服务器及存储介质，可提升语音识别模型对语言切换点位置的预测的准确性。
5.第一方面，本发明实施例提供了一种语音识别模型的训练方法，包括：
6.获取训练样本，所述训练样本包括语音信号样本以及所述语音信号样本对应的标准输出序列，所述标准输出序列是在所述语音信号样本的标准输出文本中添加辅助识别标签后得到的输出序列，所述标准输出文本包含第一语言对应的字符和第二语言对应的字符，所述辅助识别标签用于标识第一语言对应的字符和第二语言对应的字符切换时的切换点；
7.通过语音识别模型对所述语音信号样本进行语音识别，得到所述语音信号样本对应的第一输出序列，所述第一输出序列是添加有所述辅助识别标签的输出序列；
8.将所述第一输出序列和所述标准输出序列进行比对，得到所述第一输出序列与所述标准输出序列的第一相似度；
9.基于所述第一相似度对所述语音识别模型的语音识别参数进行调整，得到参数调整后的语音识别模型，并基于所述训练样本对所述参数调整后的语音识别模型进行训练，得到训练后的语音识别模型。
10.第二方面，本发明实施例提供了一种语音识别模型的训练装置，包括用于执行如第一方面所述的方法的单元。
11.第三方面，本发明实施例提供了一种服务器，包括：
12.存储器，用于存储计算机程序；
13.处理器，调用所述存储器中的所述计算机程序，用于执行如第一方面所述的方法。
14.第四方面，本发明实施例提供了一种计算机可存储介质，所述计算机可读存储介
质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如第一方面所述的方法。
15.在本发明实施例中，获取包含语音信号样本以及标准输出序列的训练样本，通过语音识别模型对该语音信号样本进行语音识别，得到该语音信号样本对应的第一输出序列，将第一输出序列和标准输出序列进行比对，得到第一输出序列与标准输出序列的第一相似度，基于第一相似度对语音识别模型的语音识别参数进行调整，得到参数调整后的语音识别模型，并基于训练样本对参数调整后的语音识别模型进行训练，得到训练后的语音识别模型。其中，第一相似度越高，表明语音识别模型对语言切换点位置预测的准确性越高，本技术实施例基于第一相似度对语音识别模型的训练参数进行优化调整，得到参数调整后的语音识别模型，利用训练样本对参数调整后的语音识别模型进行训练，可提高语音识别模型对语言切换点的位置预测的准确性。
附图说明
16.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.图1是本发明实施例提供的一种语音识别系统的结构示意图；
18.图2是本发明实施例提供的一种语音识别系统的架构示意图；
19.图3a是本发明实施例提供的一种语音识别应用场景示意图；
20.图3b是本发明实施例提供的一种语音识别应用场景示意图；
21.图3c是本发明实施例提供的一种语音识别应用场景示意图；
22.图4是本发明实施例提供的一种语音识别模型的结构示意图；
23.图5是本发明实施例提供的一种语音识别模型的训练方法的流程示意图；
24.图6是本发明实施例提供的一种语音识别方法的流程示意图；
25.图7是本发明实施例提供的一种语音识别模型的训练装置结构示意图；
26.图8是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
27.传统的语音识别方式所用到的系统结构请参见图1，图1是本发明实施例提供的一种语音识别系统的结构示意图。
28.如图1所示，用户在终端输入语音信号，终端的麦克风阵列可以通过音源定位采集语音信号，然后对所述语音信号进行噪声/混响抑制以及回声消除等处理，得到处理后的语音信号。然后，终端将处理后的语音信号发送至服务器，服务器对所述处理后的语音信号进行时域到频域的转换，得到该语音信号的特征向量。服务器得到语音信号的特征向量之后，将所述特征向量送入解码器，通过所述解码器对特征向量进行解码处理，得到所述语音信号对应的识别文本。其中，所述解码器包括：声学模型，语言模型，发音词典。其中，所述声学模型用于对语音信号到对应发音单元的映射关系进行建模，所述语言模型和发音词典用于对所述发音单元到汉字的映射关系进行建模。
29.上述方法应用在多语言混合场景中，尤其是在不同语言存在发音相似的情况下，
容易因为语言切换点的不准确，导致该方法对语音信号识别结果的不准确。例如在中英文混合场景下，英文字符“team”和中文字符“听”的发音极为接近，那么通过传统的语音识别方法极有可能将本应为“昨天跟娜娜讨论明年三月team building的事”的正确文本对应的语音信号，识别为错误文本“昨天跟娜娜讨论明年三月听building的事”，导致识别结果不准确。
30.本发明实施例提出了一种语音识别模型的训练方法，该语音识别模型的训练方法主要应用于多语言混合场景中，用于语音识别模型训练的训练样本包括语音信号样本以及该语音信号样本对应的标准输出序列。通过语音识别模型对该语音信号样本进行语音识别，得到第一输出序列，将第一输出序列与标准输出序列进行比对，得到第一输出序列与标准输出序列的第一相似度，基于第一相似度对语音识别模型的语音识别参数进行调整，得到参数调整后的语音识别模型，并基于训练样本对所述参数调整后的语音识别模型进行训练，得到训练后的语音识别模型。其中，第一相似度越高，表明语音识别模型对语言切换点预测的准确性越高，本技术实施例通过上述方法对语音识别模型进行训练，可提高语言切换点的位置预测的准确性，从而减少在多语言混合场景中将第一语言错误地识别为第二语言的情况，进而提高语音识别的准确性。
31.其中，标准输出序列是在语音信号样本的标准输出文本中添加辅助识别标签后得到的字符序列，所述标准输出文本为对语音信号样本进行语音识别得到的正确文本，所述标准输出文本还包含第一语言对应的字符和第二语言对应的字符。其中，所述辅助识别标签用于标识第一语言对应的字符和第二语言对应的字符切换时的切换点，所述辅助识别标签包括：标识由第一语言切换至第二语言处的第一辅助识别标签《soe》，标识由第二语言切换至第一语言处的第二辅助识别标签《eoe》。举例来说，假设给定一个中英文混杂的语音信号样本，该语音信号样本的标准输出文本为“昨天我和娜娜讨论明年三月team building的事”，假设第一语言为中文，第二语言为英文。可以确定语音信号样本的标准输出序列为“昨天我和娜娜讨论明年三月《soe》team building《soe》的事”。
32.其中，第一输出序列是对所述语音信号样本进行识别后得到的添加有辅助识别标签的序列，不一定是标准输出文本对应的字符序列。举例来说，假设有一个语音信号样本的标准输出文本为“昨天我和娜娜讨论明年三月team building的事”，第一输出序列可以为“昨天我和娜娜讨论明年三月听《soe》building《soe》的事”，或者，所述第一输出序列为“昨天我和娜娜讨论明年三月《soe》team building《eoe》的事”。
33.在一个实施例中，所述语音识别模型的训练方法可以应用在如图2所示的语音识别系统中，如图2所示，该系统包括至少一个终端21，以及服务器22。其中，终端21可与服务器22建立通信连接。上述终端包含但不限定于智能手机、智能音箱、平板电脑等，上述服务器运行有语音识别模型。
34.其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
35.在一个实施例中，本技术实施例提供的语音识别模型的训练方法可以应用在服务器中。服务器获取训练样本，所述训练样本包括语音信号样本和标准输出序列，服务器对所述语音信号样本进行处理，得到第一输出序列，通过比对第一输出序列和标准输出序列可以得到第一相似度，基于所述第一相似度对所述语音识别模型的语音识别参数进行调整，得到参数调整后的语音识别模型，并基于所述训练样本对所述参数调整后语音识别模型进行训练，从而得到训练好的语音识别模型。
36.在一个示例性场景中，通过训练后的语音识别模型进行语音识别时，以终端中运行有微信客户端为例，如图3a所示，图3a是本发明实施例提供的一种语音识别应用场景示意图。微信客户端的会话窗口中存在语音信号，若用户存在将该语音信号转换为文本的需求，那么用户可以长按该语音信号。如图3b所示，图3b是本发明实施例提供的一种语音识别应用场景示意图。终端检测到用户的长按操作之后，显示相应的功能选择框，功能选择框可以包括用于语音识别的虚拟按键(例如“转文本”按键)。如图3c所示，图3c是本发明实施例提供的一种语音识别应用场景示意图。用户可以点击该虚拟按键，终端检测到用户的点击操作之后，可以将语音信号发送给服务器，服务器对可以基于训练后的语音识别模型对语音信号进行语音识别，得到语音信号的输出文本。服务器可以将该输出文本发送至微信客户端，微信客户端可以在会话窗口中显示该输出文本，例如在微信客户端的会话窗口中该语音信号下方显示该输出文本。
37.在另一个示例性场景中，通过训练后的语音识别模型进行语音识别时，以终端为智能机器人为例，智能机器人中存储有训练后的语音识别模型，用户通过智能机器人配置的麦克风向智能机器人输入语音信号，智能机器人获取到语音信号后，可以基于训练后的语音识别模型对语音信号进行语音识别处理，得到语音信号的输出文本。智能机器人还可以根据输出文本生成操作指令，并响应该操作指令进行对应的操作。
38.请参见图4，图4是本发明实施例提供的语音识别模型的训练方法的流程示意图。如图4所示，该方法包括：
39.s401，获取训练样本，所述训练样本包括语音信号样本和标准输出序列。
40.服务器获取训练样本，其中训练样本包括语音信号样本以及该语音信号对应的标准输出序列。示例性地，所述语音信号样本可以包括900小时纯英文数据，500小时纯中文数据，以及200小时中英文混杂数据。或者，语音信号样本的数量也可以为多个，针对每一个语音信号样本，存在该语音信号样本对应的标准输出序列，且针对每一个语音信号样本，服务器执行步骤s402至s404。
41.s402，通过语音识别模型对所述语音信号样本进行语音识别，得到所述语音信号样本对应的第一输出序列。
42.其中，所述第一输出序列是添加有辅助识别标签的序列，所述第一输出序列中的辅助识别标签包括第一辅助识别标签和第二辅助识别标签。例如，语音信号样本为标准输出文本“昨天我和娜娜讨论明年三月team building的事”对应的语音信号，将该语音信号样本输入服务器中的语音识别模型进行语音识别，得到第一输出序列可以为“昨天我和娜娜讨论明年三月听《soe》building《eoe》的事”。示例性地，假设语音信号样本为标准输出文本“昨天我和娜娜讨论明年三月team building的事”对应的语音信号，将该语音信号样本输入服务器中的语音识别模型进行语音识别，得到第一输出序列还可以为“昨天我和娜娜
讨论明年三月《soe》team building《eoe》的事”43.在一个实施例中，如图5所示，该语音识别模型可以包括编码器51，注意力模型52，解码器53。
44.其中，编码器51对接收到的语音信号样本进行预加重、分帧、加窗等预处理操作，并通过fft(fast fourier transform，快速傅里叶变换)将所述预处理后的语音信号由时域信号转换为频域信号，之后逐帧进行fbank(filter bank，滤波器组)特征提取，得到第一频谱特征，再利用specaugment语音增强技术对所述第一频谱特征进行数据增强，得到第二频谱特征，其中，所述第一频谱特征为80维的fbank特征。编码器将所述第二频谱特征依次输入两层卷积神经网络(convolutional neural networks，cnn)、四层双向长短时记忆网络(bi-directional long short-term memory，blstm)中进行特征提取，得到特征向量，并输入至注意力模型。其中，每层所述cnn使用(3，3)的卷积核，步长大小为(2，2)，且包含32个信道，所述每层blstm的节点大小为1024。
45.注意力模型52用于对编码器的输出进行自注意力建模，将注意力模型的输出作为解码器的输入，即注意力模型为编码器和解码器之间的桥梁。其中，所述自注意力建模用到了additive attention(additive attention，加性注意力)，所述additive attention的维度为128。具体地，所述注意力模型用于对编码器中输出的特征向量进行加权处理，得到第一特征向量，并将所述第一特征向量输入至解码器。
46.解码器53将注意力模型的输出作为输入，即将第一特征向量作为解码器的输入，然后对所述第一特征向量进行识别处理，得到所述语音信号样本对应的第一输出序列，所述第一输出序列包括辅助识别标签，第一语言对应的字符和第二语言对应的字符。所述辅助识别标签包括第一辅助识别标签和第二辅助识别标签，第一辅助识别标签位于第一位置切换点，所述第一位置切换点用于指示由第一语言对应的字符切换至第二语言对应的字符，第二辅助识别标签位于第二位置切换点，所述第二位置切换点用于指示由第二语言对应的字符切换至第一语言对应的字符，解码器根据第一位置切换点和第二位置切换点，对第一特征向量进行处理，得到语音信号对应的第一输出序列。具体地，第一辅助识别标签可以是“《soe》”，第二辅助识别标签可以是“《eoe》”，然后，将位于第一辅助识别标签“《soe》”之后，且第二辅助识别标签“《eoe》”之前的所有字符识别为第一字符，并由所有第一字符构成第一字符集；将位于第一辅助识别标签“《soe》”之前的所有字符和第二辅助识别标签“《eoe》”之后的所有字符识别为第二字符，并由所有第二字符构成第二字符集。解码器将所述第一字符集和第二字符集，以及所述辅助识别标签的合集作为第一输出序列。其中，所述解码器包括两层节点均为1024的单向长短时记忆网络(long short-term memory，lstm)。
47.举例来说，假设语音信号样本为文本“昨天我和娜娜讨论明年三月team building的事”对应的语音信号，则语音信号样本的标准输出序列为“昨天我和娜娜讨论明年三月《soe》team building《eoe》的事”。又假设attention模型预测到的第一语言切换点在字符“team”之后，且字符“building”之前，第二语言切换点在字符“building”之后，且字符“的”之前。若所述语音识别模型将“team”识别为中文“听”，可以确定第一字符集为{building}，第二字符集为{昨，天，跟，娜，娜，讨，论，明，年，三，月，听，的，事}，进而确定第一语言为英文，第二语言为中文，因此可以确定第一输出序列为“昨天我和娜娜讨论明年三月听《soe》building《eoe》的事”。
48.在一个实施例中，若需将所述第一输出序列作为输出文本，可通过输出单元将所述第一输出序列识别为输出文本，示例性地，所述输出单元由汉字和bpe(双字节编码器)组成。
49.s403，基于第一相似度对语音识别模型的训练参数进行优化调整，得到参数调整后的语音识别模型，并基于训练样本对参数调整后的语音识别模型进行训练，得到训练后的语音识别模型。
50.解码器针对所述第一输出序列中位于每个位置的元素，获取所述元素与所述标准输出序列中位于对应位置的元素的第二相似度，其中，所述第一输出序列包括多个元素，所述标准输出序列包括多个元素，所述多个元素为字符和辅助识别标签。
51.解码器通过损失函数对各个所述第二相似度和所述第二相似度对应的所述标准输出序列中的元素的权值进行加权平均运算处理，得到所述第一相似度。其中，所述损失函数如下：
[0052][0053]
其中，
[0054][0055][0056]
其中，第一字符序列为y＝{y1,...,ym}，其中yi是维度为n的向量，对应的标准字符序列为其中是维度为n的one-hot向量(即，辅助识别标签对应的标签为1，其他标签都为0的向量)。示例性地，假设标准字符序列为“昨天讨论team building的事”，为字符“昨”对应的8维one-hot向量，为字符“天”对应的8维one-hot向量，则为(1，0，0，0，0，0，0，0)，为(0,1,0，0,0,0,0,0)。
[0057]
所述计算损失函数的过程中，引用了label smoothing(标签平滑)的方式，使得本实施例中的损失函数不仅考虑到了训练样本中正确的标签位置(one-hot向量标签为1的位置)的损失，还考虑到了其他错误标签位置(one-hot向量标签为0的位置)的损失，使得最后的损失增大，从而提高语音识别模型的学习能力。在本实施例中，由公式(3)可知，辅助识别标签的权值最大，因此，辅助识别标签位置错误或正确对损失函数的影响较大，使得本实施例中的语音识别方法可通过对辅助识别标签位置的预测，也即对语言切换点的预测来提高语音识别系统的输出文本的正确率。
[0058]
在一个实施例中，所述第一输出序列可以例如是“昨天跟娜娜讨论明年三月听《soe》building《eoe》的事”，所述标准输出序列可以是“昨天跟娜娜讨论明年三月《soe》team building《eoe》的事”，则所述第一输出序列中所述元素与所述标准输出序列中位于对应位置的元素可以这样理解：以第一输出序列中位于第一位置上的元素为“昨”为例，该元素在标准输出序列中对应位置上的元素为位于标准输出序列第一位置的元素“昨”；以第一输出序列中位于第九位置上的元素为“《soe》”为例，该元素在标准输出序列中对应位置上的元
素为位于标准输出序列第九位置的元素“team”。
[0059]
s404，基于所述第一相似度对所述语音识别模型的语音识别参数进行调整，得到参数调整后的语音识别模型，并基于所述训练样本对所述参数调整后的语音识别模型进行训练，得到训练后的语音识别模型。
[0060]
上述损失函数的值能反映所述第一相似度与预设期望值之间的差距，基于此差距可对当前语音识别模型进行优化处理，使得经过所述语音识别模型进行语音识别处理后得到的第一输出序列与标准输出序列的第一相似度大于或等于预设期望值。其中，所述优化处理包括：
[0061]
基于所述第一相似度在所述语音识别模型进行切换点预测的过程中运行优化算法，所述优化算法的优化对象为所述语音识别模型，所述优化对象的优化目标为所述第一输出序列与所述标准输出序列的第一相似度大于预设期望值，所述语音识别模型进行切换点预测的过程包括所述语音识别模型添加所述辅助识别标签的过程。
[0062]
本技术实施例通过语音识别模型对语音信号样本进行语音识别，得到语音信号样本对应的第一输出序列，将第一输出序列和语音信号样本对应的标准输出序列进行比对，得到第一输出序列与标准输出序列的第一相似度，基于第一相似度对语音识别模型的语音识别参数进行调整，得到调整后的语音识别模型，再利用训练样本对所述参数调整后的语音识别模型进行训练，得到训练后的语音识别模型，可提高语音识别模型对语言切换点预测的准确性。
[0063]
请参见图6，图6是本发明实施例提供的一种语音识别方法，本发明实施例中的语音识别方法可以应用在服务器中，也可以应用在终端中，示例性的，下文以执行主体为终端进行描述，如图6所示，该方法包括：
[0064]
s601，获取语音信号。
[0065]
在一个实施例中，终端可以从存储器中获取语音信号，例如微信客户端的会话窗口中的语音信号。可选地，终端也可通过麦克风获取用户输入的语言信号。
[0066]
s602，基于所述训练后的语音识别模型对所述语音信号进行语音识别，得到该语音信号的输出文本。
[0067]
在一个实施例中，在终端获取到语音信号之后，将所述语音信号送入终端中训练后的语音识别模型中，所述语音识别模型对所述语音信号进行特征提取，得到特征向量，然后对所述特征向量进行语音识别处理，得到所述语音信号的输出文本。其中，输出文本可以由第一语言对应的字符和第二语言对应的字符组成。可选地，输出文本还可以包括辅助识别标签，辅助识别标签可以包括第一辅助识别标签和第二辅助识别标签，第一辅助识别标签位于输出文本中由第一语言对应的字符切换至第二语言对应的字符的切换处，第二辅助识别标签位于输出文本中由第二语言对应的字符切换至第一语言对应的字符的切换处。
[0068]
可选地，终端得到输出文本之后，可以显示该输出文本，例如在会话窗口中显示该输出文本。或者，终端得到输出文本之后，根据输出文本生成操作指令，并响应该操作指令进行对应的操作。
[0069]
经过实验发现，假设步骤s601获取的语音信号为时长200小时的中英文混杂语音信号，其包含5000条中英文混杂数据，通过步骤s602以及s603对该语音信号进行语音识别得到输出文本，其中该输出文本的错误率为6.54％。而通过传统的语音识别方法对该语音
信号进行语音识别得到的输出文本的错误率为6.8％，由此可知，本技术实施例可将输出文本的错误率由6.8％降到6.54％，提高了语音识别的准确性。
[0070]
本技术实施例基于训练后的语音识别模型对语音信号进行语言切换点预测，得到第一语言对应的字符与第二语言对应的字符进行切换时的切换点的位置信息，然后基于训练后的语音模型和位置信息，对语音信号进行语音识别，得到语音信号的输出文本，可有效提升输出文本的准确性。
[0071]
请参见图7，图7是本发明实施例提供的一种语音识别模型的训练装置的结构示意图，该语音识别模型的训练装置用于执行图4或图6对应的方法实施例中服务器或终端所执行的步骤，该语音识别模型的训练装置可以包括获取单元71、语音识别单元72、比对单元73以及模型训练单元74，其中，
[0072]
获取单元71，用于获取训练样本，所述训练样本包括语音信号样本以及所述语音信号样本对应的标准输出序列，所述标准输出序列是在所述语音信号样本的标准输出文本中添加辅助识别标签后得到的输出序列，所述标准输出文本包含第一语言对应的字符和第二语言对应的字符，所述辅助识别标签用于标识第一语言对应的字符和第二语言对应的字符切换时的切换点；
[0073]
语音识别单元72，用于通过语音识别模型对所述语音信号样本进行语音识别，得到所述语音信号样本对应的第一输出序列，所述第一输出序列是添加有辅助识别标签的序列；
[0074]
比对单元73，用于将所述第一输出序列和所述标准输出序列进行比对，得到所述第一输出序列与所述标准输出序列的第一相似度；
[0075]
模型训练单元74，用于基于所述第一相似度对所述语音识别模型的语音识别参数进行调整，得到参数调整后的语音识别模型，并基于所述训练样本对所述参数调整后的语音识别模型进行训练，得到训练后的语音识别模型。
[0076]
在一种实现方式中，第一输出序列中的辅助识别标签包括第一辅助识别标签和第二辅助识别标签，其中，第一辅助识别标签用于标识由第一语言对应的字符切换至第二语言对应的字符，第二辅助识别标签用于标识由第二语言对应的字符切换至第一语言对应的字符。
[0077]
在另一种实现方式中，比对单元73具体用于：
[0078]
针对所述第一输出序列中位于每个位置的元素，获取所述元素与所述标准输出序列中位于对应位置的元素的第二相似度，其中，所述第一输出序列包括多个元素，所述标准输出序列包括多个元素，所述多个元素为字符和辅助识别标签；
[0079]
通过损失函数对各个所述第二相似度和所述第二相似度对应的所述标准输出序列中的元素的权值进行处理，得到所述第一相似度。
[0080]
在另一种实现方式中，比对单元73在通过损失函数对各个所述第二相似度和所述第二相似度对应的所述标准输出序列中的元素的权值进行处理，得到所述第一相似度时，具体用于：
[0081]
对各个所述第二相似度和所述第二相似度对应的所述标准输出序列中的元素的权值进行加权平均运算，得到所述第一相似度。
[0082]
在另一种实现方式中，模型训练单元74具体用于：
[0083]
基于所述第一相似度在所述语音识别模型进行切换点预测的过程中运行优化算法，所述优化算法的优化对象为所述语音识别模型，所述优化对象的优化目标为所述第一输出序列与所述标准输出序列的第一相似度大于预设期望值，所述语音识别模型进行切换点预测的过程包括所述语音识别模型添加所述辅助识别标签的过程。
[0084]
在另一种实现方式中，语音识别单元72具体用于：
[0085]
获取所述语音信号样本的第一频谱特征，对所述频谱特征进行增强处理，得到第二频谱特征；
[0086]
对所述第二频谱特征行处理，得到所述语音信号样本的特征向量；
[0087]
基于所述特征向量得到所述语音信号样本对应的第一输出序列。
[0088]
在另一种实现方式中，获取单元71还用于模型训练单元74在基于所述第一相似度对所述语音识别模型的语音识别参数进行调整，得到参数调整后的语音识别模型，并基于所述训练样本对所述参数调整后的语音识别模型进行训练，得到训练后的语音识别模型之后，获取语音信号；
[0089]
语音识别单元73还用于基于所述训练后的语音识别模型对所述语音信号进行语音识别，得到所述语音信号的输出文本。
[0090]
在本发明实施例中，获取单元71获取训练样本，所述训练样本包括语音信号样本以及所述语音信号样本对应的标准输出序列，语音识别单元72通过语音识别模型对所述语音信号样本进行语音识别，得到所述语音信号样本对应的第一输出序列，所述第一输出序列是添加有辅助识别标签的序列，比对单元73将所述第一输出序列和所述标准输出序列进行比对，得到所述第一输出序列与所述标准输出序列的第一相似度，模型训练单元74基于所述第一相似度对所述语音识别模型的语音识别参数进行调整，得到参数调整后的语音识别模型，并基于所述训练样本对所述参数调整后的语音识别模型进行训练，得到训练后的语音识别模型，可提升语音识别模型对语言切换点位置的预测的准确性。
[0091]
根据本技术的一个实施例，图7所示的语音识别装置中各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能山更小的多个单元来构成，这可以实现同样的操作，而不影响本技术的实施例的技术效果的实现。
[0092]
图8示出了本技术实施例提供的一种服务器的结构示意图。在一种实现方式中，图7中的各个单元所实现的相关功能可以结合处理器与通信接口来实现。请参见图8，该服务器包括处理器81、通信接口82、存储器83，所述处理器81、通信接口82、存储器83通过一条或多条通信总线连接。
[0093]
处理器81被配置为服务器执行图4和图6所述方法中语音识别模型的训练装置相应的功能。该处理器81可以是中央处理器(central processing unit，cpu)，网络处理器(network processor，np)，硬件芯片或者其任意组合。
[0094]
通信接口82用于接收和发送数据，例如，通信接口82用于接收来自终端的语音信号，通信接口82用于接收来自服务器的输出文本，或者，通信接口82用于向终端发送通知信息等。
[0095]
存储器83用于存储程序代码等。存储器83可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，ram)；存储器83也可以包括非易失
性存储器(non-volatile memory，nvm)，例如只读存储器(read-only memory，rom)，快闪存储器(flash memory)，硬盘(hard disk drive，hdd)或固态硬盘(solid-state drive，ssd)；存储器83还可以包括上述种类的存储器的组合。
[0096]
在本发明实施例中，该服务器包括多个通信接口，其中，用于发送数据的通信接口和用于接收数据的通信接口可以不为同一个通信接口。
[0097]
处理器81可以调用存储器83中存储的程序代码以执行以下操作：
[0098]
获取训练样本，所述训练样本包括语音信号样本以及所述语音信号样本对应的标准输出序列，所述标准输出序列是在所述语音信号样本的标准输出文本中添加辅助识别标签后得到的输出序列，所述标准输出文本包含第一语言对应的字符和第二语言对应的字符，所述辅助识别标签用于标识第一语言对应的字符和第二语言对应的字符切换时的切换点；
[0099]
通过语音识别模型对所述语音信号样本进行语音识别，得到所述语音信号样本对应的第一输出序列，所述第一输出序列是添加有辅助识别标签的序列；
[0100]
将所述第一输出序列和所述标准输出序列进行比对，得到所述第一输出序列与所述标准输出序列的第一相似度；
[0101]
基于所述第一相似度对所述语音识别模型的语音识别参数进行调整，得到参数调整后的语音识别模型，并基于所述训练样本对所述参数调整后的语音识别模型进行训练，得到训练后的语音识别模型。
[0102]
在一个实施例中，所述第一输出序列中的辅助识别标签包括第一辅助识别标签和第二辅助识别标签，其中，所述第一辅助识别标签用于标识由第一语言对应的字符切换至第二语言对应的字符，所述第二辅助识别标签用于标识由第二语言对应的字符切换至第一语言对应的字符。
[0103]
在另一个实施例中，所述处理器81在将所述第一输出序列和标准输出序列进行比对，得到所述第一输出序列与所述标准输出序列的第一相似度时，具体执行以下操作：
[0104]
针对所述第一输出序列中位于每个位置的元素，获取所述元素与所述标准输出序列中位于对应位置的元素的第二相似度，其中，所述第一输出序列包括多个元素，所述标准输出序列包括多个元素，所述多个元素为字符和辅助识别标签；
[0105]
通过损失函数对各个所述第二相似度和所述第二相似度对应的所述标准输出序列中的元素的权值进行处理，得到所述第一相似度。
[0106]
在另一个实施例中，所述处理器81在通过损失函数对各个所述第二相似度和所述第二相似度对应的所述标准输出序列中的元素的权值进行处理，得到所述第一相似度时，具体执行以下操作：
[0107]
对各个所述第二相似度和所述第二相似度对应的所述标准输出序列中的元素的权值进行加权平均运算，得到所述第一相似度。
[0108]
在另一个实施例中，所述处理器81在基于所述第一相似度对所述语音识别模型的语音识别参数进行调整，得到参数调整后的语音识别模型，并基于所述训练样本对所述参数调整后的语音识别模型进行训练，得到训练后的语音识别模型时，具体执行：
[0109]
基于所述第一相似度在所述语音识别模型进行切换点预测的过程中运行优化算法，所述优化算法的优化对象为所述语音识别模型，所述优化对象的优化目标为所述第一
输出序列与所述标准输出序列的第一相似度大于预设期望值，所述语音识别模型进行切换点预测的过程包括所述语音识别模型添加所述辅助识别标签的过程。
[0110]
在另一个实施例中，所述处理器81在通过语音识别模型对所述语音信号样本进行语音识别，得到所述语音信号样本对应的第一输出序列时，具体执行：
[0111]
获取所述语音信号样本的第一频谱特征，对所述频谱特征进行增强处理，得到第二频谱特征；
[0112]
对所述第二频谱特征行处理，得到所述语音信号样本的特征向量；
[0113]
基于所述特征向量得到所述语音信号样本对应的第一输出序列。
[0114]
在另一个实施例中，在所述处理器81基于所述第一相似度对所述语音识别模型的语音识别参数进行调整，得到参数调整后的语音识别模型，并基于所述训练样本对所述参数调整后的语音识别模型进行训练，得到训练后的语音识别模型之后，还用于执行以下操作：
[0115]
通过通信接口82获取语音信号；
[0116]
基于所述训练后的语音识别模型对所述语音信号进行语音识别，得到所述语音信号的输出文本。
[0117]
进一步地，处理器81还可以与通信接口82相配合，执行图4或图6所示实施例中的操作，具体可参见方法实施例中的描述，在此不再赘述。
[0118]
本发明实施例还提供一种计算机可读存储介质，可以用于存储图8所示实施例中服务器中处理器81所调用的计算机程序指令，其中包含用于执行上述实施例中为语音识别模型的训练装置所设计的程序。
[0119]
在一个实施例中，计算机可读存储介质是服务器中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括语音识别模型训练设备中的内置存储介质，当然也可以包括语音识别模型训练设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了语音识别模型训练设备的处理系统。并且，在该存储空间中还存放了适于被处理器81加载并执行的一条或多条的指令，这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速ram存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机可读存储介质。
[0120]
本领域普通技术人员可以意识到，结合本技术中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0121]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过
有线(例如，同轴电缆、光纤、数字用户线(dsl))或无线(例如，红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如，固态硬盘(solid state disk，ssd))等。
[0122]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频处理方法、装置、电子设备及介质与流程

语音识别模型的训练方法、装置、服务器及存储介质与流程

相关文献

最热文献