语音识别模型的训练方法、语音识别方法及相关装置与流程

2022-02-19 03:10:01 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，尤其涉及基于语音识别模型的训练方法、语音识别方法及相关装置。

背景技术：

2.随着语音识别技术的发展和更新换代，人们对语音识别模型的识别性能要求越来越高。
3.目前语音识别技术主要依赖于深度学习技术，即将语音帧特征输入神经网络模型，神经网络得到每一帧的预测音素概率值，再经过解码器解码得到最终的语音序列。在这个过程中，训练的模型语音识别的准确率较低。

技术实现要素：

4.本技术的目的是提供一种语音识别模型的训练方法、语音识别方法及相关装置，用以解决在语音识别模型进行语音识别时准确率较低的问题。
5.第一方面，本技术提供一种语音识别模型的训练方法，所述方法包括：
6.将第一音频文件的音频特征数据输入给语音识别模型；其中，所述音频特征数据是通过掩蔽处理得到的，所述掩蔽处理用于将所述音频特征数据以感受野为间隔进行掩蔽；
7.基于所述音频特征数据，对语音识别模型进行训练。
8.在一些实施例中，对所述音频特征数据进行掩蔽处理，所述方法包括：
9.确定以下掩蔽参数中的至少两种参数：掩蔽起点、掩蔽长度和掩蔽终点；
10.将所述掩蔽参数指示数据范围内的音频特征数据进行替换操作。
11.在一些实施例中，所述将所述掩蔽参数指示数据范围内的音频特征数据进行替换操作，所述方法还包括：
12.所述掩蔽参数指示数据范围内的音频特征数据替换为指定值或随机数。
13.在一些实施例中，从所述音频特征数据中筛选出需要掩蔽处理的数据，所述方法包括：
14.对多少音频特征数据进行等间隔采样，各采样区域的尺寸与所述感受野尺寸相同。
15.在一些实施例中，所述采样间隔为所述感受野尺寸。
16.在一些实施例中，所述掩蔽长度小于或等于所述感受野的1/n，n为正整数。
17.在一些实施例中，所述方法还包括：
18.从训练样本集中筛选出所述第一音频特征文件，剩余的音频文件作为第二音频文件；
19.其中，用于训练所述语音识别模型的训练样本还包括第二音频文件的音频特征数据。
20.第二方面，本技术还提供一种语音识别方法，所述方法包括：
21.获取待识别语音；
22.将所述待识别语音输入给如第一方面中任一所述的语音识别模型，得到语音识别结果。
23.第三方面，本技术还提供了一种电子设备，包括：
24.显示器，用于显示音频文件数据的用户界面；
25.存储器，用于存储处理器的可执行指令；
26.处理器，用于执行所述可执行指令，以实现本技术第一方面或第二方面中提供的任一方法。
27.第四方面，本技术一实施例还提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本技术第一方面或第二方面中提供的任一方法。
28.第五方面，本技术一实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如本技术第一方面或第二方面中提供的任一方法。
29.本技术的实施例提供的技术方案至少带来以下有益效果：
30.基于上述语音识别模型的训练方法，增强了语音识别模型的鲁棒性，用户在用语音识别模型进行语音识别时，降低了模型对一部分信息的过度依赖，使得模型更好的兼顾当前信息与上下文信息，提升了语音识别模型的识别率，提升用户体验。
31.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本技术各较佳实施例。
附图说明
32.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
33.图1为本技术实施例提供的一种电子设备的结构示意图；
34.图2为本技术实施例提供的一种语音识别模型的训练方法的流程示意图；
35.图3为本技术实施例提供的一种语音识别模型的训练方法的样本制作的流程示意图；
36.图4为本技术实施例提供的感受野示意图；
37.图5为本技术实施例提供的对音频特征数据进行等感受野间隔掩蔽的效果示意图；
38.图6为本技术实施例提供的一种语音识别模型的训练方法的又一流程示意图。
具体实施方式
39.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。其中，所描述的实施例是
本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
40.并且，在本技术实施例的描述中，除非另有说明，
″
/
″
表示或的意思，例如，a/b可以表示a或b；文本中的
″
和/或
″
仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况，另外，在本技术实施例的描述中，
″
多个
″
是指两个或多于两个。
41.以下，术语
″
第一
″
、
″
第二
″
仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有
″
第一
″
、
″
第二
″
、的特征可以明示或者隐含地包括一个或者更多个该特征，在本技术实施例的描述中，除非另有说明，
″
多个
″
的含义是两个或两个以上。
42.为了解决语音识别模型进行语音识别时准确率较低的问题，发明人对语音识别模型的工作原理进行了研究分析。研究分析出，目前的语音识别技术为了提升语音识别模型的识别性能，每预测一帧的音素输出网络所识别的范围并不只是当前帧的音频帧特征输入，而是一定范围内的连续的音频帧特征，这个范围称作神经网络的感受野，除了与输出帧所对应的输入帧，感受野内的其余帧称作上下文信息，模型对感受野内的数据进行拟合，根据感受野内的数据联合而得到当前帧的预测值。然而由于数据不均衡等问题，语音识别模型会出现
″
训偏
″
的情况，一是表现在对上下文信息过度依赖，二是表现在对当前的输入信息过度依赖，学习不到上下文带来的语义信息，导致出现冗余参数。有鉴于此，本技术实施例提供了一种语音识别模型的训练方法、设备、存储介质和程序产品。
43.下面将结合实施例对本技术提供的语音识别模型的训练方法进行介绍。
44.本技术的发明构思可概括为：在将音频文件的音频特征数据输入给语音识别模型之前，对音频特征数据以感受野为间隔进行掩蔽，然后将掩蔽处理后的音频特征数据输入给语音识别模型，基于音频特征数据，对语音识别模型进行训练。由于进行了等感受野间隔的掩蔽处理，使得样本包括了有上下文，没有上下文，没有上文，没有下文等多种样本，使得语音识别模型能够学习到不同情况下的识别结果，进而提高了模型的鲁棒性。综上，本技术实施例能够通过对音频特征数据进行等感受野间隔的掩蔽处理，降低语音识别模型对部分信息的过度依赖，提升了语音识别模型的识别率，提升了用户体验。
45.在介绍完本技术实施例的主要发明思想之后，下面对本技术实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本技术实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本技术实施例提供的技术方案。
46.首先，图1示出了一种电子设备100的结构示意图。
47.图1中示例性示出了根据示例性实施例中电子设备100的硬件配置框图。下面以电子设备100为例对实施例进行具体说明。应该理解的是，图1所示电子设备100仅是一个范例，并且电子设备100可以具有比图1中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
48.图1为本技术提供的一种电子设备结构示意图，在上述各实施例的基础上，本技术还提供了一种电子设备，如图1所示，包括：处理器101、通信接口102、音频电路103、显示器
104、存储器105和通信总线106，其中，处理器101，通信接口102，音频电路103，显示器104和存储器105通过通信总线106完成相互间的通信；
49.存储器105可用于存储软件程序及数据。处理器101通过运行存储在存储器105的软件程序或数据，从而执行电子设备100的各种功能以及数据处理。存储器105可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器105存储有使得电子设备100能运行的操作系统。本技术中存储器105可以存储操作系统及各种应用程序，还可以存储执行本技术实施例所述方法的程序代码。
50.显示器104可用于接收输入的数字或字符信息，产生与电子设备100的用户设置以及功能控制有关的信号输入，具体地，显示器104可用于显示由用户输入的信息或提供给用户的信息以及电子设备100的各种菜单的图形用户界面(graphical user inter(ace，gui)。具体地，显示器104可以包括设置在电子设备100正面的显示屏。其中，显示屏可以采用液晶显示器、发光二极管等形式来配置。显示单元可以用于显示本技术中空调等家电的用户界面，比如温度、湿度等。
51.音频电路103、扬声器1031、麦克风1032可提供用户与电子设备100之间的音频接口。音频电路103可将接收到的音频数据转换后的电信号，传输到扬声器1031，由扬声器1031转换为声音信号输出。电子设备100还可配置音量按钮，用于调节声音信号的音量。另一方面，麦克风1032将收集的声音信号转换为电信号，由音频电路103接收后转换为音频数据，再将音频数据发送给比如另一电子设备，或者将音频数据输出至存储器105以便进一步处理。本技术中麦克风1032可以获取用户的语音。
52.处理器101是电子设备100的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器105内的软件程序，以及调用存储在存储器105内的数据，执行电子设备100的各种功能和处理数据。在一些实施例中，处理器101可包括一个或多个处理单元；处理器101还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器101中。本技术中处理器101可以运行操作系统、应用程序、用户界面显示及触控响应，以及本技术实施例所述的语音识别模型的训练方法。另外，处理器101与显示器104耦接。
53.上述电子设备提到的通信总线106可以是外设部件互连标准(peripheral component interconnect，pci)总线或扩展工业标准结构(extended industry standard architecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(random access memory，ram)，也可以包括非易失性存储器(non
‑
volatile memory，nvm)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。上述处理器可以是通用处理器，包括中央处理器、网络处理器(network processor，np)等；还可以是数字指令处理器(digital signal processinq，dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
54.本技术实施例中的电子设备100可以为音箱、手机、平板电脑、可穿戴设备、笔记本
电脑、电视、空调、冰箱以及服务器等支持训练语音识别模型的设备。
55.本技术实施例中采用对音频特征数据进行以感受野为间隔的掩蔽处理，以实现降低语音识别模型对部分信息的过度依赖，从而提升语音识别模型的识别率。例如，某空调可调的温度范围为二十度至三十一度，空调语音识别模型识别出的结果即
″
sil二十度
″
、
″
sil二十一度
″
、
″
sil二十二度
″
、
″
sil二十三度
″
、
″
sil二十四度
″
、
″
sil二十五度
″
、
″
sil二十六度
″
、
″
sil二十七度
″
、
″
sil二十八度
″
、
″
sil二十九度
″
、
″
sil三十度
″
、
″
sil三十一度
″
，其中，sil指静音帧输入。若语音识别模型感受野大小足以包含三个字，那么在识别
″
二
″
时模型会识别到
″
sil二十
″
，由于训练数据中有过多的
″
sil二十
″
，在训练中对
″
二
″
的识别过程中会对上文
″
sil
″
和下文
″
十
″
产生过度的依赖，形成绑定的关系。在测试中由于
″
三
″
的上下文与
″
二
″
一致，便会被误识别为
″
二
″
。同样的，对于测试中的样例
″
sil二百
″
，由于上下文信息不一样，也无法正确的识别
″
二
″
。对于另一种情况，在训练通用语音识别模型过程中，由于数据量巨大，上下文信息丰富，模型便会过度关注当前的输入数据而学习不到上下文信息，例如
″
二十一
″
，本技术希望在
″
十
″
发音模糊的情况下模型也能够根据上下文的辅助实现正确的识别。
56.基于上述内容，本技术实施例提供的一种语音识别模型的训练方法的流程示意图如图2所示，可实施为：
57.在步骤201中，将第一音频文件的音频特征数据输入给语音识别模型。
58.在步骤202中，基于第一音频文件的音频特征数据，对语音识别模型进行训练。
59.在一些实施例中，在语音识别模型的训练中未必对所有数据都执行本技术的掩蔽处理，而可以保留一部分数据作为原始音频数据，如第一音频文件的音频特征数据是通过掩蔽处理得到的，而第二音频文件的音频特征数据没有经过掩蔽处理，作为原始音频数据，在语音识别模型训练时，可以将第一音频文件的音频特征数据和第二音频文件的音频特征数据都输入给模型中对该模型进行训练，这两种数据提供了多样化的样本，从而提高音频识别模型的鲁棒性和识别率。
60.在一些实施例中，本技术实施例提供的一种语音识别模型的训练方法的样本制作的流程示意图如图3所示，包括以下内容：
61.在步骤301中，将第一音频文件的音频特征数据输入给语音识别模型之前，从该音频特征数据中筛选出需要掩蔽处理的数据。
62.在一些实施例中，从音频特征数据中筛选出需要掩蔽处理的数据，可实施为：确定进行等间隔采样的第一音频文件的音频特征数据的数量，然后对该音频特征数据进行等感受野间隔采样，使得各采样区域的尺寸与感受野尺寸相同。其中，感受野如图4所示，图4表示一个输出节点感知的输入节点数为5，该输出节点的感受野等于5，对应输入节点
″3″
的音素预测值。采样间隔为感受野尺寸，即每个掩蔽之间的间隔均为感受野的尺寸。
63.在步骤302中将音频特征数据以感受野为间隔进行掩蔽处理，可实施为，以感受野为间隔随机确定以下掩蔽参数中的至少两种参数：掩蔽起点、掩蔽长度和掩蔽终点。确定以上掩蔽参数中的至少两种参数即确定了掩蔽的范围，其中，掩蔽长度小于或等于感受野的1/n，n为正整数。例如，n为3，则掩蔽长度小于或等于感受野的1/3。在图5中，对一段语音信号以感受野为间隔进行掩蔽，图中灰色的竖状矩形区域内执行掩蔽操作，同时掩蔽长度均等于感受野的1/3(具体长度不限定)，掩蔽的间隔filed即为感受野的尺寸。于是在模型在
训练过程中，预测
″1″
时只能识别到输入数据的上下文信息，只能根据上下文信息进行识别，预测
″2″
时可以识别完整信息，可以根据完整信息识别，预测
″3″
时根据完整的上文信息和一部分当前信息识别，预测
″4″
时根据完整的下文信息和一部分当前信息识别，而掩蔽的位置和长度在训练中的动态随机的，因而防止了语音识别模型对一部分信息的过度依赖，增强了语音识别模型对全局信息的适应性。
64.在一些实施例中，掩蔽可实施为将掩蔽参数指示数据范围内的音频特征数据进行替换操作。可以替换为指定值或随机数，还可以是指定取值范围内的任意值。例如，将掩蔽参数指示数据范围内的音频特征数据替换为0，或者，将掩蔽参数指示数据范围内的音频特征数据替换为高斯分布的随机数。在将掩蔽参数指示数据范围内的音频特征数据替换之后，语音识别模型将不再获取掩蔽范围内的真实信息。
65.在步骤303中，基于掩蔽处理后的音频特征数据，对语音识别模型进行训练。
66.在一些实施例中，本技术实施例提供的一种语音识别模型的训练方法的样本制作的另一个流程示意图如图6所示，包括以下内容：
67.在步骤601中，获取音频文件样本x，确定掩蔽的起点为0至感受野范围内的随机值，即m_start＝random(0，filed)。其中，m_start表示掩蔽的起点，filed表示感受野，random表示随机范围。
68.在步骤602中，确定掩蔽的长度为随机0至感受野的1/3，即m_len＝random(0，filed/3)，m_end＝m_start m_len。其中，m_len表示掩蔽的长度，m_end表示掩蔽的终点。
69.在步骤603中，将掩蔽参数指示数据范围内的音频特征数据替换为0，即x[m_start：m_end]＝0。其中，x[m_start：m_end]表示掩蔽数据。
[0070]
在步骤604中每隔固定的感受野的长度对音频文件样本x实施掩蔽处理，即m_start＝m_end filed。
[0071]
在步骤605中，判断是否到达音频文件x的末尾。若到达音频文件x的末尾，则完成了对音频文件x的掩蔽处理，若未到达音频文件x的末尾，则回到步骤602继续对音频文件x的掩蔽处理。
[0072]
采用上述对音频特征数据以感受野为间隔进行掩蔽处理的方法，可以降低语音识别模型对感受野范围内的部分信息的过度依赖，进而增强了语音识别模型对全局信息的适应性，提升了语音识别模型的识别率。
[0073]
基于相同的发明构思，本技术还提供一种语音识别方法，该方法中可以获取待识别语音，然后输入给前文所述的训练好的语音识别模型，由此得到语音识别结果。之后，电子设备可以基于该语音识别结果执行相应的操作。例如空调可识别用户指令为将温度调至21℃，则空调根据设定的目标温度21℃进行制冷或制热。
[0074]
此外，尽管在附图中以特定顺序描述了本技术方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
[0075]
本技术提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本技术总的构思下的几个示例，并不构成本技术保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本技术方案所扩展出的任何其他实施方式都属
于本技术的保护范围。
[0076]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
[0077]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0078]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0079]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0080]
显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音识别模型的训练方法、语音识别方法及相关装置与流程

相关文献

最热文献