语音识别方法、装置、设备及计算机可读存储介质与流程

2022-06-22 19:09:30 来源：中国专利 TAG：

1.本发明涉及语音处理技术领域，尤其涉及一种语音识别方法、装置、设备及计算机可读存储介质。

背景技术：

2.目前，随着语音识别技术的发展，语音识别功能得到越来越广泛的应用，对语音识别的准确度要求也越来越高。目前一种语音识别方法是基于声学特征的比较来进行确定语音数据的识别结果，但是，这种方法的泛化性不强，针对不同的器件需要人工进行分别调参。基于深度学习的语音识别方法可以克服泛化性不强的问题，但是目前的深度学习语音识别方法存在识别准确率低的问题。

技术实现要素：

3.本发明的主要目的在于提供一种语音识别方法、装置、设备及计算机可读存储介质，旨在解决目前的深度学习语音识别方法存在的识别准确率低的问题。
4.为实现上述目的，本发明提供一种语音识别方法，所述语音识别方法包括以下步骤：
5.将待识别语音数据从时域数据转换为第一时频图；
6.将所述第一时频图输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果；
7.其中，所述目标卷积神经网络通过预先采用语音训练样本集训练得到。
8.可选地，所述将所述第一时频图输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果的步骤包括：
9.将所述第一时频图的尺寸调整为预设尺寸后输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果。
10.可选地，所述将待识别语音数据从时域数据转换为第一时频图的步骤之前，还包括：
11.获取预先采集的语音训练样本集，其中，所述语音训练样本集中包括多条训练样本，所述训练样本包括一条训练语音数据和所述训练语音数据对应的类别标签；
12.采用所述语音训练样本集对初始化的待训练卷积神经网络进行至少一轮迭代训练，得到所述目标卷积神经网络。
13.可选地，采用所述语音训练样本集对待训练卷积神经网络进行一轮迭代训练的步骤包括：
14.检测本轮训练的轮次是否大于预设轮次；
15.若本轮训练的轮次大于预设轮次，则将所述语音训练样本集中各条训练样本的训练语音数据添加预设噪声，再采用添加噪声后的所述语音训练样本集对上一轮训练后的待训练卷积神经网络进行一轮迭代训练，得到本轮训练后的待训练卷积神经网络。
16.可选地，所述检测本轮训练的轮次是否大于预设轮次的步骤之后，还包括：
17.若本轮训练的轮次小于或等于所述预设轮次，则采用所述语音训练样本集对上一轮训练后的待训练卷积神经网络进行一轮迭代训练，得到本轮训练后的待训练卷积神经网络。
18.可选地，采用所述语音训练样本集对待训练卷积神经网络进行一轮迭代训练的步骤包括：
19.将所述语音训练样本集中各条所述训练样本的训练语音数据分别从时域数据转换为第二时频图；
20.将各所述第二时频图分别输入上一轮训练后的待训练卷积神经网络进行识别，得到各条所述训练样本分别对应的第二分类结果；
21.根据各条所述训练样本对应的所述第二分类结果和所述类别标签计算损失函数；
22.根据所述损失函数计算上一轮训练后的待训练卷积神经网络中各个网络参数的梯度值；
23.根据各所述梯度值对应更新上一轮训练后的待训练卷积神经网络中的各个网络参数，得到本轮训练后的待训练卷积神经网络。
24.可选地，所述将待识别语音数据从时域数据转换为第一时频图的步骤之前，还包括：
25.获取耳机设备中前馈麦克风拾取到的声音信号，将所述声音信号作为待识别语音数据；
26.所述将所述第一时频图输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果的步骤之后，还包括：
27.若根据所述第一分类结果确定所述耳机设备所处环境中存在说话声，则开启所述耳机设备中的透传模式；
28.若根据所述第一分类结果确定所述耳机设备所处环境中不存在说话声，则开启所述耳机设备中的主动降噪模式。
29.为实现上述目的，本发明还提供一种语音识别装置，所述语音识别装置包括：
30.转换模块，用于将待识别语音数据从时域数据转换为第一时频图；
31.识别模块，用于将所述第一时频图输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果；
32.其中，所述目标卷积神经网络通过预先采用语音训练样本集训练得到。
33.为实现上述目的，本发明还提供一种语音识别设备，所述语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。
34.此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上所述的语音识别方法的步骤。
35.本发明中，通过将待识别语音数据从时域数据转换为时频图，将时频图输入预先采用语音训练样本集训练得到目标卷积神经网络进行识别，得到待识别语音数据的分类结果。相比于采用深度学习模型对一维形式的语音数据进行处理，由于神经网络对一维数据
不敏感而导致语音识别准确率低，本发明中将待识别语音数据从一维的时域数据转换为二维的时频图，再采用卷积神经网络进行处理，提高了语音识别的准确率。
附图说明
36.图1为本发明实施例方案涉及的硬件运行环境的结构示意图；
37.图2为本发明语音识别方法第一实施例的流程示意图；
38.图3为本发明语音识别装置较佳实施例的功能模块示意图。
39.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
40.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
41.如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
42.需要说明的是，本发明实施例语音识别设备，所述语音识别设备可以是智能手机、个人计算机、服务器等设备，在此不做具体限制。
43.如图1所示，该语音识别设备可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
44.本领域技术人员可以理解，图1中示出的设备结构并不构成对语音识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
45.如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别程序。操作系统是管理和控制设备硬件和软件资源的程序，支持语音识别程序以及其它软件或程序的运行。在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于与服务器建立通信连接；而处理器1001可以用于调用存储器1005中存储的语音识别程序，并执行以下操作：
46.将待识别语音数据从时域数据转换为第一时频图；
47.将所述第一时频图输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果；
48.其中，所述目标卷积神经网络通过预先采用语音训练样本集训练得到。
49.进一步地，所述将所述第一时频图输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果的操作包括：
50.将所述第一时频图的尺寸调整为预设尺寸后输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果。
51.进一步地，所述将待识别语音数据从时域数据转换为第一时频图的操作之前，处理器1001还可以用于调用存储器1005中存储的语音识别程序，执行以下操作：
52.获取预先采集的语音训练样本集，其中，所述语音训练样本集中包括多条训练样
本，所述训练样本包括一条训练语音数据和所述训练语音数据对应的类别标签；
53.采用所述语音训练样本集对初始化的待训练卷积神经网络进行至少一轮迭代训练，得到所述目标卷积神经网络。
54.进一步地，采用所述语音训练样本集对待训练卷积神经网络进行一轮迭代训练的操作包括：
55.检测本轮训练的轮次是否大于预设轮次；
56.若本轮训练的轮次大于预设轮次，则将所述语音训练样本集中各条训练样本的训练语音数据添加预设噪声，再采用添加噪声后的所述语音训练样本集对上一轮训练后的待训练卷积神经网络进行一轮迭代训练，得到本轮训练后的待训练卷积神经网络。
57.进一步地，所述检测本轮训练的轮次是否大于预设轮次的操作之后，处理器1001还可以用于调用存储器1005中存储的语音识别程序，执行以下操作：
58.若本轮训练的轮次小于或等于所述预设轮次，则采用所述语音训练样本集对上一轮训练后的待训练卷积神经网络进行一轮迭代训练，得到本轮训练后的待训练卷积神经网络。
59.进一步地，采用所述语音训练样本集对待训练卷积神经网络进行一轮迭代训练的操作包括：
60.将所述语音训练样本集中各条所述训练样本的训练语音数据分别从时域数据转换为第二时频图；
61.将各所述第二时频图分别输入上一轮训练后的待训练卷积神经网络进行识别，得到各条所述训练样本分别对应的第二分类结果；
62.根据各条所述训练样本对应的所述第二分类结果和所述类别标签计算损失函数；
63.根据所述损失函数计算上一轮训练后的待训练卷积神经网络中各个网络参数的梯度值；
64.根据各所述梯度值对应更新上一轮训练后的待训练卷积神经网络中的各个网络参数，得到本轮训练后的待训练卷积神经网络。
65.进一步地，所述将待识别语音数据从时域数据转换为第一时频图的操作之前，处理器1001还可以用于调用存储器1005中存储的语音识别程序，执行以下操作：
66.获取耳机设备中前馈麦克风拾取到的声音信号，将所述声音信号作为待识别语音数据；
67.所述将所述第一时频图输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果的操作之后，处理器1001还可以用于调用存储器1005中存储的语音识别程序，执行以下操作：
68.若根据所述第一分类结果确定所述耳机设备所处环境中存在说话声，则开启所述耳机设备中的透传模式；
69.若根据所述第一分类结果确定所述耳机设备所处环境中不存在说话声，则开启所述耳机设备中的主动降噪模式。
70.基于上述的结构，提出语音识别方法的各个实施例。
71.参照图2，图2为本发明语音识别方法第一实施例的流程示意图。
72.本发明实施例提供了语音识别方法的实施例，需要说明的是，虽然在流程图中示
出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中，语音识别方法的执行主体可以是个人电脑、智能手机等设备中，在本实施例中并不做限制，以下为便于描述，以识别系统为执行主体进行各实施例的阐述。在本实施例中，所述语音识别方法包括：
73.步骤s10，将待识别语音数据从时域数据转换为第一时频图；
74.将需要进行语音识别的语音数据称为待识别语音数据。语音识别的目标可以是识别该待识别语音数据中是否包含人说话声，也可以是识别该待识别语音数据中是否包含特定对象的说话声(也即识别具体是哪个人在说话)，具体可以根据需要设置识别目标，在本实施例中并不做限制。
75.识别系统可以先获取待识别语音数据。其中，在具体实施方式中，识别系统获取待识别语音数据的方式可以有很多种，例如可以是接收其他设备发送的语音数据，也可以是从识别系统的存储模块获取语音数据，又或者是从与识别系统连接的麦克风获取麦克风实时采集的语音数据，在本实施例中并不限制待识别语音数据的获取方式。
76.识别系统对获取到的待识别语音数据进行识别，具体可以先将待识别语音数据从时域数据转换为时频图(也称时频谱图、语谱图，以下称为第一时频图以示区分)。其中，待识别语音数据是由各个时间点的声音信号组成的数据，属于时域数据，其是一维形式的。识别系统可以先将语音数据作傅里叶变换，然后以横轴为时间，纵轴为频率，用颜色表示幅值绘制出一幅图，该图即转换得到的时频图，时频图是二维形式的。
77.步骤s20，将所述第一时频图输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果；其中，所述目标卷积神经网络通过预先采用语音训练样本集训练得到。
78.预先可以采用语音训练样本集训练得到一个目标卷积神经网络，该目标卷积神经网络用于基于语音数据的时频图进行识别得到该语音数据的分类结果。根据语音识别目标不同，分类结果也不同，例如，语音识别目标为识别该语音数据中是否包含人说话声时，分类结果可以为表示“是”或“否”的结果，语音识别目标为识别该语音数据中是否包含特定对象的说话声时，分类结果可以为类别，该类别用于指示某一对象，以表示语音数据中包含该对象的说话声。语音训练样本集可以为预先采集的包含多条训练语音数据的样本集，具体获取方式在本实施例中并不做限制。采用语音训练样本集训练目标卷积神经网络的方式有很多种，例如可以采用有监督学习方法，具体采用哪种方法在本实施例中并不做限制。目标卷积神经网络可以是有识别系统训练得到的，也可以是由其他设备训练得到再部署到识别系统中的，具体在本实施例中并不做限制。例如，在一实施方式中，当识别系统部署于耳机设备中时，耳机设备可以从服务器中获取训练好的目标卷积神经网络，以用于对耳机设备麦克风拾取到的语音数据进行语音识别，进而根据语音识别结果执行相应的功能。
79.识别系统可以将第一时频图输入目标卷积神经网络进行识别，得到待识别语音数据的分类结果(以下称为第一分类结果)。在本实施例中，对目标卷积神经网络所采用的网络结构不做限制，例如对目标卷积神经网络中包含的卷积层的个数、全连接层的个数、所采取的分类器种类等并不做限制。采用目标卷积神经网络对第一时频图进行识别具体可以是采用卷积神经网络中的卷积层对第一时频图进行卷积处理，采用全连接层对卷积层输出的特征图进行特征映射，采用分类器基于特征映射的结果作出分类结果。根据卷积神经网络
所采用的网络结构不同，采用目标卷积神经网络对第一时频图进行处理的过程也存在细节差异，在此不再一一展开赘述。
80.进一步地，在一实施方式中，所述步骤s20包括：
81.步骤s201，将所述第一时频图的尺寸调整为预设尺寸后输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果。
82.在本实施例中，当待识别语音数据转换得到的第一时频图的尺寸不符合目标卷积神经网络的输入数据的尺寸时，识别系统可以先将第一时频图的尺寸进行调整，以得到预设尺寸的图像数据，再将预设尺寸的图像数据输入目标卷积神经网络进行识别，得到待识别语音数据的第一分类结果。其中，预设尺寸为目标卷积神经网络的输入数据的尺寸，预先可以根据需要进行设置，例如，可以设置为80*80。对第一时频图的尺寸进行调整的方式有很多种，在本实施例中并不做限制。例如，当第一时频图的尺寸大于目标卷积神经网络的输入数据的尺寸时，识别系统可以将第一时频图进行裁剪或缩小，当第一时频图的尺寸小于目标卷积神经网络的输入数据的尺寸时，识别系统可以将第一时频图进行补齐或放大。
83.在本实施例中，通过将待识别语音数据从时域数据转换为时频图，将时频图输入预先采用语音训练样本集训练得到目标卷积神经网络进行识别，得到待识别语音数据的分类结果。相比于采用深度学习模型对一维形式的语音数据进行处理，由于神经网络对一维数据不敏感而导致语音识别准确率低，本实施例中将待识别语音数据从一维的时域数据转换为二维的时频图，再采用卷积神经网络进行处理，提高了语音识别的准确率。
84.进一步地，基于上述第一实施例，提出本发明语音识别方法第二实施例。在本实施例中，所述步骤s10之前，还包括：
85.步骤s30，获取预先采集的语音训练样本集，其中，所述语音训练样本集中包括多条训练样本，所述训练样本包括一条训练语音数据和所述训练语音数据对应的类别标签；
86.在本实施例中，提出一种训练目标卷积神经网络的方法。具体地，识别系统可以获取预先采集的语音训练样本集。语音训练样本集中可以包括多条训练样本，一条训练样本可以包括一条训练语音数据和该训练语音数据对应的类别标签。根据语音识别的目标不同，类别标签不同；例如，当语音识别的目标是识别语音数据中是否包含人说话声时，类别标签可以有两种，一种表示“是”，一种表示“否”，例如，用1表示“是”，用0表示“否”；当语音识别的目标是识别语音数据中是否包含特定对象的说话声时，类别标签可以有多种，分别用于表示各个对象。类别标签可以采用人工标注，也可以采用自动工具标注，具体在本实施例中并不做限制。
87.步骤s40，采用所述语音训练样本集对初始化的待训练卷积神经网络进行至少一轮迭代训练，得到所述目标卷积神经网络。
88.可以将初始化的待训练卷积神经网络预置在识别系统中，识别系统根据用于指示开启训练的指令或请求，对初始化的待训练卷积神经网络进行训练。其中，初始化的待训练卷积神经网络可以是根据经验进行初始化的，初始化具体可以是指设置待训练卷积神经网络的网络结构，以及初始化待训练卷积神经网络中的各个参数。
89.识别系统对待训练卷积神经网络可以进行至少一轮的迭代训练，将最后一轮迭代训练后的待训练卷积神经网络作为目标卷积神经网络，以在需要进行语音识别时，采用目标卷积神经网络进行语音识别。其中，迭代训练是指每一轮训练是基于上一轮训练后的待
训练卷积神经网络进行的，而训练可以是指更新待训练卷积神经网络中的各个参数，例如参数是向量或矩阵形式，那么训练参数即更新向量或矩阵中的各个元素。
90.在本实施例中，对识别系统进行迭代训练的轮数并不做限制，例如可以是设置为当检测到待训练卷积神经网络收敛时停止迭代训练，或设置为当整个训练过程持续一定的时长时停止迭代训练，或设置为当迭代训练的轮数达到一定的轮数时停止迭代训练。其中，待训练卷积神经网络收敛的条件可以设置为待训练卷积神经网络的损失函数收敛，或设置为待训练卷积神经网络中的参数连续多轮不再变化或变化小于一定范围等，具体在本实施例中并不做限制。
91.进一步地，在一实施方式中，所述步骤s40中采用所述语音训练样本集对待训练卷积神经网络进行一轮迭代训练的步骤包括：
92.步骤s401，检测本轮训练的轮次是否大于预设轮次；
93.识别系统对待训练卷积神经网络进行各轮迭代训练的过程也可以不同。在本实施方式中，识别系统可以后几轮采用添加噪声的训练语音样本集进行训练，以提高卷积神经网络的抗噪能力。
94.具体地，识别系统在开始本轮训练时，可以先检测本轮训练的轮次是否大于预设轮次。其中，预设轮次可以根据经验需要进行设置，也可以由识别系统根据待训练卷积神经网络的收敛情况来确定。例如，在一实施方式中，识别系统可以在一轮训练结束后，检测待训练卷积神经网络是否收敛；若收敛，则将本轮轮次作为预设轮次，且后续不再对预设轮次做改变；若未收敛，则将本轮轮次的下一轮次作为预设轮次，后续根据收敛情况再对预设轮次做更新，以此实现当在待训练卷积神经网络收敛后，再采用添加噪声的训练语音样本集进行继续训练，避免待训练卷积神经网络在未收敛的情况下才有添加噪声的数据进行训练导致卷积神经网络的学习方向走偏，也即，通过限制在待训练卷积神经网络收敛之后再采用添加噪声的训练语音样本集继续训练，可以实现在提高卷积神经网络的抗噪能力同时，缩短训练时长，提高训练效率。
95.步骤s402，若本轮训练的轮次大于预设轮次，则将所述语音训练样本集中各条训练样本的训练语音数据添加预设噪声，再采用添加噪声后的所述语音训练样本集对上一轮训练后的待训练卷积神经网络进行一轮迭代训练，得到本轮训练后的待训练卷积神经网络。
96.若本轮训练的轮次大于预设轮次，则识别系统可以将语音训练样本集中各条训练样本的训练语音数据添加预设噪声，再采用添加噪声后的语音训练样本集对上一轮训练后的待训练卷积神经网络进行一轮迭代训练，得到本轮训练后的待训练卷积神经网络。其中，预设噪声可以根据需要进行设置，例如可以设置为高斯噪声，每一轮训练时添加的预设噪声可以是相同的也可以是不同的，在此并不做限制。
97.识别系统采用添加噪声后的语音训练样本集对上一轮训练后的待训练卷积神经网络进行一轮迭代训练具体可以是：将语音训练样本集的各条训练样本中添加噪声的训练语音数据分别从时域数据转换为时频图；将各时频图分别输入上一轮训练后的待训练卷积神经网络(如果是第一轮，那么就是输入初始化的待训练卷积神经网络)进行识别，得到各条训练样本分别对应的分类结果；根据各条训练样本对应的分类结果和类别标签计算损失函数；根据损失函数计算上一轮训练后的待训练卷积神经网络中各个网络参数的梯度值；
根据各所述梯度值对应更新上一轮训练后的待训练卷积神经网络中的各个网络参数，得到本轮训练后的待训练卷积神经网络。
98.进一步地，在一实施方式中，所述步骤s401之后，还包括：
99.步骤s403，若本轮训练的轮次小于或等于所述预设轮次，则采用所述语音训练样本集对上一轮训练后的待训练卷积神经网络进行一轮迭代训练，得到本轮训练后的待训练卷积神经网络。
100.若本轮训练的轮次小于或等于预设轮次，则识别系统可以将直接采用语音训练样本集对上一轮训练后的待训练卷积神经网络进行一轮迭代训练，得到本轮训练后的待训练卷积神经网络。通过在前几轮迭代训练过程中直接采用语音训练样本集对待训练卷积神经网络进行训练，能够避免待训练卷积神经网络的学习方向走偏，从而实现在提高卷积神经网络的抗噪能力同时，缩短训练时长，提高训练效率。
101.进一步地，在一实施方式中，所述步骤s40中采用所述语音训练样本集对待训练卷积神经网络进行一轮迭代训练的步骤包括：
102.步骤s404，将所述语音训练样本集中各条所述训练样本的训练语音数据分别从时域数据转换为第二时频图；
103.识别系统对待训练卷积神经网络进行每轮迭代训练的过程可以是相同的，以一轮训练过程为例进行描述。
104.识别系统可以将语音训练样本集中各条训练样本的训练语音数据分别从时域数据转换为时频图(以下称为第二时频图以示区分)。将训练语音数据从时域数据转换为第二时频图的具体实施方式可以参照上述第一实施例中将待识别语音数据转换为第一时频图的具体实施方式中，在此不再赘述。
105.步骤s405，将各所述第二时频图分别输入上一轮训练后的待训练卷积神经网络进行识别，得到各条所述训练样本分别对应的第二分类结果；
106.识别系统在得到各条训练样本对应的第二时频图后，将各个第二时频图分别输入上一轮训练后的待训练卷积神经网络(如果是第一轮，那么就是输入初始化的待训练卷积神经网络)进行识别，得到各条训练样本分别对应的分类结果(以下称为第二分类结果以示区分)。采用待训练卷积神经网络对第二时频图进行识别得到第二分类结果的具体实施方式中可以参照上述第一实施例中采用目标卷积神经网络对第一时频图进行识别得到第一分类结果的具体实施方式中，在此不再赘述。
107.步骤s406，根据各条所述训练样本对应的所述第二分类结果和所述类别标签计算损失函数；
108.识别系统在得到各条训练样本对应的第二分类结果后，可以根据各条训练样本对应的第二分类结果和类别标签计算损失函数。该损失函数可以采用常规的损失函数，例如交叉熵损失函数，在本实施例中并不做限制，对计算过程也不做赘述。
109.步骤s407，根据所述损失函数计算上一轮训练后的待训练卷积神经网络中各个网络参数的梯度值；
110.步骤s408，根据各所述梯度值对应更新上一轮训练后的待训练卷积神经网络中的各个网络参数，得到本轮训练后的待训练卷积神经网络。
111.识别系统可以计算损失函数对上一轮训练后的待训练卷积神经网络中各个网络
参数的梯度值。其中，计算梯度值的方法可以是采用反向传播方法，具体计算过程在此不做赘述。在得到梯度值后，可以采用梯度值对应更新各个网络参数，得到本轮训练后的待训练卷积神经网络。其中，需要说明的是，待训练卷积神经网络中包括多个网络参数，分别计算每个网络参数的梯度值，对每个网络参数，采用该网络参数的梯度值来更新该网络参数。
112.进一步地，基于上述第一和/第二实施例，提出本发明语音识别方法第三实施例。在本实施例中，所述步骤s10之前，还包括：
113.步骤s50，获取耳机设备中前馈麦克风拾取到的声音信号，将所述声音信号作为待识别语音数据；
114.在本实施例中，识别系统可以部署于耳机设备中，或者是部署于与耳机设备所连接的设备中，以用于对耳机设备中麦克风拾取到的声音信号进行识别，根据识别结果来设置耳机设备中的功能模式。
115.具体地，识别系统可以获取耳机设备中前馈麦克风拾取到的声音信号，将该声音信号作为待识别语音数据。其中，前馈麦克风是设置在耳机设备靠近外界环境一侧的麦克风，用于拾取外界环境中的声音信号。
116.所述步骤s20之后，还包括：
117.步骤s60，若根据所述第一分类结果确定所述耳机设备所处环境中存在说话声，则开启所述耳机设备中的透传模式；
118.语音识别的识别目标可以预先设置为是否有说话声，那么识别系统对待识别语音数据进行识别得到的第一分类结果可以是表征耳机设备所处环境中是否存在说话声的结果。若识别系统根据第一分类结果确定耳机设备所处环境中存在说话声，则可以开启耳机设备中的透传模式，以使得用户可以听清外界环境中的说话声，进而进行回应，避免用户因佩戴耳机听不清外界说话声而导致错过重要信息或无法及时避险。
119.步骤s70，若根据所述第一分类结果确定所述耳机设备所处环境中不存在说话声，则开启所述耳机设备中的主动降噪模式。
120.若识别系统根据第一分类结果确定耳机设备所处环境中不存在说话声，则可以开启耳机设备中的主动降噪模式，以使得用户不受外界环境噪声的影响，提高用户使用耳机设备的体验。
121.此外，本发明实施例还提出一种语音识别装置，参照图3，所述语音识别装置包括：
122.转换模块10，用于将待识别语音数据从时域数据转换为第一时频图；
123.识别模块20，用于将所述第一时频图输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果；其中，所述目标卷积神经网络通过预先采用语音训练样本集训练得到。
124.进一步地，所述识别模块20还用于：
125.将所述第一时频图的尺寸调整为预设尺寸后输入目标卷积神经网络进行识别，得到所述待识别语音数据的第一分类结果。
126.进一步地，所述语音识别装置还包括：
127.第一获取模块，用于获取预先采集的语音训练样本集，其中，所述语音训练样本集中包括多条训练样本，所述训练样本包括一条训练语音数据和所述训练语音数据对应的类别标签；
128.训练模块，用于采用所述语音训练样本集对初始化的待训练卷积神经网络进行至少一轮迭代训练，得到所述目标卷积神经网络。
129.进一步地，所述训练模块还用于：
130.检测本轮训练的轮次是否大于预设轮次；
131.若本轮训练的轮次大于预设轮次，则将所述语音训练样本集中各条训练样本的训练语音数据添加预设噪声，再采用添加噪声后的所述语音训练样本集对上一轮训练后的待训练卷积神经网络进行一轮迭代训练，得到本轮训练后的待训练卷积神经网络。
132.进一步地，所述训练模块还用于：
133.若本轮训练的轮次小于或等于所述预设轮次，则采用所述语音训练样本集对上一轮训练后的待训练卷积神经网络进行一轮迭代训练，得到本轮训练后的待训练卷积神经网络。
134.进一步地，所述训练模块还用于：
135.将所述语音训练样本集中各条所述训练样本的训练语音数据分别从时域数据转换为第二时频图；
136.将各所述第二时频图分别输入上一轮训练后的待训练卷积神经网络进行识别，得到各条所述训练样本分别对应的第二分类结果；
137.根据各条所述训练样本对应的所述第二分类结果和所述类别标签计算损失函数；
138.根据所述损失函数计算上一轮训练后的待训练卷积神经网络中各个网络参数的梯度值；
139.根据各所述梯度值对应更新上一轮训练后的待训练卷积神经网络中的各个网络参数，得到本轮训练后的待训练卷积神经网络。
140.进一步地，所述语音识别装置还包括：
141.第二获取模块，用于获取耳机设备中前馈麦克风拾取到的声音信号，将所述声音信号作为待识别语音数据；
142.所述语音识别装置还包括：
143.设置模块，用于若根据所述第一分类结果确定所述耳机设备所处环境中存在说话声，则开启所述耳机设备中的透传模式；若根据所述第一分类结果确定所述耳机设备所处环境中不存在说话声，则开启所述耳机设备中的主动降噪模式。
144.本发明语音识别装置的具体实施方式的拓展内容与上述语音识别方法各实施例基本相同，在此不做赘述。
145.此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如下所述的语音识别方法的步骤。
146.本发明语音识别设备和计算机可读存储介质各实施例，均可参照本发明语音识别方法各个实施例，此处不再赘述。
147.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
148.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
149.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
150.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音验证处理的方法以及相关装置与流程

语音识别方法、装置、设备及计算机可读存储介质与流程

相关文献

最热文献