一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音识别、网络模型的训练方法、装置、设备和存储介质与流程

2022-04-06 16:28:15 来源:中国专利 TAG:


1.本技术涉及语音识别技术领域,具体涉及一种语音识别方法和装置、语音识别网络模型的训练方法和装置、计算机设备,以及存储介质。


背景技术:

2.语音识别是通过机器学习方法让机器能够自动的将语音转换成对应的文字,从而赋予了机器类似人的听觉的功能,是人工智能的重要组成部分。随着语音输入使用场景的日益复杂,例如卖场等高噪声场景,对现有语音识别系统的要求越来越高。现有的语音识别系统在远场多点噪声场景下,识别效果较差。


技术实现要素:

3.有鉴于此,本技术实施例提供了一种语音识别方法和装置、语音识别网络模型的训练方法和装置、计算机设备,以及存储介质,以解决现有技术中语音识别系统识别效果较差的问题。
4.本技术第一方面提供了一种语音识别方法,包括:基于初始说话人波束和多路语音信号确定第一目标说话人波束,初始说话人波束基于多路语音信号的波束成形过程得到,第一目标说话人波束指示多路语音信号各自在初始说话人波束所在方向上的声音信息;基于第一目标说话人波束和多路语音信号确定噪声波束,噪声波束指示多路语音信号中除了第一目标说话人波束之外的声音信息;基于噪声波束和唤醒波束对第一目标说话人波束进行滤波,得到第二目标说话人波束,唤醒波束指示包含唤醒词的波束;对第二目标说话人波束进行语音识别,得到识别文本。
5.在一个实施例中,基于初始说话人波束和多路语音信号确定第一目标说话人波束包括:基于多路语音信号确定多个固定波束,多个固定波束和多个预设方向一一对应;基于多个固定波束确定多个自适应波束,多个自适应波束和多个固定波束一一对应,自适应波束包括多个固定波束在自适应波束所在预设方向上的语音信息;过滤掉多个固定波束和多个自适应波束中初始说话人波束所在方向之外的语音信息,得到第一目标说话人波束。在一个实施例中,基于多个固定波束确定多个自适应波束包括:针对每个固定波束,确定固定波束和其余固定波束的第一方向相关系数向量;确定第一方向相关系数向量和固定波束的乘积为自适应波束。
6.在一个实施例中,过滤掉多个固定波束和多个自适应波束中初始说话人波束所在方向之外的语音信息,得到第一目标说话人波束包括:分别确定多个固定波束和多个自适应波束各自与初始说话人波束的第二方向相关系数向量;确定第二方向相关系数向量和初始说话人波束的乘积为第一目标说话人波束。
7.在一个实施例中,基于第一目标说话人波束对多路语音信号进行过滤,得到噪声波束包括:对第一目标说话人波束和多路语音信号进行声学特征提取,分别得到第一特征信息和第二特征信息;确定第二特征信息中和第一特征信息不匹配的第三特征信息;确定
第三特征信息对应的声音信号为噪声波束。
8.在一个实施例中,基于噪声波束和唤醒波束对第一目标说话人波束进行过滤,得到第二目标说话人波束包括:对第一目标说话人波束、噪声波束和唤醒波束进行声学特征提取,分别得到第四特征信息、第五特征信息和第六特征信息;确定第四特征信息中与第五特征信息匹配的第七特征信息;确定第四特征信息中除了第七特征信息之外的特征信息中与第六特征信息匹配的第八特征信息;确定第八特征信息对应的声音信号为第二目标说话人波束。
9.在一个实施例中,对第一目标说话人波束、噪声波束和唤醒波束进行声学特征提取包括:对第一目标说话人波束、噪声波束和唤醒波束进行能量谱声学特征提取。
10.在一个实施例中,在对第一目标说话人波束、噪声波束和唤醒波束进行声学特征提取,分别得到第四特征信息、第五特征信息和第六特征信息之后,还包括:分别识别第四特征信息、第五特征信息和第六特征信息中的有效音频信息;确定第四特征信息中与第五特征信息匹配的第七特征信息包括:确定第四特征信息的有效音频信息中与第五特征信息的有效音频信息匹配的第七特征信息;确定第四特征信息中除了第七特征信息之外的特征信息中与第六特征信息匹配的第八特征信息包括:确定第四特征信息的有效音频信息中除了第七特征信息之外的特征信息中与第六特征信息的有效音频信息匹配的第八特征信息。
11.本技术第二方面提供了一种语音识别网络模型的训练方法,语音识别网络模型包括二次波束成形模块和后置滤波模块;训练方法包括:初始说话人波束样本和多路语音信号样本输入二次波束成形模块,得到第一目标说话人波束样本和噪声波束样本,初始说话人波束样本是多路语音信号样本经过前端波束成形模块的处理后得到的,多路语音信号样本包括说话人语音样本;第一目标说话人波束样本、噪声波束样本和唤醒波束样本输入后置滤波模块,得到第二目标说话人波束样本,唤醒波束是多路语音信号经过唤醒模块的处理后得到的;说话人语音样本、噪声波束样本和唤醒波束样本输入后置滤波模块,得到第二目标说话人波束参量;基于第二目标说话人波束样本和第二目标说话人波束参量对二次波束成形模块和后置滤波模块进行训练。
12.在一个实施例中,说话人语音样本标注有文本数据;语音识别网络模型还包括语音识别模块;训练方法还包括:第二目标说话人波束样本和第二目标说话人波束参量输入语音识别模块,分别得到识别文本和识别文本参量;基于识别文本、识别文本参量和文本数据对语音识别模块、后置滤波模块和二次波束成形模块进行反向传播训练。
13.本技术第三方面提供了一种语音识别装置,包括:第一确定模块,用于基于初始说话人波束和多路语音信号确定第一目标说话人波束,初始说话人波束基于多路语音信号的波束成形过程得到,第一目标说话人波束指示多路语音信号各自在初始说话人波束所在方向上的声音信息;第二确定模块,用于基于第一目标说话人波束和多路语音信号确定噪声波束,噪声波束指示多路语音信号中除了第一目标说话人波束之外的声音信息;后置滤波模块,用于基于噪声波束和唤醒波束对第一目标说话人波束进行滤波,得到第二目标说话人波束,唤醒波束指示包含唤醒词的波束;语音识别模块,用于对第二目标说话人波束进行语音识别,得到识别文本。
14.本技术第四方面提供了一种语音识别网络模型的训练装置,包括:二次波束成形模块,基于初始说话人波束样本和多路语音信号样本输出第一目标说话人波束样本和噪声
波束样本,初始说话人波束基于多路语音信号的波束成形过程得到,多路语音信号样本包括说话人语音样本;后置滤波模块,基于第一目标说话人波束样本、噪声波束样本和唤醒波束样本输出第二目标说话人波束样本,唤醒波束是多路语音信号经过唤醒模块得到的;基于说话人语音样本、噪声波束样本和唤醒波束样本经过后置滤波模块,输出第二目标说话人波束参量;训练模块,基于第二目标说话人波束样本和第二目标说话人波束参量对二次波束成形模块和后置滤波模块进行训练。
15.本技术第五方面提供了一种计算机设备,包括存储器、处理器以及存储在存储器上被处理器执行的计算机程序,处理器执行计算机程序时实现上述任一实施例提供的语音识别方法的步骤和/或语音识别网络模型的训练方法的步骤。
16.本技术第六方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例提供的语音识别方法的步骤和/或语音识别网络模型的训练方法的步骤。
17.根据本技术提供的语音识别方法和装置、语音识别网络的训练方法和装置、计算机设备,以及存储介质,基于麦克风阵列采集的多路语音信号对初始说话人波束进行二次成形,得到多路语音信号各自在初始说话人波束所在方向上的声音信息,即第一目标说话人波束。第一目标说话人波束和多路语音信号覆盖相同的空间,具有可比性。接着,从多路语音信号中滤除第一目标说话人波束,得到噪声波束。利用噪声波束和唤醒波束对第一目标说话人波速进行后置滤波,得到第二目标说话人波束,以作为后端语音识别模块的输入,从而增强了第二目标说话人波束中目标说话人的语音信息,进而实现了高噪场景下准确识别并给出说话人身份信息的目的。
附图说明
18.图1为本技术一实施例提供的语音识别系统的网络架构。
19.图2是本技术一实施例提供的语音识别方法的流程示意图。
20.图3为本技术第二实施例提供的语音识别方法的流程示意图。
21.图4为本技术第三实施例提供的语音识别方法的流程示意图。
22.图5为本技术一实施例提供的语音识别网络模型的训练方法的流程示意图。
23.图6为本技术另一实施例提供的语音识别网络模型的训练方法的流程示意图。
24.图7为本技术一实施例提供的语音识别装置的结构框图。
25.图8为本技术一实施例提供的语音识别网络模型的训练装置的结构框图。
26.图9是本技术一实施例提供的电子设备的结构框图。
具体实施方式
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
28.申请概述
29.现有的主流远场语音识别系统包括语音唤醒模块、前端波束成形模块和后端语音
识别模块。语音唤醒模块用于识别预设唤醒词,以唤醒终端设备。前端波束成形模块基于麦克风整列采集到的多路语音信号,对期望方向的语音信号进行保留,抑制非期望方向的语音信号,以达到抑制干扰源,提高目标方向声音增益的目的。后端语音识别模块对成形波束进行梅尔频率倒谱系数特征提取,送到声学模型进行语音识别,得到识别结果,该识别结果包括目标说话人的语音信号对应的文本内容。
30.上述语音识别过程中,前端波束成形模块输出的说话人波束中难免混入其它说话人的语音信息或其它干扰信息,原因包括:一方面,语音唤醒模块、前端波束成形模块和后端语音识别模块为级联关系。当需要优化识别效果时,各模块分别基于不同的优化目标独立优化,导致语音识别系统无法在整体上获得最佳性能。另一方面,前端波束成形算法对噪声处理不够强,会使得其成形波束难以有效的移植干扰源,后端识别结果出现大量的噪音。
31.有鉴于此,本技术提供了一种语音识别方法和装置、语音识别网络的训练方法和装置、计算机设备,以及存储介质,在前端波束成形模块和后端语音识别模块之间增加二次波束成形模块和后置滤波模块。其中,二次波束成形模块基于麦克风阵列采集的多路语音信号对前端波束成形模块输出的初始说话人波束进行二次成形,得到多路语音信号各自在初始说话人波束所在方向上的声音信息,即第一目标说话人波束。第一目标说话人波束和多路语音信号覆盖相同的空间,具有可比性。接着,从多路语音信号中滤除第一目标说话人波束,得到噪声波束。将第一目标说话人波速、噪声波束和语音唤醒模块输出的唤醒波束一块输入到后置滤波模块,利用噪声波束和唤醒波束对第一目标说话人波束进行后置滤波,输出第二目标说话人波束,以作为后端语音识别模块的输入,进而得到目标说话人的语音信号对应的文本内容。通过后置滤波过程,在后端更大的视野下对第一目标说话人波束中的噪声和非唤醒人语音片段干扰进行深度消除,从而提高了在复杂场景下个性化语音识别的准确率。
32.图1为本技术一实施例提供的语音识别系统的网络架构。如图1所示,该语音识别系统100包括语音唤醒模块110、前端波束成形模块(图中未示出)、二次波束成形模块120、后置滤波模块130和后端语音识别模块140。
33.其中,语音唤醒模块110和前端波束形成模块为常规模块,由常规算法实现。语音唤醒模块110基于麦克风阵列采集的多路语音信号输出唤醒波束,唤醒波束是指包含预设唤醒词的波束。唤醒词存在于目标说话人的语音信号中,因此,唤醒波束包含目标说话人的声纹特征信息。前端波束形成模块通过对麦克风阵列采集的多路语音信号进行滤波和/或波束形成,输出初始说话人波束。二次波束形成模块120基于初始说话人波束和多路语音信号生成第一目标说话人波束和噪声波束。后置滤波模块130基于第一目标说话人波束、噪声波束和唤醒波束生成第二目标说话人波束。后端语音识别模块140对第二目标说话人波束进行语音识别,得到识别结果。后端语音识别模块140为常规模块,由常规算法实现。
34.下面结合附图对图1所示语音识别系统的具体执行过程进行说明。
35.图2是本技术一实施例提供的语音识别方法的流程示意图。该语音识别方法具有图1所示网络架构。该语音识别方法可以实施为存储在存储介质上的程序,由处理器调用执行。结合图1和图2所示,语音识别方法200包括如下步骤:
36.步骤s210,基于初始说话人波束和多路语音信号确定第一目标说话人波束。初始说话人波束基于多路语音信号的波束成形过程得到,第一目标说话人波束指示多路语音信
号各自在初始说话人波束所在方向上的声音信息。
37.如图1所示,初始说话人波束是前端波束成形模块的输出。初始说话人波束包含多路语音信号在预设主方向上的语音信号,预设主方向为预先指定的主麦克风的指向。也就是说,初始说话人波束在空间上的覆盖范围为多路语音信号的覆盖范围的一部分。经过步骤s210后,初始说话人波束变换为第一目标说话人波束,第一目标说话人波束指示多路语音信号各自在初始说话人波束所在方向上的声音信息。也就是说,第一目标说话人波束的覆盖范围和多路语音信号的覆盖范围是一致的,使得多路语音信号和预设主方向上的语音信号具有可比性。可见,步骤s210相当于是对初始说话人波束进行二次成形的过程,目的是为了使得预设主方向上的语音信号和多路语音信号在同一空间。
38.步骤s220,基于第一目标说话人波束和多路语音信号确定噪声波束,噪声波束指示多路语音信号中除了第一目标说话人波束之外的声音信息。
39.如图2所示,步骤s220可以通过transformer结构的神经子网络实现。transformer结构的神经子网络为多个卷积层和多头注意力子模块堆积的标准网络结构,用于从多路语音信号中剔除第一目标说话人波束,得到剩下的噪声波束。
40.在一个实施例中,transformer结构的神经子网络的处理过程包括:对第一目标说话人波束和多路语音信号进行声学特征提取,分别得到第一特征信息和第二特征信息。确定第二特征信息中和第一特征信息不匹配的第三特征信息。确定第三特征信息对应的声音信号为噪声波束。
41.步骤s230,基于噪声波束和唤醒波束对第一目标说话人波束进行滤波,得到第二目标说话人波束,唤醒波束指示包含唤醒词的波束。
42.唤醒波束来源于唤醒模块110的输出。利用唤醒波束对第一目标说话人波束进行滤波,实现了对目标说话人的语音进行精准识别的同时,还能对非目标说话人的语音进行拒识。
43.由于滤波过程,例如图1中的transformer结构的神经子网络的滤波过程并不是一个可以完全具象成a-b=c的过程。因此,第一目标说话人波束和噪声波束存在交叠的声音信息。在步骤s230中,基于噪声波束和唤醒波束对第一目标说话人进行滤波,可以进一步增强预设主方向上的目标说话人的声音信号。
44.在一个实施例中,如图1所示,步骤s230通过hybridcnn神经子网络实现。由于transformer结构的神经子网络层次较浅,且视野较小,也就是说,其提取到的特征在时域上的范围比较短。而hybridcnn神经子网络较深,且视野较大,即其能在时域范围上提取到更多的语音信息,从而可以对第一目标说话人波束进一步过滤。
45.步骤s240,对第二目标说话人波束进行语音识别,得到识别文本。
46.该步骤可以采用常规算法实现,这里不予详述。
47.根据本实施例提供的语音识别方法,基于麦克风阵列采集的多路语音信号对前端波束成形模块输出的初始说话人波束进行二次成形,得到多路语音信号各自在初始说话人波束所在方向上的声音信息,即第一目标说话人波束。第一目标说话人波束和多路语音信号覆盖相同的空间,具有可比性。接着,从多路语音信号中滤除第一目标说话人波束,得到噪声波束。利用噪声波束和语音唤醒模块输出的唤醒波束对第一目标说话人波速进行后置滤波,得到第二目标说话人波束,以作为后端语音识别模块的输入,从而增强了第二目标说
话人波束中目标说话人的语音信息,进而实现了高噪场景下准确识别并给出说话人身份信息的目的。
48.图3为本技术第二实施例提供的语音识别方法的流程示意图。结合图1和图3所示,在本实施例中,步骤s210具体执行为:
49.步骤s310,基于多路语音信号确定多个固定波束,多个固定波束和多个预设方向一一对应。
50.麦克风阵列由n个麦克风组成,n为大于或等于2的任意正整数。该麦克风阵列可以是任何拓扑结构的阵列,例如线阵、环形阵、平面阵、球面阵等。以平面阵为例,该平面阵的麦克风数目为8个,其由7个麦克风构成的圆环加上一个中心麦克风组成。这种情况下,可以将360
°
空间等分为p个扇形区域,每个扇形区域的中心线对应一个预设方向。
51.在一个实施例中,针对每一个预设方向,采用波束形成算法得到该预设方向上的固定波束。这里提到的波束形成算法可以固定波束形成算法。
52.在本实施例中,对多个预设方向上的频谱进行复数卷积操作,得到多个固定波束。
53.步骤s320,基于多个固定波束确定多个自适应波束,多个自适应波束和多个固定波束一一对应,自适应波束包括多个固定波束在自适应波束所在预设方向上的语音信息。
54.参阅图1,首先,针对每个固定波束,确定固定波束和其余固定波束的第一方向相关系数向量。
55.具体而言,以每个固定波束为参考,分别计算其余固定波束和该参考固定波束的内积,得到该参考向量的方向相关系数向量。一个固定波束和参考固定波束作内积的结果是一个值,这个值表示该一个固定波束在参考固定波束上的投影,也表示在该一个固定波束上包含多少参考固定波束上的声音信息。固定波束1对应的第一方向相关系数向量可以表示为[a
11 a
12
.....a
1p
],则多个固定波束对应一个p行p列的第一方向相关系数矩阵。
[0056]
其次,确定第一方向相关系数向量和固定波束的乘积为自适应波束。
[0057]
自适应波束和固定波束之间的关系可以表示为:自适应波束ad1=a
11
*fd1 a
12
*fd2
……
a
1p
*fdp,其中,fdi,i=1,2,.....,p表示多个固定波束。可见,自适应波束是所有的固定波束在某一个方向上的能量信息加权求和。
[0058]
步骤s330,过滤掉多个固定波束和多个自适应波束中初始说话人波束所在方向之外的语音信息,得到第一目标说话人波束。
[0059]
首先,分别确定多个固定波束和多个自适应波束各自与初始说话人波束的第二方向相关系数向量。
[0060]
具体而言,将初始说话人波束作为参考波束,分别计算每个固定波束和初始说话人波束的点积,以及每个自适应波束和初始说话人波束的点积,得到第二方向相关系数向量。
[0061]
其次,确定第二方向相关系数和初始说话人波束的乘积为第一目标说话人波束。
[0062]
第一目标说话人波束表征的是2p个波束,包括p个固定波束和p个自适应波束,在预设主方向上的投影的加权求和,是对2p个波束中不是预设主方向上的语音信息的过滤过程,最终得到与多路语音信号属于同一空间的第一目标说话人波束,使得二者具有可比性。
[0063]
图4为本技术第三实施例提供的语音识别方法的流程示意图。如图4所示,该语音识别方法400和图2所示语音识别方法200的区别在于,在本实施例中,结合图1所示,步骤
s230具体执行为:
[0064]
步骤s410,对第一目标说话人波束、噪声波束和唤醒波束进行声学特征提取,分别得到第四特征信息、第五特征信息和第六特征信息。
[0065]
提取的声学特征可以是能量谱特征。提取能量谱特征的过程具体包括:以第一目标说话人波束为例。首先,在第一目标说话人波束前后进行镜像补帧。在一示例中,在第一目标说话人波束前后补充256个采样点。其次,采用滑窗方式进行分帧。在一示例中,采用汉明窗进行滑窗操作。在一示例中,窗长为512个采样点,步长为160个采样点。再次,对每一个语音帧进行能量谱特征提取。例如,对语音帧依次进行傅里叶变换,计算实部和虚部的平方和,降采样为128个采样点,取对数,得到能量谱特征。
[0066]
步骤s420,确定第四特征信息中与第五特征信息匹配的第七特征信息。
[0067]
第四特征信息中与第五特征信息匹配的第七特征信息表征的是第一目标说话人波束中的噪声信息,相当于利用噪声波束对第一目标说话人波束的滤波过程。
[0068]
步骤s430,确定所述第四特征信息中除了所述第七特征信息之外的特征信息中与第六特征信息匹配的第八特征信息。
[0069]
利用噪声波束对第一目标说话人波束进行过滤后,再利用唤醒波束进行二次过滤,得到第八特征信息。
[0070]
步骤s440,确定第八特征信息对应的声音信号为第二目标说话人波束。
[0071]
在一个实施例中,在步骤s420之前,还包括:检测有效音段的过程。具体而言,参阅图1,根据步骤s410得到第四特征信息、第五特征信息和第六特征信息之后,分别识别第四特征信息、第五特征信息和第六特征信息中的有效音频信息。即将第四特征信息、第五特征信息和第六特征信息中没有有效语音的频段,例如说话间隔对应的频段截掉。这种情况下,步骤s420具体执行为:确定第四特征信息的有效音频信息中与第五特征信息的有效音频信息匹配的第七特征信息。步骤s430具体执行为:确定第四特征信息的有效音频信息中除了第七特征信息之外的特征信息中与第六特征信息的有效音频信息匹配的第八特征信息。后续,将第八特征信息对应的声音信号确定为第二目标说话人波束。有效音段检测过程可以过滤掉第四特征信息、第五特征信息和第六特征信息中的无效语音信息,简化后续操作的数据量。
[0072]
图5为本技术一实施例提供的语音识别网络模型的训练方法的流程示意图。该语音识别网络模型具有图1所示的网络架构,包括二次波束成形模块120和后置滤波模块130。训练过程中用到的训练样本包括:麦克风阵列采集在真实场景中采集的多路语音信号样本和标注有文本数据的说话人语音样本。说话人语音样本即为干净数据,可以通过采集安静场景下数据或者直接通过文本合成获取。多路语音信号样本包括说话人语音样本。即目标说话人在安静场景下基于预设文本录制一段语音,作为说话人语音样本。同一目标说话人在真实场景中基于同一预设文本录制一段语音,作为多路语音信号样本。
[0073]
结合图1和图5所示,训练方法500包括:
[0074]
步骤s510,初始说话人波束样本和多路语音信号样本输入二次波束成形模块120,得到第一目标说话人波束样本和噪声波束样本。初始说话人波束样本是多路语音信号样本经过前端波束成形模块的处理后得到的,多路语音信号样本包括说话人语音样本。
[0075]
二次波束成形模块120对初始说话人波束样本和多路语音信号样本的具体操作参
阅图2和图3所示语音识别方法中步骤s210和步骤s220的执行过程。这里不再赘述。
[0076]
步骤s520,第一目标说话人波束样本、噪声波束样本和唤醒波束样本输入后置滤波模块130,得到第二目标说话人波束样本,唤醒波束是多路语音信号经过唤醒模块的处理后得到的。
[0077]
后置滤波模块130对第一目标说话人波束样本、噪声波束样本和唤醒波束样本的具体操作参阅图2和图4所示语音识别方法中步骤s230的执行过程。这里不再赘述。
[0078]
步骤s530,说话人语音样本、噪声波束样本和唤醒波束样本输入后置滤波模块130,得到第二目标说话人波束参量。
[0079]
后置滤波模块130对说话人语音样本、噪声波束样本和唤醒波束样本的具体操作参阅图2和图4所示语音识别方法中步骤s230的执行过程。这里不再赘述。
[0080]
步骤s540,基于第二目标说话人波束样本和第二目标说话人波束参量对二次波束成形模块和后置滤波模块进行训练。
[0081]
具体而言,计算第二目标说话人波束样本和第二目标说话人波束参量的均方差的损失函数,使得计算第二目标说话人波束样本尽可能地接近第二目标说话人波束参量。
[0082]
图6为本技术另一实施例提供的语音识别网络模型的训练方法的流程示意图。如图6所示,该训练方法600在图5所示训练方法500的基础上,进一步包括:
[0083]
步骤s610,参阅图1,第二目标说话人波束样本和第二目标说话人波束参量输入语音识别模块140,分别得到识别文本和识别文本参量。
[0084]
语音识别模块140对第二目标说话人波束样本和第二目标说话人波束参量的具体操作可以采用常规操作,这里不予详述。
[0085]
步骤s620,基于识别文本、识别文本参量和文本数据对语音识别模块140、后置滤波模块130和二次波束成形模块120进行反向传播训练。
[0086]
具体而言,为了便于描述,下文将第一目标说话人波束样本、噪声波束样本和唤醒波束样本分别记为beam1,beam2,beam3。说话人语音样本记为clean,其标注的文本数据记为lable。参阅图1,训练过程包括:
[0087]
步一:beam1,beam2,beam3分别进行特征提取,之后将提取到的特征beam1,beam2,beam3成一张图,送入一个多个卷积层构成的子网络,进行有效音频检测和滤波,得到后置滤波模块130的输出a1。
[0088]
步二:clean,beam2,beam3分别进行特征提取,之后将提取到的特征clean,beam2,beam3成一张图,送入一个多个卷积层构成的子网络,进行有效音频检测和滤波,得到后置滤波模块130的输出b1。
[0089]
步三:计算a1与b1的均方差的第一损失。
[0090]
步四:数据a1经过后端语音识别模块140,即一个标准transformer结构的子模块得到输出a2。
[0091]
步五:数据b1经过后端语音识别模块140,即一个标准transformer结构得到输出b2。
[0092]
步六:计算a2和b2的kld误差第二损失。
[0093]
步七:计算a2,b2分别与label的误差第三损失,第四损失。
[0094]
步八:通过第一损失、第二损失、第三损失和第四损失计算梯度,反向传播指导训
练,使得beam2,beam3与beam1作用后,能尽可能的接近clean。
[0095]
根据本实施例提供的语音识别网络模型的训练方法,通过将语音识别模块140、后置滤波模块130二次波束成形模块120联合训练,以识别率作为目标,提升了语音识别网络模型整体上的识别效果。
[0096]
示例性装置
[0097]
图7为本技术一实施例提供的语音识别装置的结构框图。如图7所示,语音识别装置700包括:第一确定模块710、第二确定模块720、后置滤波模块730和语音识别模块740。其中,参阅图1,第一确定模块710和第二确定模块720构成二次波束成形模块120。第一确定模块710用于基于初始说话人波束和多路语音信号确定第一目标说话人波束,初始说话人波束基于多路语音信号的波束成形过程得到,第一目标说话人波束指示多路语音信号各自在初始说话人波束所在方向上的声音信息。第二确定模块720用于基于第一目标说话人波束和多路语音信号确定噪声波束,噪声波束指示多路语音信号中除了第一目标说话人波束之外的声音信息。后置滤波模块730用于基于噪声波束和唤醒波束对第一目标说话人波束进行滤波,得到第二目标说话人波束,唤醒波束指示包含唤醒词的波束。语音识别模块740用于对第二目标说话人波束进行语音识别,得到识别文本。
[0098]
在一个实施例中,第一确定模块710具体用于基于多路语音信号确定多个固定波束,多个固定波束和多个预设方向一一对应;基于多个固定波束确定多个自适应波束,多个自适应波束和多个固定波束一一对应,自适应波束包括多个固定波束在自适应波束所在预设方向上的语音信息;过滤掉多个固定波束和多个自适应波束中初始说话人波束所在方向之外的语音信息,得到第一目标说话人波束。
[0099]
在一个实施例中,基于多个固定波束确定多个自适应波束包括:针对每个固定波束,确定固定波束和其余固定波束的第一方向相关系数向量;确定第一方向相关系数向量和固定波束的乘积为自适应波束。
[0100]
在一个实施例中,过滤掉多个固定波束和多个自适应波束中初始说话人波束所在方向之外的语音信息,得到第一目标说话人波束包括:分别确定多个固定波束和多个自适应波束各自与初始说话人波束的第二方向相关系数向量;确定第二方向相关系数向量和初始说话人波束的乘积为第一目标说话人波束。
[0101]
在一个实施例中,第二确定模块720具体用于对第一目标说话人波束和多路语音信号进行声学特征提取,分别得到第一特征信息和第二特征信息;确定第二特征信息中和第一特征信息不匹配的第三特征信息;确定第三特征信息对应的声音信号为噪声波束。
[0102]
在一个实施例中,后置滤波模块730具体用于:对第一目标说话人波束、噪声波束和唤醒波束进行声学特征提取,分别得到第四特征信息、第五特征信息和第六特征信息;确定第四特征信息中与第五特征信息匹配的第七特征信息;确定第四特征信息中除了第七特征信息之外的特征信息中与第六特征信息匹配的第八特征信息;确定第八特征信息对应的声音信号为第二目标说话人波束。
[0103]
在一个实施例中,对第一目标说话人波束、噪声波束和唤醒波束进行声学特征提取包括:对第一目标说话人波束、噪声波束和唤醒波束进行能量谱声学特征提取。
[0104]
在一个实施例中,在对第一目标说话人波束、噪声波束和唤醒波束进行声学特征提取,分别得到第四特征信息、第五特征信息和第六特征信息之后,还包括:分别识别第四
特征信息、第五特征信息和第六特征信息中的有效音频信息;确定第四特征信息中与第五特征信息匹配的第七特征信息包括:确定第四特征信息的有效音频信息中与第五特征信息的有效音频信息匹配的第七特征信息;确定第四特征信息中除了第七特征信息之外的特征信息中与第六特征信息匹配的第八特征信息包括:确定第四特征信息的有效音频信息中除了第七特征信息之外的特征信息中与第六特征信息的有效音频信息匹配的第八特征信息。
[0105]
本实施例提供的语音识别装置,与本技术实施例所提供的语音识别方法属于同一申请构思,可执行本技术任意实施例所提供的语音识别方法,具备执行语音识别方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术实施例提供的语音识别方法,此处不再加以赘述。
[0106]
图8为本技术一实施例提供的语音识别网络模型的训练装置的结构框图。结合图1和图8所示,训练装置800包括:二次波束成形模块810、后置滤波模块820和训练模块830。其中,二次波束成形模块810用于基于初始说话人波束样本和多路语音信号样本输出第一目标说话人波束样本和噪声波束样本,初始说话人波束基于多路语音信号的波束成形过程得到,多路语音信号样本包括说话人语音样本。后置滤波模块820用于基于第一目标说话人波束样本、噪声波束样本和唤醒波束样本输出第二目标说话人波束样本,唤醒波束是多路语音信号经过唤醒模块得到的;基于说话人语音样本、噪声波束样本和唤醒波束样本输出第二目标说话人波束参量。训练模块830用于基于第二目标说话人波束样本和第二目标说话人波束参量对二次波束成形模块和后置滤波模块进行训练。
[0107]
在一个实施例中,语音识别网络模型还包括语音识别模块840,用于基于第二目标说话人波束样本和第二目标说话人波束参量输出识别文本和识别文本参量。这种情况下,训练模块830具体用于基于识别文本、识别文本参量和文本数据对语音识别模块、后置滤波模块和二次波束成形模块进行反向传播训练。
[0108]
本实施例提供的语音识别网络模型的训练装置,与本技术实施例所提供的语音识别网络模型的训练方法属于同一申请构思,可执行本技术任意实施例所提供的语音识别网络模型的训练方法,具备执行语音识别网络模型的训练方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术实施例提供的语音识别网络模型的训练方法,此处不再加以赘述。
[0109]
示例性电子设备
[0110]
图9是本技术一实施例提供的电子设备的结构框图。如图9所示,电子设备900包括一个或多个处理器910和存储器920。
[0111]
处理器910可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备900中的其他组件以执行期望的功能。
[0112]
存储器920可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器910可以运行所述程序指令,以实现上文所述的本技术的各个实施例的语音识别方法和语音识别网络模型的训练方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
[0113]
在一个示例中,电子设备900还可以包括:输入装置930和输出装置940,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
[0114]
输出装置940可以向外部输出各种信息,包括确定出的距离信息、方向信息等。输出设备940可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0115]
当然,为了简化,图9中仅示出了该电子设备90中与本技术有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备90还可以包括任何其他适当的组件。
[0116]
示例性计算机程序产品和计算机可读存储介质
[0117]
除了上述方法和设备以外,本技术的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的语音识别方法和语音识别网络模型的训练方法中的步骤。
[0118]
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如java、c 等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0119]
此外,本技术的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器11执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的语音识别方法和语音识别网络模型的训练方法中的步骤。
[0120]
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0121]
以上结合具体实施例描述了本技术的基本原理,但是,需要指出的是,在本技术中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本技术的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本技术为必须采用上述具体的细节来实现。
[0122]
本技术中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0123]
还需要指出的是,在本技术的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本技术的等效方案。
[0124]
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本技术。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本技术的范围。因此,本技术不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0125]
应当理解,本技术实施例描述中所用到的限定词“第一”、“第二”、“第三”、“第四”、“第五”和“第六”仅用于更清楚的阐述技术方案,并不能用于限制本技术的保护范围。
[0126]
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本技术的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献