语音识别模型的匹配方法、装置、设备和存储介质与流程

2021-09-04 01:40:00 来源：中国专利 TAG：语音识别匹配装置模型特别

1.本发明涉及语音识别技术领域，特别涉及一种语音识别模型的匹配方法、装置、设备和存储介质。

背景技术：

2.基于语音识别模型进行的语音识别，主要包括提取语音的音频特征，利用语音识别模型解码音频特征得到语音识别结果(通常是语音对应的文字)两部分。在实际使用中，经常会出现音频的采集环境和训练好的语音识别模型不匹配，导致语音识别模型输出的语音识别结果不准确的情况。例如，利用室内环境下的音频样本训练得到的语音识别模型，在针对采集环境为室外的音频进行识别时，准确率就会降低。
3.出现这种情况时，就需要对该语音识别模型进行匹配，以提高模型的准确率。现有的匹配方法一般是，制作符合特定的采集环境的音频作为训练样本，重新训练语音识别模型，从而提高语音识别模型在该采集环境下的准确率。
4.每次重新训练语音识别模型都需要耗费较长的时间，因而现有的匹配方案效率较低。

技术实现要素：

5.针对上述现有技术的缺点，本发明提供一种语音识别模型的匹配方法、装置、设备和存储介质，以提供一种高效的语音识别模型的匹配方案。
6.本申请第一方面提供一种语音识别模型的匹配方法，包括：
7.若语音识别模型识别当前语音时准确率低于准确率阈值，制作符合当前采集环境的样本语音；其中，所述当前语音指代在所述当前采集环境下采集的语音；
8.基于所述语音识别模型获得所述样本语音的语音识别结果，并根据所述样本语音的语音识别结果的准确率确定修正系数；
9.利用所述修正系数修正所述当前语音的音频特征，得到修正后音频特征；
10.利用所述语音识别模型解码所述修正后音频特征，得到所述当前语音的语音识别结果。
11.可选的，所述基于所述语音识别模型获得所述样本语音的语音识别结果，并根据所述样本语音的语音识别结果的准确率确定修正系数，包括：
12.获得多个备选系数；
13.针对每一个所述备选系数，利用所述备选系数修正所述样本语音的音频特征，得到所述备选系数对应的修正后样本音频特征；
14.用所述语音识别模型分别解码每一个所述备选系数对应的所述修正后样本音频特征，得到每一个所述备选系数对应的所述样本语音的语音识别结果；
15.选取多个所述样本语音的语音识别结果中，准确率最高的所述样本语音的识别结果，并将准确率最高的所述样本语音的识别结果对应的所述备选系数确定为修正系数。
16.可选的，所述利用所述修正系数修正所述当前语音的音频特征，得到修正后音频特征，包括：
17.将所述修正系数与所述当前语音的音频特征相乘，得到的乘积作为所述修正后音频特征。
18.可选的，所述制作符合当前采集环境的样本语音，包括：
19.获得预先录制的初始语音；
20.在所述初始语音中添加符合所述当前采集环境的噪音信息，得到符合当前采集环境的样本语音。
21.本申请第二方面提供一种语音识别模型的匹配装置，包括：
22.制作单元，用于若语音识别模型识别当前语音时准确率低于准确率阈值，制作符合当前采集环境的样本语音；其中，所述当前语音指代在所述当前采集环境下采集的语音；
23.确定单元，用于基于所述语音识别模型获得所述样本语音的语音识别结果，并根据所述样本语音的语音识别结果的准确率确定修正系数；
24.修正单元，用于利用所述修正系数修正所述当前语音的音频特征，得到修正后音频特征；
25.解码单元，用于利用所述语音识别模型解码所述修正后音频特征，得到所述当前语音的语音识别结果。
26.可选的，所述确定单元基于所述语音识别模型获得所述样本语音的语音识别结果，并根据所述样本语音的语音识别结果的准确率确定修正系数时，具体用于：
27.获得多个备选系数；
28.针对每一个所述备选系数，利用所述备选系数修正所述样本语音的音频特征，得到所述备选系数对应的修正后样本音频特征；
29.用所述语音识别模型分别解码每一个所述备选系数对应的所述修正后样本音频特征，得到每一个所述备选系数对应的所述样本语音的语音识别结果；
30.选取多个所述样本语音的语音识别结果中，准确率最高的所述样本语音的识别结果，并将准确率最高的所述样本语音的识别结果对应的所述备选系数确定为修正系数。
31.可选的，所述修正单元利用所述修正系数修正所述当前语音的音频特征，得到修正后音频特征时，具体用于：
32.将所述修正系数与所述当前语音的音频特征相乘，得到的乘积作为所述修正后音频特征。
33.可选的，所述制作单元制作符合当前采集环境的样本语音时，具体用于：
34.获得预先录制的初始语音；
35.在所述初始语音中添加符合所述当前采集环境的噪音信息，得到符合当前采集环境的样本语音。
36.本申请第三方面提供一种电子设备，包括存储器和处理器；
37.其中，所述存储器用于存储计算机程序；
38.所述处理器用于执行所述计算机程序，具体用于实现本申请第一方面任意一项所提供的语音识别模型的匹配方法。
39.本申请第四方面提供一种计算机存储介质，用于存储计算机程序，所述计算机程
序被执行时，具体用于实现本申请第一方面任意一项所提供的语音识别模型的匹配方法。
40.本申请提供一种语音识别模型的匹配方法、装置、设备和存储介质，方法包括，若语音识别模型识别当前语音(指代在当前采集环境下采集的语音)时准确率低于准确率阈值，制作符合当前采集环境的样本语音；基于语音识别模型获得样本语音的语音识别结果，并根据样本语音的语音识别结果的准确率确定修正系数；利用修正系数修正当前语音的音频特征，得到修正后音频特征；利用语音识别模型解码修正后音频特征，得到当前语音的语音识别结果。当语音识别模型准确率降低时，本方案只需根据样本语音确定出修正系数，即可完成语音识别模型的匹配，不需要重新训练语音识别模型，显著提高了匹配语音识别模型的效率。
附图说明
41.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
42.图1为本申请实施例提供的语音识别模型的匹配方法的流程图；
43.图2为本申请实施例提供的语音识别模型的匹配装置的结构示意图；
44.图3为本申请实施例提供的电子设备的结构示意图。
具体实施方式
45.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
46.在语音识别领域，如果训练好的语音识别模型与实际语音的采集情况不一致时，就难以得到好的识别结果。遇到这种情况，往往需要重新制作与实际的采集情况匹配的样本数据，然后重新训练语音识别模型，从而提高识别准确率。但此过程需要付出大量的时间成本和计算资源。本专利提出了一种新的方法，通过修改模型参数，从而达到数据匹配的目的。
47.也就是说，在现有技术中，重新制作样本需要大量的时间，重新训练也需要大量的时间和计算资源。
48.而本方案可以根据实际环境的特征，通过添加修正系数的方式达到模型与实际环境匹配的目的。因此本专利仅需要制作少量与符合实际情况的样本数据即可，并且也不需要重新训练语音识别模型，可以大幅度减少语音识别模型匹配所用的时间，提高匹配效率。
49.本申请实施例提供一种语音识别模型的匹配方法，请参考图1，该方法可以包括如下步骤：
50.s101、若语音识别模型识别当前语音时准确率低于准确率阈值，制作符合当前采集环境的样本语音。
51.其中，当前语音指代在当前采集环境下采集的语音。
52.需要说明的是，步骤s101中所述的当前语音的数量一般为多条。具体来说，可以在当前采集环境下分别对一个或多个用户(或测试人员)分别进行多次录音，由此可以得到这些用户(或测试人员)在当前采集环境下产生的多条当前语音。制作的样本语音的个数也可以是多个。
53.语音识别模型的准确率，可以用多条当前语音中，识别正确的语音所占的比例来表示，例如，若20条当前语音中，只有12条当前语音的语音识别结果是正确的，则可以认为语音识别模型在用于识别当前采集环境下的语音时，准确率为70％。
54.本发明所述的语音识别模型，可以是时延神经网络模型(time delay neural networks，tdnn)。
55.本发明所述的语音识别模型，可以通过如下的训练模型处理流程训练得到：
56.首先对每一个样本音频进行音频分帧，一般一段音频由连续的多个采样点构成，在进行音频分帧时，可以将每l个连续的采样点划分为一个音频帧，并且，每划分出一个音频帧，就从该音频帧的首个采样点向后移动k个采样点，从移动到的这个采样点开始再取之后的连续l个采样点作为另一个音频帧，因此类推，由此可以将一段样本音频划分为多个音频帧。
57.一般的，l可以设定为512，或者可以设定为400，k可以设定为160，或者也可以根据实际情况调整为其他整数值。当l设为512，k设为160时，上述音频分帧就相当于将每512个采样点作为一个音频帧，每次移动160个采样点。
58.获得多个音频帧后，可以通过如下的特征提取流程提取每一音频帧的特征向量：
59.对每个音频帧，按照如下公式进行预加重：
60.y
t 1
＝x
t 1
‑
b
×
x
t
61.其中x
t
表示t时刻采样点的数值，x
t 1
表示t 1时刻采样点的数值，y
t 1
表示预加重后的t 1时刻采样点的值，b为预加重系数，其范围为0.95到1。音频第一个采样点不变。
62.然后在预加重后的音频帧中添加汉明窗，并对音频帧进行快速傅里叶变换，将音频从时域转换为频域，得到每个音频帧的频谱。
63.最后通过如下公式：
[0064][0065]
将音频帧的频谱转为梅尔频谱，而后将梅尔频谱等分为71维的三角滤波器，再将三角滤波器转回频域。将频域对应能量通过该三角滤波器，获得该音频帧71维的特征向量。各个音频帧的特征向量加权合并后，就可以得到样本语音的音频特征。
[0066]
样本语音的音频特征，可以是滤波器组(filterbanks，fbank)特征，也可以是梅尔倒谱系数(mel
‑
scale frequency cepstral coefficients，mfcc)特征。
[0067]
最后，利用样本语音的音频特征就可以对时延神经网络进行训练，具体的训练过程可以参考相关的现有技术，此处不再赘述。
[0068]
可选的，制作符合当前采集环境的样本语音，包括：
[0069]
获得预先录制的初始语音；
[0070]
在初始语音中添加符合当前采集环境的噪音信息，得到符合当前采集环境的样本语音。
[0071]
具体的，在步骤s101中，可以根据采集当前语音时的实际环境，如房间大小，噪声大小，噪声种类等，制作与实际相符合的训练数据。
[0072]
s102、基于语音识别模型获得样本语音的语音识别结果，并根据样本语音的语音识别结果的准确率确定修正系数。
[0073]
步骤s102的执行过程，可以包括：
[0074]
获得多个备选系数；
[0075]
针对每一个备选系数，利用备选系数修正样本语音的音频特征，得到备选系数对应的修正后样本音频特征；
[0076]
用语音识别模型分别解码每一个备选系数对应的修正后样本音频特征，得到每一个备选系数对应的样本语音的语音识别结果；
[0077]
选取多个样本语音的语音识别结果中，准确率最高的样本语音的识别结果，并将准确率最高的样本语音的识别结果对应的备选系数确定为修正系数。
[0078]
其中，样本语音的音频特征，同样可以按步骤s101中的特征提取流程从样本语音中提取得到，此处不再赘述。
[0079]
具体的，可以从0.5到2.0遍历，每次步长0.1，即每次取0.5，0.6，0.7等直到2.0，从而获得不同的备选系数a。
[0080]
然后，对每一个备选系数，用该备选系数修正样本语音的音频特征，得到修正后样本音频特征。例如，将多个备选系数依次记为a1，a2
……
，将样本语音的音频特征记为m，将修正后样本音频特征记为n，则可以通过如下公式描述该修正过程：
[0081]
n＝a1
×
m
[0082]
通过以上公式，就获得了由备选系数a1修正得到的修正后样本音频特征，同理，将公式中的a1替换为a2，a3
……
等，即可获得每一个备选系数对应的修正后样本音频特征。
[0083]
最后，利用语音识别模型对每一个备选系数对应的修正后样本音频特征进行解码，获得语音识别结果，并确定每一个备选系数对应的准确率。
[0084]
假设样本语音有20个，对于备选系数a1，利用a1对20个样本语音的音频特征修正可以得到20个修正后音频特征，经过语音识别模型解码得到20个语音识别结果，然后判断20个语音识别结果中正确结果所占比例，就得到的备选系数a1对应的准确率，同理，可以依次获得其他备选系数的准确率。
[0085]
最后，选取其中准确率最高的备选系数作为修正系数即可。例如，假设其中备选系数1.5的准确率最高，则确定修正系数为1.5，不妨记为b＝1.5，b表示修正系数。
[0086]
s103、利用修正系数修正当前语音的音频特征，得到修正后音频特征。
[0087]
可选的，利用修正系数修正当前语音的音频特征，得到修正后音频特征，包括：
[0088]
将修正系数与当前语音的音频特征相乘，得到的乘积作为修正后音频特征。
[0089]
具体的，用m表示当前语音的音频特征，用n表示修正后音频特征，则步骤s103可以用如下公式表示：
[0090]
n＝b
×
m
[0091]
其中b为步骤s102中确定的修正系数。
[0092]
也就是说，在本发明中，确定了修正系数后，每次用语音识别模型对当前采集环境采集到的语音进行语音识别时，首先需要从语音中提取出音频特征(具体如步骤s101中特
征提取流程所述)，然后按照步骤s103，利用修正系数对该音频特征进行修正，得到修正后音频特征，最后才将修正后音频特征输入语音识别模型，由语音识别模型解码修正后音频特征，得到当前语音的语音识别结果(而现有公开技术是直接用语音识别模型对提取出的音频特征进行解码)。
[0093]
s104、利用语音识别模型解码修正后音频特征，得到当前语音的语音识别结果。
[0094]
在基于上述流程实施的实验中，对于特定的采集环境(如室外环境)未匹配前语音识别模型的准确率为88.9％，按本发明提供的方法进行匹配后，语音识别模型的准确率达到100％。
[0095]
本申请提供一种语音识别模型的匹配方法，方法包括，若语音识别模型识别当前语音(指代在当前采集环境下采集的语音)时准确率低于准确率阈值，制作符合当前采集环境的样本语音；基于语音识别模型获得样本语音的语音识别结果，并根据样本语音的语音识别结果的准确率确定修正系数；利用修正系数修正当前语音的音频特征，得到修正后音频特征；利用语音识别模型解码修正后音频特征，得到当前语音的语音识别结果。当语音识别模型准确率降低时，本方案只需根据样本语音确定出修正系数，即可完成语音识别模型的匹配，不需要重新训练语音识别模型，显著提高了匹配语音识别模型的效率。
[0096]
可见，本方法只需要少量的样本语音和少量的计算资源就可以达到将语音识别模型与当前采集换机相匹配的目的。
[0097]
虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。
[0098]
应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0099]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或电子设备上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0100]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0101]
结合本申请实施例提供的语音识别模型的匹配方法，本申请实施例还提供一种语音识别模型的匹配装置，请参考图2，该装置可以包括如下单元：
[0102]
制作单元201，用于若语音识别模型识别当前语音时准确率低于准确率阈值，制作符合当前采集环境的样本语音。
[0103]
其中，当前语音指代在当前采集环境下采集的语音。
[0104]
确定单元202，用于基于语音识别模型获得样本语音的语音识别结果，并根据样本语音的语音识别结果的准确率确定修正系数。
[0105]
修正单元203，用于利用修正系数修正当前语音的音频特征，得到修正后音频特征。
[0106]
解码单元204，用于利用语音识别模型解码修正后音频特征，得到当前语音的语音识别结果。
[0107]
可选的，确定单元202基于语音识别模型获得样本语音的语音识别结果，并根据样本语音的语音识别结果的准确率确定修正系数时，具体用于：
[0108]
获得多个备选系数；
[0109]
针对每一个备选系数，利用备选系数修正样本语音的音频特征，得到备选系数对应的修正后样本音频特征；
[0110]
用语音识别模型分别解码每一个备选系数对应的修正后样本音频特征，得到每一个备选系数对应的样本语音的语音识别结果；
[0111]
选取多个样本语音的语音识别结果中，准确率最高的样本语音的识别结果，并将准确率最高的样本语音的识别结果对应的备选系数确定为修正系数。
[0112]
可选的，修正单元203利用修正系数修正当前语音的音频特征，得到修正后音频特征时，具体用于：
[0113]
将修正系数与当前语音的音频特征相乘，得到的乘积作为修正后音频特征。
[0114]
可选的，制作单元201制作符合当前采集环境的样本语音时，具体用于：
[0115]
获得预先录制的初始语音；
[0116]
在初始语音中添加符合当前采集环境的噪音信息，得到符合当前采集环境的样本语音。
[0117]
本申请实施例提供的语音识别模型的匹配装置，其具体工作原理可以参考本申请任一实施例所提供的语音识别模型的匹配方法中的相关步骤，此处不再赘述。
[0118]
本申请提供一种语音识别模型的匹配装置，其中，若语音识别模型识别当前语音(指代在当前采集环境下采集的语音)时准确率低于准确率阈值，制作单元201制作符合当前采集环境的样本语音；确定单元202基于语音识别模型获得样本语音的语音识别结果，并根据样本语音的语音识别结果的准确率确定修正系数；修正单元203利用修正系数修正当前语音的音频特征，得到修正后音频特征；解码单元204利用语音识别模型解码修正后音频特征，得到当前语音的语音识别结果。当语音识别模型准确率降低时，本方案只需根据样本语音确定出修正系数，即可完成语音识别模型的匹配，不需要重新训练语音识别模型，显著提高了匹配语音识别模型的效率。
[0119]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第
一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
[0120]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0121]
本申请实施例还提供一种电子设备，请参考图3，该电子设备包括存储器301和处理器302。
[0122]
其中，存储器301用于存储计算机程序；
[0123]
处理器302用于执行计算机程序，具体用于实现本申请任一实施例所提供的语音识别模型的匹配方法。
[0124]
本申请还提供一种计算机存储介质，用于存储计算机程序，计算机程序被执行时，具体用于实现本申请任一实施例所提供的语音识别模型的匹配方法。
[0125]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0126]
需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0127]
专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音识别模型的匹配方法、装置、设备和存储介质与流程

相关文章

最热文献