一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

声学模型训练方法及装置与流程

2021-06-25 14:53:00 来源:中国专利 TAG:模型 训练 声学 装置 方法


1.本发明涉及模型训练技术领域,尤其涉及一种声学模型训练方法及装置。


背景技术:

2.随着语音识别技术的不断发展,该技术赋能的场景越来越多,如智能硬件、电话客服、会议系统、车载场景等。其中,来源于不同设备的语音信号可能存在信道的差异,例如:传统固话语音(采样率为8k)和手机麦克风语音(采样率为16k)来源于不同信道,具有不同的信道特征。通过对比不同信道下语音信号的时域、频域参数,会发现明显的信号频率、宽带噪声、共振型噪声等差异。目前在对声学模型进行训练时,由于来自不同信道的语音信号存在差异,因此通常为某一信道单独训练声学模型,但这会额外占用计算资源、提高维护成本。


技术实现要素:

3.本发明实施例提供一种声学模型训练方法及装置,能够根据来自各种信道类别的信道的语音帧联合对声学模型进行训练,节省计算资源,并且降低维护成本。
4.第一方面,本发明实施例提供了一种声学模型训练方法,包括:
5.获取来自至少两个信道的多个语音帧,一个信道对应一种信道类别;
6.针对所述多个语音帧中的每个语音帧,确定所述语音帧所来自信道对应的信道类别,并对所述信道类别进行独热编码,获得所述语音帧对应的独热编码向量;
7.获取用于表示所述语音帧的语音特征的特征向量;
8.根据所述语音帧对应的独热编码向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量;
9.根据所述多个语音帧中每个语音帧对应的第一向量对待训练的声学模型进行模型训练。
10.在一种可能的设计中,所述根据所述语音帧对应的独热编码向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量,包括:
11.拼接所述语音帧对应的独热编码向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量。
12.在一种可能的设计中,所述根据所述语音帧对应的独热编码向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量,包括:
13.利用嵌入层embedding对所述语音帧对应的独热编码向量进行处理,获得所述语音帧对应的第二向量;
14.拼接所述语音帧对应的第二向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量。
15.在一种可能的设计中,所述声学模型包括依次连接的多个隐藏层,所述方法还包括:
16.从所述多个隐藏层中确定至少一个选定隐藏层,所述至少一个选定隐藏层是除所述多个隐藏层的第一个隐藏层外的隐藏层;
17.针对所述至少一个选定隐藏层中的每个选定隐藏层,获取在所述选定隐藏层之前的隐藏层输出的所述语音帧对应的中间向量;
18.拼接所述语音帧对应的第二向量和所述语音帧对应的中间向量,获得所述语音帧对应的第三向量;
19.根据所述多个语音帧中每个语音帧对应的第一向量对待训练的声学模型进行模型训练,包括:
20.将所述多个语音帧中每个语音帧对应的第一向量输入所述待训练的声学模型的第一个隐藏层;以及,将所述多个语音帧中每个语音帧对应的第三向量输入所述待训练的声学模型的所述选定隐藏层,以对所述声学模型进行模型训练。
21.在一种可能的设计中,所述方法还包括:
22.获取所述声学模型的模型参数向量的维度大小,并根据所述声学模型的模型参数向量的维度大小,对所述嵌入层的模型参数向量的维度大小进行调整;
23.所述利用嵌入层embedding对所述语音帧对应的独热编码向量进行处理,获得所述语音帧对应的第二向量,包括:
24.利用调整后的所述嵌入层对所述语音帧对应的独热编码向量进行处理,获得所述语音帧对应的第二向量。
25.在一种可能的设计中,所述方法还包括:
26.获取用于表示所述至少两个信道中各个信道之间的差异程度的状态量,并根据所述状态量,对所述嵌入层的模型参数向量的维度大小进行调整;
27.所述利用嵌入层embedding对所述语音帧对应的独热编码向量进行处理,获得所述语音帧对应的第二向量,包括:
28.利用调整后的所述嵌入层对所述语音帧对应的独热编码向量进行处理,获得所述语音帧对应的第二向量。
29.在一种可能的设计中,所述特征向量包括梅尔频率倒谱系数mfcc特征向量或滤波器组参数特征向量。
30.第二方面,本发明实施例提供一种声学模型训练装置,包括:
31.第一获取单元,用于获取来自至少两个信道的多个语音帧,一个信道对应一种信道类别;
32.第一确定单元,用于针对所述多个语音帧中的每个语音帧,确定所述语音帧所来自信道对应的信道类别,并对所述信道类别进行独热编码,获得所述语音帧对应的独热编码向量;
33.第二获取单元,用于获取用于表示所述语音帧的语音特征的特征向量;
34.第三获取单元,用于根据所述语音帧对应的独热编码向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量;
35.模型训练单元,用于根据所述多个语音帧中每个语音帧对应的第一向量对待训练的声学模型进行模型训练。
36.在一种可能的设计中,所述第三获取单元具体用于拼接所述语音帧对应的独热编
码向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量。
37.在一种可能的设计中,所述第三获取单元具体用于利用嵌入层embedding对所述语音帧对应的独热编码向量进行处理,获得所述语音帧对应的第二向量;
38.拼接所述语音帧对应的第二向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量。
39.在一种可能的设计中,所述声学模型包括依次连接的多个隐藏层,所述装置还包括:
40.第二确定单元,用于从所述多个隐藏层中确定至少一个选定隐藏层,所述至少一个选定隐藏层是除所述多个隐藏层的第一个隐藏层外的隐藏层;
41.第四获取单元,用于针对所述至少一个选定隐藏层中的每个选定隐藏层,获取在所述选定隐藏层之前的隐藏层输出的所述语音帧对应的中间向量;
42.第五获取单元,用于拼接所述语音帧对应的第二向量和所述语音帧对应的中间向量,获得所述语音帧对应的第三向量;
43.所述模型训练单元具体用于将所述多个语音帧中每个语音帧对应的第一向量输入所述待训练的声学模型的第一个隐藏层;以及,将所述多个语音帧中每个语音帧对应的第三向量输入所述待训练的声学模型的所述选定隐藏层,以对所述声学模型进行模型训练。
44.在一种可能的设计中,所述装置还包括:
45.第一调整单元,用于获取所述声学模型的模型参数向量的维度大小,并根据所述声学模型的模型参数向量的维度大小,对所述嵌入层的模型参数向量的维度大小进行调整;
46.所述第三获取单元具体用于利用调整后的所述嵌入层对所述语音帧对应的独热编码向量进行处理,获得所述语音帧对应的第二向量。
47.在一种可能的设计中,所述装置还包括:
48.第二调整单元,用于获取用于表示所述至少两个信道中各个信道之间的差异程度的状态量,并根据所述状态量,对所述嵌入层的模型参数向量的维度大小进行调整;
49.所述第三获取单元具体用于利用调整后的所述嵌入层对所述语音帧对应的独热编码向量进行处理,获得所述语音帧对应的第二向量。
50.在一种可能的设计中,所述特征向量包括梅尔频率倒谱系数mfcc特征向量或滤波器组参数特征向量。
51.第三方面,本发明实施例提供一种声学模型训练装置,所述声学模型训练装置包括处理器、存储器以及通信接口,所述处理器、存储器和通信接口相互连接,其中,所述通信接口用于接收和发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行第一方面所述的方法。
52.第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述所述的方法。
53.本发明实施例中,获取来自至少两个信道的多个语音帧,一个信道对应一种信道类别,即该多个语音帧是来自至少两种信道类别的信道,针对每个语音帧,确定该语音帧所来自信道对应的信道类别,并对该信道类别进行独热编码,获得该语音帧对应的独热编码
向量,获取用于表示语音帧的语音特征的特征向量,从而根据语音帧对应的独热编码向量和语音帧对应的特征向量,获得语音帧对应的第一向量,根据该第一向量对声学模型进行模型训练。采用本申请实施例,可以根据来自各种信道类别的信道的语音帧联合对声学模型进行训练,节省计算资源,并且降低维护成本。
附图说明
54.为了说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
55.图1为本发明实施例提供的一种声学模型训练方法的流程图;
56.图2a为本发明实施例提供的一种向量拼接示意图;
57.图2b为本发明实施例提供的另一种向量拼接示意图;
58.图3为本发明实施例提供的另一种声学模型训练方法的流程图;
59.图4为本发明实施例提供的一种模型输入示意图;
60.图5为本发明实施例提供的一种声学模型训练装置的结构示意图;
61.图6为本发明实施例提供的另一种声学模型训练装置的结构示意图。
具体实施方式
62.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
63.下面将结合附图1

附图4,对本发明实施例提供的一种声学模型训练方法进行详细介绍。
64.请参见图1,为本发明实施例提供了一种声学模型训练方法的流程示意图。如图1所示,本发明实施例的所述声学模型训练方法可以包括以下步骤s101

步骤s105。
65.s101,获取来自至少两个信道的多个语音帧,一个信道对应一种信道类别;
66.本申请实施例中,信道是语音信号传输的通路,不同信道类别的语音信号所采用编解码方式以及压缩方式不同。示例性的,语音信号来自不同类型的设备,所经历的信道所属信道类别可能是不同的。例如,来自手机麦克风的语音信号所经过的信道所属信道类别,与来自传统固话设备的语音信号所经过的信道所属信道类别是不同的。不同信道类别的语音信号在频率、宽带噪声、共振型噪声等方面会存在差异。
67.具体的,确定至少两个信道,该至少两个信道中一个信道对应一种信道类别。分别获取该至少两个信道中每个信道所传输的语音信号,并对每个信道的语音信号进行分帧处理,获得该信道的至少一个语音帧。
68.本申请实施例中,获取该至少两个信道中每个信道的至少一个语音帧,从而获得来自所有信道的多个语音帧。
69.s102,针对所述多个语音帧中的每个语音帧,确定所述语音帧所来自信道对应的信道类别,并对所述信道类别进行独热编码,获得所述语音帧对应的独热编码向量;
70.在一个实施例中,针对该多个语音帧中的每个语音帧,进一步,确定该语音帧所来自信道对应的信道类别,比如,该语音帧是来自传统固话设备,则相应的该语音帧所来自信道对应的信道类别为传统固话设备信道类别。
71.将语音帧所来自信道对应的信道类别进行独热编码,获得该语音帧对应的独热编
码向量。独热编码(one

hot编码),又称为一位有效编码,主要是采用n位状态寄存器来对n个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效,n可以是该至少两个信道的信道数量,即所有信道类别数量。
72.在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。而独热编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用独热编码,会让特征之间的距离计算更加合理。
73.s103,针对所述多个语音帧中的每个语音帧,获取用于表示所述语音帧的语音特征的特征向量;
74.在一个实施例中,对每个语音帧进行语音特征提取,获得用于表示该语音帧的语音特征的特征向量。语音特征包括但不限于梅尔频率倒谱系数(mel

scale frequency cepstral coefficients,mfcc)特征、滤波器组参数(filter bank)特征。
75.s104,根据所述语音帧对应的独热编码向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量;
76.s105,根据所述多个语音帧中每个语音帧对应的第一向量对待训练的声学模型进行模型训练。
77.本申请实施例中,针对每个语音帧,根据该语音帧对应的特征向量与该语音帧对应的独热编码向量,获得该语音帧对应的第一向量的获取方式包括但不限于以下两种可选的实施方式:
78.第一种可选的实施方式,拼接该语音帧对应的独热编码向量和语音帧对应的特征向量,从而获得语音帧对应的第一向量。
79.如图2a所示,将语音帧对应的特征向量和语音帧对应的独热编码向量直接进行拼接,获得拼接后的特征向量,作为该语音帧对应的第一向量。比如,语音帧对应的特征向量为40维的向量,信道的种类为2,语音帧对应的独热编码向量为2维向量,则拼接后的第一向量为42维。将拼接后的第一向量输入声学模型进行训练。
80.第二种可选的实施方式,针对每个语音帧,利用嵌入层embedding对该语音帧对应的独热编码向量进行处理,获得该语音帧对应的第二向量。拼接该语音帧对应的第二向量和该语音帧对应的特征向量,获得该语音帧对应的第一向量。即每个语音帧均对应一个第一向量。
81.通过embedding对语音帧对应的独热编码向量进行处理后所获得的第二向量是一个比独热编码向量维度高且稠密的向量。该embedding能使距离相近的向量对应的语音信号有相近的含义,能够表示各种信道类别之间的差异。第二种可选的实施方式中,将独热编码向量经过嵌入层embedding进行处理,可以避免直接采用独热编码向量导致的向量稀疏的问题。
82.如图2b所示,将语音帧对应的独热编码向量经过嵌入层embedding进行处理后,获得语音帧对应的第二向量,并将语音帧对应的特征向量和语音帧对应的第二向量进行拼接,获得拼接后该语音帧对应的第一向量,将该语音帧对应的第一向量输入声学模型进行训练。
83.可以理解的是,在上述第二种可选的实施方式中,可以根据声学模型的模型参数向量的维度大小,调整embedding处理过程中所使用的模型参数向量的维度大小进行调整,从而调整embedding处理后的第二向量的维度大小。例如模型参数向量的维度比较大,则相应的embedding处理过程中所使用的模型参数向量的维度也比较大。
84.可选的,可以根据各个信道间的差异情况,调整embedding处理过程中所使用模型参数向量的维度大小,从而调整embedding处理后的第二向量的维度大小。例如,信道之间的差异比较大,embedding处理过程中所使用的模型参数向量的维度也比较大,则相应的embedding处理后的第二向量的维度也比较大。可以理解的是,上述调整embedding处理过程中所使用模型参数向量的维度大小,可以实现模型计算量和性能间的平衡。
85.具体的,可以获取用于表示至少两个信道中各个信道之间差异程度的状态量,从而根据该状态量对embedding处理过程中所使用的模型参数向量的维度大小进行调整。
86.请参见图3,为本发明实施例提供了另一种声学模型训练方法的流程示意图。如图3所示,本发明实施例的所述声学模型训练方法可以包括以下步骤s201

步骤s。
87.s201,获取来自至少两个信道的多个语音帧,一个信道对应一种信道类别;
88.s202,针对所述多个语音帧中的每个语音帧,确定所述语音帧所来自信道对应的信道类别,并对所述信道类别进行独热编码,获得所述语音帧对应的独热编码向量;
89.s203,针对所述多个语音帧中的每个语音帧,获取用于表示所述语音帧的语音特征的特征向量;
90.其中,步骤s201

步骤s203请参照图1所示步骤s101

步骤s103的描述,在此不再赘述。
91.s204,利用嵌入层embedding对该语音帧对应的独热编码向量进行处理,获得该语音帧对应的第二向量。
92.s205,拼接所述语音帧对应的第二向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量;
93.其中,针对每个语音帧,利用嵌入层embedding对该语音帧对应的独热编码向量进行处理,获得该语音帧对应的第二向量。拼接该语音帧对应的第二向量和该语音帧对应的特征向量,获得该语音帧对应的第一向量。即每个语音帧均对应一个第一向量。
94.s206,将所述多个语音帧中每个语音帧对应的第一向量输入所述待训练的声学模型的第一个隐藏层;
95.具体的,待训练的声学模型可以包括依次连接的多个隐藏层,如图4所示的声学模型,该声学模型包括依次连接的多个隐藏层,将拼接的语音帧对应的第一向量输入该待训练的声学模型的第一个隐藏层。
96.s207,从所述多个隐藏层中确定至少一个选定隐藏层,所述至少一个选定隐藏层是除所述多个隐藏层的第一个隐藏层外的隐藏层;
97.在一个实施例中,该至少一个选定隐藏层的确定方式可以包括多种,例如,可以每间隔一个隐藏层选择一个选定隐藏层,或者,可以在将排列在最后预设个数的隐藏层选择为选定隐藏层,等等。
98.s208,针对所述至少一个选定隐藏层中的每个选定隐藏层,获取在所述选定隐藏层之前的隐藏层输出的所述语音帧对应的中间向量;
99.在一个实施例中,针对至少一个选定隐藏层中的每个选定隐藏层,确定在该选定隐藏层之前的隐藏层所输出的每个语音帧分别对应的中间向量。
100.s209,拼接所述语音帧对应的第二向量和所述语音帧对应的中间向量,获得所述语音帧对应的第三向量;
101.具体的,将语音帧对应的第二向量与该语音帧对应的中间向量进行拼接,获得该语音帧对应的第三向量,多个语音帧中每个语音帧均对应一个第三向量。
102.s210,将所述多个语音帧中每个语音帧对应的第三向量输入所述待训练的声学模型的所述选定隐藏层,以对所述声学模型进行模型训练;
103.具体的,将每个语音帧对应的第三向量输入待训练的声学模型中对应的选定隐藏层。例如,针对第二个隐藏层为选定隐藏层,拼接第一个隐藏层输出的语音帧对应的中间向量和该语音帧对应的第二向量,获得该语音帧对应的第三向量,将该语音帧对应的第三向量输入第二个隐藏层。
104.如图4所示,将独热编码向量经过嵌入层embedding进行处理后,获得处理后的第二向量。其中,该处理后的第二向量可以与特征向量进行拼接,获得拼接后的第一向量,将拼接后的第一向量输入声学模型进行训练,即输入声学模型的第一个隐藏层。该embedding处理后的第二向量还可以与声学模型的其他隐藏层之前的隐藏层输出的中间向量进行拼接后,获得第三向量,并将该第三向量输入声学模型的其他隐藏层进行声学模型训练,避免声学模型比较深的场景下,训练过程中,丢失处理后的第二向量的特征。
105.可以理解的是,在该实施例中,可以根据声学模型的模型参数向量的维度大小,调整embedding处理过程中所使用的模型参数向量的维度大小进行调整,从而调整embedding处理后的第二向量的维度大小。例如模型参数向量的维度比较大,则相应的embedding处理过程中所使用的模型参数向量的维度也比较大。
106.可选的,可以根据各个信道间的差异情况,调整embedding处理过程中所使用模型参数向量的维度大小,从而调整embedding处理后的第二向量的维度大小。例如,信道之间的差异比较大,embedding处理过程中所使用的模型参数向量的维度也比较大,则相应的embedding处理后的第二向量的维度也比较大。可以理解的是,上述调整embedding处理过程中所使用模型参数向量的维度大小,可以实现模型计算量和性能间的平衡。
107.具体的,可以获取用于表示至少两个信道中各个信道之间差异程度的状态量,从而根据该状态量对embedding处理过程中所使用的模型参数向量的维度大小进行调整。
108.请参见图5,为本发明实施例提供了一种声学模型训练装置的结构示意图。如图5所示,本发明实施例的所述声学模型训练装置可以包括:
109.第一获取单元10,用于获取来自至少两个信道的多个语音帧;
110.第一确定单元11,用于针对所述多个语音帧中的每个语音帧,确定所述语音帧所来自信道对应的信道类别,并对所述信道类别进行独热编码,获得所述语音帧对应的独热编码向量;
111.第二获取单元12,用于获取用于表示所述语音帧的语音特征的特征向量;
112.第三获取单元13,用于根据所述语音帧对应的独热编码向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量;
113.模型训练单元14,用于根据所述多个语音帧中每个语音帧对应的第一向量对待训
memory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块以及程序指令。
131.在图6所示的声学模型训练装置1000中,处理器1001可以用于加载存储器1004中存储的程序指令,并具体执行以下操作:
132.获取来自至少两个信道的多个语音帧,一个信道对应一种信道类别;
133.针对所述多个语音帧中的每个语音帧,确定所述语音帧所来自信道对应的信道类别,并对所述信道类别进行独热编码,获得所述语音帧对应的独热编码向量;
134.获取用于表示所述语音帧的语音特征的特征向量;
135.根据所述语音帧对应的独热编码向量和所述语音帧对应的特征向量,获得所述语音帧对应的第一向量;
136.根据所述多个语音帧中每个语音帧对应的第一向量对待训练的声学模型进行模型训练。
137.需要说明的是,具体执行过程可以参见图1或图3所示方法实施例的具体说明,在此不进行赘述。
138.具体执行步骤可以参见前述实施例的描述,此处不在赘述。
139.本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1或图3所示实施例的方法步骤,具体执行过程可以参见图1或图3所示实施例的具体说明,在此不进行赘述。
140.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)或随机存储记忆体(random access memory,ram)等。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜