一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音处理方法、用于语音处理的模型训练方法和装置与流程

2022-06-05 18:46:29 来源:中国专利 TAG:


1.本技术涉及语音识别技术领域,尤其涉及一种语音处理方法、用于语音处理的模型训练方法、装置及电子设备。


背景技术:

2.近年来,人工智能技术普及于日常生活中,语音相关技术更是成为发展的重要方向之一。目前现有大多数语音技术的应用皆着重在于将语音转为文字(speech to text,stt)。
3.但在此之上,基于安全性与针对不同用户提供定制化服务的考虑上,如何确定音频所属的说话者,已成为亟需解决的技术问题。


技术实现要素:

4.本技术旨在至少在一定程度上解决相关技术中的技术问题之一。
5.本技术提出一种语音处理方法,以实现根据目标语音的特征向量,来确认目标语音与参考语音是否属于同一说话对象,从而实现了根据识别不同用户的语音确认语音所属对象的目的。
6.本技术第一方面实施例提出了一种语音处理方法,包括:
7.获取目标语音;
8.从所述目标语音中提取多个音频帧;
9.对所述多个音频帧中的每个音频帧采用卷积神经网络模型中的辛格函数卷积层,进行低维度特征提取,得到每个所述音频帧的中间特征向量;
10.将每个所述音频帧的中间特征向量输入所述卷积神经网络模型中的残差网络层,进行高维度特征提取,得到每个所述音频帧的特征向量;
11.根据所述多个音频帧的特征向量,确定所述目标语音的特征向量;
12.根据所述目标语音的特征向量,确定匹配的参考语音,以将所述参考语音所属的对象确定为所述目标语音的对象。
13.本技术实施例的语音处理方法,在获取目标语音后,从目标语音中提取多个音频帧,这样在后续基于设定个数的音频帧的特征向量,确定目标语音的特征向量时,避免了由于音频帧个数的波动带来目标语音的特征向量在特征表达性能上的波动,使得目标语音的特征向量能够稳定表达目标语音的特征,由此,来确认目标语音与参考语音是否属于同一说话对象的识别结果准确度也更为稳定,从而实现了根据识别不同用户的语音确认所属的对象,不仅可以为不同的用户提供定制化服务,还提高了身份验证的安全性。
14.本技术第二方面实施例提出了一种用于语音处理的模型训练方法,包括:
15.获取多个已知对象的训练音频;
16.从每个已知对象的训练音频中分别提取至少一个训练帧,并对提取的多个所述训练帧标注对应的所述已知对象;
17.采用标注后的多个所述训练帧,对卷积神经网络进行训练;
18.其中,所述卷积神经网络模型包括用于对输入的训练帧进行低维度特征提取,得到中间特征向量的辛格函数卷积层,以及包括用于对所述中间特征向量进行高维度特征提取,以输出特征向量的残差网络层。
19.本技术实施例的用于语音处理的模型训练方法,通过获取多个已知对象的训练音频,从每个已知对象的训练音频中分别提取至少一个训练帧,并对提取的多个训练帧标注对应的已知对象,进而,采用标注后的多个训练帧,对卷积神经网络进行训练,从而提高了卷积神经网络模型的提取音频帧的特征向量的精度。
20.本技术第三方面实施例提出了一种语音处理装置,包括:
21.获取模块,用于获取目标语音;
22.音频帧提取模块,用于从所述目标语音中提取多个音频帧;
23.特征提取模块,用于对所述多个音频帧中的每个音频帧采用卷积神经网络模型中的辛格函数卷积层,进行低维度特征提取,得到每个所述音频帧的中间特征向量;
24.处理模块,用于将每个所述音频帧的中间特征向量输入所述卷积神经网络模型中的残差网络层,进行高维度特征提取,得到每个所述音频帧的特征向量;
25.第一确定模块,用于根据所述多个音频帧的特征向量,确定所述目标语音的特征向量;
26.第二确定模块,用于根据所述目标语音的特征向量,确定匹配的参考语音,以将所述参考语音所属的对象确定为所述目标语音的对象。
27.本技术第四方面实施例提出了一种用于语音处理的模型训练装置,包括:
28.获取模块,用于获取多个已知对象的训练音频;
29.标注模块,用于从每个已知对象的训练音频中分别提取至少一个训练帧,并对提取的多个所述训练帧标注对应的所述已知对象;
30.训练模块,用于采用标注后的多个所述训练帧,对卷积神经网络进行训练;
31.其中,所述卷积神经网络模型包括用于对输入的训练帧进行低维度特征提取,得到中间特征向量的辛格函数卷积层,以及包括用于对所述中间特征向量进行高维度特征提取,以输出特征向量的残差网络层。
32.本技术第五方面实施例提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如第一方面实施例的语音处理方法,或者,实现如第二方面实施例所述的用于语音处理的模型训练。
33.本技术第六方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面实施例的语音处理方法,或者,实现如第二方面实施例所述的用于语音处理的模型训练。
34.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
35.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
36.图1为本技术实施例提供的一种语音处理方法的流程示意图;
37.图2为本技术实施例提供的一种用于确定目标语音的对象的子流程示意图;
38.图3为本技术实施例提供的一种语音处理方法的示例图;
39.图4为本技术实施例提供的一种用于语音处理的模型训练方法的流程示意图;
40.图5为本技术实施例提供的一种语音处理装置的结构示意图;
41.图6为本技术实施例提供的一种用于语音处理的模型训练装置的结构示意图。
具体实施方式
42.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
43.下面参考附图描述本技术实施例的语音处理方法、用于语音处理的模型训练方法、装置、电子设备以及存储介质。
44.图1为本技术实施例提供的一种语音处理方法的流程示意图。
45.如图1所示,该语音处理方法包括以下步骤:
46.步骤101,获取目标语音。
47.其中,目标语音是指待确认所属对象发出的语音信息,本技术中获取到的目标语音所属的对象可以为同一个,也可以为多个,如,可以获取到包含有3位说话对象的语音。本技术中对于目标语音所属的对象的人数不做限定。
48.可以理解的是,为了确认目标语音所属的对象,首先需要获取到目标语音,即目标语音所属的对象发出的语音。目标语音既可以来自于原始的音频数据,也可以来自于原始的视频数据;并且目标语音的时间长短可以基于需要有所不同,本技术对目标语音的来源与长度不做限定。例如:目标语音可以是5秒左右的音频。
49.步骤102,从目标语音中提取多个音频帧。
50.其中,从目标语音中提取的音频帧的个数可以为预先设定的。
51.本技术实施例中,为了保持语音处理速度的一致性,可以从目标语音中提取出多个帧数相同的音频帧。
52.需要解释的是,音频数据是流式的,本身没有明确的一帧帧的概念,在实际的应用中,为了音频算法处理/传输的方便,一般取2.5毫秒~60毫秒为单位的数据量为一帧音频。对于音频帧的其长度没有特别的标准,它是根据编解码器和具体应用的需求来决定的。本技术中,将按照固定时长对目标语音进行切分后,得到的每个语音部分称为音频帧。例如,mp3每帧播放的固定长度可以为26ms。
53.作为一种可能的实现方式,可以首先根据目标语音的长度确定目标语音对应的帧间隔,进一步地,根据目标语音对应的帧间隔,从目标语音中提取得到设定个数的音频帧。其中,帧间隔是指从目标语音中提取音频帧之间间隔的帧数。由此,通过不同的帧间隔使得提取的音频帧为设定个数,这样在后续基于设定个数的音频帧的特征向量,确定目标语音的特征向量时,避免了由于音频帧个数的波动带来目标语音的特征向量在特征表达性能上的波动,使得目标语音的特征向量能够稳定表达目标语音的特征。
54.在具体实施过程中,可以根据多个语音长度和设定个数,确定多个语音长度对应
的语段长度,对每个语音长度,将对应的语段长度与设定音频帧长度之差作为每个语音长度对应的帧间隔,进而,根据多个语音长度对应的帧间隔,建立语音长度与帧间隔之间的映射关系。
55.此处的多个语音长度,可以为同一个对象的多个语音对应的语音长度,也可以为不同对应的多个语音对应的语音长度,本技术中对多个语音长度对应的语音所属的对象个数不做限定。
56.其中,语段长度,是指根据语音的语音长度,将语音分为设定个数的语段所对应的长度。例如,假设语音长度为10毫秒,设定个数为2,则该语音长度对应的语段长度为5毫秒。
57.假设设定音频帧长度为50毫秒,语音长度为5秒,设定个数为5,对应的语段长度为1秒时,根据对应的语段长度与设定音频帧长度之差确定的语音长度对应的帧间隔为950毫秒,从而可以确定语音长度与帧间隔之间的映射关系。
58.需要解释的是,上述确定语音长度与帧间隔之间的映射关系仅作为示例性描述。
59.进一步地,确定语音长度与帧间隔之间的映射关系后,可以根据目标语音的语音长度,查询语音长度与帧间隔之间的映射关系,以确定目标语音的语音长度对应的帧间隔。
60.举例来说,假设语音长度与帧间隔之间的映射关系为:语音长度为5秒,对应的帧间隔为950毫秒等等。在确定目标语音的语音长度为5秒时,通过查询语音长度与帧间隔之间的映射关系,可以确定从该目标语音中提取出多个音频帧之间的帧间隔为950毫秒。
61.作为另一种可能的实现方式,可以预先设定音频帧的长度和个数,进而根据目标语音的语音长度,计算出从目标语音中提取多个音频帧之间的帧间隔。
62.步骤103,对多个音频帧中的每个音频帧采用卷积神经网络模型中的辛格函数卷积层,进行低维度特征提取,得到每个音频帧的中间特征向量。
63.步骤104,将每个音频帧的中间特征向量输入卷积神经网络模型中的残差网络层,进行高维度特征提取,得到每个音频帧的特征向量。
64.其中,卷积神经网络(convolutional neural network,简称cnn),是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元。
65.可以理解的是,辛格(sinc)函数卷积层(sincnet filters)是一个全部除去给定带宽之上的信号分量而只保留低频信号的理想电子滤波器。在频域它的形状像一个矩形函数,在时域它的形状像一个sinc函数。
66.由于残差网络层(resnet)具有深层次的网络结构,本技术中采用残差网络层对每个音频帧的中间特征向量进行高维度特征提取时,提取到的不同层次的信息越多,而不同层次间的层次信息的组合也越多,从而可以避免特征丢失的问题。
67.本技术实施例中,从目标语音中提取得到多个音频帧后,可以采用cnn模型中的sinc函数卷积层对多个音频帧中的每个音频帧进行低维度特征提取,以得到每个音频帧的中间特征向量。进一步地,将每一个音频帧的中间特征向量输入cnn模型中的resnet网络层进行高维度特征提取,以得到每个音频帧的特征向量。
68.需要说明的是,本技术中残差网络层输入的中间特征向量的维度,与辛格函数卷积层输出的中间特征向量的维度匹配。
69.其中,可以基于sinc函数卷积层对音频帧进行低维度特征提取,以得到音频帧的中间特征向量。进一步地,采用resnet网络层对中间特征向量进行高维度特征提取,以得到
音频帧的特征向量在多个向量维度上的特征值。由此,可以基于sinc卷积层的卷积操作和resnet网络作为全新的音频编码,以确定目标语音的特征向量。
70.原始的sincnet架构为一层的滤波加上二层的cnn,增加了层数虽然可以有效地加强模型的特征提取能力。但是,在层数过多的情况下,容易造成特征的丢失。因此,本技术中对音频帧的中间特征向量进行特征提取时采用了resnet网络层可有效避免特征丢失的问题。
71.步骤105,根据多个音频帧的特征向量,确定目标语音的特征向量。
72.本技术中,特征向量可以包括:自相关系数、子带能量(0~4khz)特征、过零率、线性预测倒谱系数(linear prediction cepstrum coefficient,简称lpcc)特征和梅尔频率倒谱系数(mel frequency cepstral coefficent,简称mfcc)等多个维度的特征中的部分或全部特征。
73.作为一种可能的实现方式,可以将从目标语音中提取出的多个音频帧分别输入经过训练的卷积神经网络,以提取得到每一个音频帧的特征向量后,可以确定每个音频帧的特征向量在多个向量维度(d-vectors)上的特征值,进而,根据每一个音频帧的特征向量在多个向量维度上的特征值,确定每一向量维度上各音频帧的特征值均值,进而,将各向量维度上的特征值均值作为目标语音的特征向量。
74.作为本技术的一种可能的情况,在确定目标语音的特征向量后,可以对目标语音的特征向量进行降维处理,以生成较小维度的目标语音的特征向量,从而不仅减少了计算量,提高了语音处理的速率,还可以降低噪声。
75.示例性的,可以采用主成成分分析(principal component analysis,简称pca)方法对目标语音的特征向量进行降维,以得到较小维度的目标语音的特征向量。
76.示例性的,还可以采用线性鉴别分析模型(latent dirichlet allocation,简称lda)对目标语音的特征向量进行降维,以得到较小维度的目标语音的特征向量。
77.需要说明的是,上述对目标语音的特征向量进行降维的方法仅作为示例性描述,其他可以实现的降维方法也适用于本技术中,在此不再一一介绍。
78.步骤106,根据目标语音的特征向量,确定匹配的参考语音,以将参考语音所属的对象确定为目标语音的对象。
79.其中,参考语音可以为已知所属对象的语音,例如,可以为已注册用户的语音。
80.本技术实施例中,确定目标语音的特征向量后,可以通过比较目标语音的特征向量与参考语音的特征向量之间的差异,确定与目标语音匹配的参考语音后,将参考语音所属的对象确定为目标语音的对象。
81.其中,参考语音的特征向量的提取方式,可以参见上述实施例中目标语音的特征向量的提取方式,在此不再赘述。
82.作为一种可能的实现方式,可以将目标语音的特征向量与参考语音的特征向量输入经过训练的判别分析模型,以根据模型的输出确定目标语音与参考语音是否属于同一个说话对象。
83.例如,可以将目标语音的特征向量与参考语音的特征向量输入概率线性判别分析模型(probabilistic linear discriminant analysis,plda),以根据plda模型输出的目标语音与参考语音属于同一说话对象的概率,确定目标语音与参考语音是否属于同一说话
对象。
84.本技术实施例的语音处理方法,在获取目标语音后,从目标语音中提取多个音频帧,这样在后续基于设定个数的音频帧的特征向量,确定目标语音的特征向量时,避免了由于音频帧个数的波动带来目标语音的特征向量在特征表达性能上的波动,使得目标语音的特征向量能够稳定表达目标语音的特征,由此,来确认目标语音与参考语音是否属于同一说话对象的识别结果准确度也更为稳定,从而实现了根据识别不同用户的语音确认所属的对象,不仅可以为不同的用户提供定制化服务,还提高了身份验证的安全性。
85.在上述实施例的基础上,在上述步骤106中已经提及根据目标语音的特征向量与参考语音的特征向量,确定与目标语音匹配的参考语音,以确定目标语音的对象。下面结合图2进行详细介绍,图2为本技术实施例提供的一种用于确定目标语音的对象的子流程示意图。
86.如图2所示,上述步骤106,还可以包括以下子步骤:
87.步骤201,获取至少一个参考语音的特征向量。
88.其中,参考语音可以为已知对象的语音。例如,可以采集注册用户在不同环境下的语音作为参考语音。
89.需要说明的是,采集注册用户的语音长度可以为5秒,10秒,等等,在此不做限定。
90.本技术实施例中,可以将采集到的各注册用户的语音确定为参考语音,根据各参考语音的长度,确定各参考语音对应的帧间隔,以根据各参考语音对应的帧间隔,从各参考语音中提取设定个数的多个参考帧。进一步地,根据多个参考帧的特征向量,确定对应的参考语音的特征向量。
91.在确定参考帧的特征向量时,可以将多个参考帧中的每个音频帧采用卷积神经网络中的辛格网络卷积层,进行低维度特征提取,以得到每个参考帧的中间特征向量,进一步地,将每个参考帧的中间特征向量输入卷积神经网络模型中的残差网络层,进行高维度特征提取,得到每个参考帧的特征向量。
92.在根据多个参考帧的特征向量,确定对应的参考语音的特征向量时,可以根据每个参考帧的特征向量在多个向量维度上的特征值,确定每一向量维度上各参考帧的特征值均值,以将各向量维度上的特征值均值作为参考语音的特征向量。
93.在具体实施过程中,在根据各参考语音的长度,确定各参考语音对应的帧间隔时,可以通过查询语音长度与帧间隔之间的映射关系,以确定参考语音的语音长度对应的帧间隔。其中,语音长度与帧间隔之间的映射关系的确定过程,可以参见上述实施例中的实现过程,在此不再赘述。
94.步骤202,采用降维模型降低每个参考语音的特征向量和目标语音的特征向量的维度。
95.本技术实施例中,获取到至少一个参考语音的特征向量后,可以采用降维模型降低每个参考语音的特征向量和目标语音的特征向量的维度。由此,通过对参考语音的特征向量和目标语音的特征向量进行降维处理,以生成较小维度的特征向量,从而不仅减少了计算量,提供了语音处理的速率,还可以降低噪声。
96.示例性的,可以采用pca方法对参考语音和目标语音的特征向量进行降维,以得到较小维度的参考语音的特征向量。
97.其中,pca方法的降维原理是将高维度的特征向量合并称为低维度的特征属性,是一种无监督的降维方法。算法目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并且期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留较多的原数据点的特性。
98.示例性的,还可以采用lda对参考语音和目标语音的特征向量进行降维,以得到较小维度的参考语音的特征向量。
99.其中,lda是一种基于分类模型进行特征属性合并的操作,是一种有监督的降维方法。lda的原理是将带上标签的数据或点,通过投影的方法,投影到维度更低的空间中,使得投影后的点形成按类别区分,以达到抽取分类信息和压缩特征空间维数的效果。
100.需要说明的是,上述对目标语音的特征向量和参考语音的特征向量进行降维的方法仅作为示例性描述,其他可以实现的降维方法也适用于本技术中,在此不再一一介绍。
101.步骤203,将降维后的每个参考语音的特征向量分别与降维后的目标语音的特征向量输入概率线性判别分析模型。
102.其中,概率线性判别分析模型,是已经采用训练样本进行训练得到的,能够准确判别出输入的两个语音是否属于同一说话对象。
103.作为一种可能的实现方式,可以将目标语音的特征向量和参考语音的特征向量输入经过训练的plda模型中,以根据plda计算目标语音的特征向量和参考语音的特征向量的相似度,以输出目标语音与参考语音属于同一说话对象的概率。
104.其中,可以采用如下公式,计算目标语音的特征向量和参考语音的特征向量的相似度。
[0105][0106]
其中,score为目标语音的特征向量和参考语音的特征向量之间的相似度,η1和η2分别是目标语音的特征向量和参考语音的特征向量,这两条语音来自同一空间的假设为hs,来自不同的空间的假设为hd,p(η1,η2|hs)为目标语音和参考语音来自同一空间的似然函数,p(η1|hd)和p(η2|hd)分别为η1和η2来自不同空间的似然函数。
[0107]
由上述公式的计算结果可知,比值越高,目标语音与参考语音属于同一说话对象的概率越大;比值越低,目标语音与参考语音属于同一说话对象的概率越小。
[0108]
作为另一种可能的实现方式,还可以采用余弦评分方法,来计算目标语音的特征向量与参考语音的特征向量的相似度,以确定目标语音与参考语音是否属于同一说话对象。具体计算公式如下:
[0109][0110]
其中,s为目标语音的特征向量与参考语音的特征向量之间的夹角,w
tar
为目标语音的特征向量,w
test
为参考语音的特征向量。目标语音的特征向量与参考语音的特征向量之间的夹角反映了二者的相关性,当s的值较大时,目标语音的特征向量与参考语音的特征
向量之间的相关性较小;当s的值较小时,目标语音的特征向量与参考语音的特征向量之间的相关性较大。
[0111]
需要说明的是,相较于采用余弦评分方法确定目标语音的特征向量与参考语音的特征向量的相似度,采用plda模型确定目标语音的特征向量与参考语音的特征向量的相似度,存在准确率高的优点。
[0112]
步骤204,若根据概率线性判别分析模型的输出,确认目标语音与输入的参考语音匹配,则将输入的参考语音所属的对象,确定为目标语音的对象。
[0113]
本技术实施例中,将降维后的每个参考语音的特征向量与目标语音的特征向量输入plda模型,可以根据模型输出的目标语音与参考语音属于同一说话对象的概率,确认目标语音与输入的参考语音是否匹配,以确认目标语音与参考语音是否属于同一说话对象。
[0114]
作为一种可能的实现方式,可以预先设定概率阈值,将plda模型输出的概率与概率阈值进行比较,当plda模型输出目标语音与参考语音属于同一说话对象的概率大于概率阈值时,可以确定目标语音与参考语音匹配,进而将输入的参考语音所属的对象确定为目标语音的对象。
[0115]
其中,概率阈值可以为根据实际情况预先设定的,用于确定目标语音与参考语音匹配的最大概率值。
[0116]
当plda模型输出目标语音与参考语音属于同一说话对象的概率小于或等于概率阈值时,可以确定目标语音与参考语音不属于同一说话对象。也就是说目标语音与输入的参考语音不匹配,输入的参考语音所属的对象不是目标语音的对象。进一步地,可以将目标语音与下一个参考语音进行匹配,以根据plda模型输出的概率,确定目标语音与下一个参考语音是否匹配。
[0117]
需要解释的是,将每个参考语音的特征向量分别与降维后的目标语音的特征向量输入plda模型,plda模型可以同时输出每个参考语音与目标语音是否匹配的概率,也可以顺序输出每个参考语音与目标语音是否匹配的概率,在此不做限定。
[0118]
其中,输入plda模型的参考语音的特征向量,可以为采集的已知对象的原始语音的特征向量,也可以为对已知对象的原始语音的特征向量进行降维处理后的特征向量,在此不做限定。若是原始语音的特征向量,需要先进行降维处理后,再与目标语音进行匹配;若是已降维的特征向量,则可以直接与目标语音进行匹配。
[0119]
本技术实施例中,通过获取至少一个参考语音的特征向量,采用降维模型降低每个参考语音的特征向量和目标语音的特征向量的维度后,将降维后的每个参考语音的特征向量与目标语音的特征向量输入plda模型,以根据plda模型的输出,确定输入的参考语音所属的对象是否为目标语音所属的对象。相较于现有的确定向量相似度的计算方法,本技术中基于plda模型确定目标语音与输入的参考语音是否匹配,有利于提高目标语音所属对象确认的准确度。
[0120]
作为一种示例,如图3所示,图3为本技术实施例提供的一种语音处理方法的示例图,如图3所示,该语音处理方法可以包括以下步骤:
[0121]
步骤301,从语音中提取多个音频帧。
[0122]
本技术中,获取到语音后,根据各语音长度确定对应的帧间隔后,可以从语音中提取多个音频帧。
[0123]
步骤302,将多个音频帧中的每个音频帧采用辛格函数卷积层进行低维度特征提取,得到每个音频帧的中间特征向量,将每个音频帧的中间特征向量输入卷积神经网络模型中的残差网络层,进行高维度特征提取,得到每个音频帧的特征向量。
[0124]
步骤303,确定每个音频帧的特征向量在多个向量维度上的特征值。
[0125]
步骤304,根据每个音频帧的特征向量在多个向量维度上的特征值,确定每一向量维度上各音频帧的特征值均值,将各向量维度上的特征值均值确定为,语音的特征向量。
[0126]
步骤305,采用降维模型降低语音的特征向量的维度。
[0127]
其中,降维模型可以为pca模型。
[0128]
步骤306,将降维后的语音的特征向量和参考语音的特征向量输入概率线性判别分析模型。
[0129]
步骤307,根据概率线性判别分析模型的输出,确认语音与输入的参考语音是否匹配。
[0130]
需要说明的是,步骤301至步骤307的详细实现过程可以参见上述实施例,在此不再赘述。
[0131]
在上述实施例的基础上,在采用卷积神经网络模型提取音频帧的特征向量时,为了提高模型的精度,可以采用训练音频对模型进行训练。下面结合图3进行详细介绍,图4为本技术实施例提供的一种用于语音处理的模型训练方法的流程示意图。
[0132]
如图4所示,该用于语音处理的模型训练方法,可以包括以下步骤:
[0133]
步骤401,获取多个已知对象的训练音频。
[0134]
其中,训练音频为已经确定所属对象的音频,如,训练音频1属于张三,训练音频2属于李四,等等。
[0135]
本技术实施例中,可以采集多个已注册用户的语音作为训练音频,也可以从音频库中下载已知对象的音频作为训练音频,等等。本技术中对训练音频的获取方式不做限定。其中,音频库中可以存储有多个已知对象的音频。
[0136]
进一步地,在获取到多个已知对象的训练音频后,可以根据每个训练音频所属的已知对象对多个训练音频进行分类,以采用对应的分类标签对每个训练音频进行标识。其中,分类标签用于根据训练音频所属的已知对象属于同一对象对多个训练音频进行分类。
[0137]
步骤402,从每个已知对象的训练音频中分别提取至少一个训练帧,并对提取的多个训练帧标注对应的已知对象。
[0138]
本技术实施例中,获取到多个已知对象的训练音频后,可以从每个已知对象的训练音频中分别提取至少一个训练帧。
[0139]
作为一种可能的情况,获取到多个已知对象的训练音频后,可以根据各训练音频的长度,确定各训练音频对应的帧间隔,以根据各训练音频对应的帧间隔,从各训练音频中提取设定个数的多个训练帧。
[0140]
可选地,在根据各训练音频的长度,确定各训练音频对应的帧间隔时,可以通过查询语音长度与帧间隔之间的映射关系,以确定训练音频的语音长度对应的帧间隔。其中,语音长度与帧间隔之间的映射关系的确定过程,可以参见上述实施例中的实现过程,在此不再赘述。
[0141]
本技术实施例中,从每个已知对象的训练音频中分别提取至少一个训练帧,得到
多个训练帧后,可以对提取的多个训练帧标注对应的已知对象。
[0142]
需要说明的是,可以从每个已知对象的训练音频中分别随机提取至少一个训练帧,也可以按照设定规则提取至少一个训练帧,本技术中对训练帧的提取方式不做限定。
[0143]
步骤403,采用标注后的多个训练帧,对卷积神经网络进行训练。
[0144]
其中,卷积神经网络模型包括用于对输入的训练帧进行低维度特征提取,得到中间特征向量的辛格函数卷积层,以及包括用于对中间特征向量进行高维度特征提取,以输出特征向量的残差网络层。
[0145]
本技术实施例中,对从每个已知对象的训练音频中提取得到的多个训练帧标注对应的已知对象后,可以采用标注后的多个训练帧,对卷积神经网络模型的辛格函数卷积层和残差网络层进行训练。
[0146]
在具体实施过程中,可以将多个标注对象的训练帧输入卷积神经网络,得到各训练帧的特征向量后,一方面,根据各训练帧的特征向量,确定任意两训练帧之间的第一匹配程度。另一方面,根据各训练帧的标注,确定任意两训练帧之间的第二匹配程度。进一步地,根据任意两训练帧之间的第一匹配程度与第二匹配程度之间的差异,调整卷积神经网络的模型参数。
[0147]
在此为了便于区分,本技术中将根据各训练帧之间的特征向量,确定的任意两训练帧的匹配程度命名为第一匹配程度;将根据各训练帧标注的已知对象,确定的任意两训练帧的匹配程度命名为第二匹配程度。当然也可以采用其他命名方式,在此不做限定。
[0148]
在一种可能的情况下,若根据任意两训练帧之间的特征向量,确定的两训练帧之间的第一匹配程度,并根据这两个训练帧标注的已知对象,确定的两训练帧之间的第二匹配程度后,确定第一匹配程度与第二匹配程度之间并无差异,则该卷积神经网络输出较为准确,不用调整该卷积神经网络的模型参数。
[0149]
在另一种可能的情况下,若根据任意两训练帧之间的特征向量,确定的两训练帧之间的第一匹配程度,并根据这两个训练帧标注的已知对象,确定的两训练帧之间的第二匹配程度后,确定第一匹配程度与第二匹配程度之间差异较大,则该卷积神经网络误差较大,可以对卷积神经网络的模型参数进行调整,以提高模型输出的准确度。
[0150]
示例性地,可以将多个标注对象的训练帧输入卷积神经网络模型的辛格函数卷积层,对输入的多个训练帧进行低维度特征提取,得到每个训练帧的中间特征向量后,将各训练帧的中间特征向量输入残差网络层进行高维度特征提取,得到各训练帧的特征向量。进一步地,根据任意两个训练帧的特征向量,确定这两个训练帧之间的第一匹配程度,并且根据这两个训练帧的标注,确定两训练帧之间的第二匹配程度,以根据任意两训练帧之间的第一匹配程度与第二匹配程度之间的差异,调整卷积神经网络的模型参数。
[0151]
本技术实施例的用于语音处理的模型训练方法,通过获取多个已知对象的训练音频,从每个已知对象的训练音频中分别提取至少一个训练帧,并对提取的多个训练帧标注对应的已知对象,进而,采用标注后的多个训练帧,对卷积神经网络进行训练,从而提高了卷积神经网络模型的提取音频帧的特征向量的精度。
[0152]
为了实现上述实施例,本技术还提出一种语音处理装置。
[0153]
图5为本技术实施例提供的一种语音处理装置的结构示意图。
[0154]
如图5所示,该语音处理装置500,可以包括:获取模块510、音频帧提取模块520、特
征提取模块530、输入模块540、第一确定模块550以及第二确认模块560。
[0155]
其中,获取模块510,用于获取目标语音。
[0156]
音频帧提取模块520,用于从目标语音中提取多个音频帧。
[0157]
特征提取模块530,用于对多个音频帧中的每个音频帧采用卷积神经网络模型中的辛格函数卷积层,进行低维度特征提取,得到每个音频帧的中间特征向量。
[0158]
处理模块540,用于将每个音频帧的中间特征向量输入卷积神经网络模型中的残差网络层,进行高维度特征提取,得到每个音频帧的特征向量。
[0159]
第一确定模块550,用于根据多个音频帧的特征向量,确定目标语音的特征向量。
[0160]
第二确定模块560,用于根据目标语音的特征向量,确定匹配的参考语音,以将参考语音所属的对象确定为目标语音的对象。
[0161]
作为一种可能的情况,第一确定模块550,还可以具体用于:
[0162]
根据每个音频帧的特征向量在多个向量维度上的特征值,确定每一向量维度上各音频帧的特征值均值;将各向量维度上的特征值均值确定为目标语音的特征向量。
[0163]
作为另一种可能的情况,音频帧提取模块520,可以包括:
[0164]
确定单元,用于根据目标语音的语音长度,确定目标语音对应的帧间隔。
[0165]
提取单元,用于根据目标语音对应的帧间隔,从目标语音中提取多个音频帧,多个音频帧的个数为设定个数。
[0166]
作为另一种可能的情况,确定单元,还可以具体用于:
[0167]
根据语音长度与帧间隔之间的映射关系,确定目标语音的语音长度对应的帧间隔。
[0168]
作为另一种可能的情况,确定单元,还可以具体用于:
[0169]
根据多个语音长度和设定个数,确定多个语音长度对应的语段长度;对每个语音长度,将对应的语段长度与设定音频帧长度之差作为每个语音长度对应的帧间隔;根据多个语音长度对应的帧间隔,建立语音长度与帧间隔之间的映射关系。
[0170]
作为另一种可能的情况,第二确定模块560,可以包括:
[0171]
获取单元,用于获取至少一个参考语音的特征向量。
[0172]
降维单元,用于采用降维模型降低每个参考语音的特征向量和目标语音的特征向量的维度。
[0173]
输入单元,用于将降维后的每个参考语音的特征向量分别与降维后的目标语音的特征向量输入概率线性判别分析模型。
[0174]
确认单元,用于若根据概率线性判别分析模型的输出,确认目标语音与输入的参考语音匹配,则将输入的参考语音所属的对象,确定为目标语音的对象。
[0175]
作为另一种可能的情况,获取单元,还可以具体用于:
[0176]
将采集的各注册用户的语音确定为各参考语音;根据各参考语音的语音长度,确定各参考语音对应的帧间隔;根据各参考语音对应的帧间隔,从各参考语音中提取设定个数的多个参考帧;根据多个参考帧的特征向量,确定对应的参考语音的特征向量。
[0177]
作为另一种可能的情况,残差网络层输入的所述中间特征向量的维度,与所述辛格函数卷积层输出的所述中间特征向量的维度匹配。需要说明的是,前述对语音处理方法实施例的解释说明也适用于该实施例的语音处理装置,此处不再赘述。
[0178]
本技术实施例的语音处理装置,在获取目标语音后,从目标语音中提取多个音频帧,这样在后续基于设定个数的音频帧的特征向量,确定目标语音的特征向量时,避免了由于音频帧个数的波动带来目标语音的特征向量在特征表达性能上的波动,使得目标语音的特征向量能够稳定表达目标语音的特征,由此,来确认目标语音与参考语音是否属于同一说话对象的识别结果准确度也更为稳定,从而实现了根据识别不同用户的语音确认所属的对象,不仅可以为不同的用户提供定制化服务,还提高了身份验证的安全性。
[0179]
为了实现上述实施例,本技术提出了一种用于语音处理的模型训练装置。
[0180]
图6为本技术实施例提供的一种用于语音处理的模型训练装置的结构示意图。
[0181]
如图6所示,该用于语音处理的模型训练装置600,可以包括:获取模块610、标注模块620以及训练模块630。
[0182]
其中,获取模块610,用于获取多个已知对象的训练音频。
[0183]
标注模块620,用于从每个已知对象的训练音频中分别提取至少一个训练帧,并对提取的多个训练帧标注对应的已知对象。
[0184]
训练模块630,用于采用标注后的多个训练帧,对卷积神经网络进行训练;
[0185]
其中,卷积神经网络模型包括用于对输入的训练帧进行低维度特征提取,得到中间特征向量的辛格函数卷积层,以及包括用于对中间特征向量进行高维度特征提取,以输出特征向量的残差网络层。
[0186]
作为一种可能的情况,训练模块630,还可以具体用于:
[0187]
将多个训练帧,输入卷积神经网络,以得到各训练帧的特征向量;根据各训练帧的特征向量,确定任意两训练帧之间的第一匹配程度;根据各训练帧的标注,确定任意两训练帧之间的第二匹配程度;根据任意两训练帧之间的第一匹配程度与第二匹配程度之间的差异,调整卷积神经网络的模型参数。
[0188]
需要说明的是,前述对用于语音处理的模型训练方法实施例的解释说明也适用于该实施例的用于语音处理的模型训练装置,此处不再赘述。
[0189]
本技术实施例的用于语音处理的模型训练装置,通过获取多个已知对象的训练音频,从每个已知对象的训练音频中分别提取至少一个训练帧,并对提取的多个训练帧标注对应的已知对象,进而,采用标注后的多个训练帧,对卷积神经网络进行训练,从而提高了卷积神经网络模型的提取音频帧的特征向量的精度。
[0190]
为了实现上述实施例,本技术还提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述实施例的语音处理方法,或者,实现上述实施例的用于语音处理的模型训练方法。
[0191]
为了实现上述实施例,本技术还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例的语音处理方法,或者,实现上述实施例的用于语音处理的模型训练方法。
[0192]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技
术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0193]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0194]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0195]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0196]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0197]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0198]
此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0199]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限
制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献