一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音处理模型的训练、语音处理方法、装置、设备及介质与流程

2022-02-22 20:33:47 来源:中国专利 TAG:


1.本公开涉及语音处理技术领域,尤其涉及语音处理模型的训练、语音处理方法、装置、设备及介质。


背景技术:

2.目前,随着通信技术和智能终端的不断发展,众多的设备都需要进行语音交互,因此,能够准确有效对语音交互过程中的语音进行处理是重要的。
3.相关技术中,在对语音模型进行训练或处理时,通常融合不同尺度的特征,这些特征在用于模型训练时会产生干扰,导致训练得到的模型的准确率不高。


技术实现要素:

4.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了语音处理模型的训练、语音处理方法、装置、设备及介质。
5.根据本公开实施例的一方面,提供了一种语音处理模型的训练方法,包括:获取原始语音序列;对所述原始语音序列添加预设数量的高斯白噪声,得到所述预设数量的待训练语音序列;基于每个待训练语音序列进行经验模态分解,得到不同频率的语音模态分量和目标语音趋势项;基于所述语音模态分量和所述目标语音趋势项,对初始神经网络模型进行训练,以获得获取语音处理模型。
6.根据本公开实施例的另一方面,提供了一种语音处理方法,包括:获取待处理语音序列;基于所述待处理语音序列进行经验模态分解,得到当前语音模态分量和当前语音趋势项;基于所述当前语音模态分量和所述当前语音趋势项输入语音处理模型进行处理,获取语音处理结果。
7.根据本公开实施例的另一方面,提供了一种语音处理模型的训练装置,包括:第一获取模块,用于获取原始语音序列;添加模块,用于对所述原始语音序列添加预设数量的高斯白噪声,得到所述预设数量的待训练语音序列;第一分解模块,用于基于每个所述待训练语音序列进行经验模态分解,得到语音模态分量和目标语音趋势项;训练获取模块,用于基于所述语音模态分量和所述目标语音趋势项,对初始神经网络模型进行训练,以获得语音处理模型。
8.根据本公开实施例的另一方面,提供了一种语音处理装置,包括:
第二获取模块,用于获取待处理语音序列;第二分解模块,用于基于所述待处理语音序列进行经验模态分解,得到当前语音模态分量和当前语音趋势项;处理模块,用于基于所述当前语音模态分量和所述当前语音趋势项输入所述语音处理模型进行处理,获取语音处理结果。
9.根据本公开实施例的另一方面,电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的语音处理模型的训练方法或语音处理方法。
10.根据本公开实施例的另一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的语音处理模型的训练方法或语音处理方法。
11.根据本公开实施例的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现本公开实施例提供的语音处理模型的训练方法或语音处理方法。
12.本公开实施例提供的上述技术方案,能够获取原始语音序列,对原始语音序列添加预设数量的高斯白噪声,得到预设数量的待训练语音序列,基于每个待训练语音序列进行经验模态分解,得到不同频率的语音模态分量和目标语音趋势项,基于语音模态分量和目标语音趋势项,对初始神经网络模型进行训练,以获得语音处理模型。上述方式通过在原始语音序列中加入独立分布的高斯白噪声提高了分解效率,并基于分解的语音模态分量和目标语音趋势项获取语音处理模型,在提高模型训练效率的基础上,提高语音处理模型的语音处理准确性。
13.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
14.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
15.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
16.图1为本公开实施例提供的一种语音处理模型的训练方法的流程示意图;图2为本公开实施例提供的另一种语音处理模型的训练方法的流程示意图;图3为本公开实施例提供的一种语音处理模型的结构示意图;图4为本公开实施例提供的又一种语音处理模型的训练方法的流程示意图;图5为本公开实施例提供的另一种语音处理模型的结构示意图;图6为本公开实施例提供的一种语音处理方法的流程示意图;图7为本公开实施例提供的另一种语音处理方法的流程示意图;图8为本公开实施例提供的一种语音处理模型的训练装置的结构示意图;图9为本公开实施例提供的一种语音处理装置的结构示意图;
图10为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
17.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
18.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
19.在实际应用中,相关技术中对于语音序列进行特征提取后训练语音模型会产生干扰,降低语音处理模型的效率和准确性,尤其对于教育领域而言,学生需要经常要针对老师提出的问题进行语音回答,或者是向老师提出语音问题等,这种方式都需要对语音进行处理,实现交互目的,如果语音处理模型的效率和准确性比较低的情况下,会影响老师和学生的交互效率。针对上述问题,本公开实施例提供了一种语音处理模型的训练、语音处理方法、装置、设备及介质,能够通过在原始语音序列中加入独立分布的高斯白噪声,提高分解效率,并基于分解的语音模态分量和目标语音趋势项获取语音处理模型,在提高模型训练效率的基础上,提高语音处理模型的语音处理准确性,为便于理解,本公开实施例详细说明如下。
20.首先,本公开实施例提供了一种语音处理模型的训练方法,图1为本公开实施例提供的一种语音处理模型的训练方法的流程示意图,该方法可以由语音处理模型的训练方法装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法主要包括如下步骤s102~步骤s106:步骤102,获取原始语音序列。
21.步骤104,对原始语音序列添加预设数量的高斯白噪声,得到预设数量的待训练语音序列,。
22.原始语音序列可以是通过电子设备中的麦克风等声音采集设备采集的语音数据进行预处理后的语音序列,或者是执行语音处理模型的训练方法的电子设备接收的预处理后的语音序列,获取的方式此处不再限制。其中,对语音数据进行预处理的方式有很多种,示例性的,将儿童语音序列进行傅里叶变换,获得儿童语音序列的频域信息,然后考虑到儿童语音特征(比如频率在300~120000hz),将变换后的频域信息中的低频部分(比如低于300hz)的去除,然后再通过逆向傅里叶变换得到原始语音序列。
23.高斯白噪声是指瞬时值服从高斯分布且功率谱密度又是均匀分布的噪声,概率分布是正态函数,示例性,将原始语音序列分别与预设数量的高斯白噪声合成预设数量的待训练语音序列。
24.在一些实施方式中,将原始语音序列分别与预设数量的高斯白噪声进行相加,得到预设数量的待训练语音序列。
25.其中,预设数量的数值可以根据应用场景需要选择设置,示例性,根据原始语音序列的用户性别、用户年龄、语音场景和计算模式等确定。
26.步骤106,基于每个待训练语音序列进行经验模态分解,得到不同频率的语音模态
分量和目标语音趋势项。
27.语音模态分量指的是获取每个待训练语音序列的所有极大值点和所有极小值点分别进行拟合,获取上包络线和下包络线进行求均处理得到的平均值,语音趋势项指的是原始语音序列和语音模态分量的残差值,即原始语音序列减去计算的语音模态分量得到残差值。
28.在一些实施方式中,对每个待训练语音序列进行经验模态分解可以理解为获取每个待训练语音序列的所有极大值点和所有极小值点分别进行拟合,获取上包络线和下包络线进行求均值,获取预设数量的一阶语音模态分量,基于预设数量的一阶语音模态分量获取一阶语音趋势项,在一阶语音趋势项的振幅不小于预设振幅阈值的情况下,继续将一阶语音趋势项作为原始语音序列添加预设数量的高斯白噪声后继续进行经验模态分解处理,直到得到的目标语音趋势项的振幅小于预设振幅阈值时停止,获取不同频率的语音模态分量和目标语音趋势项。
29.其中,预设振幅阈值可以根据应用场景需要选择设置,示例性,预设振幅阈值与语音场景的分类类别个数成反比。
30.步骤108,基于语音模态分量和目标语音趋势项进行神经网络训练,获取语音处理模型。
31.在一些实施方式中,将不同频率的语音模态分量按照频率进行划分后,结合目标语音趋势项对初始神经网络模型(比如长短时记忆模型lstm、卷积网络模型等)进行训练,获取多个语音处理模型。
32.在另一些实施方式中,将不同频率的语音模态分量和目标语音趋势项构建数据矩阵,基于数据矩阵的语音序列对初始神经网络模型进行训练,得到语音处理模型。
33.综上所述,本公开实施例的语音处理模型的训练方法,通过获取原始语音序列,并对原始语音序列添加预设数量的高斯白噪声,得到预设数量的待训练语音序列,其中,原始语音序列具有标注文本,基于每个待训练语音序列进行经验模态分解,得到不同频率的语音模态分量和目标语音趋势项,基于语音模态分量和目标语音趋势项进行神经网络训练,获取语音处理模型。上述方式通过在原始语音序列中加入独立分布的高斯白噪声提高了分解效率,并基于分解的语音模态分量和目标语音趋势项获取语音处理模型,在提高模型训练效率的基础上,提高语音处理模型的语音处理准确性。
34.基于上述实施例的描述,为了进一步满足场景需求,提高语音处理模型的准确性,下面结合图2进行详细说明。如图2所示,该方法主要包括如下步骤s202~步骤s210:步骤202,获取原始语音序列以及对应的用户基本信息、语音场景和计算模式,基于用户基本信息、语音场景和计算模式进行查询参数表处理,得到高斯白噪声的标准差。
35.步骤204,获取原始语音序列的序列长度、语音场景和计算模式,基于序列长度、语音场景和计算模式,确定预设数量的个数。
36.步骤206,基于原始语音序列与预设数量的高斯白噪声进行相加处理,得到预设数量的待训练语音序列。
37.用户基本信息指的是用户性别、年龄等基本信息;语音场景指的是交互场景、朗读情景、识别场景和其他场景,作为一种示例,以在线教育场景为例,比如儿童针对老师提出问题进行语音回答场景为交互场景,再比如儿童针对显示设备的显示内容进行朗读场景为
朗读场景;还比如儿童在进行答题的过程中,语音说出答案“xxx”,对该语音答案“xxx”进行识别的场景为识别场景,基于原始语音序列获取的交互场景不同,高斯白噪声的标准差也不同;计算模式指的是快速模式、简单模式和完整模式等。;作为一种示例,以在线教育场景为例,仅仅获取终端缓存的语音数据进行分析,能够快速计算获取原始语音序列的模式为极速模式,获取云平台存储的所有语音数据进行分析,能够更加精确获取原始语音序列的模式为完整模式,获取终端缓存的语音数据的同时随机从云平台获取部分数据进行分析,在一定程度上能够兼顾效率和准确率的模式为简单模式,基于原始语音序列获取的计算模式不同,高斯白噪声的标准差也不同。
38.其中,可以根据历史语音数据分析获取不同用户基本信息(比如年龄、性别等)、语音场景和计算模式的高斯白噪声的标准差并构建参数表,后续直接基于用户基本信息、语音场景和计算模式进行查询参数表,得到高斯白噪声的标准差。
39.其中,可以根据历史语音数据分析获取不同语音序列的序列长度、语音场景和计算模式的高斯白噪声的标准差并构建参数表,后续直接基于语音序列的序列长度、语音场景和计算模式进行查询参数表,得到预设数量的个数。
40.示例性,设原始语音序列为,这里n表示时间,表示的是随着时间变化的值为原始语音序列的数学表达形式,在原始儿童语音序列上加入预设数量为t个正态分布的高斯白噪声,得到t个待训练语音序列,具体如公式(1)所示:(1)其中,为原始语音序列,为高斯白噪声,一共有t个,分别为,为噪声的标准差,是一个可以调整的参数,可以基于上述描述的参数表查询获取,例如交互情景的快速模式的标准差是30%,可以针对每一个原始语音序列添加的白噪声都是同一标准差。此外,可以根据用户年龄、性别等进行设置,形成上述参数表,即同一个年龄同性别的用户采用同一个标准差,进一步提高后续处理的准确性。
41.其中,t是添加的高斯白噪声的个数,也是一个可以控制的参数,与用户环境和电子设备都有一定的关联性,取值主要依赖于序列长短,例如基于上述描述的参数表,获取交互情景的快速模式可以取的整数部分。
42.步骤208,基于每个待训练语音序列进行第n次经验模态分解处理,得到预设数量的n阶语音模态分量;其中,n为正整数,基于预设数量的n阶语音模态分量进行平均处理,得到目标n阶语音模态分量,基于原始语音序列和目标n阶语音模态分量进行差值计算,得到n阶语音趋势项。
43.步骤210,在n阶语音趋势项的振幅不小于预设振幅阈值的情况下,将n阶语音趋势项作为原始语音序列并添加预设数量的高斯白噪声后进行第n 1次经验模态分解处理,直到得到的目标语音趋势项的振幅小于预设振幅阈值时,停止经验模态分解处理,得到不同频率的语音模态分量和目标语音趋势项。
44.继续以上述例子为例,对上述t 个待训练语音序列,利用经验模态方法得到一阶
语音模态分量,并将t个一阶语音模态分量取均值作为原始语音序列的第一个分量(即目标一阶语音模态分量),并用原始语音序列减去目标一阶语音模态分量计算出残差值,这是第一轮的语音残差,即一阶语音趋势项,具体计算如公式(2)和(3)所示:(2)(3)其中,t是添加的高斯白噪声的个数,公式2表明对所有的添加完t个白噪声形成的t个待训练语音序列所获得的一阶语音模态分量进行平均,该平均值即作为原始儿童语音序列的目标一阶语音模态分量。中的下标1表示目标一阶语音模态分量,后面将计算原始语音序列的其他阶模态分量。
45.其中,原始儿童语音序列减去计算的原始儿童语音序列的目标一阶语音模态分量得到残差值,即公式中的,表示对应目标一阶语音模态分量的一阶语音残差,即一阶语音趋势项。
46.将一阶语音趋势项作为原始语音序列,加入自适应的高斯白噪声后进行经验模态分解,得到各阶的语音模态分量与语音趋势项,重复上述步骤直至语音趋势项不可继续分解,即语音趋势项的振幅小于预设振幅阈值,表明此时的语音趋势项已经是一个单调函数或常数,最终得到k个正交的语音模态分量与目标趋势项(即最终的语音残差),这样将原始语音序列分解为如公式(4)所示:(4)其中,k是重复上述过程到不能分解后形成的语音模态分量的个数,对应的语音残差为作为目标语音趋势项,为重复上述过程获取的各阶语音模态分量。
47.在本公开实施例中,预设振幅阈值与语音场景的分类类别个数成反比,也就是说,预设振幅阈值是一个外部参数,根据具体的场景和精度来设置,例如在一些最终分类类别比较少的情形下,如用户点击是或者否,或者几个选项,以及用户情绪识别等,设置的振幅阈值较大;而对于分类情况较多如语音文字的识别则设置的振幅阈值较小。可以理解的是,振幅阈值较大会形成较少的语音模态分量,后续神经网络模型运算则更快;振幅阈值较小会形成较多的语音模态分量,后续神经网络模型运算就会慢一些。
48.步骤212,基于语音模态分量的频率进行划分处理,得到第一频率语音模态分量和第二频率语音模态分量,基于第一频率语音模态分量、第二频率语音模态分量和目标语音趋势项对初始神经网络模型进行训练,以获得多个语音处理模型。
49.在一些实施例中,可以将不同频率的语音模态分量按照相似频率划分为第一频率语音模型分量(比如高频项)、第二频率语音模态分量(比如低频项),以及目标语音趋势项三个分量,可以针对三个分量对初始神经网络模型比如lstm模型进行训练,获取训练好的lstm模型,即生成多个语音处理模型,从而保证语音处理精度的情况下,减少lstm模型的个数的同时提高训练效率。示例性,如图3所示,具有1-10个语音模态分量,按照频率排序为语
音模态分量1-10,将10个语音模态分量进行重构得到三类语音模态分量,比如前40%比例的语音模态分量(语音模态分量1-4)组合形成高频语音模态分量,后60%比例的语音模态分量(语音模态分量6-10)组合形成低频语音模态分量以及目标语音趋势,然后对上述三大语音模态分量建立lstm模型,将三大语音模态分量输入长短时记忆网络训练,获取三个语音处理模型,可以大幅度减少训练时间和计算时间,特别适合要求效率且训练数据不足的情形。
50.其中,lstm神经网络包括输入门、输出门、遗忘门和记忆单元,lstm模型的训练参数可以根据应用场景选择设置,示例性,lstm模型的训练参数设置为:lstm层隐含单元个数为200,训练最大迭代次数为200,梯度阈值设置为1,初始学习率为0.005,迭代125次后通过乘以因子0.2来降低学习率,预测步长为1,损失函数选择平均绝对误差或者均方根误差,将训练数据输入构建的lstm模型进行训练,获取误差最小的lstm模型为语音处理模型,获得的本征模态函数与长短时记忆网络结合,可以更好地对语音数据进行分析和处理。
51.需要说明的是,不限于上述对重新划分的三个分量分别训练lstm模型,还可以对不同频率的语音模态分量进行t检验(student t检验),将检验后显著性结果》0.05的分量加总为高频语音模态分量,其余为低频语音模态分量,以及目标语音趋势项三个分量,比如采用是3层卷积 1层全连接,卷积核分别为17,7,5的长度对三个分量进行训练,获取语音处理模型,对儿童语音,这种训练方式得到的语音处理模型可以快速确认儿童语音所表达的选择项(即有多个按钮或者答案选择的时候,儿童的回答和选择是什么)。
52.本公开实施例提供的上述方式基于具体场景确定高斯白噪声的标准差和预设数量的高斯白噪声与原始语音序列相加,得到预设数量的待训练语音序列,以及基于具体场景确定分解的不同频率的语音模态分量和目标语音趋势项,还基于频率将不同频率的语音模态分量进行划分训练,得到多个语音处理模型,进一步满足场景需求,提高语音处理模型训练的效率,以及能够满足不同场景对于语音处理的需求,提高个性化场景语音处理的精度。
53.基于上述实施例的描述,本公开还可以基于卷积神经网络进行语音处理模型训练,下面结合图4进行详细说明。如图4所示,该方法主要包括如下步骤s402~步骤s404:步骤402,基于语音模态分量和目标语音趋势项构建数据矩阵。
54.步骤404,基于数据矩阵的语音序列输入卷积神经网络进行训练,得到语音处理模型。
55.在一些实施例中,分别将语音模态分量和目标语音趋势项按照二维数据矩阵排列并置于不同通道中以构建数据矩阵,通过卷积核提取数据矩阵中语音模态分量和目标语音趋势项的特征,可以将数据矩阵的语音序列划分为训练集和测试集,将训练集输入卷积神经网络模型,经过反向传播算法进行梯度下降法训练得到语音处理模型。
56.示例性,如图5所示,原始语音序列添加高斯白噪声后得到待训练语音序列,待训练语音序列经过经验模态分解,获取语音模态分量1-10,以及目标语音趋势项,构建数据矩
阵为:。
57.其中,语音模态分量1-10和目标语音趋势项分别对应通道1-11,输入到卷积神经网络,比如,采用的是2层卷积 2层池化 1层全连接,卷积核分别为5*5,3*3,池化层采用的是2*2,2*2的层进行平均池化,并基于梯度下降法训练,获取语音处理模型。
58.需要说明的是,语音模态分量1到10存在不对齐的情况下,可以在短的分量后用最大值补齐(所有语音模态分量的最大值)。
59.本公开实施例提供的上述方式,基于语音模态分量和目标语音趋势项构建数据矩阵,并通过卷积神经网络进行训练,获取语音处理模型,从而提高语音处理模型训练效率和准确性,以提高后续语音处理精度。
60.基于上述实施例的描述,本公开实施例训练的语音处理模型可以提高后续语音处理的精度和效率,下面结合图6进行详细说明。如图6所示,该方法主要包括如下步骤s602~步骤s606:步骤602,获取待处理语音序列。
61.步骤604,基于待处理语音序列进行经验模态分解,得到当前语音模态分量和当前语音趋势项。
62.待处理语音序列可以是通过电子设备中的麦克风等声音采集设备采集的语音数据进行预处理后的语音序列,或者是执行语音处理方法的电子设备接收的预处理后的语音序列,获取的方式此处不再限制。
63.当前语音模态分量指的是获取待处理语音序列的所有极大值点和所有极小值点分别进行拟合,获取上包络线和下包络线进行求均处理得到的平均值,当前语音趋势项指的是处理语音序列减去计算的当前语音模态分量得到残差值。
64.在一些实施方式中,对待处理语音序列进行经验模态分解可以理解为获取待处理语音序列的所有极大值点和所有极小值点分别进行拟合,获取上包络线和下包络线进行求均值,获取一阶语音模态分量,基于一阶语音模态分量获取一阶语音趋势项,在一阶语音趋势项的振幅不小于预设振幅阈值的情况下,继续将一阶语音趋势项作为待处理语音序列继续进行经验模态分解处理,直到得到的当前语音趋势项的振幅小于预设振幅阈值时停止,获取不同频率的当前语音模态分量和当前语音趋势项。
65.其中,预设振幅阈值可以根据应用场景需要选择设置,示例性,预设振幅阈值与语音场景的分类类别个数成反比。
66.步骤606,基于当前语音模态分量和当前语音趋势项输入语音处理模型进行处理,获取语音处理结果。
67.在一些实施例中,基于当前语音模态分量的频率进行划分处理,得到第一当前频率语音模态分量和第二当前频率语音模态分量,基于第一当前频率语音模态分量、第二当前频率语音模态分量和当前语音趋势项分别输入语音处理模型进行处理,获取多个语音处
理结果,基于当前语音场景从多个语音处理结果获取目标语音处理结果。
68.在另一些实施例中,基于当前语音模态分量和当前语音趋势项构建当前数据矩阵,将当前数据矩阵输入语音处理模型进行处理,获取语音处理结果。
69.为了本领域人员更加清楚具体场景如何进行语音处理,保证语音处理精度,下面结合图7进行详细说明。如图7所示,该方法主要包括如下步骤s702~步骤s706:步骤702,获取待处理语音序列,基于待处理语音序列进行经验模态分解,得到当前语音模态分量和当前语音趋势项。
70.待处理语音序列可以是通过电子设备中的麦克风等声音采集设备采集的语音数据进行预处理后的语音序列,或者是执行语音处理方法的电子设备接收的预处理后的语音序列,获取的方式此处不再限制。
71.当前语音模态分量指的是获取待处理语音序列的所有极大值点和所有极小值点分别进行拟合,获取上包络线和下包络线进行求均处理得到的平均值,当前语音趋势项指的是处理语音序列减去计算的当前语音模态分量得到残差值。
72.在一些实施方式中,对待处理语音序列进行经验模态分解可以理解为获取待处理语音序列的所有极大值点和所有极小值点分别进行拟合,获取上包络线和下包络线进行求均值,获取一阶语音模态分量,基于一阶语音模态分量获取一阶语音趋势项,在一阶语音趋势项的振幅不小于预设振幅阈值的情况下,继续将一阶语音趋势项作为待处理语音序列继续进行经验模态分解处理,直到得到的当前语音趋势项的振幅小于预设振幅阈值时停止,获取不同频率的当前语音模态分量和当前语音趋势项。
73.步骤704,基于当前语音模态分量的频率进行划分处理,得到第一当前频率语音模态分量和第二当前频率语音模态分量。
74.步骤706,基于第一当前频率语音模态分量、第二当前频率语音模态分量和当前语音趋势项分别输入语音处理模型进行处理,获取多个语音处理结果,基于当前语音场景从多个语音处理结果获取目标语音处理结果。
75.示例性的,原始语音序列为儿童语音序列,具有标注文本y,经过模态分解的语音模态分量分为三个语音模态分量(高频、低频和趋势),每个语音模态分量对应一个lstm,lstm标注的都是y,由此训练好多个语音处理模型(高频语音处理模型、低频语音处理模型和趋势语音处理模型)。
76.作为一种场景举例,使用的时候,将待处理儿童语音序列按照上述步骤进入多个语音处理模型,获取多个语音处理结果,例如,在识别场景按照高频语音处理模型的预测结果作为目标语音处理结果,在交互场景会使用低频语音处理模型的预测结果作为目标语音处理结果,由此,进一步提高语音处理精度。
77.综上所述,本公开实施例提供的语音处理方法,获取待处理语音序列,基于待处理语音序列进行经验模态分解,得到当前语音模态分量和当前语音趋势项通过基于当前语音模态分量和当前语音趋势项输入语音处理模型进行处理,获取语音处理结果,提高语音处理模型的语音处理准确性和效率,在此基础上,还可以进一步基于当前场景确定语音处理结果,进一步提高语音处理精度。
78.对应于前述语音处理模型的训练方法,本公开实施例提供了一种语音处理模型的训练装置,图8为本公开实施例提供的一种语音处理模型的训练装置的结构示意图,该装置
可由软件和/或硬件实现,一般可集成在电子设备中,如图8所示,语音处理模型的训练装置800包括如下模块:第一获取模块802,用于获取原始语音序列。
79.添加模块804,用于对原始语音序列添加预设数量的高斯白噪声,得到预设数量的待训练语音序列。
80.第一分解模块806,用于基于每个待训练语音序列进行经验模态分解,得到语音模态分量和目标语音趋势项。
81.训练获取模块808,用于基于语音模态分量和目标语音趋势项进行神经网络训练,获取语音处理模型。
82.本公开实施例提供的上述装置通过在原始语音序列中加入独立分布的高斯白噪声提高了分解效率,并基于分解的语音模态分量和目标语音趋势项获取语音处理模型,在提高模型训练效率的基础上,提高语音处理模型的语音处理准确性。
83.在一些实施方式中,上述装置还包括:第一获取处理模块,用于获取原始语音序列的用户基本信息、语音场景和计算模式,基于用户基本信息、语音场景和计算模式进行查询参数表处理,得到高斯白噪声的标准差。
84.在一些实施方式中,上述装置还包括:第二获取处理模块,用于获取原始语音序列的序列长度、语音场景和计算模式,基于序列长度、语音场景和计算模式,确定预设数量的个数。
85.在一些实施方式中,第一分解模块806,具体用于:基于每个待训练语音序列进行第n次经验模态分解处理,得到预设数量的n阶语音模态分量;其中,n为正整数;基于预设数量的n阶语音模态分量进行平均处理,得到目标n阶语音模态分量;基于原始语音序列和所述目标n阶语音模态分量进行差值计算,得到n阶语音趋势项;在n阶语音趋势项的振幅不小于预设振幅阈值的情况下,将n阶语音趋势项作为原始语音序列并添加预设数量的高斯白噪声后进行第n 1次经验模态分解处理,直到得到的目标语音趋势项的振幅小于所述预设振幅阈值时,停止经验模态分解处理,得到不同频率的语音模态分量和目标语音趋势项。
86.在一些实施方式中,预设振幅阈值与语音场景的分类类别个数成反比。
87.在一些实施方式中,训练获取模块808,具体用于:基于语音模态分量的频率进行划分处理,得到第一频率语音模态分量和第二频率语音模态分量;基于第一频率语音模态分量、第二频率语音模态分量和目标语音趋势项对初始神经网络模型进行训练,以获得多个语音处理模型。
88.在一些实施方式中,训练获取模块808,具体用于:基于语音模态分量和目标语音趋势项构建数据矩阵,基于数据矩阵输入卷积神经网络进行训练,得到语音处理模型。
89.本公开实施例所提供的语音处理模型的训练装置可执行本公开任意实施例所提供的语音处理模型的训练方法,具备执行方法相应的功能模块和有益效果。
90.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置实施例的具体工作过程,可以参考方法实施例中的对应过程,在此不再赘述。
91.对应于前述语音处理方法,本公开实施例提供了一种语音处理装置,图9为本公开实施例提供的一种语音处理装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中,如图9所示,语音处理装置900包括如下模块:
第二获取模块902,用于获取待处理语音序列。
92.第二分解模块904,用于基于待处理语音序列进行经验模态分解,得到当前语音模态分量和当前语音趋势项。
93.处理模块906,用于基于当前语音模态分量和当前语音趋势项输入语音处理模型进行处理,获取语音处理结果。
94.本公开实施例提供的上述装置,通过获取待处理语音序列,基于待处理语音序列进行经验模态分解,得到当前语音模态分量和当前语音趋势项通过基于当前语音模态分量和当前语音趋势项输入语音处理模型进行处理,获取语音处理结果,提高语音处理模型的语音处理准确性和效率,在此基础上,还可以进一步基于当前场景确定语音处理结果,进一步提高语音处理精度。
95.在一些实施方式中,处理模块906,具体用于:基于当前语音模态分量的频率进行划分处理,得到第一当前频率语音模态分量和第二当前频率语音模态分量,基于第一当前频率语音模态分量、第二当前频率语音模态分量和当前语音趋势项分别输入语音处理模型进行处理,获取多个语音处理结果,基于当前语音场景从多个语音处理结果获取目标语音处理结果。
96.在一些实施方式中,处理模块906,具体用于:基于当前语音模态分量和当前语音趋势项构建当前数据矩阵,将当前数据矩阵输入语音处理模型进行处理,获取语音处理结果。
97.本公开实施例所提供的语音处理装置可执行本公开任意实施例所提供的语音处理方法,具备执行方法相应的功能模块和有益效果。
98.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置实施例的具体工作过程,可以参考方法实施例中的对应过程,在此不再赘述。
99.本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的语音处理模型的训练方法或语音处理方法。
100.本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的语音处理模型的训练方法或语音处理方法。
101.本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的语音处理模型的训练方法或语音处理方法。
102.参考图10,现将描述可以作为本公开的服务器或客户端的电子设备1000的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
103.如图10所示,电子设备1000包括计算单元1001,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)1003中的计算机程序,来执行各种适当的动作和处理。在ram 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
104.电子设备1000中的多个部件连接至i/o接口1005,包括:输入单元1006、输出单元1007、存储单元1008以及通信单元1009。输入单元1006可以是能向电子设备1000输入信息的任何类型的设备,输入单元1006可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1007可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1004可以包括但不限于磁盘、光盘。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
105.计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理。例如,在一些实施例中,方法102-106等可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由rom 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。在一些实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音处理模型的训练方法或语音处理方法。
106.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
107.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
108.如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
109.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
110.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
111.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
112.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
113.以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献