一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音数据的识别方法、装置、芯片及可读存储介质与流程

2021-07-06 18:47:00 来源:中国专利 TAG:音频处理 语音 识别 装置 芯片
语音数据的识别方法、装置、芯片及可读存储介质与流程

本发明涉及音频处理技术领域,具体涉及一种语音数据的识别方法、装置、芯片及可读存储介质。



背景技术:

随着ai(artificialintelligence,人工智能)的快速发展,在进行人机交互时,语音识别及声纹识别技术越来越广泛的应用到我们的生活当中,利用语音识别算法,使得智能语音识别系统(音箱、耳机等)能够更好地与用户互动。但是,现实环境复杂多样,环境噪声比较大,难以提取到纯净的语音信号。当语音识别平台受限,没有太多的计算资源和存储空间时,可以通过常规的降噪训练模型或降噪算法剔除噪声部分,得到纯净的语音信号,提高语音交互的质量。在现有的语音系统中,在采集到语音数据时,可通过梅尔滤波系数得到倒谱均值,将倒谱均值作为对应的音频特征向量用于后续的处理,音频特征向量作为输入语音识别算法的核心参数,决定语音识别的正确率。

目前,最简单的降噪方式就是倒谱均值的方式,通过倒谱值减去对应的固定均值,可以一定程度上起到抗干扰的目的,提高噪声环境下的语音质量。另外语音信号失真,也就是在训练时的语音数据和实际测试的语音数据不匹配,存在误差,从而的影响语音数据的识别效果,通过倒谱均值的方式,可以有效处理这种差异性。倒谱均值一般是在实时使用时通过固定的滤波器窗长在线计算得到的,即倒谱均值是固定的,固定的倒谱均值很难快速的去除不同噪声环境所产生的噪声,即噪声鲁棒性不强,这也在一定程度上影响语音识别的精度,导致较高的语音识别出错率。

由此可知,目前的语音数据识别的鲁棒性和准确率低下。



技术实现要素:

基于上述现状,本发明的主要目的在于提供一种语音数据的识别方法、装置、芯片及可读存储介质,以提高语音识别的鲁棒性和准确率。

为实现上述目的,本发明采用的技术方案如下:

一种语音数据的识别方法,所述语音数据的识别方法包括以下步骤:

s100,当获取到待识别语音数据后,对所述待识别语音数据进行分帧处理,得到所述待识别语音数据对应的各帧语音数据,将各帧语音数据设定为目标帧语音数据;

s200,确定所述目标帧语音数据对应的特征向量值,并计算所述目标帧语音数据对应的目标能量值;

s300,基于预设的能量值与滤波系数之间的对应关系,根据所述目标能量值确定所述目标帧语音数据的滤波系数;

s400,确定所述目标帧语音数据对应的目标倒谱均值,并根据所述特征向量值、所述滤波系数和所述目标倒谱均值确定所述目标帧语音数据的自适应倒谱均值;

s500,将所述特征向量值减去所述自适应倒谱均值,得到所述目标帧语音数据的新特征向量值,并将所述新特征向量值输入预设的语音识别算法中,以识别所述目标帧语音数据。

优选地,在所述步骤s400中,所述根据所述特征向量值、所述滤波系数和所述目标倒谱均值确定所述目标帧语音数据的自适应倒谱均值的步骤包括:

将所述特征向量值乘以所述滤波系数,得到第一乘积,并计算一和所述滤波系数之间的第一差值;

将所述第一差值乘以所述目标倒谱均值,得到第二乘积,并将所述第一乘积和所述第二乘积相加,得到所述目标帧语音数据的自适应倒谱均值。

优选地,在所述步骤s300中,所述能量值与滤波系数之间的对应关系表示为:

其中,所述表示滤波系数,ad表示能量值,表示不同滤波窗的长度对应的滤波系数,

优选地,在所述步骤s400中,所述确定所述目标帧语音数据对应的目标倒谱均值的步骤包括:

确定所述目标帧语音数据是否为第一帧语音数据;

若所述目标帧语音数据是第一帧语音数据,则获取预存的初始倒谱均值,将所述初始倒谱均值确定为所述目标帧语音数据的目标倒谱均值;

若所述目标帧语音数据不是第一帧语音数据,则获取所述目标帧语音数据的前一帧语音数据的倒谱均值,将前一帧语音数据的倒谱均值确定为所述目标帧语音数据的目标倒谱均值。

优选地,在所述步骤s200中,所述计算所述目标帧语音数据对应的目标能量值的步骤包括:

计算所述目标帧语音数据的平滑能量值,并获取所述目标帧语音数据对应的能量参考值;

计算所述平滑能量值和所述能量参考值之间的能量平均值,将所述能量平均值确定为所述目标帧语音数据的目标能量值。

优选地,在所述步骤s200中,所述确定所述目标帧语音数据对应的特征向量值的步骤包括:

对所述目标帧语音数据进行傅里叶变换,得到所述目标帧语音数据的短时频谱;

通过梅尔滤波器将所述短时频谱转换成倒谱系数,将所述倒谱系数确定为所述目标帧语音数据的特征向量值。

优选地,所述步骤s100包括:

当获取到待识别语音数据后,对所述待识别语音数据进行分帧处理,得到所述待识别语音数据对应的各帧语音数据;

对各帧语音数据进行汉明窗处理,得到汉明窗处理后的各帧语音数据,将汉明窗处理后的各帧语音数据设定为当前待识别的目标帧语音数据。

本发明还提供一种语音数据的识别装置,所述语音数据的识别装置包括:

分帧模块,用于当获取到待识别语音数据后,对所述待识别语音数据进行分帧处理,得到所述待识别语音数据对应的各帧语音数据,将各帧语音数据设定为目标帧语音数据;

向量值确定模块,用于确定所述目标帧语音数据对应的特征向量值;

计算模块,用于计算所述目标帧语音数据对应的目标能量值;

系数确定模块,用于基于预设的能量值与滤波系数之间的对应关系,根据所述目标能量值确定所述目标帧语音数据的滤波系数;

均值确定模块,用于确定所述目标帧语音数据对应的目标倒谱均值,根据所述特征向量值、所述滤波系数和所述目标倒谱均值确定所述目标帧语音数据的自适应倒谱均值;

所述计算模块还用于将所述特征向量值减去所述自适应倒谱均值,得到所述目标帧语音数据的新特征向量值;

输入模块,用于将所述新特征向量值输入预设的语音识别算法中,以识别所述目标帧语音数据。

本发明还提供一种芯片,其上具有集成电路,所述集成电路包括如上所述的语音数据的识别装置。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音数据的识别方法。

【有益效果】

通过当获取到待识别语音数据后,对待识别语音数据进行分帧处理,并将分帧所得的各帧语音数据设定为目标帧语音数据,确定目标帧语音数据对应的特征向量值,计算目标帧语音数据对应的目标能量值,基于预设的能量值与滤波系数之间的对应关系,根据目标能量值确定目标帧语音数据的滤波系数,确定目标帧语音数据对应的目标倒谱均值,并根据特征向量值、滤波系数和目标倒谱均值确定目标帧语音数据的自适应倒谱均值,然后将特征向量值减去自适应倒谱均值,得到目标帧语音数据的新特征向量值,将新特征向量值输入预设的语音识别算法中,以识别目标帧语音数据。实现了在识别语音数据过程中,能通过能量值与滤波系数之间的对应关系确定语音数据对应的滤波系数,即滤波系数的大小由语音数据对应的能量值确定,使滤波系数适应不同的环境噪声,且根据所确定的向量值和滤波系数等数据得到一个自适应倒谱均值,使语音数据识别过程中倒谱均值不再是一个固定的值,从而提高了语音数据识别的鲁棒性和准确性。

本发明的其他有益效果,将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述,本领域技术人员通过这些技术特征和技术方案的介绍,应能理解所述技术特征和技术方案带来的有益技术效果。

附图说明

以下将参照附图对根据本发明语音数据的识别的优选实施方式进行描述。

图中:

图1是本发明语音数据的识别方法一种实施例的流程图;

图2是本发明实施例中滤波窗的收敛时间和收敛程度之间的一个示意图;

图3是本发明语音数据的识别装置一种实施例的结构示意图。

具体实施方式

图1是本发明语音数据的识别方法一种实施例的流程图,该方法包括如下步骤。

需要说明的是,本发明中采用步骤编号(字母或数字编号)来指代某些具体的方法步骤,仅仅是出于描述方便和简洁的目的,而绝不是用字母或数字来限制这些方法步骤的顺序。本领域的技术人员能够明了,相关方法步骤的顺序,应由技术本身决定,不应因步骤编号的存在而被不适当地限制。

在本发明中,语音数据的识别方法可应用终端设备、服务器或者语音识别系统等设备中,即本发明可以终端设备、服务器或者语音识别系统等设备为执行主体,终端设备可为个人计算机、智能手机、耳机和掌上电脑等。为了便于描述,以下以语音识别系统为执行主体描述语音数据的识别方法的各个实施例。

步骤s100,当获取到待识别语音数据后,对所述待识别语音数据进行分帧处理,得到所述待识别语音数据对应的各帧语音数据,将各帧语音数据设定为目标帧语音数据。

当语音识别系统获取到待识别语音数据后,语音识别系统对待识别语音数据进行分帧处理,得到待识别语音数据对应的各帧语音数据。具体地,待识别语音数据可以是语音识别系统通过麦克风或者其他音频采集模块采集到的语音数据,也可以是其他设备发送给语音识别系统的语音数据。本实施例不限制待识别语音数据的大小,也不限制每帧语音数据的大小。当语音识别系统得到各帧语音数据时,语音识别系统将各帧语音数据设定为目标帧语音数据。需要说明的是,得到每一帧语音数据的新特征向量值的过程都相同,因此本发明实施例只对得到一帧语音数据的新特征向量值的过程进行描述。进一步地,语音识别系统可以按照得到各帧语音数据的先后顺序,从前到后将各帧语音数据确定为目标帧语音数据。

步骤s200,确定所述目标帧语音数据对应的特征向量值,并计算所述目标帧语音数据对应的目标能量值。

当语音识别系统获取到目标帧语音数据后,语音识别系统确定目标帧语音数据对应的特征向量值,并计算目标帧语音数据对应的能量值,将目标帧语音数据对应的能量值记为目标能量值。

进一步地,在所述步骤s200中,所述确定所述目标帧语音数据对应的特征向量值的步骤包括:

步骤a,对所述目标帧语音数据进行傅里叶变换,得到所述目标帧语音数据的短时频谱。

步骤b,通过梅尔滤波器将所述短时频谱转换成倒谱系数,将所述倒谱系数确定为所述目标帧语音数据的特征向量值。

进一步地,确定目标帧语音数据对应的特征向量值的过程为:语音识别系统对目标帧语音数据进行傅里叶变换,得到目标帧语音数据的短时频谱。具体地,语音识别系统可通过fft(fastfouriertransform,快速傅里叶变换)对目标帧语音数据进行傅里叶变换,得到目标帧语音数据的短时频谱。当语音识别系统得到目标帧语音数据的短时频谱后,语音识别系统通过梅尔滤波器将短时频谱转换成倒谱系数,将该倒谱系数确定为目标帧语音数据的特征向量值。需要说明的是,在对语音数据进行傅里叶变换之前,语音数据是时域数据,在傅里叶变换之后,语音数据是频域数据。

进一步地,在步骤s200中,所述计算所述目标帧语音数据对应的目标能量值的步骤包括:

步骤c,计算所述目标帧语音数据的平滑能量值,并获取所述目标帧语音数据对应的能量参考值。

步骤d,计算所述平滑能量值和所述能量参考值之间的能量平均值,将所述能量平均值确定为所述目标帧语音数据的目标能量值。

进一步地,计算目标帧语音数据对应的目标能量值的过程为:语音识别系统计算目标帧语音数据的平滑能量值,并获取目标帧语音数据对应的能量参考值,其中,目标帧语音数据可对应一个能量参考值,也可对应多个能量参考值。当语音识别系统得到目标帧语音数据的平滑能量值和能量参考值后,语音识别系统计算平滑能量值和能量参考值之间平均值,得到平滑能量值和所述能量参考值之间的能量平均值,并将该能量平均值确定为目标帧语音数据的目标能量值。

进一步地,语音识别系统在获取目标帧语音数据对应的能量参考值过程中,语音识别系统判断目标帧语音数据之前是否存在预设数量的帧语音数据,其中,预设数量可根据具体需要而设置,如可将预设数量设置为30、49或者60等。当语音识别系统确定目标帧语音数据之前存在预设数量的帧语音数据,语音识别系统确定预设数量的帧语音数据,并将所获取预设数量的帧语音数据的平滑能量值,将该预设数量的帧语音数据的平滑能量值确定为能量参考值;当语音识别系统确定目标帧语音数据之前未存在预设数据量的帧语音数据时,语音识别系统获取预先存储的预设数量帧语音数据对应的平滑能量值,将预先存储的预设数量帧语音数据对应的平滑能量值确定为能量参考值。

如当预设数量设置为49时,语音识别系统判断目标帧语音数据之前是否存在49帧语音数据。若语音识别系统确定目标帧语音数据之前存在49帧语音数据,语音识别系统则获取目标帧语音数据的前49帧语音数据的平滑能量值,将该前49帧语音数据的平滑能量值作为参考能量值,然后计算该前49帧语音数据的平滑能量值与目标帧语音数据的平滑能量值对应的平均值,得到目标帧语音数据的目标能量值。

步骤s300,基于预设的能量值与滤波系数之间的对应关系,根据所述目标能量值确定所述目标帧语音数据的滤波系数。

当语音识别系统确定目标帧语音数据的目标能量值后,语音识别系统获取预先设置的能量值与滤波系数之间的对应关系,然后基于该能量值与滤波系数之间的对应关系,根据目标能量值确定目标帧语音数据的滤波系数。需要说明的是,在能量值与滤波系数之间的对应关系中,可以是一个能量值对应一个滤波系数,也可以是多个能量值对应一个滤波系数。当一个能量值对应一个滤波系数时,能量值越大,对应的滤波系数越大。

进一步地,所述能量值与滤波系数之间的对应关系表示为:

其中,所述表示滤波系数,ad表示目标能量值,表示不同滤波窗的长度对应的滤波系数,在具体实施例中,可设置为

在本实施例中,[0,,as]表示静音能量区间,(as,am]表示正常音频能量区间,(am,al]表示高噪音频能量区间。需要说明的是,当目标帧语音数据的目标能量值较大时,为了快速得到合理的倒谱均值,需要将滤波窗的长度设置的小一点,以提高得到倒谱均值的速度;当目标帧语音数据的目标能量值较小时,在滤波窗的长度较大时,也能较快得到所需要的倒谱均值。通过在大量的不同噪声环境下的语音数据进行统计,根据语音数据能量值的差异性,分为多个能量值量化区间,对应得到每个区间的滤波系数,从而调节滤波窗的长度,加快对应滤波器的收敛,缩短了对应滤波器的收敛时间。

进一步地,参照图2,本实施例可通过iir滤波器(infiniteimpulseresponse)模拟滤波窗的长度计算,从而得到滤波系数。具体地,根据公式来拟合得到图2所示的曲线f(x),通过该曲线f(x)的拟合能够确定滤波系数与当前滤波窗对应帧数之间的关系,从而得到n表示自适应调节的滤波窗中帧数量,即滤波窗的长度。

需要说明的是,滤波窗的长度是由滤波窗所包含的语音数据的帧数量决定的,一个滤波窗中至少包含一个帧的语音数据,一个滤波窗所含有的语音数据的帧数量越多,则该滤波窗的长度越长。当一帧语音数据的能量值越大时,对应的滤波窗的长度越短,滤波系数越大;当一帧语音数据的能量值越小时,对应的滤波窗的长度越长,滤波系数越小。

步骤s400,确定所述目标帧语音数据对应的目标倒谱均值,并根据所述特征向量值、所述滤波系数和所述目标倒谱均值确定所述目标帧语音数据的自适应倒谱均值。

当语音识别系统得到目标帧语音数据的滤波系数后,语音识别系统确定目标帧语音数据对应的目标倒谱均值,并根据所得到的特征向量值、滤波系数和目标倒谱均值确定目标帧语音数据的自适应倒谱均值。

进一步地,在所述步骤s400中,所述确定所述目标帧语音数据对应的目标倒谱均值的步骤包括:

步骤e,确定所述目标帧语音数据是否为第一帧语音数据。

步骤f,若所述目标帧语音数据是第一帧语音数据,则获取预存的初始倒谱均值,将所述初始倒谱均值确定为所述目标帧语音数据的目标倒谱均值。

进一步地,语音识别系统确定目标帧语音数据对应的目标倒谱均值的过程可为:语音识别系统确定目标帧语音数据是否为待识别语音数据中的第一帧语音数据。需要说明的是,在将待识别语音数据拆分成帧语音数据时,会根据得到各帧语音数据的先后顺序确定各帧语音数据之间的先后关系。若确定目标帧语音数据为待识别语音数据中的第一帧语音数据,语音识别系统则获取预先存储的初始倒谱均值,并将该初始倒谱均值确定为目标帧语音数据的目标倒谱均值。需要说明的是,该初始倒谱均值是语音识别系统通过大数据训练得到的,预先存储在语音识别系统中的。进一步地,该初始倒谱均值也可以由语音识别系统计算历史的多个帧语音数据的倒谱均值的平均值得到,或者由用户根据经验设置得到。

步骤g,若所述目标帧语音数据不是第一帧语音数据,则获取所述目标帧语音数据的前一帧语音数据的倒谱均值,将前一帧语音数据的倒谱均值确定为所述目标帧语音数据的目标倒谱均值。

若语音识别系统确定目标帧语音数据不是第一帧语音数据,语音识别系统则获取目标帧语音数据的前一帧语音数据的倒谱均值,将前一帧语音数据的倒谱均值确定为目标帧语音数据的目标倒谱均值。

需要说明的是,在现有技术中,在确定目标倒谱均值过程中,需要存储几秒钟的语音数据,然后计算这几秒钟语音数据中每一帧语音数据的倒谱均值,得到几百帧语音数据的倒谱均值,然后计算这几百帧语音数据倒谱均值的平均值,得到目标倒谱均值,即现有技术中计算目标倒谱均值过程中计算量大,且需要较大的存储空间存储计算目标倒谱均值对应的数据;而在本实施例中,在计算目标倒谱均值过程,只需要获取前一帧语音数据的倒谱均值或者初始倒谱均值,降低了计算目标倒谱均值的计算量,以及降低了存储计算目标倒谱均值对应数据的存储量,节省了语音识别系统的存储空间,也提高了语音识别的识别效率。

进一步地,在所述步骤s400中,所述根据所述特征向量值、所述滤波系数和所述目标倒谱均值确定所述目标帧语音数据的自适应倒谱均值的步骤包括:

步骤h,将所述特征向量值乘以所述滤波系数,得到第一乘积,并计算一和所述滤波系数之间的第一差值。

步骤i,将所述第一差值乘以所述目标倒谱均值,得到第二乘积,并将所述第一乘积和所述第二乘积相加,得到所述目标帧语音数据的自适应倒谱均值。

进一步地,语音识别系统确定目标帧语音数据的自适应倒谱均值的过程为:语音识别系统将特征向量值乘以滤波系数,得到特征向量值与滤波系数之间的第一乘积,并计算一和滤波系数之间的差值,将该差值记为第一差值。当语音识别系统得到第一差值后,语音识别系统将第一差值乘以目标倒谱均值,将第一差值和目标倒谱均值之间的乘积记为第二乘积,并将第一乘积和第二乘积相加,将第一乘积和第二乘积相加所得的结果确定为目标帧语音数据的自适应倒谱均值,从而得到目标帧语音数据的自适应倒谱均值。

具体地,可用以下公式来表示得到目标帧语音数据的自适应倒谱均值的过程:

其中,meancur表示目标帧语音数据的自适应倒谱均值,fcur表示目标帧语音数据的特征向量值,表示目标帧语音数据的滤波系数,meanpre表示目标帧语音数据对应的目标倒谱均值。

步骤s500,将所述特征向量值减去所述自适应倒谱均值,得到所述目标帧语音数据的新特征向量值,并将所述新特征向量值输入预设的语音识别算法中,以识别所述目标帧语音数据。

当语音识别系统得到自适应倒谱均值后,语音识别系统根据自适应倒谱均值更新目标帧语音数据的特征向量值,得到目标帧语音数据的新特征向量值,并将目标帧音频特征向量值输入预设的语音识别算法中,以识别目标帧语音数据,从而达到识别待识别语音数据的效果。其中,本实施例中语音识别算法是预先存储在语音识别系统中的,语音识别算法包括但不限于hmm(hiddenmarkovmodel,隐马尔科夫模型)、ann(artificialneuralnetwork,人工神经网络)、卷积神经网络和深度学习。

具体地,当语音识别系统得到自适应倒谱均值后,语音识别系统将特征向量值减去自适应倒谱均值,得到目标帧语音数据的新特征向量值。具体地,可用公式f'cur=fcur-meancur表示新特征向量值的过程,其中,f'cur表示新特征向量值。需要说明的是,新特征向量值代表目标帧语音数据的特征信息,通过f'cur特征信息可以区分不同的语音信号,从而得到纯净的语音信号。

本实施例通过当获取到待识别语音数据后,对待识别语音数据进行分帧处理,并将分帧所得的各帧语音数据设定为目标帧语音数据,确定目标帧语音数据对应的特征向量值,计算目标帧语音数据对应的目标能量值,基于预设的能量值与滤波系数之间的对应关系,根据目标能量值确定目标帧语音数据的滤波系数,确定目标帧语音数据对应的目标倒谱均值,并根据特征向量值、滤波系数和目标倒谱均值确定目标帧语音数据的自适应倒谱均值,然后将特征向量值减去自适应倒谱均值,得到目标帧语音数据的新特征向量值,将新特征向量值输入预设的语音识别算法中,以识别目标帧语音数据。实现了在识别语音数据过程中,能通过能量值与滤波系数之间的对应关系确定语音数据对应的滤波系数,即滤波系数的大小由语音数据对应的能量值确定,使滤波系数适应不同的环境噪声,且根据所确定的向量值和滤波系数等数据得到一个自适应倒谱均值,使语音数据识别过程中倒谱均值不再是一个固定的值,从而提高了语音数据识别的鲁棒性和准确性。

进一步地,提出本发明语音数据的识别方法的第二实施例。

所述语音数据的识别方法第二实施例与上述语音数据的识别方法的实施例的区别在于,所述步骤s100包括:

步骤k,当获取到待识别语音数据后,对所述待识别语音数据进行分帧处理,得到所述待识别语音数据对应的各帧语音数据。

当语音识别系统获取到待识别语音数据后,语音识别系统对待识别语音数据进行分帧处理,得到待识别语音数据对应的各帧语音数据。可以理解的是,将一个长段的语音数据分成短段的语音线数据,每一短段称为一帧。在本实施例中,不限制一帧语音数据的大小,如一帧语音数据可为10ms(毫秒),或者为15ms等。

步骤l,对各帧语音数据进行汉明窗处理,得到汉明窗处理后的各帧语音数据,将汉明窗处理后的各帧语音数据设定为当前待识别的目标帧语音数据。

当语音识别系统得到待识别语音数据对应的各帧语音数据后,对各帧语音数据进行汉明窗处理,得到汉明窗处理后的各帧语音数据。在汉明窗处理后的每帧语音数据的大小与分帧处理后的各帧语音数据的大小相等。当语音识别系统得到汉明窗处理后的各帧语音数据后,语音识别系统将汉明窗处理后的各帧语音数据设定为当前待识别的目标帧语音数据。

需要说明的是,汉明窗处理后的相邻两帧语音数据存在语音数据的重叠,即汉明窗处理后的相邻两帧语音数据中含有部分相同的语音数据,从而保证语音数据采集的完整性。

本发明还提供一种语音数据的识别装置,参照图3,所述语音数据的识别装置包括:

分帧模块10,用于当获取到待识别语音数据后,对所述待识别语音数据进行分帧处理,得到所述待识别语音数据对应的各帧语音数据,将各帧语音数据设定为目标帧语音数据;

向量值确定模块20,用于确定所述目标帧语音数据对应的特征向量值;

计算模块30,用于计算所述目标帧语音数据对应的目标能量值;

系数确定模块40,用于基于预设的能量值与滤波系数之间的对应关系,根据所述目标能量值确定所述目标帧语音数据的滤波系数;

均值确定模块50,用于确定所述目标帧语音数据对应的目标倒谱均值,根据所述特征向量值、所述滤波系数和所述目标倒谱均值确定所述目标帧语音数据的自适应倒谱均值;

所述计算模块30还用于将所述特征向量值减去所述自适应倒谱均值,得到所述目标帧语音数据的新特征向量值;

输入模块60,用于将所述新特征向量值输入预设的语音识别算法中,以识别所述目标帧语音数据。

进一步地,所述均值确定模块50还用于将所述特征向量值乘以所述滤波系数,得到第一乘积,并计算一和所述滤波系数之间的第一差值;将所述第一差值乘以所述目标倒谱均值,得到第二乘积,并将所述第一乘积和所述第二乘积相加,得到所述目标帧语音数据的自适应倒谱均值。

进一步地,所述能量值与滤波系数之间的对应关系表示为:

其中,所述表示滤波系数,ad表示能量值,表示不同滤波窗的长度对应的滤波系数,

进一步地,所述均值确定模块50包括:

数据确定单元,用于确定所述目标帧语音数据是否为第一帧语音数据;

获取单元,若所述目标帧语音数据是第一帧语音数据,则获取预存的初始倒谱均值;

均值确定单元,用于将所述初始倒谱均值确定为所述目标帧语音数据的目标倒谱均值;

所述获取单元还用于若所述目标帧语音数据不是第一帧语音数据,则获取所述目标帧语音数据的前一帧语音数据的倒谱均值;

所述均值确定单元还用于将前一帧语音数据的倒谱均值确定为所述目标帧语音数据的目标倒谱均值。

进一步地,所述计算模块30包括:

计算单元,用于计算所述目标帧语音数据的平滑能量值;

参考值获取单元,用于获取所述目标帧语音数据对应的能量参考值;

所述计算单元还用于计算所述平滑能量值和所述能量参考值之间的能量平均值;

能量值确定单元,用于将所述能量平均值确定为所述目标帧语音数据的目标能量值。

进一步地,所述向量值确定模块20还包括:

变换单元,用于对所述目标帧语音数据进行傅里叶变换,得到所述目标帧语音数据的短时频谱;

转换单元,用于通过梅尔滤波器将所述短时频谱转换成倒谱系数,将所述倒谱系数确定为所述目标帧语音数据的特征向量值。

进一步地,所述分帧模块包括:

分帧单元,用于当获取到待识别语音数据后,对所述待识别语音数据进行分帧处理,得到所述待识别语音数据对应的各帧语音数据;

汉明窗处理单元,用于对各帧语音数据进行汉明窗处理,得到汉明窗处理后的各帧语音数据;

帧数据确定单元,用于将汉明窗处理后的各帧语音数据设定为当前待识别的目标帧语音数据。

本发明语音数据的识别装置的具体实施方式与上述语音数据的识别方法实施例基本相同,在此不再重复赘述。

本发明还提供一种芯片,其上具有集成电路,其所述集成电路包括如上所述的语音数据的识别装置。

本发明芯片的具体实施方式与上述语音数据的识别方法实施例基本相同,在此不再重复赘述。

本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述语音数据的识别方法的步骤。

本发明计算机可读存储介质的具体实施方式与上述语音数据的识别方法各实施例基本相同,在此不再重复赘述。

本领域的技术人员能够理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。

应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜