一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种利用神经网络的语音活性检测方法与流程

2021-09-22 22:12:00 来源:中国专利 TAG:神经网络 活性 语音 检测方法 语音识别

技术特征:
1.一种利用神经网络的语音活性检测方法,其特征在于,包括模型训练过程和语音活性检测过程;所述模型训练过程包括以下步骤:s1.对用于训练的纯净语音确定端点检测标签;s2.对纯净语音进行随机加噪,构造训练集;s3.逐帧处理,提取训练集中每一帧语音的多阶多层门控制循环单元特征向量;s4.搭建初始多分辨率耳蜗图神经网络,将提取的多阶多层门控制循环单元特征向量作为神经网络输入,步骤s1中获取的端点检测标签作为训练目标,训练得到多分辨率耳蜗图成熟模型;所述语音活性检测过程包括以下步骤:s5.提取测试语音每一帧的多阶多层门控制循环单元特征向量;s6.经过神经网络的前向网络,对每一帧给出一个语音存在概率;s7.利用状态机对语音存在概率值进行后处理,输出语音活性检测标识;所述后处理为将离散的语音存在概率值归整为仅采用0和1表示。2.如权利要求1所述语音活性检测方法,其特征在于,所述步骤 s1具体为:设置一功率谱计数器, 定义该功率谱计数器当前值为fct,fct初始值为0,设置依次减小的第一经验值th1、第二经验值th2、第三经验值th3;其中第一经验值为语音帧功率谱的上限经验值、第二经验值为语音帧功率谱的中间经验值、第三经验值为语音帧功率谱的下限经验值;对纯净语音逐帧检测功率谱,当前帧的功率谱psc>第一经验值th1时,fct为0,当th2≤psc≤th1时,fct减5;当th3≤psc<th2时,fct加1;其余情况加2;最终对fct进行统计,若fct≥ 8 ,则该帧端点检测标签标注为1;否则为0。3.如权利要求1所述语音活性检测方法,其特征在于,所述步骤s3中多阶多层门控制循环单元特征向量提取过程为:s31.将训练集中的带噪语音通过一个n通道滤波器组变换到频域,获取n个信号子带;s32.按照两种不同帧长,提取n个信号子带的对数功率谱值,分别得到n维的第一功率谱向量coch1和第二功率谱向量coch2;s33.对第一功率谱向量coch1和第二功率谱向量coch2各自按照不同大小的矩形窗进行平均处理,得到n维的第三功率谱向量coch3和第四功率谱向量coch4;通过以上运算,每一帧可以得到n*4的多层门控制循环单元特征向量,包括四个功率谱向量coch1、coch2、coch3、coch4;s34.计算多层门控制循环单元特征向量的一阶差分特征向量和二阶差分特征向量,与多层门控制循环单元特征向量合并后得到多阶多层门控制循环单元特征向量。4.如权利要求3所述语音活性检测方法,其特征在于,所述s34 步骤中一阶差分特征向量计算方法如下:y(m)=b(1)*x(m) z1(m

1)z1(m)=b(1)*x(m) z2(m

1)

a(2)*y(m)

z
n
‑2(m)=b(n

1)*x(m) z
n
‑1(m

1)

a(n

1)*y(m)
z
n
‑1(m)=b(n)*x(m)

a(n)*y(m)
ꢀꢀꢀꢀꢀ‑‑‑‑‑
(1)其中x(m)为多阶多层门控制循环单元特征向量,b(1),b(2)

b(n)是分子的系数向量,y(m)为一阶差分特征向量,a(2)

a(n)是分母的系数向量,z1(m)
ꢀ…
z
n
‑1(m)为中间变量;初始化z
n
‑1(0)为0,a(2)

a(n)均为1;二阶差分特征向量计算是在得到一阶差分特征向量的基础上,采用公式组(1)计算一阶差分特征向量y(m)的差分特征向量y

(m);二阶差分特征向量计算时,分子系数向量为b

(1),b

(2)

b

(n),分母系数向量a

(1),a

(2)

a

(n)依然为1。5.如权利要求1所述语音活性检测方法,其特征在于,所述s4 步骤中初始多分辨率耳蜗图神经网络包括至少3个门控制循环单元模块,将当前帧、当前帧之前帧、当前帧之后帧的多阶多层门控制循环单元特征向量分别输入各个门控制循环单元模块中进行训练。6.如权利要求1所述语音活性检测方法,其特征在于,所述s7步骤中.利用状态机对语音存在概率值进行后处理的具体方法为:设置状态机状态0为初始态,1为确定态,2为退出态;设置启动数组、结束数组,设置存在门限值;在状态机状态为确定态下时,当语音存在概率>存在门限值时,启动数组对应元素的值置为1,同时对启动数组元素序号加1;直到元素序号超过启动数组长度后重置;当语音存在概率<存在门限值时, 结束数组对应元素的值置为1,同时对结束数组元素序号加1;直到元素序号超过结束数组长度后重置。7.如权利要求6所述语音活性检测方法,其特征在于,所述s7步骤中还包括以下步骤:设置启动数组计数器和结束数组计数器,启动数组计数器对启动数组中的连续取值为1次数进行计数,结束数组计数器对结束数组中所有的1进行计数,并设置一个提前结束门限值,在结束数组计数器计数超过所述提前结束门限值时,结束运算;设置最小开始门限值、最大结束门限值、超时门限值、语音计数器;当状态机状态为0时,如果启动数组计数器> 最小开始门限值,将状态机状态置为1,并把结束数组置为0;启动数组计数器 <最小开始门限值,则维持状态机状态0;当状态机状态为1时,语音计数器加1,如果语音计数器>超时门限值,或者结束数组计数器>最大结束门限值,强制结束并把状态机状态置为2;否则维持状态机状态为1;状态机状态置为2后,将启动数组和结束数组内全部元素清零,启动数组和结束数组的元素序号均置为1,再将状态机状态置为0。

技术总结
一种利用神经网络的语音活性检测方法,包括模型训练过程和语音活性检测过程;所述模型训练过程包括以下步骤:S1.对用于训练的纯净语音确定端点检测标签;S2.对纯净语音进行随机加噪,构造训练集;S3.逐帧处理,提取训练集中的多阶多分辨率耳蜗图特征向量;S4.构建多层门控制循环单元网络,利用训练集对其进行训练,得到多层门控制循环单元成熟模型,利用成熟模型进行语音活性检测。本发明利用神经网络良好的分类性能,提取带噪语音的特定特征,并通过预先训练好的神经网络模型,对语音以及噪声进行初步分类并求得一个语音存在概率;通过状态机对获得的语音存在概率进行后处理,从而得到一个平滑且相对准确的语音活性检测标识。得到一个平滑且相对准确的语音活性检测标识。得到一个平滑且相对准确的语音活性检测标识。


技术研发人员:万东琴 胡岸 刘文通 曾帆
受保护的技术使用者:成都启英泰伦科技有限公司
技术研发日:2021.08.25
技术公布日:2021/9/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜