一种语音的话音与非话音的综合判决方法与流程

2022-03-26 10:20:01 来源：中国专利 TAG：

技术特征：
1.一种语音的话音与非话音的综合判决方法，其特征在于：所述综合判决方法包括：对输入的语音数据进行分帧处理得到第一分帧语音数据和第二分帧语音数据；所述第一分帧语音数据的处理方法包括：对第一分帧语音数据进行预处理，获取每帧语音数据进行时频转换与倒谱系数，并将经过预处理后的数据输入语音识别网络判断语音的话音段占整个语音段的比例；当话音信号占比大于预设值时，通过结合短时自相关法与谱减法的方法进行语音降噪处理；结合短时相关法与能熵比的方法对语音端点进行检测，并将检测后的语音数据中话音语段标记为话音，其余语段标记为非话音，最后输出语音数据；所述第二分帧语音数据的处理方法包括：通过结合短时自相关法与谱减法的方法对第二分帧语音数据进行语音降噪处理；结合短时相关法与能熵比的方法对语音端点进行检测，并将检测后的语音数据中话音语段标记为话音，其余语段标记为非话音，最后输出语音数据。2.根据权利要求1所述的一种语音的话音与非话音的综合判决方法，其特征在于：所述对第一分帧语音数据进行预处理，获取每帧语音数据进行时频转换与倒谱系数包括：将第一分帧语音数据通过短时傅里叶变换获取的语音数据的时频参数f(f,t)，表示语音信号在时刻为t，频率为f时的信号的相对能量值；对每帧语音数据进行mfcc特征提取，获取其mfcc值、一阶mfcc差分和二阶mfcc差分；对语音信号进行预加重处理，并对预加重后的信号进行加窗处理和对加窗后的信号进行频域转换，获得语音信号在频域上的表示；计算每帧谱线能量通过梅尔滤波器组后的能量谱，并将通过梅尔滤波器组后的能量谱进行取对数处理；将通过梅尔滤波器组后的能量取对数，再进行离散余弦变换得到mfcc特征，对mfcc特征进行一阶差分处理，获取一阶mfcc特征；对一阶mfcc特征做差分运算，得到二阶mfcc特征。3.根据权利要求1所述的一种语音的话音与非话音的综合判决方法，其特征在于：所述语音降噪处理包括：对每帧语音数据x
n
进行短时自相关处理，获得当前帧的自相关值r
n
；对获得的每帧自相关值作为新的自相关序列采用设定窗长和窗移的平均值滤波方法进行平滑滤波，得到滤波后的自相关值序列r
′
n
；将自相关值序列的平均值作为阈值η，当自相关值小于或等于阈值η的帧段作为非话音段，大于阈值η的帧段作为话音段；将确定的非话音段与话音段作为输入，采用谱减法对原始的语音数据x
n
进行去噪处理，获取降噪后的语音数据x
′
n
。4.根据权利要求3所述的一种语音的话音与非话音的综合判决方法，其特征在于：所述将确定的非话音段与话音段作为输入，采用谱减法对原始的语音数据x
n
进行去噪处理，获取降噪后的语音数据x
′
n
包括：对原始的每一帧语音信号x
n
做快速傅里叶变换，得到变换后的语音信号x
n
(k)；
根据x
n
(k)的幅值|x
n
(k)|，相位角度非话音段的帧数nis，计算得到非话音段的平均功率谱值d(k)；计算经过快速傅里叶变换后的语音信号x
n
(k)的平均值y
n
(k)，并通过谱减公式得到谱减后的幅值根据谱减后的幅值阳相位角利用快速傅里叶逆变换得到降噪后的语音数据x
′
n
。5.根据权利要求1所述的一种语音的话音与非话音的综合判决方法，其特征在于：所述结合短时相关法与能熵比的方法对语音端点进行检测包括：计算短时能量获得每帧信号x
n
的能量e
n
，并对降噪后的每帧语音信号x
′
n
计算其快速傅里叶变换后的值x
′
n
；计算降噪后的每帧语音信号在频域的短时能量e
′
n
和第k条谱线的能量谱s
n
(k)；计算每帧每个频率分量的归一化谱概率密度函数p
n
(k)、每帧的谱熵值h
n
和每帧信号的能熵比ef
n
；计算非话音段信号的能熵比ef
′
n
，将降噪后的每帧语音信号x
′
n
替换为降噪后的非话音帧，得到降噪后的非话音帧的能熵比值ef
′
n
；设置判决门限阈值t1与t2，并计算语音信号的能熵比ef
n
与门限阈值t2的交点n2，n3，话音段的起止点位于n2，n3的时间间隔外；从起点n2向左、终点n3向右搜索，分别找到语音信号的能熵比ef
n
与门限阈值t1的交点n1，n4，n1为语音段的起点，n4为语音段的终点。6.根据权利要求1所述的一种语音的话音与非话音的综合判决方法，其特征在于：所述语音识别网络包括三层卷积层、三层池化层和三层全连接层；第一层卷积层：卷积核大小为3
×
3，共有32个卷积核，卷积核的移动步长为1，在卷积过程中，对边界不足的部分采用0值进行填充；第一层池化层：采用大小为2
×
2的最大池化，对边界不足的部分采用0值进行填充；第二层卷积层：卷积核大小为3
×
3，共有64个卷积核，其余设置与第一层卷积层相同；第二层池化层的设置与第一层池化层设置相同；第三层卷积层：卷积核大小为3
×
3，共有1024个卷积核，其余设置与第一层卷积层相同；第三层池化层的设置与第一层池化层设置相同；第一层全连接层与第二层全连接层的输出都为1024，第三层全连接层的输出为2，代表所需分类的个数；每一次卷积后，采用relu激活函数对卷积后的值进行激活操作；网络在训练过程中，采用adam随机梯度下降法对网络的参数进行更新。7.根据权利要求1-6中任意一项所述的一种语音的话音与非话音的综合判决方法，其特征在于：所述第一分帧语音数据包括对语音数据按照每帧时间为1s，每帧之间重叠的时间为0.7s进行处理后的语音数据；所述第二分帧语音数据包括对语音数据按照每帧时间为0.025s，每帧之间重叠的时间为0.01s进行处理后的语音数据。

技术总结
本发明涉及一种语音的话音与非话音的综合判决方法，包括：对输入的语音数据进行分帧处理得到第一分帧语音数据和第二分帧语音数据；对第一分帧语音数据进行预处理，获取每帧语音数据进行时频转换与倒谱系数，并将经过预处理后的数据输入语音识别网络判断语音的话音段占整个语音段的比例；当话音信号占比大于预设值时，通过结合短时自相关法与谱减法的方法进行语音降噪处理；结合短时相关法与能熵比的方法对语音端点进行检测，并将检测后的语音数据中话音语段标记为话音，其余语段标记为非话音，最后输出话音数据。本发明提高了语音判决的适用性，使得在复杂情况下的话音与非话音的判决的适用范围增大，进一步提高方法在语音判决的适用性。判决的适用性。判决的适用性。

技术研发人员：代策宇张义林徐杨辉傅松段绍楠
受保护的技术使用者：成都锦江电子系统工程有限公司
技术研发日：2022.01.05
技术公布日：2022/3/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种语音的话音与非话音的综合判决方法与流程

相关文献

最热文献