一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于原始波形的轻量级神经网络生成语音鉴别方法和系统与流程

2021-08-27 13:36:00 来源:中国专利 TAG:语音 生成 神经网络 波形 鉴别

技术特征:

1.基于原始波形的轻量级神经网络生成语音鉴别方法,其特征在于,所述方法包括:

读取输入音频:按固定采样率对音频文件进行采样,得到所述音频文件的原始波形点,再将所述原始波形点切分为原始音频帧,得到原始音频帧序列;

构建搜索网络:网络第一层为固定的一维卷积层,所述一维卷积层之后为常规模块和降维模块相互堆叠的结构,再之后是平均池化层,所述平均池化层之后为全连接层;

搜索最优模型结构:将所述原始音频帧序列输入搜索网络,分别搜索常规模块和降维模块中每个神经元之间的最优操作连接,得到最优模型结构;

模型训练:应用所述原始音频帧序列训练搜索到的所述最优模型结构,得到训练好的搜索网络;

模型预测:应用读取输入音频方法将测试数据转化为测试音频帧序列,再将所述测试音频帧序列输入到所述训练好的搜索网络,得到真伪二分类结果。

2.根据权利要求1所述的基于原始波形的轻量级神经网络生成语音鉴别方法,其特征在于,所述固定采样率为16000;所述原始音频帧的长度为48000。

3.根据权利要求1所述的基于原始波形的轻量级神经网络生成语音鉴别方法,其特征在于,所述一维卷积层的具体设计包括:一组可训练的有限冲激响应滤波器。

4.根据权利要求3所述的基于原始波形的轻量级神经网络生成语音鉴别方法,其特征在于,所述可训练的有限冲激响应滤波器具体包括:一个带通滤波器,频域表示为:

其中f1和f2是可学习的参数,代表带通滤波器的低、高截止频率,f为频域变量;

上式经过逆傅里叶变换,最终得到滤波器g的时域可实现表示:

5.根据权利要求4所述的基于原始波形的轻量级神经网络生成语音鉴别方法,其特征在于,所述可训练的有限冲激响应滤波器还包括:

g[n,f1,f2]中额外加入窗函数,得到加窗后的滤波器:

其中,w[n]的为汉明窗,具体形式为:

6.根据权利要求1所述的基于原始波形的轻量级神经网络生成语音鉴别方法,其特征在于,所述常规模块中包括7个神经元节点,相邻神经元节点中的可供候选操作有6种,具体为:

3*3的深度可分卷积、5*5的深度可分卷积、3*3最大池化、3*3平均池化,直接连接和空操作。

7.根据权利要求6所述的基于原始波形的轻量级神经网络生成语音鉴别方法,其特征在于,所述降维模块中相邻神经元节点中的可供候选操作有6种,具体为:

3*3的深度可分卷积、5*5的深度可分卷积、3*3最大池化、3*3平均池化,直接连接和空操作;

降维模块与常规模块的不同在于,降维模块输出的特征维度为其输入特征维度的一半,而常规模块输出的特征维度与其输入特征维度保持一致。

8.根据权利要求7所述的基于原始波形的轻量级神经网络生成语音鉴别方法,其特征在于,搜索常规模块和降维模块中每个神经元节点之间的最优操作连接过程中,对于不同操作的权重系数使用自适应矩估计优化器,对于各个操作的具体参数使用随机梯度下降优化器。

9.基于原始波形的轻量级神经网络生成语音系统,其特征在于,所述系统包括:

读取输入音频模块、搜索网络、搜索最优模型结构模块和模型训练模块;

所述读取输入音频模块:按固定采样率对音频文件进行采样,得到所述音频文件的原始波形点,再将所述原始波形点切分为原始音频帧,得到原始音频帧序列;

所述搜索网络:网络第一层为固定的一维卷积层特征提取层,所述一维卷积层之后为常规模块和降维模块相互堆叠的结构,再之后是平均池化层,所述平均池化层之后为全连接层;

搜索最优模型结构模块:将所述原始音频帧序列输入所述搜索网络,分别搜索常规模块和降维模块中每个神经元节点之间的最优操作连接,得到最优模型结构;

模型训练模块:应用所述原始音频帧序列训练搜索到的所述最优模型结构,得到训练好的搜索网络;

将测试数据输入读取输入音频模块,得到测试音频帧序列,再将所述测试音频帧序列输入到所述训练好的搜索网络,得到真伪二分类结果。

10.根据权利要求9所述的基于原始波形的轻量级神经网络生成语音系统,其特征在于,所述最优模型结构包括:网络第一层为一维卷积层特征提取层,所述一维卷积层之后为2个常规模块,然后是1个降维模块,最后是全连接层。


技术总结
本发明提供基于原始波形的轻量级神经网络生成语音鉴别方法和系统,包括:按固定采样率对音频文件进行采样,得到所述音频文件的原始波形点,再将所述原始波形点切分为原始音频帧,得到原始音频帧序列;第一层为固定的一维卷积层,所述一维卷积层之后为常规模块和降维模块相互堆叠的结构,再之后是平均池化层,所述平均池化层之后为全连接层来构建搜索网络;将所述原始音频帧序列输入搜索网络,分别搜索常规模块和降维模块中每个神经元之间的最优操作连接,得到最优模型结构;应用所述原始音频帧序列训练搜索到的所述最优模型结构,得到训练好的搜索网络。

技术研发人员:陶建华;马浩鑫;易江燕
受保护的技术使用者:中国科学院自动化研究所
技术研发日:2021.07.29
技术公布日:2021.08.27
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜