一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于语音分割的合成语音检测方法与流程

2021-06-22 17:08:00 来源:中国专利 TAG:语音 检测技术 合成 检测 特别

技术特征:

1.一种基于语音分割的合成语音检测方法,其特征在于,分别将自然语音和合成语音提取到的cqcc特征输入到两个初始化后的gmm模型值中进行训练,采用训练完成的gmm模型对输入的语音进行检测,得到检测结果。

2.根据权利要求1所述的一种基于语音分割的合成语音检测方法,其特征在于,训练具体为训练4个gmm模型,自然语音数据集与合成语音数据集各训练两个gmm模型。

3.根据权利要求2所述的一种基于语音分割的合成语音检测方法,其特征在于,自然语音数据集对应的两个gmm模型的训练过程为:

将自然语音数据集进行预处理得到分割后的语音片段和无声片段,对有声片段进行cqcc特征提取,对无声片段计算其过零率;

将cqcc和过零率分别输入两个gmm模型进行训练,更新其参数;

达到预设的训练次数,最终得到参数训练好的gmm模型。

4.根据权利要求3所述的一种基于语音分割的合成语音检测方法,其特征在于,合成语音数据集对应的两个gmm模型的训练过程为:

将合成语音数据集进行预处理得到分割后的语音片段和无声片段,对有声片段进行cqcc特征提取,对无声片段计算其过零率;

将cqcc和过零率分别输入两个gmm模型进行训练,更新其参数;

达到预设的训练次数,最终得到参数训练好的gmm模型。

5.根据权利要求4所述的一种基于语音分割的合成语音检测方法,其特征在于,所述预处理具体为:

从自然语音数据集或合成语音数据集中获取全部的训练数据,并检查语音识别的采样率;

判断采样率是否为16khz,若否,则使用工具包sox转换语音采样率为16khz,当语音采样率为16khz时,使用语音强制对齐工具p2fa检测语音信号的端点,以此标记语音句子中每个单词的开始和结束位置;

根据标记的端点进行语音切割,将语音数据分割为单词片段以及无声片段。

6.根据权利要求5所述的一种基于语音分割的合成语音检测方法,其特征在于,所述cqcc特征提取,包括以下分步骤:

将有声片段进行预加重处理;

将预加重处理后的有声片段按10ms分为短段,每段之间有部分重叠;然后进行加窗;

进行恒定q变换,然后将幅度平方取对数获得功率谱,对功率谱进行均匀采样,最后进行离散余弦变换,得到cqcc系数。

7.根据权利要求6所述的一种基于语音分割的合成语音检测方法,其特征在于,还包括对训练好的两个gmm模型进行加权求和,通过分别对两个gmm模型赋予不同的权重并测试准确率,两个gmm模型权重之和为1,选择准确率最大值对应的权重作为两个gmm模型的权重。

8.根据权利要求7所述的一种基于语音分割的合成语音检测方法,其特征在于,检测过程具体为:

将输入的完整语音按照单词进行分片,同时产生无声的静默片段;

对语音片段进行cqcc特征提取,并计算无声片段的过零率;

将cqcc和过零率输入已经训练好的gmm模型进行推断,得出检测结果。


技术总结
本发明公开一种基于语音分割的合成语音检测方法,应用于语音检测领域,针对现有技术的检测精度低的问题,本发明提取音频中的两种特征:有声片段的CQCC特征,提取音频的无声(静音)片段的平均过零率特征;然后采用两个GMM模型分别对两种特征进行拟合,并对两个GMM赋予不同的权值并测试,找到最合适的权重;显著提升了合成语音的检测精度。

技术研发人员:詹瑾瑜;江维;蒲治北;杨永佳;边晨;雷洪;江昱呈;于安泰
受保护的技术使用者:电子科技大学
技术研发日:2021.03.04
技术公布日:2021.06.22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜