技术特征:
1.一种基于语音分割的合成语音检测方法,其特征在于,分别将自然语音和合成语音提取到的cqcc特征输入到两个初始化后的gmm模型值中进行训练,采用训练完成的gmm模型对输入的语音进行检测,得到检测结果。
2.根据权利要求1所述的一种基于语音分割的合成语音检测方法,其特征在于,训练具体为训练4个gmm模型,自然语音数据集与合成语音数据集各训练两个gmm模型。
3.根据权利要求2所述的一种基于语音分割的合成语音检测方法,其特征在于,自然语音数据集对应的两个gmm模型的训练过程为:
将自然语音数据集进行预处理得到分割后的语音片段和无声片段,对有声片段进行cqcc特征提取,对无声片段计算其过零率;
将cqcc和过零率分别输入两个gmm模型进行训练,更新其参数;
达到预设的训练次数,最终得到参数训练好的gmm模型。
4.根据权利要求3所述的一种基于语音分割的合成语音检测方法,其特征在于,合成语音数据集对应的两个gmm模型的训练过程为:
将合成语音数据集进行预处理得到分割后的语音片段和无声片段,对有声片段进行cqcc特征提取,对无声片段计算其过零率;
将cqcc和过零率分别输入两个gmm模型进行训练,更新其参数;
达到预设的训练次数,最终得到参数训练好的gmm模型。
5.根据权利要求4所述的一种基于语音分割的合成语音检测方法,其特征在于,所述预处理具体为:
从自然语音数据集或合成语音数据集中获取全部的训练数据,并检查语音识别的采样率;
判断采样率是否为16khz,若否,则使用工具包sox转换语音采样率为16khz,当语音采样率为16khz时,使用语音强制对齐工具p2fa检测语音信号的端点,以此标记语音句子中每个单词的开始和结束位置;
根据标记的端点进行语音切割,将语音数据分割为单词片段以及无声片段。
6.根据权利要求5所述的一种基于语音分割的合成语音检测方法,其特征在于,所述cqcc特征提取,包括以下分步骤:
将有声片段进行预加重处理;
将预加重处理后的有声片段按10ms分为短段,每段之间有部分重叠;然后进行加窗;
进行恒定q变换,然后将幅度平方取对数获得功率谱,对功率谱进行均匀采样,最后进行离散余弦变换,得到cqcc系数。
7.根据权利要求6所述的一种基于语音分割的合成语音检测方法,其特征在于,还包括对训练好的两个gmm模型进行加权求和,通过分别对两个gmm模型赋予不同的权重并测试准确率,两个gmm模型权重之和为1,选择准确率最大值对应的权重作为两个gmm模型的权重。
8.根据权利要求7所述的一种基于语音分割的合成语音检测方法,其特征在于,检测过程具体为:
将输入的完整语音按照单词进行分片,同时产生无声的静默片段;
对语音片段进行cqcc特征提取,并计算无声片段的过零率;
将cqcc和过零率输入已经训练好的gmm模型进行推断,得出检测结果。
技术总结
本发明公开一种基于语音分割的合成语音检测方法,应用于语音检测领域,针对现有技术的检测精度低的问题,本发明提取音频中的两种特征:有声片段的CQCC特征,提取音频的无声(静音)片段的平均过零率特征;然后采用两个GMM模型分别对两种特征进行拟合,并对两个GMM赋予不同的权值并测试,找到最合适的权重;显著提升了合成语音的检测精度。
技术研发人员:詹瑾瑜;江维;蒲治北;杨永佳;边晨;雷洪;江昱呈;于安泰
受保护的技术使用者:电子科技大学
技术研发日:2021.03.04
技术公布日:2021.06.22
本文用于企业家、创业者技术爱好者查询,结果仅供参考。