用于短语音说话人确认的生成对抗网络优化方法及系统与流程

2022-05-26 23:18:57 来源：中国专利 TAG：

技术特征：
1.一种用于短语音说话人确认的生成对抗网络优化方法，其特征在于，包括：s1.获取多对长、短语音声学特征样本；s2.将短语音声学特征样本输入生成器进行拼接，得到生成的伪长语音声学特征样本；s3.将伪长语音声学特征样本与获取的所述长语音声学特征样本分别输入说话人确认模型，通过说话人确认模型输出伪身份特征样本和真身份特征样本；s4.将真身份特征样本和伪身份特征样本输入鉴别器和分类器，通过损失函数计算所述鉴别器和分类器的损失，并通过反向传播优化更新鉴别器、分类器和生成器的参数。2.根据权利要求1所述的方法，其特征在于，步骤s2所述方法具体包括：将短语音声学特征样本输入生成器，经线性变换生成额外的声学特征样本；将短语音声学特征样本和额外的声学特征样本进行拼接，生成伪长语音声学特征样本；对所述伪长语音声学特征样本进行倒谱均值归一化处理。3.根据权利要求1所述的方法，其特征在于，步骤s4所述方法具体包括：将真身份特征样本和伪身份特征样本输入鉴别器和分类器，通过损失函数计算所述鉴别器和分类器的损失，通过反向传播更新鉴别器和分类器的参数；将伪身份特征样本送入鉴别器和分类器，在送入鉴别器时，将伪的身份特征样本标签伪造为真，通过损失函数计算所述鉴别器和分类器的损失，通过反向传播更新生成器的参数。4.根据权利要求1所述的方法，其特征在于，所述说话人确认模型为训练好的说话人确认模型，包括：基于resnet的x-vector模型、e-tdnn模型和ecapa-tdnn模型。5.根据权利要求2所述的方法，其特征在于，所述额外的声学特征样本的长度与短语音声学特征样本的长度相等；所述短语音声学特征样本的短语音为长度为1秒至3秒的语音。6.根据权利要求1所述的方法，其特征在于，所述损失函数采用交叉熵损失函数，优化器采用rmsprop优化器，学习率设置为0.0001。7.一种用于短语音说话人确认的生成对抗网络优化系统，其特征在于，包括：数据获取模块：用于获取多对长、短语音声学特征样本；数据处理模块：用于将短语音声学特征样本输入生成器进行拼接，得到生成的伪长语音声学特征样本；样本生成模块：用于将伪长语音声学特征样本与获取的所述长语音声学特征样本分别输入说话人确认模型，通过说话人确认模型输出伪身份特征样本和真身份特征样本；训练优化模块：用于将真身份特征样本和伪身份特征样本输入鉴别器和分类器，通过损失函数计算所述鉴别器和分类器的损失，并通过反向传播优化更新鉴别器、分类器和生成器的参数。8.根据权利要求7所述的系统，其特征在于，所述数据处理模块具体用于：将短语音声学特征样本输入生成器，经线性变换生成额外的声学特征样本；将短语音声学特征样本和额外的声学特征样本进行拼接，生成伪长语音声学特征样本；对所述伪长语音声学特征样本进行倒谱均值归一化处理。
9.根据权利要求7所述的系统，其特征在于，所述训练优化模块具体用于：将真身份特征样本和伪身份特征样本输入鉴别器和分类器，通过损失函数计算所述鉴别器和分类器的损失，通过反向传播更新鉴别器和分类器的参数；将伪身份特征样本送入鉴别器和分类器，在送入鉴别器时，将伪的身份特征样本标签伪造为真，通过损失函数计算所述鉴别器和分类器的损失，通过反向传播更新生成器的参数。10.根据权利要求7所述的系统，其特征在于，所述说话人确认模型为训练好的说话人确认模型，包括：基于resnet的x-vector模型、e-tdnn模型和ecapa-tdnn模型。

技术总结
本说明书实施例提供了一种用于短语音说话人确认的生成对抗网络优化方法及系统，其中，方法包括：获取多对长、短语音声学特征样本；将短语音声学特征样本输入生成器进行拼接，得到生成的伪长语音声学特征样本；将伪长语音声学特征样本与获取的所述长语音声学特征样本分别输入说话人确认模型，通过说话人确认模型输出伪身份特征样本和真身份特征样本；将真身份特征样本和伪身份特征样本输入鉴别器和分类器，通过损失函数计算所述鉴别器和分类器的损失，并通过反向传播优化更新鉴别器、分类器和生成器的参数。以解决说话人确认系统随着语音时长变短判别效果变差的问题。随着语音时长变短判别效果变差的问题。随着语音时长变短判别效果变差的问题。

技术研发人员：张志伟杨爽刘天马佰超杨可林解晓敏
受保护的技术使用者：国网山东省电力公司菏泽供电公司
技术研发日：2022.02.25
技术公布日：2022/5/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：模型训练方法、回声消除方法、系统、设备及存储介质与流程

用于短语音说话人确认的生成对抗网络优化方法及系统与流程

相关文献

最热文献