一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音数据的处理方法、装置、电子设备、存储介质及产品与流程

2022-02-20 19:59:54 来源:中国专利 TAG:

技术特征:
1.一种语音数据的处理方法,其特征在于,所述方法包括:确定语音数据,所述语音数据为待处理的语音数据;确定所述语音数据对应的人群特征,所述人群特征用于表示所述语音数据的对象所属的人群;从多个语音数据集合中,确定所述人群特征对应的目标语音数据集合,所述多个语音数据集合为基于人群特征划分得到,且每个语音数据集合对应不同的人群特征;从所述目标语音数据集合中,确定与所述语音数据匹配的目标语音数据,所述目标语音数据的声纹特征与所述语音数据的声纹特征相匹配。2.根据权利要求1所述的方法,其特征在于,所述语音数据对应的人群特征的确定过程包括:将所述语音数据输入声纹识别模型,输出所述语音数据对应的人群特征,所述声纹识别模型用于识别所述语音数据对应的人群特征。3.根据权利要求2所述的方法,其特征在于,所述人群特征的数量为多个,所述声纹识别模型中包括多个分类任务模块,每个分类任务模块用于获取一个人群特征;所述将所述语音数据输入声纹识别模型,输出所述语音数据对应的人群特征,包括:将所述语音数据输入所述声纹识别模型,基于所述多个分类任务模块,确定所述语音数据对应的多个人群特征,输出所述多个人群特征。4.根据权利要求3所述的方法,其特征在于,所述多个人群特征包括性别和年龄,所述多个分类任务模块包括性别分类模块和年龄分类模块,所述将所述语音数据输入所述声纹识别模型,基于所述多个分类任务模块,确定所述语音数据对应的多个人群特征,包括:将所述语音数据输入所述声纹识别模型,分别基于所述性别分类模块和年龄分类模块,确定所述语音数据对应的性别和年龄。5.根据权利要求3所述的方法,其特征在于,所述声纹识别模型的训练过程包括:将样本语音数据输入初始声纹识别模型,输出每个分类任务模块对所述样本语音数据的预测结果;对于每个分类任务模块,对比所述预测结果与所述样本语音数据的标记结果,得到对比结果;确定所述对比结果对应的第一损失值;基于所述多个分类任务模块的第一损失值,对所述初始声纹识别模型的模型参数进行调整,得到所述声纹识别模型。6.根据权利要求5所述的方法,其特征在于,所述基于所述多个任务模块的第一损失值,对所述初始声纹识别模型的模型参数进行调整,得到所述声纹识别模型,包括:基于所述多个分类任务模块的第一损失值,分别对所述每个分类任务模块的模型参数进行调整;确定校正后的每个分类任务模块的第二损失值和每个分类任务模块在当前时刻的权重;对所述多个分类任务模块的第二损失值和权重加权求和,得到所述声纹识别模型的综合损失值;基于所述综合损失值,再次对所述每个分类任务模块的模型参数进行调整,得到所述
声纹识别模型。7.根据权利要求6所述的方法,其特征在于,所述每个分类任务模块在当前时刻的权重的确定过程包括:对于每个分类任务模块,确定所述分类任务模块的权重调整参数和所述分类任务模块在当前时刻的衡量指标值;基于所述衡量指标值,确定目标对数值,所述目标对数值与所述衡量指标值呈对数关系;基于所述衡量指标值,确定目标差值,所述目标差值与所述衡量指标值呈负相关;确定以所述目标差值为底数、所述权重调整参数为指数的指数值;确定所述指数值与所述目标对数值的乘积的负数,得到所述分类任务模块的权重。8.根据权利要求2所述的方法,其特征在于,所述声纹识别模型包括声纹分类模块,所述声纹分类模块用于确定与所述语音数据相匹配的目标语音数据,所述从所述目标语音数据集合中,确定与所述语音数据匹配的目标语音数据,包括:将所述语音数据输入所述声纹识别模型,基于所述声纹分类模块,确定所述语音数据的声纹特征,基于所述声纹特征,从所述目标语音数据集合中确定所述目标语音数据。9.根据权利要求1所述的方法,其特征在于,所述人群特征的数量为多个,所述从多个语音数据集合中,确定所述人群特征对应的目标语音数据集合,包括:分别确定每个人群特征对应的语音数据集合,所述语音数据集合包括与所述人群特征对应的至少一个语音数据;获取所述多个人群特征分别对应的语音数据集合的交集,得到所述目标语音数据集合。10.一种语音数据的处理装置,其特征在于,所述装置包括:第一确定模块,用于确定语音数据,所述语音数据为待处理的语音数据;第二确定模块,用于确定所述语音数据对应的人群特征,所述人群特征用于表示所述语音数据的对象所属的人群;第三确定模块,用于从多个语音数据集合中,确定所述人群特征对应的目标语音数据集合,所述多个语音数据集合为基于人群特征划分得到,且每个语音数据集合对应不同的人群特征;第四确定模块,用于从所述目标语音数据集合中,确定与所述语音数据匹配的目标语音数据,所述目标语音数据的声纹特征与所述语音数据的声纹特征相匹配。11.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的语音数据的处理方法。12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行,以实现如权利要求1至权利要求9任一项所述的语音数据的处理方法。13.一种计算机程序产品,其特征在于,所述计算机程序产品包括至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至权利要求9任一项所述的语音数据的处理方法。

技术总结
本申请提供了一种语音数据的处理方法、装置、电子设备、存储介质及产品,属于声纹识别技术领域。方法包括:确定语音数据,所述语音数据为待处理的语音数据;确定所述语音数据对应的人群特征,所述人群特征用于表示所述语音数据的对象所属的人群;从多个语音数据集合中,确定所述人群特征对应的目标语音数据集合,所述多个语音数据集合为基于人群特征划分得到,且每个语音数据集合对应不同的人群特征;从所述目标语音数据集合中,确定与所述语音数据匹配的目标语音数据,所述目标语音数据的声纹特征与所述语音数据的声纹特征相匹配。该方法提高了对语音数据的处理效率。了对语音数据的处理效率。了对语音数据的处理效率。


技术研发人员:郭震 李智勇 陈孝良
受保护的技术使用者:北京声智科技有限公司
技术研发日:2021.12.06
技术公布日:2022/1/18
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献