一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标对象分类方法、系统、电子设备及存储介质与流程

2022-08-17 22:49:53 来源:中国专利 TAG:

技术特征:
1.一种目标对象分类方法,其特征在于,所述方法包括:获取目标对象的原始语音信号;将所述原始语音信号输入至预设的目标对象分类模型中;其中,所述目标对象分类模型包括时域特征提取器和transformer模型,所述时域特征提取器和所述transformer模型构成端到端结构;基于所述时域特征提取器对所述原始语音信号进行特征提取处理,得到梅尔滤波器组特征信号;对所述梅尔滤波器组特征信号进行谱增强以及下采样处理,得到预处理语音信号,基于所述transformer模型对所述预处理语音信号进行特征提取处理,得到所述目标对象的分类结果。2.根据权利要求1所述的目标对象分类方法,其特征在于,所述时域特征提取器通过以下步骤构建:获取预加重模块、分帧模块、加窗模块、短时傅里叶变换模块和梅尔滤波模块;将所述预加重模块、所述分帧模块、所述加窗模块和所述短时傅里叶变换模块依次组合成卷积层,并将所述梅尔滤波模块组合成全连接层;根据所述卷积层和所述全连接层得到所述时域特征提取器。3.根据权利要求1或2所述的目标对象分类方法,其特征在于,所述时域特征提取器通过以下步骤训练:获取多个原始样本的样本语音信号;将所述样本语音信号输入至所述时域特征提取器中得到样本梅尔滤波器组特征信号,根据所述样本梅尔滤波器组特征信号得到时域特征损失值,并根据所述时域特征损失值优化更新所述时域特征提取器的参数。4.根据权利要求1所述的目标对象分类方法,其特征在于,所述transformer模型包括多个transformer组,所述transformer模型通过以下步骤训练:获取训练样本,所述训练样本包括多个预处理音频数据;将所述预处理音频数据输入至所述transformer模型,得到各个所述transformer组输出的帧级特征;其中,所述帧级特征包括句子特征和多个语音帧对应的语音特征;根据所述句子特征和各个所述语音特征之间的距离确定transformer模型损失值,根据所述transformer模型损失值优化更新所述transformer模型的参数。5.根据权利要求4所述的目标对象分类方法,其特征在于,所述语音特征为所述帧级特征的第一帧,所述语音特征为所述帧级特征除所述第一帧外的其余帧,所述根据所述句子特征和各个所述语音特征之间的距离确定transformer模型损失值,包括:构建所述transformer模型的分类损失函数;构建所述transformer模型的扩散损失函数,所述扩散损失函数表征所述第一帧与各个所述其余帧之间的距离之和;根据所述分类损失函数和所述扩散损失函数的差值得到所述transformer模型训练时所用的所述模型损失函数,并根据所述模型损失函数得到所述transformer模型损失值。6.根据权利要求5所述的目标对象分类方法,其特征在于,所述构建所述transformer模型的分类损失函数,包括:
获取缩放因子、超参数以及自然常数;以所述自然常数为底,并根据所述缩放因子、所述帧级特征的相位角和所述超参数得到的指数作为第一参数;以所述自然常数为底,并根据所述缩放因子和所述帧级特征的相位角得到的指数作为第二参数;根据所述第一参数和所述第二参数计算附加角裕度损失函数,并将得到的所述附加角裕度损失函数作为所述分类损失函数。7.根据权利要求5所述的目标对象分类方法,其特征在于,所述构建所述transformer模型的扩散损失函数,包括:获取所述第一帧与各个所述其余帧之间的kl散度;将得到的所述transformer模型内的多个所述kl散度求和得到所述扩散损失函数。8.一种目标对象分类系统,其特征在于,所述系统包括:信号接收模块,用于获取目标对象的原始语音信号;目标对象分类模型,用于接收所述原始语音信号,所述目标对象分类模型包括时域特征提取器和transformer模型,所述时域特征提取器和所述transformer模型构成端到端结构;所述时域特征提取器,用于对所述原始语音信号进行特征提取处理,得到梅尔滤波器组特征信号;所述目标对象分类模型,还用于对所述梅尔滤波器组特征信号进行谱增强以及下采样处理,得到预处理语音信号并输入至所述transformer模型中;所述transformer模型,用于对所述预处理语音信号进行特征提取处理,得到所述目标对象的分类结果。9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7任一项所述的目标对象分类方法的步骤。10.一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7中任一项所述的目标对象分类方法的步骤。

技术总结
本发明提供了一种目标对象分类方法、系统、电子设备及存储介质,属于人工智能技术领域,目标对象分类方法包括:获取目标对象的原始语音信号;将原始语音信号输入至预设的目标对象分类模型中;其中,目标对象分类模型包括时域特征提取器和Transformer模型,时域特征提取器和Transformer模型构成端到端结构;基于时域特征提取器对原始语音信号进行特征提取处理,得到梅尔滤波器组特征信号;对梅尔滤波器组特征信号进行谱增强以及下采样处理,得到预处理语音信号,基于Transformer模型对预处理语音信号进行特征提取处理,得到目标对象的分类结果,本发明实现了从原始语音输入中提取说话人判别特征,提高了说话人特征的容量和识别能力,能够有效对目标对象进行分类。能够有效对目标对象进行分类。能够有效对目标对象进行分类。


技术研发人员:张楠 王健宗 瞿晓阳
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2022.05.11
技术公布日:2022/8/16
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献