多特征融合识别婴儿哭声类别的方法、装置及设备与流程

2021-06-25 16:34:00 来源：中国专利 TAG：哭声融合识别装置婴儿

技术特征：
1.一种多特征融合识别婴儿哭声类别的方法，其特征在于，所述方法包括：s30：获取婴儿啼哭时声音的音频特征、图像中婴儿的姿态动作的动作特征值和声带振动的振动频谱；s31：将所述动作特征值与数据库的标准特征值进行对比，输出与所述动作特征值对应的标准特征值；s32：基于所述标准特征值，对所述音频特征和所述振动频谱进行特征融合，得到与婴儿哭声对应的融合特征；s33：将所述融合特征输入预置的神经网络，输出与婴儿哭声对应的编码特征向量；s34：根据所述编码特征向量，输出婴儿哭泣时的哭声类别；其中，标准特征值为对应的姿态动作所表征的各哭声类别的概率值。2.根据权利要求1所述的多特征融合识别婴儿哭声类别的方法，其特征在于，所述s31包括：s311：获取婴儿啼哭时的视频流；s312：提取所述视频流中各帧图像的运动特征值；s313：将各所述运动特征值与所述数据库的各标准特征值进行对比，将与各帧图像的所述运动特征值相适配的各所述标准特征值输出。3.根据权利要求2所述的多特征融合识别婴儿哭声类别的方法，其特征在于，所述s313包括：s3131：收集婴儿多个姿态动作对应的图像样本集；s3132：提取所述图像样本集中各姿态动作的标准特征值；s3133：建立各所述标准特征值与各哭声类别相对应的所述数据库；s3134：将婴儿哭泣时各帧图像的各所述运动特征值与所述数据库的各所述标准特征值进行对比，输出与各所述运动特征值相适配的各所述标准特征值。4.根据权利要求3所述的多特征融合识别婴儿哭声类别的方法，其特征在于，所述s30包括：s301：获取婴儿啼哭时声带振动产生的电信号；s302：根据各帧图像的时间长度对所述电信号进行分段，得到多个连续的电信号片段；s303：对多个连续的所述电信号片段进行短时傅里叶变换，输出所述振动频谱。5.根据权利要求4所述的多特征融合识别婴儿哭声类别的方法，其特征在于，所述s30包括：s304：获取婴儿哭泣时声音的音频信号；s305：利用梅尔滤波器对所述音频信号进行特征提取，得到所述音频特征；其中，所述音频特征为梅尔频率倒谱系数mfcc特征。6.根据权利要求5所述的多特征融合识别婴儿哭声类别的方法，其特征在于，所述s32包括：s321：对各帧音频的mfcc特征、各帧图像的所述动作特征值和各所述电信号片段的所述振动频谱进行主成分分析法降维处理，输出降维后的各帧音频的mfcc特征、各帧图像的所述动作特征值和各所述电信号片段的所述振动频谱；s322：基于与各帧图像的所述运动特征值对应的各所述标准特征值，对降维后的各帧
音频对应的mfcc特征和与各帧音频对应的电信号片段的振动频谱进行特征融合，得到各所述融合特征。7.根据权利要求6所述的多特征融合识别婴儿哭声类别的方法，其特征在于，所述s32包括：s323：获取所述振动频谱的频率变化阈值，以及与各帧音频信息相对应的振动频谱的振动频率；s324：利用所述频率变化阈值对各所述振动频率进行分段，得到多个连续的频率段；s325：基于各所述频率段对应的各所述标准特征值，对各所述频率段对应的振动频谱和对应的所有帧音频的mfcc特征进行特征融合，得到与各频率段对应的所述融合特征。8.一种多特征融合识别婴儿哭声类别的装置，其特征在于，包括：特征采集模块：用于获取婴儿啼哭时声音的音频特征、图像中婴儿的姿态动作的动作特征值和声带振动的振动频谱；数据转换模块：用于将所述动作特征值与数据库的标准特征值进行对比，输出与所述动作特征值对应的标准特征值；融合特征输出模块：用于基于所述标准特征值，对所述音频特征和所述振动频谱进行特征融合，得到与婴儿哭声对应的融合特征；编码特征输出模块：用于将所述融合特征输入预置的神经网络，输出与婴儿哭声对应的编码特征向量；哭声类别输出模块：用于根据所述编码特征向量，输出婴儿哭泣时的哭声类别；其中，标准特征值为对应的姿态动作所表征的各哭声类别的概率值。9.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1
‑
7中任一项所述的方法。10.一种介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1
‑
7中任一项所述的方法。

再多了解一些

2/3 首页上一页 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

多特征融合识别婴儿哭声类别的方法、装置及设备与流程

相关文章

最热文献