基于深度学习的说话人计数方法、装置、设备及存储介质与流程

2022-02-20 03:16:39 来源：中国专利 TAG：

技术特征：
1.一种基于深度学习的说话人计数方法，其特征在于，所述基于深度学习的说话人计数方法包括以下步骤：采集目标区域内多通道的时域语音信号，根据所述时域语音信号得到对应的幅度谱信息和相位谱信息；根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息；根据预设卷积递归神经网络模型对所述特征维度信息进行预测，得到语音信号概率分布信息；基于所述语音信号概率分布信息确定所述目标区域内说话人数量，以实现对所述目标区域内说话人的计数。2.如权利要求1所述的基于深度学习的说话人计数方法，其特征在于，所述采集目标区域内多通道的时域语音信号，根据所述时域语音信号得到对应的幅度谱信息和相位谱信息，包括：采集目标区域内多通道的时域语音信号；对所述时域语音信号进行分帧；对分帧后的时域语音信号进行傅里叶变换；根据预设采样规则和傅里叶变换后的时域语音信号得到目标频域信息；根据所述目标频域信息确定对应的幅度谱信息和相位谱信息。3.如权利要求1所述的基于深度学习的说话人计数方法，其特征在于，所述根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息，包括：获取目标采集设备的数量信息；根据所述数量信息确定所述幅度谱信息的通道占据信息；根据所述数量信息确定所述相位谱信息的通道占据信息；获取预设连续帧序列信息，根据所述预设连续帧序列信息得到预设帧序列长度信息；基于所述幅度谱信息的通道占据信息、所述相位谱信息的通道占据信息以及所述预设帧序列长度信息生成对应的特征维度信息。4.如权利要求3所述的基于深度学习的说话人计数方法，其特征在于，所述获取预设连续帧序列信息，根据所述预设连续帧序列信息得到预设帧序列长度信息，包括：获取预设卷积递归神经网络模型中所支持的目标说话人数量；根据所述目标说话人数量得到对应的类别信息；根据预设向量标签信息和所述类别信息确定标签向量的格式信息；根据预设语音检测策略和所述标签向量的格式信息对时域语音信号进行检测，得到语音帧信息和非语音帧信息；获取预设连续帧序列信息，根据所述预设连续帧序列信息、语音帧信息和非语音帧信息得到预设帧序列长度信息。5.如权利要求1所述的基于深度学习的说话人计数方法，其特征在于，所述根据预设卷积递归神经网络模型对所述特征维度信息进行预测，得到语音信号概率分布信息，包括：提取所述预设卷积递归神经网络模型中的卷积神经网络信息和循环递归神经网络信息；
根据所述卷积神经网络信息对所述特征维度信息进行卷积；根据所述循环递归神经网络信息对卷积后的特征维度信息进行预测，得到语音信号概率分布信息。6.如权利要求5所述的基于深度学习的说话人计数方法，其特征在于，所述根据所述循环递归神经网络信息对卷积后的特征维度信息进行预测，得到语音信号概率分布信息，包括：提取所述循环递归神经网络信息中的长短期记忆循环神经网络信息；根据所述长短期记忆循环神经网络信息确定目标预测策略；根据所述卷积后的特征维度信息确定对应的特征维度时序序列；基于所述目标预测策略对所述特征维度时序序列进行预测，得到语音信号概率分布信息。7.如权利要求1至6中任一项所述的基于深度学习的说话人计数方法，其特征在于，所述基于所述语音信号概率分布信息确定所述目标区域内说话人数量，包括：对所述语音信息概率分布信息对应的语音信号概率进行排序；根据排序后的语音信号概率得到目标概率值；基于所述目标概率值的的下标确定所述目标区域内说话人数量。8.一种基于深度学习的说话人计数装置，其特征在于，所述基于深度学习的说话人计数装置包括：采集模块，用于采集目标区域内多通道的时域语音信号，根据所述时域语音信号得到对应的幅度谱信息和相位谱信息；生成模块，用于根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息；预测模块，用于根据预设卷积递归神经网络模型对所述特征维度信息进行预测，得到语音信号概率分布信息；计数模块，用于基于所述语音信号概率分布信息确定所述目标区域内说话人数量，以实现对所述目标区域内说话人的计数。9.一种基于深度学习的说话人计数设备，其特征在于，所述基于深度学习的说话人计数设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度学习的说话人计数程序，所述基于深度学习的说话人计数程序配置有实现如权利要求1至7中任一项所述的基于深度学习的说话人计数方法。10.一种存储介质，其特征在于，所述存储介质上存储有基于深度学习的说话人计数程序，所述基于深度学习的说话人计数程序被处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的说话人计数方法。

技术总结
本发明涉及深度学习技术领域，公开了一种基于深度学习的说话人计数方法、装置、设备及存储介质，所述方法包括：根据目标区域内多通道的时域语音信号得到对应的幅度谱信息和相位谱信息；根据幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息；根据预设卷积递归神经网络模型对特征维度信息进行预测；基于预测得到的语音信号概率分布信息确定目标区域内说话人数量；本发明通过预设卷积递归神经网络模型和特征维度信息得到语音信号概率分布信息，根据语音信号概率分布信息确定目标区域内说话人数量，以实现对目标区域内说话人的计数，相较于现有技术通过传统音频算法实现对说话人的计数，能够有效提高对说话人计数的准确率。话人计数的准确率。话人计数的准确率。

技术研发人员：陈文明陈新磊张洁张世明
受保护的技术使用者：深圳壹秘科技有限公司
技术研发日：2021.09.01
技术公布日：2022/1/7

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于深度学习的说话人计数方法、装置、设备及存储介质与流程

相关文献

最热文献