一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度学习的说话人计数方法、装置、设备及存储介质与流程

2022-02-20 03:16:39 来源:中国专利 TAG:


1.本发明涉及深度学习技术领域,尤其涉及基于深度学习的说话人计数方法、装置、设备及存储介质。


背景技术:

2.说话人数量检测是指在一段语音信号内检测其中说话人的数量,它通常位于语音相关系统的预处理阶段,并且在一定程度上影响着后续任务的性能,如语音分离任务、说话人区分任务、声源定位任务等,而实现说话人区分任务、声源定位任务等语音任务是均需要确定一段时间内语音信号中所包含的说话人数量,因此,如何准确高效的统计说话人的数量对于语音相关系统极为重要,而目前常用的说话人数量统计的技术方案是通过智能语音分离产品实现的,但是智能语音分离产品在使用过程中需要用户提前输入说话人数量,但是如果在会议过程中有说话人离开或者增加新的说话人,而一旦说话人的数量和最初告知系统的数量有差别时,通过智能语音分离产品的语音分离功能统计说话人数量的准确率较低。
3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

4.本发明的主要目的在于提供一种基于深度学习的说话人计数方法、装置、设备及存储介质,旨在解决现有技术无法有效提高对说话人计数的准确率的技术问题。
5.为实现上述目的,本发明提供了一种基于深度学习的说话人计数方法,所述基于深度学习的说话人计数方法包括以下步骤:
6.采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息;
7.根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息;
8.根据预设卷积递归神经网络模型对所述特征维度信息进行预测,得到语音信号概率分布信息;
9.基于所述语音信号概率分布信息确定所述目标区域内说话人数量,以实现对所述目标区域内说话人的计数。
10.可选地,所述采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息,包括:
11.采集目标区域内多通道的时域语音信号;
12.对所述时域语音信号进行分帧;
13.对分帧后的时域语音信号进行傅里叶变换;
14.根据预设采样规则和傅里叶变换后的时域语音信号得到目标频域信息;
15.根据所述目标频域信息确定对应的幅度谱信息和相位谱信息。
16.可选地,所述根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息,包括:
17.获取目标采集设备的数量信息;
18.根据所述数量信息确定所述幅度谱信息的通道占据信息;
19.根据所述数量信息确定所述相位谱信息的通道占据信息;
20.获取预设连续帧序列信息,根据所述预设连续帧序列信息得到预设帧序列长度信息;
21.基于所述幅度谱信息的通道占据信息、所述相位谱信息的通道占据信息以及所述预设帧序列长度信息生成对应的特征维度信息。
22.可选地,所述获取预设连续帧序列信息,根据所述预设连续帧序列信息得到预设帧序列长度信息,包括:
23.获取预设卷积递归神经网络模型中所支持的目标说话人数量;
24.根据所述目标说话人数量得到对应的类别信息;
25.根据预设向量标签信息和所述类别信息确定标签向量的格式信息;
26.根据预设语音检测策略和所述标签向量的格式信息对时域语音信号进行检测,得到语音帧信息和非语音帧信息;
27.获取预设连续帧序列信息,根据所述预设连续帧序列信息、语音帧信息和非语音帧信息得到预设帧序列长度信息。
28.可选地,所述根据预设卷积递归神经网络模型对所述特征维度信息进行预测,得到语音信号概率分布信息,包括:
29.提取所述预设卷积递归神经网络模型中的卷积神经网络信息和循环递归神经网络信息;
30.根据所述卷积神经网络信息对所述特征维度信息进行卷积;
31.根据所述循环递归神经网络信息对卷积后的特征维度信息进行预测,得到语音信号概率分布信息。
32.可选地,所述根据所述循环递归神经网络信息对卷积后的特征维度信息进行预测,得到语音信号概率分布信息,包括:
33.提取所述循环递归神经网络信息中的长短期记忆循环神经网络信息;
34.根据所述长短期记忆循环神经网络信息确定目标预测策略;
35.根据所述卷积后的特征维度信息确定对应的特征维度时序序列;
36.基于所述目标预测策略对所述特征维度时序序列进行预测,得到语音信号概率分布信息。
37.可选地,所述基于所述语音信号概率分布信息确定所述目标区域内说话人数量,包括:
38.对所述语音信息概率分布信息对应的语音信号概率进行排序;
39.根据排序后的语音信号概率得到目标概率值;
40.基于所述目标概率值的的下标确定所述目标区域内说话人数量。
41.此外,为实现上述目的,本发明还提出一种基于深度学习的说话人计数装置,所述
基于深度学习的说话人计数装置包括:
42.采集模块,用于采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息;
43.生成模块,用于根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息;
44.预测模块,用于根据预设卷积递归神经网络模型对所述特征维度信息进行预测,得到语音信号概率分布信息;
45.计数模块,用于基于所述语音信号概率分布信息确定所述目标区域内说话人数量,以实现对所述目标区域内说话人的计数。
46.此外,为实现上述目的,本发明还提出一种基于深度学习的说话人计数设备,所述基于深度学习的说话人计数设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度学习的说话人计数程序,所述基于深度学习的说话人计数程序配置为实现如上文所述的基于深度学习的说话人计数方法。
47.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于深度学习的说话人计数程序,所述基于深度学习的说话人计数程序被处理器执行时实现如上文所述的基于深度学习的说话人计数方法。
48.本发明提出的基于深度学习的说话人计数方法,通过采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息;根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息;根据预设卷积递归神经网络模型对所述特征维度信息进行预测,得到语音信号概率分布信息;基于所述语音信号概率分布信息确定所述目标区域内说话人数量;本发明通过预设卷积递归神经网络模型和特征维度信息得到语音信号概率分布信息,根据语音信号概率分布信息确定目标区域内说话人数量,以实现对目标区域内说话人的计数,相较于现有技术通过传统音频算法实现对说话人的计数,能够有效提高对说话人计数的准确率。
附图说明
49.图1是本发明实施例方案涉及的硬件运行环境的基于深度学习的说话人计数设备的结构示意图;
50.图2为本发明基于深度学习的说话人计数方法第一实施例的流程示意图;
51.图3为本发明基于深度学习的说话人计数方法第二实施例的流程示意图;
52.图4为本发明基于深度学习的说话人计数方法第三实施例的流程示意图;
53.图5为本发明基于深度学习的说话人计数装置第一实施例的功能模块示意图。
54.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
55.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
56.参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于深度学习的说话人计数设备结构示意图。
57.如图1所示,该基于深度学习的说话人计数设备可以包括:处理器1001,例如中央
处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram)存储器,也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
58.本领域技术人员可以理解,图1中示出的结构并不构成对基于深度学习的说话人计数设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
59.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于深度学习的说话人计数程序。
60.在图1所示的基于深度学习的说话人计数设备中,网络接口1004主要用于与网络说话人计数程序进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于深度学习的说话人计数设备中的处理器1001、存储器1005可以设置在基于深度学习的说话人计数设备中,所述基于深度学习的说话人计数设备通过处理器1001调用存储器1005中存储的基于深度学习的说话人计数程序,并执行本发明实施例提供的基于深度学习的说话人计数方法。
61.基于上述硬件结构,提出本发明基于深度学习的说话人计数方法实施例。
62.参照图2,图2为本发明基于深度学习的说话人计数方法第一实施例的流程示意图。
63.在第一实施例中,所述基于深度学习的说话人计数方法包括以下步骤:
64.步骤s10,采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息。
65.需要说明的是,本实施例的执行主体为基于深度学习的说话人计数设备,还可为其他可实现相同或相似功能的设备,例如说话人计数程序等,本实施例对此不作限制,在本实施例中,以说话人计数程序为例进行说明。
66.应当理解的是,时域语音信号指的是在目标区域、预设时间内语音短时不变的信号,通过布设在目标区域内的麦克风阵列采集多通道的时域语音信号,并且麦克风阵列中各麦克风的频率为16khz。
67.可以理解的是,幅度谱信息指的是时域语音信号中语音能量大小的特征所呈现的信息,在判断目标区域内通过时域语音信号判断说话人的数量需要依赖在时域语音信号内的语音能量,相位谱信息指的是从到达时延和采样偏移中得到各个声源的空间信息的特征所呈现的信息。
68.进一步地,步骤s10,包括:采集目标区域内多通道的时域语音信号;对所述时域语音信号进行分帧;对分帧后的时域语音信号进行傅里叶变换;根据预设采样规则和傅里叶变换后的时域语音信号得到目标频域信息;根据所述目标频域信息确定对应的幅度谱信息和相位谱信息。
69.可以理解的是,在得到目标区域内多通道的时域语音信号后,分别对每个通道的
时域语音信号进行分帧,分帧指的是将时域语音信号对应的语音帧分为单元帧,再对分帧后的时域语音信号进行傅里叶变换,傅里叶变换指的是将时域语音信号的形式进行转换,傅里叶变换包括连续傅里叶变换和离散傅里叶变换,在转换完成后,通过预设采样规则和傅里叶变换后的时域语音信号得到目标频域信息,预设采样规则指的是对目标样本进行采样的规则,通过预设采样规则在傅里叶变换后的时域语音信号中进行采样,即可得到目标频域信息,提取目标频率信息中的幅度谱信息和相位谱信息,例如,在傅里叶变换后的时域语音信号中取512个点,重叠率为50%,此时的目标频域信息中的频域尺寸为257。
70.应当理解的是,幅度谱信息是通过公式一对目标频谱信息进行计算得到的,具体为:
[0071][0072]
其中,|am|为幅度谱信息,f
mre
为第m个麦克风采集的信号对应的频域信息的实部,f
mim
第m个麦克风采集的信号对应的频域信息的虚部。
[0073]
可以理解的是,相位谱信息是通过公式二对目标频谱信息进行计算得到的,具体为:
[0074][0075]
其中,《pm为相位谱信息,f
mre
为第m个麦克风采集的信号对应的频域信息的实部,f
mim
第m个麦克风采集的信号对应的频域信息的虚部。
[0076]
在具体实施中,说话人计数程序采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息。
[0077]
步骤s20,根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息。
[0078]
应当理解的是,在得到幅度谱信息和相位谱信息后,需要确定采集时域语音信号的设备数量信息,通过设备数量信息确定幅度谱信息、相位谱信息所占据的通道数量,而幅度谱信息、相位谱信息占据的通道信息是一致的,例如,麦克风的数量为4,则幅度谱信息、相位谱信息所占据的通道数量也是4,单个麦克风采集到的时域语音信号为ym,具体是通过公式三计算:
[0079][0080]
其中,ym是麦克风阵列中第m个麦克风采集到的时域语音信号,xi是第i个说话人的声音信号,n指的是噪声。
[0081]
可以理解的是,预设帧序列长度信息指的是分帧后的时域语音信号中连续帧序列长度信息,通过幅度谱信息的通道占据信息、相位谱信息的通道占据信息以及预设帧序列长度信息生成输入至预设卷积递归神经网络模型的特征维度信息,例如,预设帧序列长度信息对应的长度为10,幅度谱信息的通道占据信息、相位谱信息的通道占据信息的通道数量为4,此时的特征维度信息为(8,10,257)。
[0082]
在具体实施中,说话人计数程序根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息。
[0083]
步骤s30,根据预设卷积递归神经网络模型对所述特征维度信息进行预测,得到语
音信号概率分布信息。
[0084]
应当理解的是,在得到特征维度信息后,需要设置损失函数对预设卷积递归神经网络模型进行优化,只有在预设卷积递归神经网络模型达到最优时,预设卷积递归神经网络模型的预测才是有效、可靠的,而预设卷积递归神经网络模型达到最优的衡量标准是损失函数为收敛,该损失函数只能为交叉熵损失函数,交叉熵损失函数的表达式具体为:
[0085][0086]
其中,c为说话人数量的类别信息,yc为类别c对应的标签向量信息,pc为预设卷积递归神经网络模型预测的类别概率信息。
[0087]
可以理解的是,在预设卷积递归神经网络模型达到最优后,将特征维度信息输入至预设卷积递归神经网络模型,以使预设卷积递归神经网络模型对特征维度信息进行预测,得到对应的语音概率分布信息,预设卷积递归神经网络模型是由卷积神经网络(convolution neural network,cnn)和递归神经网络(recurrent neural network,rnn)组成的神经网络模型,语音信号概率分布信息指的是预设卷积递归神经网络模型输出的序列中的概率分布信息,例如,概率分布信息为[0.2,0.2,0.4,0.05,0.05,0.1]。
[0088]
在具体实施中,说话人计数程序根据预设卷积递归神经网络模型对所述特征维度信息进行预测,得到语音信号概率分布信息。
[0089]
步骤s40,基于所述语音信号概率分布信息确定所述目标区域内说话人数量,以实现对所述目标区域内说话人的计数。
[0090]
应当理解的是,在得到语音信号概率分布信息后,从语音信号概率分布信息中选取语音信号概率最大的数值,通过该数值的下标作为在目标区域内说话人的数量。
[0091]
进一步地,步骤s40,包括:对所述语音信息概率分布信息对应的语音信号概率进行排序;根据排序后的语音信号概率得到目标概率值;基于所述目标概率值的的下标确定所述目标区域内说话人数量。
[0092]
可以理解的是,目标概率值指的是语音信息概率分布信息对应的概率数值,例如,概率数值为0.2,0.2,0.4,0.05,0.05,0.1,通过从小到大的顺序将概率数值进行排序,得到排序后的概率数值,具体为0.05,0.05,0.1,0.2,0.2,0.4,此时的目标概率值为0.4,而目标概率值0.4对应的下标为2,则目标区域内说话人数量为2。
[0093]
在具体实施中,说话人计数程序基于所述语音信号概率分布信息确定所述目标区域内说话人数量,以实现对所述目标区域内说话人的计数。
[0094]
本实施例通过采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息;根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息;根据预设卷积递归神经网络模型对所述特征维度信息进行预测,得到语音信号概率分布信息;基于所述语音信号概率分布信息确定所述目标区域内说话人数量;通过预设卷积递归神经网络模型和特征维度信息得到语音信号概率分布信息,根据语音信号概率分布信息确定目标区域内说话人数量,以实现对目标区域内说话人的计数,相较于现有技术通过传统音频算法实现对说话人的计数,能够有效提高对说话人计数的准确率。
[0095]
在一实施例中,如图3所述,基于第一实施例提出本发明基于深度学习的说话人计
数方法第二实施例,所述步骤s20,包括:
[0096]
步骤s201,获取目标采集设备的数量信息。
[0097]
应当理解的是,数量信息指的是组成采集设备阵列的目标采集设备的总数信息,目标采集设备可以为麦克风,也可以为其他采集设备,本实施对此不作限制,以麦克风为例进行说明。
[0098]
在具体实施中,说话人计数程序获取目标采集设备的数量信息。
[0099]
步骤s202,根据所述数量信息确定所述幅度谱信息的通道占据信息。
[0100]
可以理解的是,在得到目标采集设备的数量信息后,根据数量信息确定幅度谱信息所占据的通道信息,由于幅度谱信息是基于时域语音信号得到的,而时域语音信号是通过麦克风采集的,因此,幅度谱信息所占据的通道信息与麦克风的数量信息一致,例如,麦克风的数量为4,则幅度谱信息的占据的通道数量也为4。
[0101]
在具体实施中,说话人计数程序根据所述数量信息确定所述幅度谱信息的通道占据信息。
[0102]
步骤s203,根据所述数量信息确定所述相位谱信息的通道占据信息。
[0103]
应当理解的是,在得到目标采集设备的数量信息后,根据数量信息确定相位谱信息所占据的通道信息,由于相位谱信息是基于时域语音信号得到的,而时域语音信号是通过麦克风采集的,因此,相位谱信息所占据的通道信息与麦克风的数量信息一致,例如,麦克风的数量为4,则相位谱信息的占据的通道数量也为4。
[0104]
在具体实施中,说话人计数程序根据所述数量信息确定所述相位谱信息的通道占据信息。
[0105]
步骤s204,获取预设连续帧序列信息,根据所述预设连续帧序列信息得到预设帧序列长度信息。
[0106]
可以理解的是,预设连续帧序列信息指的是分帧后的时域语音信号中连续的帧序列信息,根据预设连续帧序列信息得到对应的预设帧序列长度信息,例如,预设连续帧序列信息对应的连续帧序列为10,则设帧序列长度信息对应的帧序列长度也为10。
[0107]
进一步地,步骤s204,包括:获取预设卷积递归神经网络模型中所支持的目标说话人数量;根据所述目标说话人数量得到对应的类别信息;根据预设向量标签信息和所述类别信息确定标签向量的格式信息;根据预设语音检测策略和所述标签向量的格式信息对时域语音信号进行检测,得到语音帧信息和非语音帧信息;获取预设连续帧序列信息,根据所述预设连续帧序列信息、语音帧信息和非语音帧信息得到预设帧序列长度信息。
[0108]
应当理解的是,目标说话人数量指的是预设卷积递归神经网络模型所支持的最大说话人数量,类别信息指的是表示说话人数量的类别信息,例如,0类别代表无说话人,1类别代表有一个说话人
……
以此类推,5类别代表有5个说话人,预设标签格式信息指的是one-hot向量标签,one-hot向量标签指示向量,向量中只有一个元素为1,其余元素均为0,例如,[0,1,0,0,0,0]。
[0109]
可以理解的是,预设语音检测策略指的是对语音信息进行检测的策略,通过预设语音检测策略可以检测出语音信息中的语音帧信息和非语音帧信息,该预设语音检测策略可以为语音激活检测(voice activation detection,vad)策略,也可以为其他检测策略,本实施例对此不作限制,以vad策略为例进行说明,在得到语音帧信息和非语音帧信息后,
根据语音帧信息、非语音帧信息以及预设连续帧序列信息得到预设帧序列长度信息。
[0110]
在具体实施中,说话人计数程序获取预设连续帧序列信息,根据所述预设连续帧序列信息得到预设帧序列长度信息。
[0111]
步骤s205,基于所述幅度谱信息的通道占据信息、所述相位谱信息的通道占据信息以及所述预设帧序列长度信息生成对应的特征维度信息。
[0112]
应当理解的是,在得到幅度谱信息的通道占据信息、相位谱信息的通道占据信息以及预设帧序列长度信息,根据幅度谱信息的通道占据信息、所述相位谱信息的通道占据信息以及所述预设帧序列长度信息生成特征维度信息,例如,预设预设帧序列长度为10,幅度谱信息的通道占据信息为4通道、相位谱信息的通道占据信息为4通道,通过将其拼接得到特征维度信息为(8,10,257)。
[0113]
在具体实施中,说话人计数程序基于所述幅度谱信息的通道占据信息、所述相位谱信息的通道占据信息以及所述预设帧序列长度信息生成对应的特征维度信息。
[0114]
本实施例通过获取目标采集设备的数量信息;根据所述数量信息确定所述幅度谱信息的通道占据信息;根据所述数量信息确定所述相位谱信息的通道占据信息;获取预设连续帧序列信息,根据所述预设连续帧序列信息得到预设帧序列长度信息;基于所述幅度谱信息的通道占据信息、所述相位谱信息的通道占据信息以及所述预设帧序列长度信息生成对应的特征维度信息;通过目标采集设备的数量信息得到幅度谱信息和相位谱信息的通道占据信息,根据预设连续帧序列信息得到预设帧序列长度信息,基于幅度谱信息的通道占据信息、相位谱信息的通道占据信息以及预设帧序列长度信息生成对应的特征维度信息,从而有效提高得到特征维度信息的准确率。
[0115]
在一实施例中,如图4所述,基于第一实施例提出本发明基于深度学习的说话人计数方法第三实施例,所述步骤s30,包括:
[0116]
步骤s301,提取所述预设卷积递归神经网络模型中的卷积神经网络信息和循环递归神经网络信息。
[0117]
可以理解的是,卷积神经网络信息包括4个卷积层和2个最大池化层(max-pooling),卷积层都使用2维卷积,卷积核大小都是3x3,卷积通道数由上到下分别为64通道、32通道、128通道以及64通道,每一次卷积后使用零填充将特征维持在图中右侧指定的尺寸,卷积后的激活函数都使用线性整流函数(rectified linear unit,relu),最大池化层都使用1x3的核大小。
[0118]
应当理解的是,循环递归神经网络信息由一个长短期记忆循环神经网络(long-short term memory recurrent neural network,lstm rnn)组成,该网络有40个单元,用来对时序序列间的相关性进行建模,其激活函数为双曲正切函数(tanh)。
[0119]
在具体实施中,说话人计数程序提取所述预设卷积递归神经网络模型中的卷积神经网络信息和循环递归神经网络信息。
[0120]
步骤s302,根据所述卷积神经网络信息对所述特征维度信息进行卷积。
[0121]
可以理解的是,在得到特征维度信息后,通过卷积神经网络信息中的卷积层对特征维度信息进行卷积,使得特征维度信息成为更小单元的特征维度信息。
[0122]
在具体实施中,说话人计数程序根据所述卷积神经网络信息对所述特征维度信息进行卷积。
[0123]
步骤s303,根据所述循环递归神经网络信息对卷积后的特征维度信息进行预测,得到语音信号概率分布信息。
[0124]
应当理解的是,循环递归神经网络信息中的lstm rnn中存在四种不同的门控单元,由于卷积后的特征维度信息所对应的特征维度时序序列的中前序列会影响后序列的预测结果,因此,lstm rnn在对卷积后的特征维度信息进行训练时只需要预测最后的时序序列即可,在预测结束后,得到语音信号概率分布信息。
[0125]
进一步地,步骤s303,包括:提取所述循环递归神经网络信息中的长短期记忆循环神经网络信息;根据所述长短期记忆循环神经网络信息确定目标预测策略;根据所述卷积后的特征维度信息确定对应的特征维度时序序列;基于所述目标预测策略对所述特征维度时序序列进行预测,得到语音信号概率分布信息。
[0126]
可以理解的是,预测策略指的是根据lstm rnn的门控单元确定的预测策略,即预测卷积后的特征维度信息中最后的时序序列,在得到卷积后的特征维度信息后,根据卷积后的特征维度信息确定对应的特征维度时序序列,通过预测策略对特征维度时序序列进行预测,即可得到语音信号概率分布信息。
[0127]
在具体实施中,说话人计数程序根据所述循环递归神经网络信息对卷积后的特征维度信息进行预测,得到语音信号概率分布信息。
[0128]
本实施例通过提取所述预设卷积递归神经网络模型中的卷积神经网络信息和循环递归神经网络信息;根据所述卷积神经网络信息对所述特征维度信息进行卷积;根据所述循环递归神经网络信息对卷积后的特征维度信息进行预测,得到语音信号概率分布信息;通过卷积神经网络信息对特征维度信息进行卷积,根据循环递归神经网络信息对卷积后的特征维度信息进行预测,得到语音信号概率分布信息,从而有效提高预测语音信号概率分布信息的准确率。
[0129]
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于深度学习的说话人计数程序,所述基于深度学习的说话人计数程序被处理器执行时实现如上文所述的基于深度学习的说话人计数方法的步骤。
[0130]
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
[0131]
此外,参照图5,本发明实施例还提出一种基于深度学习的说话人计数装置,所述基于深度学习的说话人计数装置包括:
[0132]
采集模块10,用于采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息。
[0133]
应当理解的是,时域语音信号指的是在目标区域、预设时间内语音短时不变的信号,通过布设在目标区域内的麦克风阵列采集多通道的时域语音信号,并且麦克风阵列中各麦克风的频率为16khz。
[0134]
可以理解的是,幅度谱信息指的是时域语音信号中语音能量大小的特征所呈现的信息,在判断目标区域内通过时域语音信号判断说话人的数量需要依赖在时域语音信号内的语音能量,相位谱信息指的是从到达时延和采样偏移中得到各个声源的空间信息的特征所呈现的信息。
[0135]
进一步地,采集模块10,还用于采集目标区域内多通道的时域语音信号;对所述时
域语音信号进行分帧;对分帧后的时域语音信号进行傅里叶变换;根据预设采样规则和傅里叶变换后的时域语音信号得到目标频域信息;根据所述目标频域信息确定对应的幅度谱信息和相位谱信息。
[0136]
可以理解的是,在得到目标区域内多通道的时域语音信号后,分别对每个通道的时域语音信号进行分帧,分帧指的是将时域语音信号对应的语音帧分为单元帧,再对分帧后的时域语音信号进行傅里叶变换,傅里叶变换指的是将时域语音信号的形式进行转换,傅里叶变换包括连续傅里叶变换和离散傅里叶变换,在转换完成后,通过预设采样规则和傅里叶变换后的时域语音信号得到目标频域信息,预设采样规则指的是对目标样本进行采样的规则,通过预设采样规则在傅里叶变换后的时域语音信号中进行采样,即可得到目标频域信息,提取目标频率信息中的幅度谱信息和相位谱信息,例如,在傅里叶变换后的时域语音信号中取512个点,重叠率为50%,此时的目标频域信息中的频域尺寸为257。
[0137]
应当理解的是,幅度谱信息是通过公式一对目标频谱信息进行计算得到的,具体为:
[0138][0139]
其中,|am|为幅度谱信息,f
mre
为第m个麦克风采集的信号对应的频域信息的实部,f
mim
第m个麦克风采集的信号对应的频域信息的虚部。
[0140]
可以理解的是,相位谱信息是通过公式二对目标频谱信息进行计算得到的,具体为:
[0141][0142]
其中,《pm为相位谱信息,f
mre
为第m个麦克风采集的信号对应的频域信息的实部,f
mim
第m个麦克风采集的信号对应的频域信息的虚部。
[0143]
在具体实施中,说话人计数程序采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息。
[0144]
生成模块20,用于根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息。
[0145]
应当理解的是,在得到幅度谱信息和相位谱信息后,需要确定采集时域语音信号的设备数量信息,通过设备数量信息确定幅度谱信息、相位谱信息所占据的通道数量,而幅度谱信息、相位谱信息占据的通道信息是一致的,例如,麦克风的数量为4,则幅度谱信息、相位谱信息所占据的通道数量也是4,单个麦克风采集到的时域语音信号为ym,具体是通过公式三计算:
[0146][0147]
其中,ym是麦克风阵列中第m个麦克风采集到的时域语音信号,xi是第i个说话人的声音信号,n指的是噪声。
[0148]
可以理解的是,预设帧序列长度信息指的是分帧后的时域语音信号中连续帧序列长度信息,通过幅度谱信息的通道占据信息、相位谱信息的通道占据信息以及预设帧序列长度信息生成输入至预设卷积递归神经网络模型的特征维度信息,例如,预设帧序列长度信息对应的长度为10,幅度谱信息的通道占据信息、相位谱信息的通道占据信息的通道数
量为4,此时的特征维度信息为(8,10,257)。
[0149]
在具体实施中,说话人计数程序根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息。
[0150]
预测模块30,用于根据预设卷积递归神经网络模型对所述特征维度信息进行预测,得到语音信号概率分布信息。
[0151]
应当理解的是,在得到特征维度信息后,需要设置损失函数对预设卷积递归神经网络模型进行优化,只有在预设卷积递归神经网络模型达到最优时,预设卷积递归神经网络模型的预测才是有效、可靠的,而预设卷积递归神经网络模型达到最优的衡量标准是损失函数为收敛,该损失函数只能为交叉熵损失函数,交叉熵损失函数的表达式具体为:
[0152][0153]
其中,c为说话人数量的类别信息,yc为类别c对应的标签向量信息,pc为预设卷积递归神经网络模型预测的类别概率信息。
[0154]
可以理解的是,在预设卷积递归神经网络模型达到最优后,将特征维度信息输入至预设卷积递归神经网络模型,以使预设卷积递归神经网络模型对特征维度信息进行预测,得到对应的语音概率分布信息,预设卷积递归神经网络模型是由卷积神经网络(convolution neural network,cnn)和递归神经网络(recurrent neural network,rnn)组成的神经网络模型,语音信号概率分布信息指的是预设卷积递归神经网络模型输出的序列中的概率分布信息,例如,概率分布信息为[0.2,0.2,0.4,0.05,0.05,0.1]。
[0155]
在具体实施中,说话人计数程序根据预设卷积递归神经网络模型对所述特征维度信息进行预测,得到语音信号概率分布信息。
[0156]
计数模块40,用于基于所述语音信号概率分布信息确定所述目标区域内说话人数量,以实现对所述目标区域内说话人的计数。
[0157]
应当理解的是,在得到语音信号概率分布信息后,从语音信号概率分布信息中选取语音信号概率最大的数值,通过该数值的下标作为在目标区域内说话人的数量。
[0158]
进一步地,计数模块40,还用于对所述语音信息概率分布信息对应的语音信号概率进行排序;根据排序后的语音信号概率得到目标概率值;基于所述目标概率值的的下标确定所述目标区域内说话人数量。
[0159]
可以理解的是,目标概率值指的是语音信息概率分布信息对应的概率数值,例如,概率数值为0.2,0.2,0.4,0.05,0.05,0.1,通过从小到大的顺序将概率数值进行排序,得到排序后的概率数值,具体为0.05,0.05,0.1,0.2,0.2,0.4,此时的目标概率值为0.4,而目标概率值0.4对应的下标为2,则目标区域内说话人数量为2。
[0160]
在具体实施中,说话人计数程序基于所述语音信号概率分布信息确定所述目标区域内说话人数量,以实现对所述目标区域内说话人的计数。
[0161]
本实施例通过采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息;根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息;根据预设卷积递归神经网络模型对所述特征维度信息进行预测,得到语音信号概率分布信息;基于所述语音信号概率分布信息确定所述目标区域内说话人数量;通过预设卷积递归神经网络模型和特征维度信息得到语音信号概率分布信
息,根据语音信号概率分布信息确定目标区域内说话人数量,以实现对目标区域内说话人的计数,相较于现有技术通过传统音频算法实现对说话人的计数,能够有效提高对说话人计数的准确率。
[0162]
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
[0163]
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于深度学习的说话人计数方法,此处不再赘述。
[0164]
在一实施例中,所述采集模块10,还用于采集目标区域内多通道的时域语音信号;对所述时域语音信号进行分帧;对分帧后的时域语音信号进行傅里叶变换;根据预设采样规则和傅里叶变换后的时域语音信号得到目标频域信息;根据所述目标频域信息确定对应的幅度谱信息和相位谱信息。
[0165]
在一实施例中,所述生成模块20,还用于获取目标采集设备的数量信息;根据所述数量信息确定所述幅度谱信息的通道占据信息;根据所述数量信息确定所述相位谱信息的通道占据信息;获取预设连续帧序列信息,根据所述预设连续帧序列信息得到预设帧序列长度信息;基于所述幅度谱信息的通道占据信息、所述相位谱信息的通道占据信息以及所述预设帧序列长度信息生成对应的特征维度信息。
[0166]
在一实施例中,所述生成模块20,还用于获取预设卷积递归神经网络模型中所支持的目标说话人数量;根据所述目标说话人数量得到对应的类别信息;根据预设向量标签信息和所述类别信息确定标签向量的格式信息;根据预设语音检测策略和所述标签向量的格式信息对时域语音信号进行检测,得到语音帧信息和非语音帧信息;获取预设连续帧序列信息,根据所述预设连续帧序列信息、语音帧信息和非语音帧信息得到预设帧序列长度信息。
[0167]
在一实施例中,所述预测模块30,还用于提取所述预设卷积递归神经网络模型中的卷积神经网络信息和循环递归神经网络信息;根据所述卷积神经网络信息对所述特征维度信息进行卷积;根据所述循环递归神经网络信息对卷积后的特征维度信息进行预测,得到语音信号概率分布信息。
[0168]
在一实施例中,所述预测模块30,还用于提取所述循环递归神经网络信息中的长短期记忆循环神经网络信息;根据所述长短期记忆循环神经网络信息确定目标预测策略;根据所述卷积后的特征维度信息确定对应的特征维度时序序列;基于所述目标预测策略对所述特征维度时序序列进行预测,得到语音信号概率分布信息。
[0169]
在一实施例中,所述计数模块40,还用于对所述语音信息概率分布信息对应的语音信号概率进行排序;根据排序后的语音信号概率得到目标概率值;基于所述目标概率值的的下标确定所述目标区域内说话人数量。
[0170]
本发明所述基于深度学习的说话人计数装置的其他实施例或具有实现方法可参照上述各方法实施例,此处不在赘余。
[0171]
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统
所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0172]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0173]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(read only memory,rom)/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,说话人计数程序,或者网络设备等)执行本发明各个实施例所述的方法。
[0174]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献