一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

人声检测方法、装置及电子设备和计算机可读存储介质与流程

2021-06-15 21:49:00 来源:中国专利 TAG:地说 人声 电子设备 音频处理 检测方法
人声检测方法、装置及电子设备和计算机可读存储介质与流程

本申请涉及音频处理技术领域,更具体地说,涉及人声检测方法、装置及电子设备和计算机可读存储介质。



背景技术:

在歌曲信息中,高效快速判断人声信息为很多歌声后处理的必经阶段。例如,在对歌曲音质后者唱功进行评价时,如果没有很好地提取有效人声,而错误的将伴奏信息也作为人声信号进行评价将极大影响评价结果。又如,在对歌曲做自动歌词发声时段标注时,也是需要有较好的有效人声时段判断才会有进一步的后处理实现的可能。

但是,实际采集的音频信号一般包含伴奏回踩,较低的声音和回踩的伴奏在能量上并无明显区别,导致回踩信号和有效人声片段不能通过原始vad(中文全称:语音活动检测,英文全称:voiceactivitydetection)手段进行区分。因此,相关技术中的人声检测方法至少存在如下技术问题:确定有效人声片段的准确性较低。



技术实现要素:

本申请的目的在于提供一种人声检测方法、装置及一种电子设备和一种计算机可读存储介质,提高了确定有效人声片段的准确性。

为实现上述目的,本申请第一方面提供了一种人声检测方法,包括:

获取音频信号,对所述音频信号进行傅里叶变换,并基于傅里叶变换结果计算所述音频信号对应的功率谱;

根据所述功率谱构建所述音频信号对应的沿时间分布的人声可能性概率序列;

基于所述人声可能性概率序列和第一概率阈值在所述音频信号中确定有效人声片段。

为实现上述目的,本申请第二方面提供了一种人声检测装置,包括:

计算模块,用于获取音频信号,对所述音频信号进行傅里叶变换,并基于傅里叶变换结果计算所述音频信号对应的功率谱;

构建模块,用于根据所述功率谱构建所述音频信号对应的沿时间分布的人声可能性概率序列;

确定模块,用于基于所述人声可能性概率序列和第一概率阈值在所述音频信号中确定有效人声片段。

为实现上述目的,本申请第三方面提供了一种电子设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上述人声检测方法的步骤。

为实现上述目的,本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述人声检测方法的步骤。

通过以上方案可知,本申请提供的一种人声检测方法,包括:获取音频信号,对所述音频信号进行傅里叶变换,并基于傅里叶变换结果计算所述音频信号对应的功率谱;根据所述功率谱构建所述音频信号对应的沿时间分布的人声可能性概率序列;基于所述人声可能性概率序列和第一概率阈值在所述音频信号中确定有效人声片段。

本申请提供的人声检测方法,通过对原始音频信号进行傅里叶变换,以计算原始音频信号的功率谱,提高了计算功率谱的准确性。进一步的,基于音频信号的功率谱计算各时间点的信号对应的人声可能性概率,提高了计算人声可能性概率准确性,进而构建音频信号对应的沿时间分布的人声可能性概率序列,有效的在强音乐声干扰下提取有效人声片段,提高了确定有效人声片段的准确性。本申请还公开了一种人声检测装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1为本申请实施例提供的一种人声检测系统的架构图;

图2为本申请实施例提供的一种人声检测方法的流程图;

图3为本申请实施例提供的另一种人声检测方法的流程图;

图4为图2中步骤s13的细化流程图;

图5为确定有效人声片段的流程图;

图6为本申请实施例提供的一种人声检测装置的结构图;

图7为本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

为了便于理解本申请提供的人声检测方法,下面对其使用的系统进行介绍。参见图1,其示出了本申请实施例提供的一种人声检测系统的架构图,如图1所示,包括音频采集设备10和服务器20。

音频采集设备10用于采集用户录制的音频信号,服务器20用于在该音频信号检测中确定有效人声片段。

当然,人声检测系统还可以客户端30,可以包括pc(中文全称:个人计算机,英文全称:personalcomputer)等固定终端和手机等移动终端,客户端30上可以设置扬声器,用于输出有效人声片段,客户端30还可以设置显示器,用于输出有效人声片段对应的时间范围。

本申请实施例公开了一种人声检测方法,提高了确定有效人声片段的准确性。

参见图2,本申请实施例提供的一种人声检测方法的流程图,如图2所示,包括:

s11:获取音频信号,对所述音频信号进行傅里叶变换,并基于傅里叶变换结果计算所述音频信号对应的功率谱;

本实施例的执行主体为上述服务器,目的为在音频信号检测中确定有效人声片段。在本步骤中,首先对音频信号进行傅里叶变换,其次基于傅里叶变换结果计算所述音频信号对应的功率谱。

作为一种优选实施方式,所述获取音频信号之后,还包括:对所述音频信号进行降采样处理。在具体实施中,为了降低后续步骤的计算量,因此可以在获取音频信号之后,对其进行降采样处理。由于人声频段主要集中在4khz以内,因此可以对音频信号进行8khz降采样处理。

作为一种可行的实施方式,对所述音频信号进行傅里叶变换,包括:对所述音频信号进行分帧和加窗处理,并对处理结果进行傅里叶变换。在具体实施中,分帧过程为:xn(i)=x(n·a i),其中,xn(i)为第n帧信号中第i个样点的分帧结果,a表示帧移,可以为0.02s,i的取值范围为0、1、2、…、l-1,其中l表示第n帧信号的帧长,可以为0.04s。加窗过程为:xwn(i)=xn(i)·w(i),其中,xwn(i)为第n帧信号中第i个样点的加窗结果,w(i)为窗函数,在本实施例中可以使用汉宁窗,表示如下:

第n帧信号的傅里叶变换结果如下:

其中,x(n,k)为第n帧信号中第k个频点的傅里叶变换结果,j为虚数,n表示傅里叶变换的点数,当l<n时,需要对xwn(i)补领,当l>n时,需要对xwn(i)进行做截断处理,即在其中截取n个样点进行傅里叶变换。

基于第n帧信号中第k个频点的傅里叶变换结果可以计算第n帧信号中第k个频点的对应的功率谱,功率谱的计算结果为:p(n,k)=||x(n,k)||2。其中,p(n,k)表示第n帧第k个频点的功率谱。可以理解的是,有时为了显示或者计算的方便,可以使用对数功率谱进行处理,利用plog(n,k)表示第n帧第k个频点的对数功率谱,表示如下:

s12:根据所述功率谱构建所述音频信号对应的沿时间分布的人声可能性概率序列;

在具体实施中,构建权系数对各帧信号中各频点的原始功率谱进行加权运算,得到各帧信号中各频点对应的加权后的功率谱,此处不对具体的权函数构建方式进行限定。利用各帧信号中各频点对应的加权前的功率谱计算得到各帧信号对应的加权前的功率谱,相应的,利用各帧信号中各频点对应的加权后的功率谱计算得到各帧信号对应的加权后的功率谱,将各帧信号对应的加权后的功率谱与加权前的功率谱的比值作为各帧信号对应的人声可能性概率,从而构建沿时间分布的人声可能性概率序列

s13:基于所述人声可能性概率序列和第一概率阈值在所述音频信号中确定有效人声片段。

在本步骤中,首先对人声可能性概率序列进行平滑处理,其次,基于平滑处理后的人声可能性概率序列和预设的第一概率阈值在音频信号中确定有效人声片段。

具体的,可以利用利用三角窗卷积操作对人声可能性概率序列进行平滑处理,三角窗长度m 1,计算其中表示向上取整,得到长度为m 1点的平滑核函数:进行归一化处理后为:其中,0≤j≤m,从而得到平滑后的概率序列:此处可以将m设置为30,当然也可以设置为其他值,在此不进行具体限定。

作为一种可行的实施方式,可以将人声可能性概率大于第一概率阈值的时间点确定为有效人声点,并基于音频信号中所有的有效人声点确定音频信号中的有效人声片段。

作为一种优选实施方式,本步骤可以包括:按照预设规则在所述音频信号中确定有效人声片段;其中,所述预设规则包括:将每帧信号的人声可能性概率均大于或等于第一概率阈值的片段确定为第一候选有效人声片段;若相邻第一候选有效人声片段之间的间隔片段的长度小于或等于第一预设帧长,且所述间隔片段内不存在人声可能性概率小于或等于第二概率阈值的信号帧,则将所述相邻第一候选有效人声片段和所述间隔片段连接为第二候选有效人声片段;将片段长度大于第二预设帧长的第一候选有效人声片段和第二候选有效人声片段确定为所述有效人声片段;其中,所述第一概率阈值大于所述第二概率阈值。

在具体实施中,通过设置第一概率阈值区分有效人声帧和无效人声帧,即人声可能性概率大于或等于第一概率阈值的帧为有效人声帧,据此在音频信号中确定第一候选有效人声片段。对于连续的第一候选有效人声片段之间的间隔片段,若间隔片段的长度小于或等于第一预设帧长且其中不存在人声可能性概率小于或等于第二概率阈值的信号帧,则说明该间隔片段为人声内可容忍的静音长度,将相邻第一候选有效人声片段和之间的间隔片段连接为第二候选有效人声片段。片段长度大于第二预设帧长的第一候选有效人声片段和第二候选有效人声片段可以作为有效人声片段,否则视为瞬时噪声。

本申请实施例提供的人声检测方法,通过对原始音频信号进行傅里叶变换,以计算原始音频信号的功率谱,提高了计算功率谱的准确性。进一步的,基于音频信号的功率谱计算各时间点的信号对应的人声可能性概率,提高了计算人声可能性概率准确性,进而构建音频信号对应的沿时间分布的人声可能性概率序列,有效的在强音乐声干扰下提取有效人声片段,提高了确定有效人声片段的准确性。

本申请实施例公开了一种人声检测方法,相对于上述实施例,本实施例对技术方案作了进一步的说明和优化。具体的:

参见图3,本申请实施例提供的另一种人声检测方法的流程图,如图3所示,包括:

s21:获取音频信号,对所述音频信号进行傅里叶变换,并基于傅里叶变换结果计算所述音频信号对应的功率谱;

s22:根据所述功率谱确定所述音频信号的基音频率,基于所述功率谱和所述基音频率构造加权系数,并利用所述加权系数对所述功率谱进行加权;

在本实施例中,首先根据功率谱可以确定音频信号的基音频率,基音频率表示人声发声音调信息中的最低频率。作为一种可行的实施方式,所述根据所述功率谱确定所述音频信号的基音频率,包括:根据傅里叶变换的点数和预设基音频率范围确定基音频率对应的频点范围;利用三角窗卷积操作对所述功率谱进行平滑处理;在平滑后的功率谱中确定所述频点范围内的第一个波峰位置,并将所述波峰位置对应的频率确定为所述音频信号的基音频率。

在具体实施中,预设基音频率范围,即基音频率最小值f0min和基音频率最大值f0max,例如可以设置f0min=40hz、f0max=1500hz,对应的频点最小值和频点最大值分别为:其中,fs表示采样率,k表示傅里叶变换的点数n/2,即最大频率对应的离散频点。利用三角窗卷积操作对功率谱做平滑处理,平滑后的功率谱表示可以为:此处为了表示方便直接可以去掉表示帧索引的参数n,此处可以选择为:接着,在平滑后的功率谱中确定波峰位置,可以表示为:若不存在波峰位置,则认为音频信号为一个常数信号,可能为0,不可能是人声信号,即各帧信号对应的人声可能性概率均为0。在[f0min,f0max]范围内第一个波峰位置对应的频点为基音频率。

其次,基于功率谱和基音频率构造加权系数,并利用该加权系数对第n帧第k个频点的功率谱进行加权,得到第n帧第k个频点分别对应的加权后的功率谱。作为一种优选实施方式,所述基于所述功率谱和所述基音频率构造加权系数,包括:基于所述基音频率构造正弦权系数;对所述功率谱进行无延迟的低通滤波,以提取包络信息作为包络权系数;根据所述正弦权系数和所述包络权系数确定加权系数。

在具体实施中,基于基音频率构造的正弦权系数曲线定义为:其中,f0为基音频率。对应的离散表达为:其中,通过对原始功率谱做无延迟的低通滤波提取包络信息作为包络权系数。零相位延迟滤波器实现流程如下:

其中,x(n)表示输入信号,y1(n)、y2(n)和y3(n)为中间输出,y(n)表示最终输出。利用一阶低通滤波系数实现无延迟滤波处理,定义y(n)=filter(x(n)),得到时域信号滤波表达:y(n)=-a1y(n-1) b0x(n) b1x(n-1),此处的a1可以为-0.9391,b0和b1可以为0.0305。得到包络权系数:wfade(k)=y(k)

最终的权系数可以表示为:wp(k)=wsin(k)·wfade(k),归一化处理后为:计算原始功率表示为:p0(k)=ps(k),加权后功率谱表示为:p1(k)=ps(k)·wp(k)。

s23:利用加权前的功率谱和加权后的功率谱构建所述音频信号对应的沿时间分布的人声可能性概率序列。

在本步骤中,利用各帧信号中各频点对应的加权前的功率谱计算得到各帧信号对应的加权前的功率谱,相应的,利用各帧信号中各频点对应的加权后的功率谱计算得到各帧信号对应的加权后的功率谱,将各帧信号对应的加权后的功率谱与加权前的功率谱的比值作为各帧信号对应的人声可能性概率,从而构建沿时间分布的人声可能性概率序列ps(n)。即本步骤可以包括:基于加权后的功率谱计算每帧信号中每个频点对应的功率的和作为第一求和值;基于加权前的功率谱计算每帧信号中每个频点对应的功率的和作为第二求和值;将所述第一求和值与所述第二求和值的比值确定为每帧信号的人声可行性概率;对每帧信号的人声可行性概率进行归一化处理,并根据每帧信号的归一化结果构建所述音频信号对应的沿时间分布的人声可能性概率序列。

具体的,第n帧信号对应的人声可能性概率在归一化处理的过程中,可以设定初步功率比值上下限,例如设置下限pl=2,上限pu=30,从而得到归一化后的语音存在概率如下:其中p=max(pl,min(pu,prob))。

s24:基于所述人声可能性概率序列和第一概率阈值在所述音频信号中确定有效人声片段。

由此可见,本实施例基于各帧信号的傅里叶变换结果计算各帧信号的功率谱,进而根据各帧信号的功率谱确定所述音频信号的基音频率,提高了确定基音频率的准确性。进一步的,基于各帧信号的功率谱和基音频率构造加权系数,利用各帧信号加权前的功率谱和加权后的功率谱计算各帧信号的人声可能性概率,提高了计算人声可能性概率准确性,进而提高了确定有效人声片段的准确性。

下面介绍沿时间确定有效人声片段的过程,具体的,如图4所示,第一实施例中的步骤s13可以包括:

s131:将所述音频信号的起始时间点确定为目标时间点;

在本实施例中,设置第一概率阈值thr_v和第二概率阈值thr_s,大于或等于第一概率阈值表示人声,小于或等于第二概率阈值表示非人声,第二概率阈值与第一概率阈值之间表示可能为人声。另外,设置第一预设帧长t_voice_sil和第二预设帧长t_voice_minlen,第一预设帧长表示人声内可容忍的静音长度,例如,用户的换气片段等,可以设置为500ms,第二预设帧长表示最短人声时长,小于该时长视为瞬态噪声,可以设置为100ms。

有效人声片段的确定过程如图5所示,图中n表示帧索引,t表示音频信号的总帧数,idx表示有效人声片段的索引,检测程度标记tag_voice,tag_voice=1表示进入语音段,tag_voice=0表示进入非语音端段,tag_voice=2表示可能进入非语音段,需要进一步观察当前帧的周边帧信息判断是否已经完全结束语音段。ns表示有效人声片段的起始时间戳,ne表示有效人声片段的结束时间戳,cntn表示无法确认是否进入非语音段时即tag_voice=2时,累计疑似非语音帧的数量,当cntn大于第一预设帧长时认为完全进入非语音段。

在本步骤中,初始化n=0,cntn=0,ns=0,ne=0,tag_voice=0,idx=0。

s132:基于所述人声可能性概率序列判断所述目标时间点对应的人声可能性概率是否大于或等于所述第一概率阈值;若是,则进入s133;若否,则进入s135;

在本步骤中,判断目标时间点对应的人声可能性概率prob_s是否大于或等于thr_v,若是,则进入s133;若否,则进入s135。

s133:根据检测程度标记判断是否进入非语音段;若是,则将人声语音段起始时间戳设置为所述目标时间点;若否,则将非语音帧数量设置为零;

s134:将所述检测程度标记设置为进入语音段,并进入s1312;

在具体实施中,若prob_s≥thr_v,则判断tag_voice是否等于0,若是,则设置ns=n,若否,则将cntn清零。同时,prob_s≥thr_v说明进入语音段,将tag_voice设置为1,当前帧信号标记完成,进入s1312。

s135:根据检测程度标记判断是否进入语音段;若是,则进入s136;若否,则进入s137;

s136:将人声语音段结束时间戳减少一,将所述检测程度标记设置为可能进入语音段,并进入s137;

s137:将所述非语音帧数量增加一;

在具体实施中,若prob_s小于thr_v,则判断tag_voice是否等于1,若是,则当前帧可能进入非语音段,需要暂时将ne设置为上一帧信号n-1,并将tag_voice设置为2,同时递增cntn,若否,则直接递增cntn。

s138:判断是否满足预设条件;其中,所述预设条件包括所述检测程度标记为可能进入语音段且所述非语音帧数量是否大于所述第一预设帧长,或,所述检测程度标记为可能进入语音段且所述目标时间点对应的人声可能性概率小于或等于第二概率阈值;其中,所述第一概率阈值大于所述第二概率阈值;若是,则进入s139;若否,则进入s1312;

在步骤中,判断是否满足预设条件,若是,则说明当前帧进入非语音段,若否,则当前帧信号标记完成,进入s1312。其中,预设条件包括tag_voice=2且cntn>t_voice_sil,另外,若prob_s≤thr_s,则不需要累计cntn,直接判定当前帧进入非语音段。

s139:判断所述人声语音段结束时间戳与所述人声语音段起始时间戳的差值是否大于所述第二预设帧长;若是,则进入s1310;若否,则进入s1311:

s1310:将所述人声语音段起始时间戳与所述人声语音段结束时间戳之间的语音段确定为有效人声片段,并进入s1311;

s1311:将所述检测程度标记设置为非进入语音段,并进入s1312;

在具体实施中,若当前帧进入非语音段,则判断ne与ns的差值是否大于t_voice_minlen,若是,则确定有效人声片段,若否,则视为瞬态噪声。同时,将tag_voice设置为0,当前帧信号标记完成,进入s1312。

s1312:将所述目标时间点增加一,并判断更新后的目标时间点是否大于所述音频信号的结束时间点;若是,则进入s1313;若否,则重新进入s132;

在本步骤中,递增n,若递增后的n≥t,则进入音频信号的尾部处理流程,否则重新进入s132进行下一帧信号的标记。

s1313:判断所述检测程度标记是否为进入语音段,且所述人声语音段结束时间戳是否小于所述人声语音段起始时间戳,且所述音频信号的结束时间点与所述人声语音段起始时间戳的差值是否大于所述第二预设帧长;若均是,则进入s1314;

s1314:将所述人声语音段起始时间戳与所述音频信号的结束时间点之间的语音段确定为有效人声片段。

在音频信号的尾部处理流程中,若最后帧处于语音段内且ne<ns且t与ns的差值大于t_voice_minlen,则将音频信号的尾部确定为有效人声片段,否则判定音频信号的尾部为瞬时噪声。

由此可见,本实施例公开了沿时间确定有效人声片段的过程,通过设置第一概率阈值和第二概率阈值区分有效人声帧和无效人声帧,通过设置第一帧长和第二帧长排除无效人声片段内的瞬时噪声、增加人声内可容忍的静音长度对应的有效人声片段,提高了确定有效人声片段的效率。

下面对本申请实施例提供的一种人声检测装置进行介绍,下文描述的一种人声检测装置与上文描述的一种人声检测方法可以相互参照。

参见图6,本申请实施例提供的一种人声检测装置的结构图,如图6所示,包括:

计算模块601,用于获取音频信号,对所述音频信号进行傅里叶变换,并基于傅里叶变换结果计算所述音频信号对应的功率谱;

构建模块602,用于根据所述功率谱构建所述音频信号对应的沿时间分布的人声可能性概率序列;

确定模块603,用于基于所述人声可能性概率序列和第一概率阈值在所述音频信号中确定有效人声片段。

本申请实施例提供的人声检测装置,通过对原始音频信号进行傅里叶变换,以计算原始音频信号的功率谱,提高了计算功率谱的准确性。进一步的,基于音频信号的功率谱计算各时间点的信号对应的人声可能性概率,提高了计算人声可能性概率准确性,进而构建音频信号对应的沿时间分布的人声可能性概率序列,有效的在强音乐声干扰下提取有效人声片段,提高了确定有效人声片段的准确性。

在上述实施例的基础上,作为一种优选实施方式,还包括:

降采样模块,用于对所述音频信号进行降采样处理。

在上述实施例的基础上,作为一种优选实施方式,所述计算模块601包括:

获取单元,用于获取音频信号;

变换单元,用于对所述音频信号进行分帧和加窗处理,并对处理结果进行傅里叶变换;

计算单元,用于基于傅里叶变换结果计算所述音频信号对应的功率谱。

在上述实施例的基础上,作为一种优选实施方式,所述构建模块602包括:

加权单元,用于根据所述功率谱确定所述音频信号的基音频率,基于所述功率谱和所述基音频率构造加权系数,并利用所述加权系数对所述功率谱进行加权;

构建单元,用于利用加权前的功率谱和加权后的功率谱构建所述音频信号对应的沿时间分布的人声可能性概率序列。

在上述实施例的基础上,作为一种优选实施方式,所述加权单元包括:

第一确定子单元,用于根据傅里叶变换的点数和预设基音频率范围确定基音频率对应的频点范围;

处理子单元,用于利用三角窗卷积操作对所述功率谱进行平滑处理;

第二确定子单元,用于在平滑后的功率谱中确定所述频点范围内的第一个波峰位置,并将所述波峰位置对应的频率确定为所述音频信号的基音频率;

加权子单元,用于基于所述功率谱和所述基音频率构造加权系数,并利用所述加权系数对所述功率谱进行加权。

在上述实施例的基础上,作为一种优选实施方式,所述加权子单元具体为基于所述基音频率构造正弦权系数,对所述功率谱进行无延迟的低通滤波,以提取包络信息作为包络权系数,根据所述正弦权系数和所述包络权系数确定加权系数,并利用所述加权系数对所述功率谱进行加权的单元。

在上述实施例的基础上,作为一种优选实施方式,所述构建单元包括:

第一计算子单元,用于基于加权后的功率谱计算每帧信号中每个频点对应的功率的和作为第一求和值;

第二计算子单元,用于基于加权前的功率谱计算每帧信号中每个频点对应的功率的和作为第二求和值;

第三确定子单元,用于将所述第一求和值与所述第二求和值的比值确定为每帧信号的人声可行性概率;

构建子单元,用于对每帧信号的人声可行性概率进行归一化处理,并根据每帧信号的归一化结果构建所述音频信号对应的沿时间分布的人声可能性概率序列。

在上述实施例的基础上,作为一种优选实施方式,所述确定模块603具体为按照预设规则在所述音频信号中确定有效人声片段的模块;其中,所述预设规则包括:将每帧信号的人声可能性概率均大于或等于第一概率阈值的片段确定为第一候选有效人声片段;若相邻第一候选有效人声片段之间的间隔片段的长度小于或等于第一预设帧长,且所述间隔片段内不存在人声可能性概率小于或等于第二概率阈值的信号帧,则将所述相邻第一候选有效人声片段和所述间隔片段连接为第二候选有效人声片段;将片段长度大于第二预设帧长的第一候选有效人声片段和第二候选有效人声片段确定为所述有效人声片段;其中,所述第一概率阈值大于所述第二概率阈值。

在上述实施例的基础上,作为一种优选实施方式,所述确定模块603包括:

第一确定单元,用于将所述音频信号的起始时间点确定为目标时间点;

第一判断单元,用于当所述目标时间点对应的人声可能性概率大于或等于所述第一概率阈值时,根据检测程度标记判断是否进入非语音段;若是,则启动第一设置单元的工作流程;若否,则启动第二设置单元的工作流程;

第一设置单元,用于将人声语音段起始时间戳设置为所述目标时间点,将所述检测程度标记设置为进入语音段,并将所述目标时间点增加一;

第二设置单元,用于将非语音帧数量设置为零,将所述检测程度标记设置为进入语音段,并将所述目标时间点增加一。

在上述实施例的基础上,作为一种优选实施方式,所述确定模块603包括:

第一确定单元,用于将所述音频信号的起始时间点确定为目标时间点;

第二判断单元,用于当所述目标时间点对应的人声可能性概率小于所述第一概率阈值时,根据检测程度标记判断是否进入语音段;若是,则启动第三设置单元的工作流程;若否,则启动第一增加单元的工作流程;

第三设置单元,用于将人声语音段结束时间戳减少一,将所述检测程度标记设置为可能进入语音段,并启动第一增加单元的工作流程;

第一增加单元,用于将所述非语音帧数量增加一。

在上述实施例的基础上,作为一种优选实施方式,所述确定模块603还包括:

第三判断单元,用于当满足预设条件时,判断所述人声语音段结束时间戳与所述人声语音段起始时间戳的差值是否大于所述第二预设帧长;若是,则启动第一确定单元的工作流程;若否,则启动第四设置单元的工作流程;其中,所述预设条件包括所述检测程度标记为可能进入语音段且所述非语音帧数量是否大于所述第一预设帧长,或,所述检测程度标记为可能进入语音段且所述目标时间点对应的人声可能性概率小于或等于第二概率阈值;其中,所述第一概率阈值大于所述第二概率阈值;

第一确定单元,用于将所述人声语音段起始时间戳与所述人声语音段结束时间戳之间的语音段确定为有效人声片段,并启动第四设置单元的工作流程;

第四设置单元,用于将所述检测程度标记设置为非进入语音段,将所述目标时间点增加一。

在上述实施例的基础上,作为一种优选实施方式,所述确定模块603还包括:

第二增加单元,用于当不满足预设条件时,将所述目标时间点增加一;其中,所述预设条件包括所述检测程度标记为可能进入语音段且所述非语音帧数量是否大于所述第一预设帧长,或,所述检测程度标记为可能进入语音段且所述目标时间点对应的人声可能性概率小于或等于所述第二概率阈值。

在上述实施例的基础上,作为一种优选实施方式,所述确定模块603还包括:

第四判断单元,用于当增加后的目标时间点大于所述音频信号的结束时间点时,判断所述检测程度标记是否为进入语音段,且所述人声语音段结束时间戳是否小于所述人声语音段起始时间戳,且所述音频信号的结束时间点与所述人声语音段起始时间戳的差值是否大于所述第二预设帧长;若均是,则启动第二确定单元的工作流程;否则,重新启动第一判断单元或第二判断单元的工作流程;

第二确定单元,用于将所述人声语音段起始时间戳与所述音频信号的结束时间点之间的语音段确定为有效人声片段。

在上述实施例的基础上,作为一种优选实施方式,所述确定模块603还包括:

启动单元,用于当增加后的目标时间点小于或等于所述音频信号的结束时间点时,重新启动第一判断单元或第二判断单元的工作流程。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本申请还提供了一种电子设备,参见图7,本申请实施例提供的一种电子设备70的结构图,如图7所示,可以包括处理器71和存储器72。

其中,处理器71可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器71可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器71也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(centralprocessingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器71可以在集成有gpu(graphicsprocessingunit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器71还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。

存储器72可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器72还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器72至少用于存储以下计算机程序721,其中,该计算机程序被处理器71加载并执行之后,能够实现前述任一实施例公开的由电子设备侧执行的人声检测方法中的相关步骤。另外,存储器72所存储的资源还可以包括操作系统722和数据723等,存储方式可以是短暂存储或者永久存储。其中,操作系统722可以包括windows、unix、linux等。

在一些实施例中,电子设备70还可包括有显示屏73、输入输出接口74、通信接口75、传感器76、电源77以及通信总线78。

当然,图7所示的电子设备的结构并不构成对本申请实施例中电子设备的限定,在实际应用中电子设备可以包括比图7所示的更多或更少的部件,或者组合某些部件。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任一实施例电子设备所执行的人声检测方法的步骤。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜