一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音检测方法、装置、电子设备、存储介质及产品与流程

2022-07-10 03:02:25 来源:中国专利 TAG:


1.本技术涉及语音信号处理技术领域,特别涉及一种语音检测方法、装置、电子设备、存储介质及产品。


背景技术:

2.语音检测(voice activity detection,vad)技术在语音增强、语音识别等语音信号处理领域有着非常重要的作用,vad技术主要是从一段音频信号中检测出语音信号和非语音信号。
3.相关技术中,vad技术一般是在音频信号的信噪比较高时,基于音频信号的短时能量和过零率分别与其对应的阈值进行对比,从而检测出语音信号和非语音信号。但对于信噪比较低的音频信号,其噪声较大,使得该音频信号中的噪声对语音信号的干扰较大,进而通过这种方法不能准确检测出语音信号和非语音信号,从而降低了vad技术的适用性。


技术实现要素:

4.本技术实施例提供了一种语音检测方法、装置、电子设备、存储介质及产品,能够提高对音频信号进行语音检测的适用性。所述技术方案如下:
5.一方面,提供了一种语音检测方法,所述方法包括:
6.获取音频信号的目标帧频谱,所述目标帧频谱中包括目标帧的多个采样点的振幅值;
7.基于所述目标帧频谱,确定所述多个采样点中的第一采样点,所述第一采样点的振幅值为所述目标帧频谱中的振幅极大值;
8.获取所述第一采样点的倍频信息,所述第一采样点的倍频信息包括所述第一采样点的至少一个倍频采样点的振幅值;
9.基于所述第一采样点的倍频信息,对所述音频信号进行语音检测。
10.在一些实施例中,所述基于所述第一采样点的倍频信息,对所述音频信号进行语音检测,包括:获取至少一个第二采样点的倍频信息,所述第二采样点的倍频信息包括所述第二采样点的至少一个倍频采样点的振幅值,所述第二采样点的振幅值为其他帧频谱中的振幅极大值,所述其他帧频谱为所述音频信号中与所述目标帧频谱相邻的频谱;基于所述第一采样点的倍频信息和所述至少一个第二采样点的倍频信息,确定第一目标倍频采样点,所述第一目标倍频采样点的振幅值为所述其他帧频谱和所述目标帧频谱组成的多帧频谱中的振幅极大值;基于所述第一目标倍频采样点,确定所述多帧频谱中的目标频谱,所述目标频谱包括所述第一采样点和所述至少一个第二采样点中的目标采样点,所述目标采样点对应的第一目标倍频采样点的第一数量大于或等于第一数量阈值;若第二数量大于或等于第二数量阈值,则确定所述音频信号为语音信号,所述第二数量为所述多帧频谱中包括的目标频谱的数量。
11.在一些实施例中,所述语音检测方法还包括:若所述第二数量小于所述第二数量
阈值,则获取所述多帧频谱的能量参数和过零率参数;基于所述第二数量、所述能量参数和所述过零率参数,对所述音频信号进行语音检测。
12.在一些实施例中,所述能量参数包括所述多帧频谱分别对应的能量,所述过零率参数包括所述多帧频谱分别对应的过零率;所述基于所述第二数量、所述能量参数和所述过零率参数,对所述音频信号进行语音检测,包括:基于所述多帧频谱分别对应的能量和所述多帧频谱分别对应的过零率,确定所述多帧频谱中除第一帧和最后一帧以外的各两帧频谱之间的第一差值和第二差值,所述第一差值为所述两帧频谱的能量之差,所述第二差值为所述两帧频谱的过零率之差;基于所述第二数量以及所述多帧频谱对应的多个第一差值和多个第二差值,对所述音频信号进行语音检测。
13.在一些实施例中,所述基于所述第二数量以及所述多帧频谱对应的多个第一差值和多个第二差值,对所述音频信号进行语音检测,包括:对所述多个第一差值进行线性拟合,得到第一拟合参数;对所述多个第二差值进行线性拟合,得到第二拟合参数;基于所述第二数量、所述第一拟合参数和所述第二拟合参数,对所述音频信号进行语音检测。
14.在一些实施例中,所述多帧频谱中非目标频谱的数量为第三数量,所述基于所述第二数量、所述第一拟合参数和所述第二拟合参数,对所述音频信号进行语音检测,包括:若所述第二数量大于或等于第三数量阈值,且所述第一拟合参数大于第一拟合阈值或所述第二拟合参数小于第二拟合阈值,则确定所述音频信号为语音信号;若所述第三数量小于所述第二数量阈值且大于或等于所述第三数量阈值,且所述第一拟合参数小于所述第一拟合阈值或所述第二拟合参数大于所述第二拟合阈值,则确定所述音频信号为非语音信号。
15.在一些实施例中,所述基于所述第二数量以及所述多帧频谱对应的多个第一差值和多个第二差值,对所述音频信号进行语音检测,包括:确定所述多个第一差值分别对应的能量变化概率以及确定所述多个第二差值分别对应的过零率变化概率;基于所述第二数量、所述多个第一差值分别对应的能量变化概率和所述多个第二差值分别对应的过零率变化概率,对所述音频信号进行语音检测。
16.在一些实施例中,所述多帧频谱中非目标频谱的数量为第三数量,所述基于所述第二数量、所述多个第一差值分别对应的能量变化概率和所述多个第二差值分别对应的过零率变化概率,对所述音频信号进行语音检测,包括:分别确定第一概率均值和第二概率均值,所述第一概率均值为多个能量变化概率中前目标数量的能量变化概率的平均值,所述第二概率均值为所述多个能量变化概率中后目标数量的能量变化概率的平均值;分别确定第三概率均值和第四概率均值,所述第三概率均值为多个过零率变化概率中前目标数量的过零率变化概率的平均值,所述第四概率均值为所述多个过零率变化概率中后目标数量的过零率变化概率的平均值;若所述第二数量大于或等于第三数量阈值,且所述第一概率均值小于所述第二概率均值与第二预设比例的乘积或所述第三概率均值小于所述第四概率均值与所述第二预设比例的乘积,则确定所述音频信号为语音信号;若所述第三数量小于所述第二数量阈值且大于或等于所述第三数量阈值,且所述第二预设比例与第一概率均值的乘积大于所述第二概率均值或所述第二预设比例与第三概率均值的乘积大于所述第四概率均值,则确定所述音频信号为非语音信号。
17.在一些实施例中,所述语音检测方法还包括:若所述多帧频谱中非目标频谱的第三数量大于或等于所述第二数量阈值,则确定所述音频信号为非语音信号。
18.在一些实施例中,所述基于所述第一采样点的倍频信息,对所述音频信号进行语音检测,包括:基于所述第一采样点的倍频信息,确定第二目标倍频采样点,所述第二目标倍频采样点的振幅值为所述目标帧频谱中的振幅极大值;若所述第二目标倍频采样点的第四数量大于或等于第一数量阈值,则确定所述音频信号为语音信号。
19.在一些实施例中,所述第二目标倍频采样点的确定过程,包括:确定两个候选采样点,所述两个候选采样点分别为初始倍频采样点之前和之后的采样点,所述初始倍频采样点为所述第一采样点在目标倍数的采样点;基于所述两个候选采样点和所述初始倍频采样点,确定所述第一采样点在所述目标倍数的第二目标倍频采样点。
20.在一些实施例中,所述多个采样点中振幅值为所述目标帧频谱中的振幅极大值、且所述振幅值大于振幅阈值的采样点被赋值为第一数值,所述基于所述两个候选采样点和所述初始倍频采样点,确定所述第一采样点在所述目标倍数的第二目标倍频采样点,包括:若所述两个候选采样点和所述初始倍频采样点中包括被赋值为所述第一数值的采样点,将所述被赋值为所述第一数值的采样点确定为所述第一采样点在所述目标倍数的第二目标倍频采样点。
21.在一些实施例中,所述第一采样点的确定过程,包括:确定初始采样点,所述初始采样点的振幅值为所述目标帧频谱中的振幅极大值,且所述振幅值大于所述振幅阈值;分别获取所述初始采样点对应的两个辅助采样点,所述两个辅助采样点分别为所述采样点之前且振幅值为所述目标帧频谱中的振幅极大值的最近采样点和所述采样点之后且振幅值为所述目标帧频谱中的振幅极大值的最近采样点;若所述两个辅助采样点的振幅值均大于所述振幅阈值,将所述初始采样点确定为所述第一采样点。
22.在一些实施例中,所述目标帧频谱中包括多个频谱极大值,所述振幅阈值的确定过程包括:从所述多个频谱极大值中确定目标极大值,所述目标极大值的值最大;确定所述目标极大值与第一预设比例的乘积,得到所述振幅阈值。
23.另一方面,提供了一种语音检测装置,所述装置包括:
24.第一获取模块,用于获取音频信号的目标帧频谱,所述目标帧频谱中包括目标帧的多个采样点的振幅值;
25.第一确定模块,用于基于所述目标帧频谱,确定所述多个采样点中的第一采样点,所述第一采样点的振幅值为所述目标帧频谱中的振幅极大值;
26.第二获取模块,用于获取所述第一采样点的倍频信息,所述第一采样点的倍频信息包括所述第一采样点的至少一个倍频采样点的振幅值;
27.检测模块,用于基于所述第一采样点的倍频信息,对所述音频信号进行语音检测。
28.在一些实施例中,所述检测模块,用于获取至少一个第二采样点的倍频信息,所述第二采样点的倍频信息包括所述第二采样点的至少一个倍频采样点的振幅值,所述第二采样点的振幅值为其他帧频谱中的振幅极大值,所述其他帧频谱为所述音频信号中与所述目标帧频谱相邻的频谱;基于所述第一采样点的倍频信息和所述至少一个第二采样点的倍频信息,确定第一目标倍频采样点,所述第一目标倍频采样点的振幅值为所述其他帧频谱和所述目标帧频谱组成的多帧频谱中的振幅极大值;基于所述第一目标倍频采样点,确定所述多帧频谱中的目标频谱,所述目标频谱包括所述第一采样点和所述至少一个第二采样点中的目标采样点,所述目标采样点对应的第一目标倍频采样点的第一数量大于或等于第一
数量阈值;若第二数量大于或等于第二数量阈值,则确定所述音频信号为语音信号,所述第二数量为所述多帧频谱中包括的目标频谱的数量。
29.在一些实施例中,所述检测模块,用于若所述第二数量小于所述第二数量阈值,则获取所述多帧频谱的能量参数和过零率参数;基于所述第二数量、所述能量参数和所述过零率参数,对所述音频信号进行语音检测。
30.在一些实施例中,所述能量参数包括所述多帧频谱分别对应的能量,所述过零率参数包括所述多帧频谱分别对应的过零率;所述检测模块,用于基于多帧频谱分别对应的能量和所述多帧频谱分别对应的过零率,确定所述多帧频谱中除第一帧和最后一帧以外的各相邻两帧频谱之间的第一差值和第二差值,所述第一差值为所述两帧频谱的能量之差,所述第二差值为所述两帧频谱的过零率之差;基于所述第二数量以及所述多帧频谱对应的多个第一差值和多个第二差值,对所述音频信号进行语音检测。
31.在一些实施例中,所述检测模块,用于对所述多个第一差值进行线性拟合,得到第一拟合参数;对所述多个第二差值进行线性拟合,得到第二拟合参数;基于所述第二数量、所述第一拟合参数和所述第二拟合参数,对所述音频信号进行语音检测。
32.在一些实施例中,所述多帧频谱中非目标频谱的数量为第三数量,所述检测模块,用于若所述第二数量大于或等于第三数量阈值,且所述第一拟合参数大于第一拟合阈值或所述第二拟合参数小于第二拟合阈值,则确定所述音频信号为语音信号;
33.若所述第三数量小于所述第二数量阈值且大于或等于所述第三数量阈值,且所述第一拟合参数小于所述第一拟合阈值或所述第二拟合参数大于所述第二拟合阈值,则确定所述音频信号为非语音信号。
34.在一些实施例中,所述检测模块,用于确定所述多个第一差值分别对应的能量变化概率以及确定所述多个第二差值分别对应的过零率变化概率;基于所述第二数量、所述多个第一差值分别对应的能量变化概率和所述多个第二差值分别对应的过零率变化概率,对所述音频信号进行语音检测。
35.在一些实施例中,所述多帧频谱中非目标频谱的数量为第三数量,所述检测模块,用于分别确定第一概率均值和第二概率均值,所述第一概率均值为多个能量变化概率中前目标数量的能量变化概率的平均值,所述第二概率均值为所述多个能量变化概率中后目标数量的能量变化概率的平均值;分别确定第三概率均值和第四概率均值,所述第三概率均值为多个过零率变化概率中前目标数量的过零率变化概率的平均值,所述第四概率均值为所述多个过零率变化概率中后目标数量的过零率变化概率的平均值;若所述第二数量大于或等于第三数量阈值,且所述第一概率均值小于所述第二概率均值与第二预设比例的乘积或所述第三概率均值小于所述第四概率均值与所述第二预设比例的乘积,则确定所述音频信号为语音信号;若所述第三数量小于所述第二数量阈值且大于或等于所述第三数量阈值,且所述第二预设比例与第一概率均值的乘积大于所述第二概率均值或所述第二预设比例与第三概率均值的乘积大于所述第四概率均值,则确定所述音频信号为非语音信号。
36.在一些实施例中,所述语音检测装置还包括第二确定模块,用于若所述多帧频谱中非目标频谱的第三数量大于或等于所述第二数量阈值,则确定所述音频信号为非语音信号。
37.在一些实施例中,所述检测模块,用于基于所述第一采样点的倍频信息,确定第二
目标倍频采样点,所述第二目标倍频采样点的振幅值为所述目标帧频谱中的振幅极大值;若所述第二目标倍频采样点的第四数量大于或等于第一数量阈值,则确定所述音频信号为语音信号。
38.在一些实施例中,所述语音检测装置还包括第三确定模块,用于确定两个候选采样点,所述两个候选采样点分别为初始倍频采样点之前和之后的采样点,所述初始倍频采样点为所述第一采样点在目标倍数的采样点;基于所述两个候选采样点和所述初始倍频采样点,确定所述第一采样点在所述目标倍数的第二目标倍频采样点。
39.在一些实施例中,所述多个采样点中振幅值为所述目标帧频谱中的振幅极大值、且所述振幅值大于振幅阈值的采样点被赋值为第一数值,所述第三确定模块,用于若所述两个候选采样点和所述初始倍频采样点中包括被赋值为所述第一数值的采样点,将所述被赋值为所述第一数值的采样点确定为所述第一采样点在所述目标倍数的第二目标倍频采样点。
40.在一些实施例中,所述语音检测装置还包括:第四确定模块,用于确定初始采样点,所述初始采样点的振幅值为所述目标帧频谱中的振幅极大值,且所述振幅值大于所述振幅阈值;
41.第三获取模块,用于分别获取所述初始采样点对应的两个辅助采样点,所述两个辅助采样点分别为所述采样点之前且振幅值为所述目标帧频谱中的振幅极大值的最近采样点和所述采样点之后且振幅值为所述目标帧频谱中的振幅极大值的最近采样点;第五确定模块,用于若所述两个辅助采样点的振幅值均大于所述振幅阈值,将所述初始采样点确定为所述第一采样点。
42.在一些实施例中,所述语音检测装置还包括:第六确定模块,用于从所述多个频谱极大值中确定目标极大值,所述目标极大值的值最大;第七确定模块,用于确定所述目标极大值与第一预设比例的乘积,得到所述振幅阈值。
43.另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现上述任一实现方式所述的语音检测方法。
44.另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一实现方式所述的语音检测方法。
45.另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述电子设备执行上述任一实现方式所述的语音检测方法。
46.本技术实施例提供了一种语音检测方法,由于语音信号在倍频采样点的振幅值与其对应的采样点的振幅值具有相似的振幅极大值特点,这样基于频谱中采样点的倍频采样点的振幅值来检测音频信号是否为语音信号,能够有效检测出音频信号是否为语音信号,避免了基于短时能量和过零率不能准确检测信噪比低的音频信号的情况,从而提高了对音频信号进行语音检测的适用性。
附图说明
47.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1是本技术实施例提供的一种语音检测方法的实施环境的示意图;
49.图2是本技术实施例提供的一种语音检测方法的流程图;
50.图3是本技术实施例提供的一种语音检测方法的流程图;
51.图4是本技术实施例提供的一种语音检测方法的流程图;
52.图5是本技术实施例提供的一种语音检测方法的流程图;
53.图6是本技术实施例提供的一种语音检测方法的流程图;
54.图7是本技术实施例提供的一种音频信号和频谱的示意图;
55.图8是本技术实施例提供的一种语音检测装置的框图;
56.图9是本技术实施例提供的一种终端的框图。
具体实施方式
57.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
58.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
59.需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本技术中涉及到的音频信号都是在充分授权的情况下获取的。
60.本技术实施例提供的语音检测方法,能够由电子设备执行,在一些实施例中,电子设备是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、人机交互设备、车载终端等,但并不局限于此。其中,电子设备能够对音频信号进行语音检测。本领域技术人员可以知晓,上述电子设备的数量可以更多或更少。比如上述电子设备可以为一个,或者上述电子设备为几十个或几百个,或者更多数量。本技术实施例对电子设备的数量和设备类型不加以限定。
61.在一些实施例中,该语音检测方法应用在通话的场景中,则该电子设备10为通信终端,例如手机、座机、对讲机等;相应地,该语音检测方法的实施环境包括电子设备10和通话对端20。电子设备10在与通话对端20进行通话的过程中,按照本技术实施例提供的方法进行语音检测,以在没有语音信号传输时,起到降低电子设备10和通话对端20的语音编码速率、节省通信带宽、减少设备能耗的作用。
62.在一些实施例中,该语音检测方法应用在人机交互的场景中,则该电子设备为人机交互设备,例如智能家电,智能机器人等;相应地,人机交互设备获取对象的音频信号后,检测该音频信号中的语音信号,进而基于该语音信号为对象提供服务。
63.在一些实施例中,该语音检测方法应用在音频录制的场景中,则该电子设备为音频录制设备;相应地,该音频录制设备获取录制的音频信号后,对该音频信号进行语音检测,得到语音信号和非语音信号,进而只对语音信号进行语音识别,以降低语音识别量,提高语音识别效率。
64.本技术实施例提供了一种语音检测方法,执行主体为电子设备,参见图2,方法包括:
65.步骤201:获取音频信号的目标帧频谱,目标帧频谱中包括目标帧的多个采样点的振幅值。
66.步骤202:基于目标帧频谱,确定多个采样点中的第一采样点,第一采样点的振幅值为目标帧频谱中的振幅极大值。
67.步骤203:获取第一采样点的倍频信息,第一采样点的倍频信息包括第一采样点的至少一个倍频采样点的振幅值。
68.步骤204:基于第一采样点的倍频信息,对音频信号进行语音检测。
69.在一些实施例中,基于第一采样点的倍频信息,对音频信号进行语音检测,包括:获取至少一个第二采样点的倍频信息,第二采样点的倍频信息包括第二采样点的至少一个倍频采样点的振幅值,第二采样点的振幅值为其他帧频谱中的振幅极大值,其他帧频谱为音频信号中与目标帧频谱相邻的频谱;基于第一采样点的倍频信息和至少一个第二采样点的倍频信息,确定第一目标倍频采样点,第一目标倍频采样点的振幅值为其他帧频谱和目标帧频谱组成的多帧频谱中的振幅极大值;基于第一目标倍频采样点,确定多帧频谱中的目标频谱,目标频谱包括第一采样点和至少一个第二采样点中的目标采样点,目标采样点对应的第一目标倍频采样点的第一数量大于或等于第一数量阈值;若第二数量大于或等于第二数量阈值,则确定音频信号为语音信号,第二数量为多帧频谱中包括的目标频谱的数量。
70.在一些实施例中,该语音检测方法还包括:若第二数量小于第二数量阈值,则获取多帧频谱的能量参数和过零率参数;基于第二数量、能量参数和过零率参数,对音频信号进行语音检测。
71.在一些实施例中,能量参数包括多帧频谱分别对应的能量,过零率参数包括多帧频谱分别对应的过零率;基于第二数量、能量参数和过零率参数,对音频信号进行语音检测,包括:基于多帧频谱分别对应的能量和多帧频谱分别对应的过零率,确定多帧频谱中除第一帧和最后一帧以外的各相邻两帧频谱之间的第一差值和第二差值,第一差值为两帧频谱的能量之差,第二差值为两帧频谱的过零率之差;基于第二数量以及多帧频谱对应的多个第一差值和多个第二差值,对音频信号进行语音检测。
72.在一些实施例中,基于第二数量以及多帧频谱对应的多个第一差值和多个第二差值,对音频信号进行语音检测,包括:对多个第一差值进行线性拟合,得到第一拟合参数;对多个第二差值进行线性拟合,得到第二拟合参数;基于第二数量、第一拟合参数和第二拟合参数,对音频信号进行语音检测。
73.在一些实施例中,多帧频谱中非目标频谱的数量为第三数量,基于第二数量、第一拟合参数和第二拟合参数,对音频信号进行语音检测,包括:若第二数量大于或等于第三数量阈值,且第一拟合参数大于第一拟合阈值或第二拟合参数小于第二拟合阈值,则确定音频信号为语音信号;若第三数量小于第二数量阈值且大于或等于第三数量阈值,且第一拟合参数小于第一拟合阈值或第二拟合参数大于第二拟合阈值,则确定音频信号为非语音信号。
74.在一些实施例中,基于第二数量以及多帧频谱对应的多个第一差值和多个第二差值,对音频信号进行语音检测,包括:确定多个第一差值分别对应的能量变化概率以及确定多个第二差值分别对应的过零率变化概率;基于第二数量、多个第一差值分别对应的能量变化概率和多个第二差值分别对应的过零率变化概率,对音频信号进行语音检测。
75.在一些实施例中,多帧频谱中非目标频谱的数量为第三数量,基于第二数量、多个第一差值分别对应的能量变化概率和多个第二差值分别对应的过零率变化概率,对音频信号进行语音检测,包括:分别确定第一概率均值和第二概率均值,第一概率均值为多个能量变化概率中前目标数量的能量变化概率的平均值,第二概率均值为多个能量变化概率中后目标数量的能量变化概率的平均值;分别确定第三概率均值和第四概率均值,第三概率均值为多个过零率变化概率中前目标数量的过零率变化概率的平均值,第四概率均值为多个过零率变化概率中后目标数量的过零率变化概率的平均值;若第二数量大于或等于第三数量阈值,且第一概率均值小于第二概率均值与第二预设比例的乘积或第三概率均值小于第四概率均值与第二预设比例的乘积,则确定音频信号为语音信号;若第三数量小于第二数量阈值且大于或等于第三数量阈值,且第二预设比例与第一概率均值的乘积大于第二概率均值或第二预设比例与第三概率均值的乘积大于第四概率均值,则确定音频信号为非语音信号。
76.在一些实施例中,该语音检测方法还包括:若多帧频谱中非目标频谱的第三数量大于或等于第二数量阈值,则确定音频信号为非语音信号。
77.在一些实施例中,基于第一采样点的倍频信息,对音频信号进行语音检测,包括:基于第一采样点的倍频信息,确定第二目标倍频采样点,第二目标倍频采样点的振幅值为目标帧频谱中的振幅极大值;若第二目标倍频采样点的第四数量大于或等于第一数量阈值,则确定音频信号为语音信号。
78.在一些实施例中,第二目标倍频采样点的确定过程,包括:确定两个候选采样点,两个候选采样点分别为初始倍频采样点之前和之后的采样点,初始倍频采样点为第一采样点在目标倍数的采样点;基于两个候选采样点和初始倍频采样点,确定第一采样点在目标倍数的第二目标倍频采样点。
79.在一些实施例中,多个采样点中振幅值为目标帧频谱中的振幅极大值、且振幅值大于振幅阈值的采样点被赋值为第一数值,基于两个候选采样点和初始倍频采样点,确定第一采样点在目标倍数的第二目标倍频采样点,包括:若两个候选采样点和初始倍频采样点中包括被赋值为第一数值的采样点,将被赋值为第一数值的采样点确定为第一采样点在目标倍数的第二目标倍频采样点。
80.在一些实施例中,第一采样点的确定过程,包括:确定初始采样点,初始采样点的振幅值为目标帧频谱中的振幅极大值,且振幅值大于振幅阈值;分别获取初始采样点对应
的两个辅助采样点,两个辅助采样点分别为采样点之前且振幅值为目标帧频谱中的振幅极大值的最近采样点和采样点之后且振幅值为目标帧频谱中的振幅极大值的最近采样点;若两个辅助采样点的振幅值均大于振幅阈值,将初始采样点确定为第一采样点。
81.在一些实施例中,目标帧频谱中包括多个频谱极大值,振幅阈值的确定过程包括:从多个频谱极大值中确定目标极大值,目标极大值的值最大;确定目标极大值与第一预设比例的乘积,得到振幅阈值。
82.本技术实施例提供了一种语音检测方法,由于语音信号在倍频采样点的振幅值与其对应的采样点的振幅值具有相似的振幅极大值特点,这样基于频谱中采样点的倍频采样点的振幅值来检测音频信号是否为语音信号,能够有效检测出音频信号是否为语音信号,避免了基于短时能量和过零率不能准确检测信噪比低的音频信号的情况,从而提高了对音频信号进行语音检测的适用性。
83.本技术实施例提供了一种语音检测方法,参见图3,该语音检测方法包括:
84.步骤301:电子设备获取音频信号的目标帧频谱。
85.其中,该音频信号包括语音信号和非语音信号中的至少一种。目标帧频谱中包括目标帧的多个采样点的振幅值。在一种实现方式中,电子设备具有音频采集部件,如麦克风,用于获取音频信号。
86.在一些实施例中,目标帧频谱的获取过程包括:电子设备对音频信号进行分帧,得到该音频信号的多帧信号,基于该多帧信号得到目标帧频谱;其中,每帧信号包括多个采样点的信号值,该信号值用于表示该采样点音频信号的强度;可选地,该信号值为分贝值。其中,目标帧频谱可以根据需要进行确定;若音频信号为正在通话中的音频信号,则目标帧频谱为当前通话中的音频信号对应的频谱;若音频信号为之前生成的语音信号,则目标帧频谱可以为待检测语音信号中任意一帧音频信号对应的频谱。
87.可选地,电子设备对音频信号进行分帧的过程包括:电子设备确定分帧的帧长和帧移,基于该帧长和帧移对音频信号进行分帧,得到多帧信号。可选地,帧长为256,帧移为160,在此不作具体限定。其中,帧长256指256个采样点的长度,帧移160指每帧移动160个采样点。例如,音频信号的采样频率为16k,即1秒采集16000个采样点的信号值,则每256个采样点的信号值作为一帧信号,然后每次更新该256个采样点中的160个采样点的信号值,得到下一帧信号,即若第1个采样点至第256个采样点的信号值对应第一帧信号,则第161个采样点至第256 160个采样点的信号值对应第二帧信号,依次处理,实现对音频信号的分帧,得到音频信号的多帧信号,这样通过使多帧信号进行采样点的重叠,实现了多帧信号的平滑过渡。
88.相应地,电子设备基于该多帧信号得到目标帧频谱的过程包括,电子设备从多帧信号中确定待检测的目标帧信号,对该目标帧信号进行变换,得到该目标帧信号对应的目标帧频谱。可选地,电子设备对目标帧信号进行变换的过程包括以下步骤,电子设备对待检测的目标帧信号依次进行预加重、加窗和傅里叶变换,得到目标帧信号对应的第一单边频谱,作为目标帧频谱;其中,第一单边频谱为电子设备基于单边带调制技术绘制出的频谱。
89.在另一些实施例中,目标帧频谱的获取过程包括:电子设备对音频信号进行变换,得到该音频信号对应的音频频谱,对该音频频谱进行分帧,得到多帧频谱;然后电子设备确定该多帧频谱中对应待检测的目标帧信号的频谱,得到目标帧频谱。
90.可选地,电子设备对音频信号进行变换的过程包括以下步骤,电子设备对音频信号依次进行预加重、加窗和傅里叶变换,得到音频信号对应的第二单边频谱,第二单边频谱中包括多帧频谱。相应地,电子设备确定第二单边频谱中对应待检测的目标帧信号的频谱,得到目标帧频谱。其中,电子设备对音频频谱进行分帧的过程与对音频信号进行分帧的过程同理,在此不再赘述。
91.步骤302:电子设备基于目标帧频谱,确定多个采样点中的第一采样点。
92.其中,第一采样点的振幅值为目标帧频谱中的振幅极大值。在一些实施例中,电子设备确定振幅值为目标帧频谱中的振幅极大值、且目标帧频谱的振幅值大于振幅阈值的采样点为第一采样点;由于在采集音频信号时,采样频率会有一个从小到大的过渡过程,因此前两个采样点的采样频率较低,因此在一些实施例中,电子设备去除多个采样点中的前两个采样点,从剩余的采样点中确定第一采样点。如多个采样点为256个,则电子设备从第3个采样点到第256个采样点中确定第一采样点,以避免了前两个采样点由于采样频率过低造成的对第一采样点的影响。
93.在另一些实施例中,第一采样点的确定过程包括以下步骤:电子设备确定初始采样点,初始采样点的振幅值为目标帧频谱中的振幅极大值,且振幅值大于振幅阈值。电子设备分别获取初始采样点对应的两个辅助采样点,两个辅助采样点分别为采样点之前且振幅值为目标帧频谱中的振幅极大值的最近采样点和采样点之后且振幅值为目标帧频谱中的振幅极大值的最近采样点;若两个辅助采样点的振幅值均大于振幅阈值,将初始采样点确定为第一采样点。若两个辅助采样点中至少一个采样点的振幅值小于或等于振幅阈值,电子设备确定该初始采样点不为第一采样点。需要说明的是,初始采样点为多个,多个初始采样点的振幅值均为目标帧频谱中的振幅极大值,且振幅值大于振幅阈值。相应地,电子设备从多个初始采样点中确定一个或多个第一采样点。
94.其中,对于任意振幅值xn,n代表采样点的位置,振幅极大值满足x
n-1
《xn且xn》x
n 1
。例如,初始采样点为第5个采样点,其振幅值x5为目标帧频谱中的振幅极大值,且x5大于振幅阈值,则确定初始采样点对应的两个辅助采样点,两个辅助采样点分别为采样点之前且振幅值为目标帧频谱中的振幅极大值的最近采样点和采样点之后且振幅值为目标帧频谱中的振幅极大值的最近采样点,若该两个辅助采样点的振幅值均大于振幅阈值,则确定第5个采样点为第一采样点。
95.在一些实施例中,电子设备分别获取初始采样点之前的两个辅助采样点和之后的两个辅助采样点,该四个辅助采样点的振幅值为目标帧频谱中的振幅极大值,若该四个最近采样点的振幅值均大于振幅阈值,则确定该初始采样点为第一采样点。
96.在本技术实施例中,电子设备通过初始采样点之前且振幅值为目标帧频谱中的振幅极大值的最近采样点的振幅值和初始采样点之后且振幅值为目标帧频谱中的振幅极大值的最近采样点的振幅值,来确定第一采样点,保证了第一采样点的振幅值为振幅极大值,且大于振幅阈值的情况是准确的,避免了初始采样点偶然出现振幅极大值造成的对第一采样点的确定不准确的情况。
97.在一些实施例中,目标帧频谱中包括多个频谱极大值,振幅阈值的确定过程包括以下步骤:电子设备从多个频谱极大值中确定目标极大值,目标极大值的值最大;电子设备确定目标极大值与第一预设比例的乘积,得到振幅阈值。
98.可选地,第一预设比例为0.5~0.95之间的任意比例,如第一预设比例为0.5,第一预设比例为0.95或第一预设比例为0.8,在此不作具体限定。在本技术实施例中,通过基于多个频谱极大值中的最大值来确定振幅阈值,使得得到的振幅阈值更加符合多个采样点的振幅值的真实情况,进而便于后续基于振幅阈值来确定多个采样点中的第一采样点。
99.步骤303:电子设备获取第一采样点的倍频信息。
100.其中,第一采样点的倍频信息包括第一采样点的至少一个倍频采样点的振幅值。可选地,至少一个倍频采样点中的采样点依次相邻,可选地,至少一个倍频采样点为2个,分别包括第一采样点的2倍采样点和3倍采样点;至少一个倍频采样点为3个,分别包括第一采样点的2倍采样点、3倍采样点和4倍采样点;如第一采样点为第5个采样点,其至少一个倍频采样点可以包括2倍采样点、3倍采样点和4倍采样点等,即第10个采样点,第15个采样点和第20个采样点等。在本技术实施例中,至少一个倍频采样点的数量可以根据需要进行设置并更改,在此不作具体限定。
101.步骤304:电子设备基于第一采样点的倍频信息,确定第二目标倍频采样点。
102.其中,第二目标倍频采样点的振幅值为目标帧频谱中的振幅极大值。在一些实施例中,第二目标倍频采样点的确定过程,包括以下步骤:电子设备确定两个候选采样点,两个候选采样点分别为初始倍频采样点之前和之后的采样点,初始倍频采样点为第一采样点在目标倍数的采样点。电子设备基于两个候选采样点和初始倍频采样点,确定第一采样点在目标倍数的第二目标倍频采样点。可选地,目标倍数可以为2倍、3倍、3倍、4倍、5倍等中的至少一个。例如,目标倍数为2倍,第一采样点为第5个采样点,则初始倍频采样点为第10个采样点,两个候选采样点分别为第9个采样点和第11个采样点。
103.在另一些实施例中,电子设备确定四个候选采样点,该四个候选采样点分别为初始倍频采样点之前的两个采样点和之后的两个采样点;电子设备基于该四个候选采样点和初始倍频采样点,确定第一采样点在目标倍数的第二目标倍频采样点。在一些实施例中,多个采样点中振幅值为目标帧频谱中的振幅极大值、且振幅值大于振幅阈值的采样点被赋值为第一数值;电子设备基于该四个候选采样点和初始倍频采样点,确定第一采样点在目标倍数的第二目标倍频采样点的过程包括:若该四个候选采样点中和初始倍频采样点中包括被赋值为第一数值的采样点,电子设备将被赋值为第一数值的采样点确定为第一采样点在目标倍数的第二目标倍频采样点。
104.在该实施例中,通过第一采样点在目标倍数采样点之前和之后的采样点来确定第一采样点的第二目标倍频采样点,充分考虑了第二目标倍频采样点的位置出现偏差的情况,使得即使第二目标倍频采样点的位置出现偏差,也能够基于其前后的采样点确定第二目标倍频采样点,从而提高了确定的第二目标倍频采样点的合理性。
105.在一些实施例中,多个采样点中振幅值为目标帧频谱中的振幅极大值、且振幅值大于振幅阈值的采样点被赋值为第一数值,电子设备基于两个候选采样点和初始倍频采样点,确定第一采样点在目标倍数的第二目标倍频采样点,包括以下步骤:若两个候选采样点和初始倍频采样点中包括被赋值为第一数值的采样点,电子设备将被赋值为第一数值的采样点确定为第一采样点在目标倍数的第二目标倍频采样点。
106.可选地,目标倍数可以为2倍、3倍、3倍、4倍、5倍等中的至少一个。例如,目标倍数为2倍,第一采样点为第5个采样点,则初始倍频采样点为第10个采样点,两个候选采样点分
别为第9个采样点和第11个采样点,若第9个采样点、第11个采样点和第10个采样点中包括被赋值为第一数值的采样点,则将被赋值为第一数值的采样点确定为第一采样点在目标倍数的第二目标倍频采样点。例如,若第9个采样点被赋值为第一数值,则第9个采样点为第5个采样点在2倍的第二目标倍频采样点;若第11个采样点被赋值为第一数值,则第11个采样点为第5个采样点在2倍的第二目标倍频采样点。若第10个采样点被赋值为第一数值,则第10个采样点为第5个采样点在2倍的第二目标倍频采样点。在一些实施例中,第一采样点在目标倍数的第二目标倍频采样点可以为多个,即两个候选采样点和初始倍频采样点中至少两个采样点均被赋值为第一数值,在此不作具体限定。
107.其中,第一数值用于标记采样点的振幅值为目标频谱中的振幅极大值,且其振幅值大于振幅阈值,第一数值的具体数值可以根据需要进行设定并更改,在此不作具体限定;如第一数值为1。
108.在本技术实施例中,通过将初始倍频采样点之前和之后的满足振幅值条件的采样点作为第一采样点的第二目标倍频采样点,允许了第二目标倍频采样点的位置偏差的存在,进而提高了确定的第二目标倍频采样点的合理性。
109.步骤305:若第二目标倍频采样点的第四数量大于或等于第一数量阈值,电子设备则确定音频信号为语音信号。
110.其中,第一数量阈值可以根据需要进行设定并更;可选地,第一数量阈值为3。在一些实施例中,第四数量的第二目标倍频采样点为从第一采样点的2倍采样点起依次相邻的倍频采样点。如第四数量为3,则第四数量的第二目标倍频采样点依次为第一采样点的2倍采样点、3倍采样点和4倍采样点。
111.在一些实施例中,目标帧频谱中包括多个第一采样点,若多个第一采样点中至少一个第一采样点对应的第二目标倍频采样点的第四数量大于或等于第一数量阈值,电子设备则确定音频信号为语音信号。若多个第一采样点分别对应的第二目标倍频采样点的第四数量均小于第一数量阈值,电子设备则确定该音频信号为非语音信号。
112.在一种实现方式中,电子设备将振幅值为振幅极大值,但振幅值小于或等于振幅阈值的采样点赋值为第二数值;可选地,多个采样点中振幅值不是振幅极大值的采样点也被赋值为第二数值,第二数值用于标记不是第一采样点的其他采样点。其中,第二数值与第一数值不同,如第一数值为1,第二数值为0。在该实现方式中,通过对振幅值为目标频谱中的振幅极大值,且其振幅值大于振幅阈值的采样点赋值第一数值,使得电子设备能够从多个采样点中快速确定第一采样点,进而提高了确定第一采样点的效率。
113.本技术实施例提供了一种语音检测方法,由于语音信号在倍频采样点的振幅值与其对应的采样点的振幅值具有相似的振幅极大值特点,这样基于频谱中采样点的倍频采样点的振幅值来检测音频信号是否为语音信号,能够有效检测出音频信号是否为语音信号,避免了基于短时能量和过零率不能准确检测信噪比低的音频信号的情况,从而提高了对音频信号进行语音检测的适用性。
114.本技术实施例提供了一种语音检测方法,参见图4,该语音检测方法包括:
115.步骤401:电子设备获取音频信号的目标帧频谱。
116.该步骤与步骤301同理,在此不再赘述。
117.步骤402:电子设备基于目标帧频谱,确定多个采样点中的第一采样点。
118.该步骤与步骤302同理,在此不再赘述。
119.步骤403:电子设备获取第一采样点的倍频信息和至少一个第二采样点的倍频信息。
120.其中,第一采样点的倍频信息包括第一采样点的至少一个倍频采样点的振幅值,第二采样点的倍频信息包括第二采样点的至少一个倍频采样点的振幅值,第二采样点的振幅值为其他帧频谱中的振幅极大值,其他帧频谱为音频信号中与目标帧频谱相邻的频谱。可选地,其他帧频谱为音频信号中位于目标帧频谱之前的频谱或为音频信号中位于目标帧频谱之后的频谱,可以根据需要进行设定并更改,在此不作具体限定。
121.其中,其他帧频谱为至少一个,若其他帧频谱为音频信号中位于目标帧频谱之前的频谱,则至少一个其他帧频谱为目标帧频谱之前且与目标帧频谱相邻的连续频谱,至少一个其他帧频谱的数量可以根据需要进行设定并更改。如其他帧频谱为9帧,目标帧频谱为第10帧频谱,则其他帧频谱分别为第9帧频谱、第8帧频谱

第1帧频谱。多帧频谱分别表示为m10、m9、m8、
……
、m1。
122.电子设备获取第一采样点的倍频信息的步骤与步骤303同理,在此不再赘述。电子设备获取第二采样点的倍频信息的步骤与电子设备获取第一采样点的倍频信息的步骤同理,在此不再赘述。
123.步骤404:电子设备基于第一采样点的倍频信息和至少一个第二采样点的倍频信息,确定第一目标倍频采样点。
124.其中,第一目标倍频采样点的振幅值为其他帧频谱和目标帧频谱组成的多帧频谱中的振幅极大值。该步骤中电子设备确定第一目标倍频采样点的步骤与步骤304中电子设备确定第二目标倍频采样点的步骤同理,在此不再赘述。
125.步骤405:电子设备基于第一目标倍频采样点,确定多帧频谱中的目标频谱。
126.其中,目标频谱包括第一采样点和至少一个第二采样点中的目标采样点,目标采样点对应的第一目标倍频采样点的第一数量大于或等于第一数量阈值。
127.步骤406:若第二数量大于或等于第二数量阈值,电子设备则确定音频信号为语音信号,第二数量为多帧频谱中包括的目标频谱的数量。
128.在一些实施例中,电子设备从目标帧频谱开始,确定其与之前依次相邻的目标频谱的第二数量大于或等于第二数量阈值,则确定音频信号为语音信号,即第二数量为从目标帧频谱开始连续的目标频谱的数量,如第二数量为8,则第二数量的目标帧频谱依次为m10、m9、m8、m7、m6、m5、m4、m3。
129.其中,第二数量阈值可以根据需要进行设定并更改,在此不作具体限定;可选地,第二数量阈值为8。在一种实现方式中,第二数量阈值与多帧频谱的数量关联,第二数量阈值随着多帧频谱的数量的增多而增大。如多帧频谱的数量为10,则第二数量阈值为8;如多帧频谱的数量为20,则第二数量阈值为16。
130.在一些实施例中,若多帧频谱中非目标频谱的第三数量大于或等于第二数量阈值,则确定音频信号为非语音信号。
131.其中,电子设备基于第一目标倍频采样点,确定多帧频谱中的非目标频谱;非目标频谱不包括目标采样点。在一种实现方式中,电子设备从目标帧频谱开始,确定其与之前依次相邻的非目标频谱的第三数量大于或等于第二数量阈值,则确定音频信号为语音信号,
即第三数量为从目标帧频谱开始连续的非目标频谱的数量,如第三数量为8,则第三数量的非目标帧频谱依次为m10、m9、m8、m7、m6、m5、m4、m3。
132.在一些实施例中,电子设备确定目标频谱后,将目标频谱标记为第一标识,进而便于电子设备确定目标频谱的第二数量。可选地,电子设备还对非目标频谱标记第二标识,进而便于电子设备确定非目标频谱的第三数量,这样对目标频谱和非目标频谱进行标记,进而能够提高对音频信号进行检测的效率。其中,第一标识和第二标识不同,第一标识和第二标识均可以为文字标识、数字标识或字母标识,在此不作具体限定。如第一标识为1,第二标识为0。
133.在一些实施例中,若多帧频谱中目标频谱的第二数量大于或等于第二数量阈值,则电子设备将多帧频谱标记为第三标识;若多帧频谱中非目标频谱的第三数量大于或等于第二数量阈值,则电子设备将多帧频谱标记为第四标识,进而便于后续电子设备基于多帧频谱的标识对音频信号进行语音检测。其中,第三标识和第四标识不同,第三标识和第四标识均可以为文字标识、数字标识或字母标识,在此不作具体限定。如第三标识为2,则第四标识为-2,可选地,多帧频谱标识表示为fm,fm=2则表示多帧频谱被标记为第三标记,fm=-2则表示多帧频谱被标记为第四标识。相应地,若多帧频谱中连续存在第二数量阈值及以上的频谱被标记为第一标识,则确定fm=2,若多帧频谱中连续存在第二数量阈值及以上频谱被标记为第二标识,则确定fm=-2,进而便于基于标识fm的值直接确定音频信号是否为语音信号。
134.在本技术实施例中,通过多帧频谱中的采样点的倍频信息对音频信号进行语音检测,由于多帧频谱的采样点的倍频信息的数据量大,进而基于多帧频谱中的采样点的倍频信息对音频信号进行语音检测,能够提高对音频信号进行语音检测的准确性。
135.本技术实施例提供了一种语音检测方法,参见图5,该语音检测方法包括:
136.步骤501:电子设备获取音频信号的目标帧频谱。
137.步骤502:电子设备基于目标帧频谱,确定多个采样点中的第一采样点。
138.步骤503:电子设备获取第一采样点的倍频信息和至少一个第二采样点的倍频信息。
139.步骤504:电子设备基于第一采样点的倍频信息和至少一个第二采样点的倍频信息,确定第一目标倍频采样点。
140.步骤505:电子设备基于第一目标倍频采样点,确定多帧频谱中的目标频谱。
141.步骤501-505与步骤401-405同理,在此不再赘述。
142.步骤506:若第二数量小于第二数量阈值,电子设备则获取多帧频谱的能量参数和过零率参数。
143.其中,能量参数包括多帧频谱分别对应的能量,过零率参数包括多帧频谱分别对应的过零率。在一些实施例中,每帧频谱对应的能量分别为短时能量,电子设备获取多帧频谱的能量参数的过程包括以下步骤:电子设备获取待处理的当前帧的音频信号,对当前帧的多个采样点对应的音频信号,依次进行预加重、加窗和傅里叶变换,得到当前帧音频信号对应的单边频谱,对单边频谱进行平方,得到多个采样点长度的功率谱,然后对功率谱中每个采样点对应的能量进行累加后平均,得到该帧频谱对应的能量。在另一种实现方式中,电子设备直接对基于步骤301中处理得到的单边频谱进行平方,得到多个采样点长度的功率
谱。
144.在一种实现方式中,电子设备去除多个采样点中前两个采样点的能量,对剩余的多个采样点的能量进行平均,得到当前帧频谱对应的能量。如多个采样点为256个,则电子设备对第3个采样点到第256个采样点的能量累加后平均,得到当前帧频谱对应的能量;这样避免了前两个采样点由于采样频率过低造成的对多个采样点的平均能量的影响,进而保证了当前帧频谱对应的能量的准确性。
145.在一些实施例中,电子设备获取多帧频谱的过零率参数的过程包括以下步骤:电子设备对于每帧频谱,基于该帧频谱对应的音频信号的多个采样点的信号值,依次确定相邻两个采样点的乘积是否小于0,即确定第n个采样点的信号值乘以第n-1个采样点的信号值是否小于0。在一种实现方式中,电子设备通过计数器进行计数,相邻两个采样点的乘积是小于0,则计数器累加1,依次累加,最后得到的计数个数即为过零率。
146.步骤507:电子设备基于多帧频谱分别对应的能量和多帧频谱分别对应的过零率,确定多帧频谱中除第一帧和最后一帧以外的各相邻两帧频谱之间的第一差值和第二差值。
147.其中,第一差值为两帧频谱的能量之差,第二差值为两帧频谱的过零率之差。
148.可选地,第一差值为后一帧频谱的能量减去前一帧频谱的能量得到的差值。例如,10帧频谱对应的能量分别表示为e10、e9、e8、e7、
……
、e2、e1,分别代表第10帧频谱、第9帧频谱、
……
、第1帧频谱的能量,则多个第一差值分别为de9=e10-e9、de9=e9-e8、
……
、de1=e2-e1。第二差值为后一帧频谱的过零率减去后一帧频谱的过零率得到的差值。例如,多帧频谱对应的过零率分别表示为z10、z9、z8、z7、
……
、z2、z1,分别代表第10帧频谱、第9帧频谱、
……
、第1帧频谱的过零率,则多个第二差值分别为dz9=z10-z9、dz9=z9-z8、
……
、dz1=z2-z1。
149.步骤508:电子设备对多个第一差值进行线性拟合,得到第一拟合参数;对多个第二差值进行线性拟合,得到第二拟合参数。
150.其中,第一拟合参数为对多个第一差值进行线性拟合得到的斜率k1,第二拟合参数为对多个第二差值进行线性拟合得到的斜率k2。
151.步骤509:电子设备基于第二数量、第一拟合参数和第二拟合参数,对音频信号进行语音检测。
152.在一种实现方式中,若第二数量大于或等于第三数量阈值,且第一拟合参数大于第一拟合阈值或第二拟合参数小于第二拟合阈值,电子设备则确定音频信号为语音信号。在另一种实现方式中,多帧频谱中非目标频谱的数量为第三数量,若第三数量小于第二数量阈值且大于或等于第三数量阈值,且第一拟合参数小于第一拟合阈值或第二拟合参数大于第二拟合阈值,电子设备则确定音频信号为非语音信号。
153.其中,第三数量阈值小于第二数量阈值,第三数量阈值可以根据需要进行设定并更改,在此不作具体限定;可选地,第三数量阈值为3。其中,第三数量阈值与多帧频谱的数量关联,且小于第二数量阈值,第三数量阈值随着多帧频谱的数量的增多而增大。如多帧频谱的数量为10,第二数量阈值为8,第三数量阈值为3;如多帧频谱的数量为20,第二数量阈值为16,第三数量阈值为6。
154.其中,第一拟合阈值和第二拟合阈值可以根据需要进行设定并更改,如第一拟合阈值为1,第二拟合阈值为-1,这样,若第一拟合参数大于1,则说明多帧频谱的能量逐渐增
大。若第二拟合参数小于-1,则说明多帧频谱的过零率逐渐减小。同理,若第一拟合参数小于-1,则说明多帧频谱的能量依次减小。若第二拟合参数大于1,则说明多帧频谱的过零率逐渐增大。在本技术实施例中,由于语音信号的短时能量大,且过零率小,由于第二数量在第三数量阈值和第二数量阈值之间,仅代表该音频信号可能为语音信号,进而再第一拟合参数大于第一拟合阈值或第二拟合参数小于第二拟合阈值,就能够确定该音频信号为语音信号,第一拟合参数小于第一拟合阈值或第二拟合参数大于第二拟合阈值,就能够确定该音频信号为非语音信号,进而提高了对语音信号检测的准确性。
155.在本技术实施例中,由于多个第一差值线性拟合得到的第一拟合参数和多个第二差值线性拟合得到的第二拟合参数能够分别有效表征多帧频谱的短时能量变化趋势和过零率变化趋势,这样基于第一拟合参数和第二拟合参数来对音频信号进行语音检测,能够提高检测的可靠性。
156.在一些实施例中,电子设备将第二数量大于或等于第三数量阈值的多帧频谱标记为第五标识,将第三数量小于第二数量阈值且大于或等于第三数量阈值的多帧频谱标记也标记为第五标识,该第五标识用于表示该基于多帧频谱的倍频信息不能直接确定音频信号为语音信号或非语音信号。这样通过第三标识和第四标识标记基于多帧频谱的倍频信息能够直接对音频信号进行检测,且基于第五标识标记基于多帧频谱的倍频信息不能直接对音频信号进行检测,进而便于后续对标记第五标识的多帧频谱,来获取该多帧频谱的能量参数和过零率参数进行语音检测,进而提高了语音检测的效率。
157.在一些实施例中,电子设备基于第一拟合参数对多帧频谱标记第一拟合标识fe1;其中,电子设备对第一拟合参数大于第一拟合阈值的多帧频谱标记第六标识,对第一拟合参数小于第一拟合阈值的多帧频谱标记第七标识。电子设备基于第二拟合参数对多帧频谱标记第二拟合标识fz1;其中,电子设备对第二拟合参数小于第二拟合阈值的多帧频谱标记为第八标识,对第二拟合参数大于第二拟合阈值的多帧频谱标记为第九标识,如第一拟合参数大于第一拟合阈值且第二拟合参数小于第二拟合阈值的多帧频谱标记第六标识和第八标识,第一拟合参数小于第一拟合阈值且第二拟合参数大于第二拟合阈值标记第七标识和第九标识。可选地,第六标识与第七标识不同,第八标识与第九标识不同,第六标识与第八标识相同或不同,第七标识和第九标识相同或不同;如第六标识为和第八标识均为1,即fe1=1,fz1=1,第七标识和第九标识均为-1,即fe1=-1,fz1=-1。相应地,若多帧频谱标记第五标识,第一拟合标识fe1》0或第二拟合标识fz1》0,则电子设备确定该音频信号为语音信号。若多帧频谱标记为第五标识,第一拟合标识fe1《0,或第二拟合标识fz1《0,则确定该音频信号为非语音信号。
158.在该实施例中,通过对多帧频谱进行标记,进而便于在多帧频谱标记为第五标识时,基于多种频谱的第一拟合标识或第二拟合标识确定音频信号是否为语音信号,简单直接,进而能够实现对音频信号的快速语音检测。
159.在一些实施例中,若第二数量大于或等于第三数量阈值,且第一拟合参数大于第一拟合阈值以及第二拟合参数小于第二拟合阈值,电子设备则确定音频信号为语音信号。在另一种实现方式中,若第三数量小于第二数量阈值且大于或等于第三数量阈值,且第一拟合参数小于第一拟合阈值以及第二拟合参数大于第二拟合阈值,电子设备则确定音频信号为非语音信号。在该实施例中,这样基于倍频信息、能量参数和过零率参数三种判据综合
对音频信号进行语音检测,进而能够提高语音检测的可靠性和准确性。
160.在本技术实施例中,由于语音信号的短时能量大,过零率小,而非语音信号的短时能量小,过零率大,这样在基于多帧频谱的采样点的倍频信息不能直接确定音频信号是否为语音信号的情况下,结合多帧频谱的短时能量和过零率来对音频信号进行语音检测,进而提高了语音检测的灵活性和可靠性,使得对音频信号的语音检测更加准确。
161.本技术实施例提供了一种语音检测方法,参见图6,该语音检测方法包括:
162.步骤601:电子设备获取音频信号的目标帧频谱。
163.步骤602:电子设备基于目标帧频谱,确定多个采样点中的第一采样点。
164.步骤603:电子设备获取第一采样点的倍频信息和至少一个第二采样点的倍频信息。
165.步骤604:电子设备基于第一采样点的倍频信息和至少一个第二采样点的倍频信息,确定第一目标倍频采样点。
166.步骤605:电子设备基于第一目标倍频采样点,确定多帧频谱中的目标频谱。
167.步骤606:若第二数量小于第二数量阈值,电子设备则获取多帧频谱的能量参数和过零率参数。
168.步骤607:电子设备基于多帧频谱分别对应的能量和多帧频谱分别对应的过零率,确定多帧频谱中除第一帧和最后一帧以外的各相邻两帧频谱之间的第一差值和第二差值。
169.步骤601-607与步骤501-507同理,在此不再赘述。
170.步骤608:电子设备确定多个第一差值分别对应的能量变化概率以及确定多个第二差值分别对应的过零率变化概率。
171.在一种实现方式中,电子设备基于多个第一差值,通过以下softmax(一种概率函数)函数,分别确定每个第一差值对应的能量变化概率。电子设备基于多个第二差值,通过以下softmax函数,分别确定每个第二差值对应的过零率变化概率。
172.softmax函数:
173.其中,xi代表第i个差值。若电子设备通过该函数确定能量变化概率,则xi代表第i个第一差值,c代表多个第一差值的数量。若电子设备通过该函数确定过零率变化概率,则xi代表第二差值,c代表多个第二差值的数量。
174.可选地,电子设备对多个第一差值de1、de2、
……
、de9利用softmax函数进行处理得到的多个能量变化概率分别表示为pe1、pe2、
……
、pe9。电子设备对多个第二差值dz1、dz2、
……
、dz9利用softmax函数进行处理得到的多个过零率变化概率分别表示为pz1、pz2、
……
、pz9。
175.步骤609:电子设备基于第二数量、多个第一差值分别对应的能量变化概率和多个第二差值分别对应的过零率变化概率,对音频信号进行语音检测。
176.在一些实施例中,电子设备基于第二数量、多个第一差值分别对应的能量变化概率和多个第二差值分别对应的过零率变化概率,对音频信号进行语音检测,包括以下步骤:电子设备分别确定第一概率均值和第二概率均值,第一概率均值为多个能量变化概率中前目标数量的能量变化概率的平均值,第二概率均值为多个能量变化概率中后目标数量的能量变化概率的平均值。电子设备分别确定第三概率均值和第四概率均值,第三概率均值为
多个过零率变化概率中前目标数量的过零率变化概率的平均值,第四概率均值为多个过零率变化概率中后目标数量的过零率变化概率的平均值。若第二数量大于或等于第三数量阈值,且第一概率均值小于第二概率均值与第二预设比例的乘积或第三概率均值小于第四概率均值与第二预设比例的乘积,电子设备则确定音频信号为语音信号。若第三数量小于第二数量阈值且大于或等于第三数量阈值,且第二预设比例与第一概率均值的乘积大于第二概率均值或第二预设比例与第三概率均值的乘积大于第四概率均值,电子设备则确定音频信号为非语音信号。
177.可选地,前目标数量的能量变化概率与后目标数量的能量变化概率的数量相同。例如,多个能量变化概率的数量为9个,则电子设备确定前5个能量变化概率的平均值,得到第一概率均值,以及电子设备确定后5个能量变化概率的平均值,得到第二概率均值。如多个能量变化概率分别为pe1、pe2、
……
、pe9,则第一概率均值pem0=(pe1~pe5)/5,第二概率均值pem1=(pe5~pe9)/5。
178.同理,前目标数量的过零率变化概率与后目标数量的过零率变化概率的数量相同。例如,多个过零率变化概率的数量为9个,则电子设备确定前5个过零率变化概率的平均值,得到第三概率均值,以及电子设备确定后5个过零率变化概率的平均值,得到第四概率均值。如多个过零率变化概率分别为pz1、pz2、
……
pz9,则第三概率均值pzm0=(pz1~pz5)/5,第四概率均值pzm1=(pz5~pz9)/5。
179.其中,第二预设比例为0到1之间的数值,可以根据需要进行设定并更改,如第二预设比例为0.8,则第一概率均值和第二概率均值之间满足关系式,pem0《0.8*pem1,或第三概率均值和第四概率均值之间满足关系式pzm0《0.8*pzm1,电子设备确定该音频信号为语音信号。第一概率均值和第二概率均值之间满足关系式0.8*pem0》pem1,或第三概率均值和第四概率均值之间满足关系式0.8*pzm0》pzm1,电子设备确定该音频信号为非语音信号。
180.需要说明的是,虽然能量变化概率为第一差值对应的能量变化的概率,但仅在第一概率均值小于第二概率均值的情况下,不能准确说明多帧频谱的能量逐渐增大,仅当第二概率均值大于第一概率均值较大程度时,才能准确说明多帧频谱的能量逐渐增大。同理,虽然过零率变化概率为第二差值对应的过零率变化的概率,但仅在第三概率均值小于第四概率均值的情况下,不能准确说明多帧频谱的过零率的减小情况,仅当第四概率均值大于第三概率均值较大程度时,才能准确说明多帧频谱的过零率逐渐减小。这样,在本技术实施例中,若第一概率均值小于第二概率均值与第二预设比例的乘积或第三概率均值小于第四概率均值与第二预设比例的乘积,确定该音频信号为语音信号;若第二预设比例与第一概率均值的乘积大于第二概率均值或第二预设比例与第三概率均值的乘积大于第四概率均值,确定该音频信号为非语音信号,进而提高了对语音信号进行检测的准确性。
181.在本技术实施例中,由于能量变化概率和过零率变化概率能够分别表征能量变化的概率和过零率变化的概率,这样基于多个第一差值分别对应的能量变化概率和多个第二差值分别对应的过零率变化概率来对音频信号进行语音检测,能够提高检测的可靠性。
182.在一些实施例中,电子设备基于第一概率均值和第二概率均值对多帧频谱标记能量变化概率标识fe2;其中,电子设备对第一概率均值小于第二概率均值的第二预设比例的多帧频谱标记为第十标识,对第二预设比例与第一概率均值的乘积大于第二概率均值的多帧频谱标记为第十一标识。电子设备基于第三概率均值和第四概率均值对多帧频谱标记过
零率变化概率标识fz2;其中,电子设备对第三概率均值小于第四概率均值与第二预设比例的乘积的多帧频谱标记第十二标识,对第二预设比例与第三概率均值的乘积大于第四概率均值的多帧频谱标记第十三标识。可选地,第十标识和第十一标识不同,第十二标识和第十三标识不同,第十标识和第十二标识相同或不同,第十一标识与第十三标识相同或不同。如第十标识和第十二标识均为1,即fe2=1,fz2=1,第十一标识与第十三标识均为-1,即fe2=-1,fz2=-1。相应地,若多帧频谱标记为第五标识,能量变化概率标识fe2》0或过零率变化概率标识fz2》0,则电子设备确定该音频信号为语音信号。若多帧频谱标记为第五标识,能量变化概率标识fe2《0,或过零率变化概率标识fz2《0,则确定该音频信号为非语音信号。
183.在该实施例中,通过对多帧频谱进行标记,进而便于在多帧频谱标记为第五标识时,基于多种频谱的能量变化概率标识和过零率变化概率标识确定音频信号是否为语音信号,简单直接,进而能够实现对音频信号的快速语音检测。
184.在一些实施例中,若第二数量大于或等于第三数量阈值,且第一概率均值小于第二概率均值与第二预设比例的乘积以及第三概率均值小于第四概率均值与第二预设比例的乘积,电子设备则确定音频信号为语音信号。若第三数量小于第二数量阈值且大于或等于第三数量阈值,且第二预设比例与第一概率均值的乘积大于第二概率均值以及第二预设比例与第三概率均值的乘积大于第四概率均值,电子设备则确定音频信号为非语音信号。在该实施例中,这样基于倍频信息、能量参数和过零率参数三种判据综合对音频信号进行语音检测,进而能够提高语音检测的可靠性和准确性。
185.参见图7,图7为本身申请实施例提供的一种音频信号和频谱的示意图,图7的上部分代表音频信号,下部分代表频谱图;其中,频谱中框出来的为该部分音频信号中的语音信号,从图中可以看出,该段频谱的采样点及其倍频采样点之间的距离的振幅值是相近的,即语音信号的频谱存在多阶性,进而能够基于采样点的倍频信息对音频信号进行语音检测,且检测结果是可靠的。需要说明的是,通过本技术实施例提供的方法,实现了通过多种判据对音频信号进行语音检测,保证了检测结果的准确性,不仅避免了仅通过短时能量和过零率对信噪比低的音频信号的检测结果准确性低的情况;且避免了通过大量样本音频数据训练语音识别模型的过程,降低了运算量,即本技术实施例提供的方法同时充分考虑到了数据的运算量和检测结果的准确性,进而能够在数据运算量一定的情况下保证检测结果的精度。
186.在本技术实施例中,由于语音信号的短时能量大,过零率小,而非语音信号的短时能量小,过零率大,这样在基于多帧频谱的采样点的倍频信息不能直接确定音频信号是否为语音信号的情况下,结合多帧频谱的短时能量和过零率来对音频信号进行语音检测,进而提高了语音检测的灵活性,使得对音频信号的语音检测更加准确。
187.本技术实施例还提供了一种语音检测装置,参见图8,该语音检测装置包括:
188.第一获取模块801,用于获取音频信号的目标帧频谱,目标帧频谱中包括目标帧的多个采样点的振幅值;
189.第一确定模块802,用于基于目标帧频谱,确定多个采样点中的第一采样点,第一采样点的振幅值为目标帧频谱中的振幅极大值;
190.第二获取模块803,用于获取第一采样点的倍频信息,第一采样点的倍频信息包括第一采样点的至少一个倍频采样点的振幅值;
191.检测模块804,用于基于第一采样点的倍频信息,对音频信号进行语音检测。
192.在一些实施例中,检测模块804,用于获取至少一个第二采样点的倍频信息,第二采样点的倍频信息包括第二采样点的至少一个倍频采样点的振幅值,第二采样点的振幅值为其他帧频谱中的振幅极大值,其他帧频谱为音频信号中与目标帧频谱相邻的频谱;基于第一采样点的倍频信息和至少一个第二采样点的倍频信息,确定第一目标倍频采样点,第一目标倍频采样点的振幅值为其他帧频谱和目标帧频谱组成的多帧频谱中的振幅极大值;基于第一目标倍频采样点,确定多帧频谱中的目标频谱,目标频谱包括第一采样点和至少一个第二采样点中的目标采样点,目标采样点对应的第一目标倍频采样点的第一数量大于或等于第一数量阈值;若第二数量大于或等于第二数量阈值,则确定音频信号为语音信号,第二数量为多帧频谱中包括的目标频谱的数量。
193.在一些实施例中,检测模块804,用于若第二数量小于第二数量阈值,则获取多帧频谱的能量参数和过零率参数;基于第二数量、能量参数和过零率参数,对音频信号进行语音检测。
194.在一些实施例中,能量参数包括多帧频谱分别对应的能量,过零率参数包括多帧频谱分别对应的过零率;检测模块804,用于基于多帧频谱分别对应的能量和多帧频谱分别对应的过零率,确定多帧频谱中除第一帧和最后一帧以外的各相邻两帧频谱之间的第一差值和第二差值,第一差值为两帧频谱的能量之差,第二差值为两帧频谱的过零率之差;基于第二数量以及多帧频谱对应的多个第一差值和多个第二差值,对音频信号进行语音检测。
195.在一些实施例中,检测模块804,用于对多个第一差值进行线性拟合,得到第一拟合参数;对多个第二差值进行线性拟合,得到第二拟合参数;基于第二数量、第一拟合参数和第二拟合参数,对音频信号进行语音检测。
196.在一些实施例中,多帧频谱中非目标频谱的数量为第三数量,检测模块804,用于若第二数量大于或等于第三数量阈值,且第一拟合参数大于第一拟合阈值或第二拟合参数小于第二拟合阈值,则确定音频信号为语音信号;
197.若第三数量小于第二数量阈值且大于或等于第三数量阈值,且第一拟合参数小于第一拟合阈值或第二拟合参数大于第二拟合阈值,则确定音频信号为非语音信号。
198.在一些实施例中,检测模块804,用于确定多个第一差值分别对应的能量变化概率以及确定多个第二差值分别对应的过零率变化概率;基于第二数量、多个第一差值分别对应的能量变化概率和多个第二差值分别对应的过零率变化概率,对音频信号进行语音检测。
199.在一些实施例中,多帧频谱中非目标频谱的数量为第三数量,检测模块804,用于分别确定第一概率均值和第二概率均值,第一概率均值为多个能量变化概率中前目标数量的能量变化概率的平均值,第二概率均值为多个能量变化概率中后目标数量的能量变化概率的平均值;分别确定第三概率均值和第四概率均值,第三概率均值为多个过零率变化概率中前目标数量的过零率变化概率的平均值,第四概率均值为多个过零率变化概率中后目标数量的过零率变化概率的平均值;若第二数量大于或等于第三数量阈值,且第一概率均值小于第二概率均值与第二预设比例的乘积或第三概率均值小于第四概率均值与第二预设比例的乘积,则确定音频信号为语音信号;若第三数量小于第二数量阈值且大于或等于第三数量阈值,且第二预设比例与第一概率均值的乘积大于第二概率均值或第二预设比例
与第三概率均值的乘积大于第四概率均值,则确定音频信号为非语音信号。
200.在一些实施例中,该语音检测装置还包括第二确定模块,用于若多帧频谱中非目标频谱的第三数量大于或等于第二数量阈值,则确定音频信号为非语音信号。
201.在一些实施例中,检测模块804,用于基于第一采样点的倍频信息,确定第二目标倍频采样点,第二目标倍频采样点的振幅值为目标帧频谱中的振幅极大值;若第二目标倍频采样点的第四数量大于或等于第一数量阈值,则确定音频信号为语音信号。
202.在一些实施例中,该语音检测装置还包括第三确定模块,用于确定两个候选采样点,两个候选采样点分别为初始倍频采样点之前和之后的采样点,初始倍频采样点为第一采样点在目标倍数的采样点;基于两个候选采样点和初始倍频采样点,确定第一采样点在目标倍数的第二目标倍频采样点。
203.在一些实施例中,多个采样点中振幅值为目标帧频谱中的振幅极大值、且振幅值大于振幅阈值的采样点被赋值为第一数值,第三确定模块,用于若两个候选采样点和初始倍频采样点中包括被赋值为第一数值的采样点,将被赋值为第一数值的采样点确定为第一采样点在目标倍数的第二目标倍频采样点。
204.在一些实施例中,该语音检测装置还包括:
205.第四确定模块,用于确定初始采样点,初始采样点的振幅值为目标帧频谱中的振幅极大值,且振幅值大于振幅阈值;
206.第三获取模块,用于分别获取初始采样点之前且振幅值为目标帧频谱中的振幅极大值的最近采样点和初始采样点之后且振幅值为目标帧频谱中的振幅极大值的最近采样点;
207.第五确定模块,用于若初始采样点之前且振幅值为目标帧频谱中的振幅极大值的最近采样点的振幅值和初始采样点之后且振幅值为目标帧频谱中的振幅极大值的最近采样点的振幅值均大于振幅阈值,将初始采样点确定为第一采样点。
208.在一些实施例中,该语音检测装置还包括:
209.第六确定模块,用于从多个频谱极大值中确定目标极大值,目标极大值的值最大;
210.第七确定模块,用于确定目标极大值与第一预设比例的乘积,得到振幅阈值。
211.在一些实施例中,电子设备提供为终端。图9示出了本技术一个示例性实施例提供的终端900的结构框图。该终端900可以是便携式移动终端,比如:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。通常,终端900包括有:处理器901和存储器902。
212.处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以集成有gpu(graphics processing unit,图像处理器),gpu
用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
213.存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器901所执行以实现本技术中方法实施例提供的语音检测方法。
214.在一些实施例中,终端900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。
215.外围设备接口903可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
216.射频电路904用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
217.显示屏905用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置在终端900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在终端900的不同表面或呈折叠设计;在另一些实施例中,显示屏905可以是柔性显示屏,设置在终端900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
218.摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像
头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
219.音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
220.定位组件908用于定位终端900的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件908可以是基于美国的gps(global positioning system,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
221.电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
222.在一些实施例中,终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。
223.加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。
224.陀螺仪传感器912可以检测终端900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3d动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
225.压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时,可以检测用户对终端900的握持信号,由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时,由处理器901根据用户对显示屏905的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
226.指纹传感器914用于采集用户的指纹,由处理器901根据指纹传感器914采集到的
指纹识别用户的身份,或者,由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器901授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置在终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商logo时,指纹传感器914可以与物理按键或厂商logo集成在一起。
227.光学传感器915用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器915采集的环境光强度,控制显示屏905的显示亮度。具体地,当环境光强度较高时,调高显示屏905的显示亮度;当环境光强度较低时,调低显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器915采集的环境光强度,动态调整摄像头组件906的拍摄参数。
228.接近传感器916,也称距离传感器,通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中,当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时,由处理器901控制显示屏905从亮屏状态切换为息屏状态;当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时,由处理器901控制显示屏905从息屏状态切换为亮屏状态。本领域技术人员可以理解,图9中示出的结构并不构成对终端900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
229.本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有至少一条程序代码,至少一条程序代码由处理器加载并执行,以实现上述任一实现方式的语音检测方法。
230.本技术实施例还提供了一种计算机程序产品,计算机程序产品包括计算机程序代码,计算机程序代码存储在计算机可读存储介质中,电子设备的处理器从计算机可读存储介质读取计算机程序代码,处理器执行计算机程序代码,使得电子设备执行上述任一实现方式的语音检测方法。在一些实施例中,本技术实施例所涉及的计算机程序产品可被部署在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行,分布在多个地点且通过通信网络互连的多个电子设备可以组成区块链系统。
231.本技术实施例提供了一种语音检测方法,由于语音信号在倍频采样点的振幅值与其对应的采样点的振幅值具有相似的振幅极大值特点,这样基于频谱中采样点的倍频采样点的振幅值来检测音频信号是否为语音信号,能够有效检测出音频信号是否为语音信号,避免了基于短时能量和过零率不能准确检测信噪比低的音频信号的情况,从而提高了对音频信号进行语音检测的适用性。
232.以上仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献