一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种音频质量检测方法、智能终端及存储介质与流程

2022-05-17 22:06:47 来源:中国专利 TAG:


1.本发明涉及信号处理技术领域,尤其涉及一种音频质量检测方法、智能终端及存储介质。


背景技术:

2.目前,基于人的生物特征进行身份识别和无接触操作越来越流行。例如通过人脸、指纹、声纹等进行身份验证,提高了用户信息安全,通过语音识别,用户即可控制设备执行特定的操作。声音一方面可以作为身份识别的标准,一方面还可作为用户下达指令的手段,因此音频具有非常广阔的应用空间。以声纹系统为例声纹识别系统通过实时录入说话人音频与原有的注册人录音相比较,从而识别说话人身份。相较于人脸识别、指纹识别等身份认证系统,声纹识别系统不需要摄像头、指纹收集装置等其他更为复杂的生物特征收集装置,只需要简单的录音设备即可收集待识别人的信息,进而达到识别说话人的目的,其验证成本低廉、方便,应用场景广阔。一个成熟的声纹系统,主要构成有:音频过滤机制、声纹识别的核心模型和音频归类的判断机制。其中,音频过滤机制用于确保输入音频符合声纹模型需求,例如有效音频时长不能过短、背景噪声不能过大等;核心模型用于提取音频的声纹特征;音频归类的判断机制用于根据声纹特征设定相关判断阈值,对音频进行比较归类。
3.合格的音频质量是音频应用的前提,例如在声纹系统中,音频过滤机制是否有效对后续的声纹识别至关重要。然而,由于声纹识别系统实际应用场景的复杂性,如背景噪声过大(使得噪声能量覆盖有效音频能量)、录入音频时长过短(无法提取足够有效、稳定的声纹特征)、录入音频掺杂多人语音(无法确定哪个人声为目标音频)、录入音频与预先存入的用户音频差距过大(当前说话人不是当前登录的账号对应的目标用户),在进行语音注册时,可能是出现a在注册了第一句注册音频后,在注册第二句音频时没有发声,但此时有另一个人b发出了声音,使得录入的音频有较大的概率不符合声纹系统的需求。而目前的音频过滤机制的对音频筛选还较为粗放,例如根据音频数据的长度,因此后续声纹特征的提取常常会提取异常。


技术实现要素:

4.本发明提供一种音频质量检测方法、智能终端及存储介质,旨在解决现有技术中用于识别的音频数据筛选效率度低的问题。
5.为实现上述目的,本发明提供一种音频质量检测方法,所述音频质量检测方法包括如下步骤:
6.获取待检测的音频数据;
7.计算所述音频数据的内相似度值,并根据所述内相似度值确定所述音频数据的质量。
8.可选地,所述的音频质量检测方法,其中,所述计算所述音频数据的内相似度值,并根据所述内相似度值确定所述音频数据的质量之前,还包括:
9.计算所述音频数据的音质参数,并根据所述音质参数,判断所述音频数据是否符合预设的音质合格条件。
10.可选地,所述的音频质量检测方法,其中,所述音质参数包括信噪比和有效音频长度,所述计算所述音频数据的音质参数,并根据所述音质参数,判断所述音频数据是否符合预设的音质合格条件,具体包括:
11.根据预设的列表生成规则,分别提取所述音频数据中的噪声帧和有效帧,生成所述音频数据对应的噪音帧列表和有效帧列表;
12.根据所述有效帧列表和所述噪音帧列表,分别计算所述音频数据的有效音频长度和信噪比;
13.根据所述有效音频长度与预设的有效音频长度阈值,以及所述信噪比与预设的信噪比阈值,判断所述音频数据是否符合预设的音质合格条件。
14.可选地,所述的音频质量检测方法,其中,所述根据预设的列表生成规则,分别提取所述音频数据中的噪声帧和有效帧,生成所述音频数据对应的噪音帧列表和有效帧列表,具体包括:
15.对所述音频数据进行降噪处理,生成降噪音频数据;
16.计算同一音频帧在所述音频数据和所述降噪音频数据中的能量差;
17.根据所述能量差,确定所述音频数据中的噪音帧和有效帧;
18.分别将所述噪音帧的音频参数和所述有效帧的音频参数写入预设的空白列表,生成噪音帧列表和有效帧列表
19.可选地,所述的音频质量检测方法,其中,所述根据所述能量差,确定所述音频数据中的噪音帧和有效帧,具体包括:
20.判断所述能量差是否大于能量差阈值;
21.若是,则将所述能量差大于所述能量差阈值对应的音频帧作为噪音帧;
22.若否,则将所述能量差小于等于所述能量差阈值对应的音频帧作为有效帧。
23.可选地,所述的音频质量检测方法,其中,所述根据所述能量差,确定所述音频数据中的噪音帧和有效帧之后,还包括:
24.根据所述音频数据的采样顺序,依次将所述噪音帧和所述有效帧对应的标志位写入预设的空白列表,生成音频标志位列表。
25.可选地,所述的音频质量检测方法,其中,所述计算所述音频数据的内相似度值,并根据所述内相似度值确定所述音频数据的质量,具体包括:
26.计算所述音频数据的内相似度值;
27.根据所述内相似度值,判断所述音频数据是否符合预设的同源合格条件;
28.若所述音频数据符合所述同源合格条件,则确定所述音频数据为质量合格音频。
29.可选地,所述的音频质量检测方法,其中,所述计算所述音频数据的内相似度值,具体包括:
30.根据预设的拆分规则,确定所述音频数据的音频拆分位置;
31.根据所述音频拆分位置,对所述音频数据进行拆分,生成多个音频片段;
32.计算所述音频片段的声纹特征之间的内相似度值。
33.可选地,所述的音频质量检测方法,其中,所述根据预设的拆分规则,确定所述音
频数据的音频拆分位置,具体包括:
34.根据预设的拆分数量和所述有效帧列表,确定所述有效帧列表中的拆分帧;
35.根据所述拆分帧和所述音频标志位列表,确定所述音频数据中对应的音频拆分位置。
36.可选地,所述的音频质量检测方法,其中,所述计算所述音频片段的声纹特征之间的内相似度值,具体包括:
37.根据预设的初步特征提取规则,提取所述音频片段的片段初步特征;
38.控制预设的声纹模型对所述片段初步特征进行声纹特征提取,生成片段声纹特征;
39.计算所述片段声纹特征之间的相似度值并作为所述音频片段之间的内相似度值。
40.可选地,所述的音频质量检测方法,其中,所述根据所述内相似度值,判断所述音频数据是否符合预设的同源合格条件,具体包括:
41.根据所述内相似度值和预设的内相似度阈值,判断所述音频数据是否符合预设的同源合格条件。
42.可选地,所述的音频质量检测方法,其中,所述若所述音频数据符合所述同源合格条件,则确定所述音频数据为质量合格音频之后,还包括:
43.根据当前账号对应的目标声纹特征,判断所述质量合格音频是否来源于所述当前账号对应的目标用户;
44.若所述质量合格音频来源于所述当前账号对应的目标用户,则确定所述质量合格音频为音源合格音频。
45.可选地,所述的音频质量检测方法,其中,所述根据当前账号对应的目标声纹特征,判断所述质量合格音频是否来源于所述当前账号对应的目标用户,具体包括:
46.根据预设的音频特征提取规则,提取所述质量合格音频的音频初步特征;
47.控制预设的声纹模型对所述音频初步特征进行声纹特征提取,生成音频声纹特征;
48.判断所述当前账号对应的音频特征组中是否存在目标声纹特征;
49.若所述当前账号对应的音频特征组中存在目标声纹特征,则根据所述目标声纹特征和所述音频声纹特征,判断所述质量合格音频是否来源于所述当前账号对应的目标用户;
50.若所述当前账号对应的音频特征组中不存在目标声纹特征,则将所述音频声纹特征存入预设的空白数组中,生成所述当前账号对应的音频特征组。
51.可选地,所述的音频质量检测方法,其中,所述若所述质量合格音频来源于所述当前账号对应的目标用户,则确定所述质量合格音频为音源合格音频之后,还包括:
52.计算所述音频声纹特征和所述目标声纹特征的平均值,并将所述平均值作为更新后的目标声纹特征并存储。
53.此外,为实现上述目的,本发明还提供一种智能终端,其中,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频质量检测程序,所述音频质量检测程序被所述处理器执行时实现如上所述的音频质量检测方法的步骤。
54.此外,为实现上述目的,本发明还提供一种存储介质,其中,所述存储介质存储有
音频质量检测程序,所述音频质量检测程序被处理器执行时实现如上所述的音频质量检测方法的步骤。
55.本发明计算所述音质数据的内相似度值实现,根据内相似度值,可判断所述音质数据是否来源于同一个说话人,若是,则确定音频数据的音质质量合格。因此本发明能够根据音频数据的来源,对音频数据的质量进行检测,从而有效地筛选掉不合格的音频数据,有利于后续声纹识别和语音识别工作。
56.此外,本发明中在进行内相似度值判断之前,还会根据音频数据的音频参数,例如信噪比,判断是否音质合格。本发明还提供快速有效计算音质参数,信噪比和有效音频长度的计算方式。在计算内相似度值时,采用根据音频数据中的有效帧的数量来进行划分,从而保证拆分计算内相似度值的时候,相似度值都是基于有效的声纹特征所计算的,提高识别音频数据的同源性的准确度。在音频数据的音频质量检测合格后,本发明还将音频质量检测应用于声纹识别领域,将其与当前账号对应的目标声纹特征进行比对,从而判断音频数据是否来源于当前账号对应的目标用户,以保障用户信息的安全性。
附图说明
57.图1是本发明音频质量检测方法提供的较佳实施例的流程图;
58.图2是本发明音频质量检测方法的较佳实施例中整个方法执行流程的示意图;
59.图3为本发明智能终端的较佳实施例的运行环境示意图。
具体实施方式
60.为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
61.本发明较佳实施例所述的音频质量检测方法,如图1和图2所示,所述音频质量检测方法包括以下步骤:
62.步骤s100,获取待检测的音频数据。
63.具体地,本实施例的执行主体为安装于智能终端上的声纹识别系统中的音频质量检测程序。
64.用户首先在所述智能终端上登陆账号,账号名为用户a。所述智能终端会显示一个界面,提醒用户需要通过声纹验证是否为用户a本人,然后启用所述智能终端的麦克风,对用户的声音进行采集,得到所述音频数据。所述麦克风再将所述音频数据发送给所述音频质量检测程序,所述音频质量检测程序接收所述音频数据,从而完成待检测的音频数据。
65.步骤s200,计算所述音频数据的内相似度值,并根据所述内相似度值确定所述音频数据的质量。
66.具体地,在采集音频数据过程中,可能存在其他人的声音,例如当所述麦克风采集音频数据时,用户身边另外一个人突然插话,因此采集到的音频信号来源于两个不同的人,若直接进行声纹识别或语音识别,可能存在识别错误的现象。因此,需要对音频数据中是否存在两个或两个以上人的声音进行判断。本实施例采用计算所述音频数据的内相似度值的方式来判断,将所述音频数据分为多段,然后计算每一段的声纹特征之间的相似度值,由于
该相似度值来源于同一音频数据,因此称为内相似度值。计算得到音频数据的内相似度值后,可根据内相似度值的大小确定音频数据的质量。若所述音频数据的内相似度值较高,则说明所述音频数据来源于同一个人的可能性越高,因此音频数据的质量越好。
67.进一步地,在进行音频数据质量的判断过程中,本实施例可预设一个同源合格条件,用于根据音频数据的内相似度值,判断音频数据的质量,具体过程为:
68.步骤a1,根据所述内相似度值,判断所述音频数据是否符合预设的同源合格条件。
69.具体地,预设一个同源合格条件,用于根据内相似度值,判断音频数据是否符合条件。同源合格条件可为一个音频数据内相似度值的阈值,若大于该值,则说明音频数据合格。此外,若将音频数据拆分多段,得到多个内相似度值,则可根据内相似度值大于该阈值的数量进行判断。
70.进一步地,为保证音频的质量,除保证音频数据来源于同一个人,还应保证该音频数据的音质合格,因此,在步骤a1之前,还包括:
71.步骤b100,计算所述音频数据的音质参数,并根据所述音质参数,判断所述音频数据是否符合预设的音质合格条件。
72.具体地,所述音质参数是指示所述音频数据的音质好坏的参数,例如所述音频数据中的信噪比。信噪比是指信号中有效与噪声信号的比值,信噪比越小,则所述音频数据中的噪声信号越多,所述音频数据的质量越差。可预先设置一个信噪比阈值,并将所述音频数据的信噪比是否大于所述信噪比阈值比,作为音质合格条件。若所述信噪比大于所述信噪比阈值比,则所述音频数据符合所述音质合格条件。
73.进一步地,所述音质参数包括信噪比和有效音频长度,步骤a100包括:
74.步骤b110,根据预设的列表生成规则,分别提取所述音频数据中的噪声帧和有效帧,生成所述音频数据对应的噪音帧列表和有效帧列表。
75.具体地,本实施例中所述音质参数包括信噪比和有效音频长度。由于所述音频数据中存在一些噪声帧,而噪声帧会严重干扰后续的声纹特征提取,所述有效音频长度即指所述音频数据中有效帧的数量。预先设置一个列表生成规则,所述列表生成规则是将所述音频数据中的噪声帧和有效帧区分开来的规则,将所述噪声帧和所述有效帧分别提取出来,并在提取过程中,依次将所述噪声帧和所述有效帧写入空白的列表中,生成噪音帧列表和有效帧列表。
76.进一步地,步骤b110包括:
77.步骤b111,对所述音频数据进行降噪处理,生成降噪音频数据。
78.具体地,一般采集到的音频文件中的信号形式为时域信号,用坐标图形式表示即横坐标为时间,纵坐标为振幅,而用于信号处理主要是频域信号,频域信号以坐标图形式表示即横坐标为频率,纵坐标为该频率信号的幅度,频域信号能够描述信号的频域结构以及频率与频域信号幅度的关系,因此更便于对信号的处理。先通过傅里叶变换将所述音频数据从时域信号形式转换为频域信号形式。然后再对所述音频数据进行降噪处理,生成降降噪音频数据,降噪处理方法可采用维纳滤波降噪、谱减法、自适应滤波器等。
79.步骤b112,计算同一音频帧在所述音频数据和所述降噪音频数据中的能量差。
80.具体地,经过降噪处理后,所述音频数据的各个采样的信号点的振幅会受到一定影响,从而对每一个信号点对应的能量也会收到损伤。由于所述音频数据包含多个采样点,
为提高计算效率,根据预设的帧长和帧移,将所述音频信号进行分帧,得到多个音频帧,并计算同一音频帧在所述音频数据和所述降噪音频数据中的能量差,通过能量差的变化强弱,可判断所述音频帧收到降噪处理的影响的强弱。本实施例中,以下列公式作为计算同一音频帧在所述音频数据和所述降噪音频数据中的能量差:
[0081][0082]
其中,dt(i)为所述能量差,i为当前音频帧的帧数;l1为帧移,即每个多少个数据点提取下一帧;l2为帧长,即一个音频帧中包含的信号点的数量;所述st(k)为所述音频数据的时域信号的函数;所述y(k)为所述降噪音频数据的时域函数。上述公式是采用同一音频帧在所述降噪音频数据中的所有采样点的振幅的平方和,与在所述音频数据中的所有采样点的振幅平方和与常数0.00001之间的最大值的比值,作为所述能量差,本实施例中所述音频数据的采样率为16000,帧长为1280,帧移为200。
[0083]
此外,上述公式并非计算能量差的唯一公式,还可以以同一音频帧在所述音频数据和所述降噪音频数据之间的差值作为所述能量差等方式计算所述能量差。
[0084]
步骤b113,根据所述能量差,确定所述音频数据中的噪音帧和有效帧。
[0085]
由于降噪处理主要是减弱所述音频信号中的噪声信号,所以根据所述能量差,可确定某一音频帧是噪音帧还是有效帧。
[0086]
进一步地,步骤b113包括:
[0087]
判断所述能量差是否大于能量差阈值;
[0088]
若是,则将所述能量差大于所述能量差阈值对应的音频帧作为噪音帧;
[0089]
若否,则将所述能量差小于等于所述能量差阈值对应的音频帧作为有效帧。
[0090]
具体地,预设一个能量差阈值,若所述能量差大于所述能量差阈值,则说明该音频帧受降噪处理的影响较大,因此,将该音频帧作为噪音帧;若所述能量差小于等于所述能量差阈值,则说明该音频帧受降噪处理的影响较小,因此,将该音频帧作为有效帧。
[0091]
进一步地,步骤b113之后,还包括:根据所述音频数据的采样顺序,依次将所述噪音帧和所述有效帧对应的标志位写入预设的空白列表,生成音频标志位列表。
[0092]
具体地,将所述音频帧分为噪音帧列表和有效帧列表的同时,还生成一个音频标志列表。根据所述音频数据的采样顺序,遍历所述音频数据中的音频帧,若所述音频帧为噪音帧,则在所述音频标志列表中写入对应的标志位0,若所述音频帧为有效帧,则在所述音频标志列表中写入对应的标志位1。所述噪音帧和所述有效帧对应的标志位的数值是为方便后续计算拆分帧的位置所设定,将其设为1、2等其他数值不影响本方案的实施。
[0093]
步骤b114,分别将所述噪音帧的音频参数和所述有效帧的音频参数写入预设的空白列表,生成噪音帧列表和有效帧列表。
[0094]
具体地,预设一个空白列表,所述空白列表可以以数组或文件的形式存在。当确定某一音频帧为噪音帧或有效帧,则将该音频帧的音频参数写入该空白列表中,直至所述音频数据的所有音频帧遍历完成,分别生成包含所述音频数据的噪音帧的噪音帧列表,以及包含有效帧的有效帧列表。所述噪音帧列表和所述有效帧列表主要是为后续计算所述音频数据的信噪比,在所述空白列表写入音频参数时,可选择有利于后续信噪比的计算的音频参数,例如振幅、能量。本实施例计算信噪比是基于各个音频帧的振幅计算,因此吸入所述
空白表列表的音频参数的计算公式为:
[0095][0096]
其中v(i)为所述音频帧的振幅平均值。
[0097]
步骤b120,根据所述有效帧列表和所述噪音帧列表,分别计算所述音频数据的有效音频长度和信噪比。
[0098]
具体地,所述有效帧列表的长度和所述噪音帧列表的长度,代表着所述音频数据中的有效帧和噪音帧的数量,更进一步可确定所述音频数据中有效的采样点的数量,也就是所述有效音频长度。本实施例采用的音频有效长度的计算公式为:
[0099][0100]
其中,所述lv为所述音频有效长度;所述lv为所述音频数据的长度;所述sr为所述音频数据的采样率;所述l3为所述有效帧列表的长度;所述l4为所述噪音帧列表的长度。本公式是利用所述有效帧列表的长度在所有帧列表的长度的占比来计算所述音频有效长度。
[0101]
本实施例中,采用的信噪比计算公式为
[0102][0103]
其中,所述snr为所述信噪比;所述v1(i)为所述有效帧列表中振幅平均值;所述v2(i)为所述噪音帧列表中振幅平均值;所述n1为所述有效帧列表中的音频参数的数量;n2为所述噪音帧列表中的音频参数的数量。此外,若采用不同音频参数计算所述信噪比,例如,音频帧的能量、功率,则所述音频参数和所述信噪比的计算公式可进行适应性调整。
[0104]
步骤b130,根据所述有效音频长度与预设的有效音频长度阈值,以及所述信噪比与预设的信噪比阈值,判断所述音频数据是否符合预设的音质合格条件。
[0105]
具体地,预设音频长度阈和信噪比阈值,若所述信噪比大于所述信噪比阈值,且所述有效音频长度大于所述有效音频长度阈值,则确定所述音频数据符合音质合格条件。若所述信噪比小于等于所述信噪比阈值,说明所述音频数据中噪音帧数量过多,因此所述音频数据的音质不合格;若所述有效音频长度小于等于所述有效音频长度阈值,则说明所述音频数据中有效帧的数量过少,因此所述音频数据的音质不合格。判定所述音频数据不合格后,可控制所述智能终端显示音频不合格的提示框,提醒用户重新发声,并重新采集音频数据。
[0106]
进一步地,步骤a1包括:
[0107]
步骤a110,根据预设的拆分规则,确定所述音频数据的音频拆分位置。
[0108]
具体地,若所述音频数据符合所述音质合格条件,则需要将所述音频数据拆分,因此先根据预设的拆分规则,确定所述音频数据的音频拆分位置。确定音频拆分位置的方式很多,例如在拆分规则中设定一个拆分片段的数量,然后根据该数量,随机确定所述音频数据的音频拆分位置。还例如,在拆分规则中设定拆分后的拆分音频长度,然后根据所述拆分音频长度,从所述音频数据的起点依次确定音频拆分位置。
[0109]
进一步地,步骤a110包括:
[0110]
步骤a111,根据预设的拆分数量和所述有效帧列表,确定所述有效帧列表中的拆
分帧。
[0111]
进一步地,拆分规则中预设一个拆分数量,例如所述拆分数量为2。若所述音频数据符合所述音质合格条件,则根据所述有效帧列表中的音频参数的数量,确定处于中间的那一个帧为拆分帧。若所述拆分数量为3,则确定所述有效帧列表中起始位置开始1/3和2/3位置的音频帧为拆分帧。
[0112]
步骤a112,根据所述拆分帧和所述音频标志位列表,确定所述音频数据中对应的音频拆分位置。
[0113]
进一步地,确定所述拆分帧后,根据所述拆分帧在所述有效帧列表中的位置,如位于第3位,依次累加所述音频标志列表的标志位,直至累加结果为3,此时的标志为所对应的位置,例如第5位,则确定所述用户拆分帧位于所述音频数据中的第5个音频帧的位置,因此所述音频拆分位置为所述音频数据中的第5个音频帧。
[0114]
步骤a120,根据所述音频拆分位置,对所述音频数据进行拆分,生成多个音频片段。
[0115]
具体地,以所述音频拆分位置为所述音频数据中的第5个音频帧为例,以第5个音频帧为分水岭,将所述音频数据中的第1个至第4个音频帧作为一个音频片段,将所述第5个音频帧以及之后的音频帧作为另一个音频片段。根据所述拆分数量的不同,将所述音频数据拆分多个音频片段。
[0116]
由于音频数据有长有短,所述拆分数量可根据所述音频数据的长短进行一定的调整,例如当所述音频数据对应的时间为3秒时,则对应的拆分数量为2,以防拆分后的音频片段的长度过段,后续提取的声纹特征结果不稳定,不利于区分。当所述音频数据的长度过长,所述拆分数量需要增加,以避免同一音频片段中间包含多人的声纹特征,后续提取的声纹特征结果不可用。
[0117]
在对所述音频数据进行拆分后,还可根据预设的音频片段标准长度,对所述音频数据进行一定的修饰。本实施例中,所述音频片段标准长度对应的时间为3秒。若所述音频片段对应的时间为2秒,则用信号值0对所述音频片段的前后两端进行填充,直至其对应的时间为3秒;若所述音频片段对应的时间为2秒,则对所述音频片段进行裁剪,直至其对应的时间为3秒。通过此修饰,可便于后续对所述音频片段的声纹特征提取的统一性,提高提取效率。
[0118]
步骤a130,计算所述音频片段的声纹特征之间的内相似度值。
[0119]
具体地,生成所述音频片段后,计算所述音频片段的声纹特征之间的内相似度值。所述内相似度值可为所述音频片段的声纹特征之间的相似度值。
[0120]
进一步地,步骤a130包括:
[0121]
步骤a131,根据预设的初步特征提取规则,提取所述音频片段的片段初步特征。
[0122]
具体地,所述片段初步特征为所述音频片段的初步声纹特征,例如传统的声纹特征线性预测倒谱系数(linear prediction cepstral coefficients,lpccs)、梅尔频率倒谱系数(mel frequency cepstral coefficents,mfcc)。选择不同类型的声纹特征,对应不同的初步特征提取规则。以mfcc为例进行实施的简要说明,mfcc特征是基于人的听觉特征提取出来的特征参数,是对人耳听觉的特征表征。所以,在对音频信号进行特征提取时通常使用mfcc特征,则本实施例中的初步特征提取规则即为mfcc特征提取规则。通过对所述音
频片段的预加重、分帧、加窗、快速傅里叶变换(fft)、梅尔滤波器组和离散余弦变换,提取所述音频片段的片段初步特征。
[0123]
步骤a132,控制预设的声纹模型对所述片段初步特征进行声纹特征提取,生成片段声纹特征。
[0124]
具体地,预设一个声纹模型,本实施例中采用的声纹模型为基于深度学习创建的声纹模型,所述声纹模型预先通过大量的初步特征,lpccs、mfcc等训练得到。然后将所述片段初步特征输入所述声纹模型中,并控制所述声纹模型对所述片段初步特征进行进一步地提取,生成片段声纹特征。
[0125]
步骤a133,计算所述片段声纹特征之间的相似度值并作为所述音频片段之间的内相似度值。
[0126]
具体地,采用相似度算法,计算所述片段声纹特征之间的相似度值并作为所述音频片段之间的内相似度值。所述相似度算法包括欧式距离算法、余弦距离算法、杰卡德相似度算法等,本实施例以余弦距离算法进行实施的描述,创建一个坐标系,并将所述片段声纹特征转换为所述坐标系的向量形式,然后计算各个向量之间的余弦值,由于余弦值位于数值-1到1之间,越接近1,代表两个向量越为接近,也就是越相似,将得到各个向量之间的余弦值作为所述片段声纹特征之间的内相似度值。
[0127]
步骤a140,根据所述内相似度值和预设的内相似度阈值,判断所述音频数据是否符合预设的同源合格条件。
[0128]
具体地,预设一个内相似度阈值,如0.7。若两个向量之间的内相似度值大于0.7,则说明两个向量非常接近,其对应的片段声纹特征接近,即所述音频片段来源于同一说话人。将所有的片段声纹特征之间的内相似度值都与所述内相似都阈值比较,若所有所述内相似度值都大于预设的内相似度阈值,则确定所述音频数据符合预设的同源合格条件。
[0129]
步骤a2,若所述音频数据符合所述同源合格条件,则确定所述音频数据为质量合格音频。
[0130]
具体地,若所述音频数据符合所述同源合格条件,则说明所述音频数据无其他人说话,若在判断同源合格之前还进行了音质合格判断,则该音频数据还具有噪声少,音频长度合适等特点。因此判定所述音频数据质量合格,确定该音频数据为质量合格音频并且确定。质量合格音频确定后可提取以质量合格音频作为对象,进行声纹特征提取,从而获取用户的生物特征,以保证用户信息的安全。还可将质量合格音频输入语音识别系统中,以供语音识别系统对质量合格音频进行语音识别,从而确定用户想要传达的指令。有时一个终端或一个软件上注册有多个用户,不同的用户所对应的喜好、习惯、收藏等不相同,为了保障用户信息的安全,将质量合格音频确定后,还包括:
[0131]
步骤s310,根据当前账号对应的目标声纹特征,判断所述质量合格音频是否来源于所述当前账号对应的目标用户。
[0132]
具体地,当前登录的账户对应的目标用户为用户a。在用户a进行账号注册时,会对其进行音频采集,提取并存储其中的声纹特征作为目标声纹特征。确定质量合格音频后,对所述质量合格音频进行声纹特征的提取,生成音频声纹特征。然后将所述音频声纹特征与所述目标声纹特征进行比较,从而判断所述音频数据是否来源于用户a。
[0133]
进一步地,步骤s310包括:
[0134]
步骤s311,根据预设的音频特征提取规则,提取所述质量合格音频的音频初步特征。
[0135]
步骤s312,控制预设的声纹模型对所述音频初步特征进行声纹特征提取,生成音频声纹特征。
[0136]
具体地,与上述描述对所述音频片段提取片段声纹特征的过程类似,先采用预设的音频特征提取规则,提取所述质量合格音频的音频初步特征,然后空余预设的声纹模型对所述音频初步特征进行声纹特征提取,生成音频声纹特征。值得注意的是,音频初步特征包括很多,因此所述片段初步特征与所述音频初步特征可能是不同的初步特征,例如前者为mfcc,后者为lpccs,而所述声纹模型也可能不一致,如训练的样本的数量级不同,所述声纹模型中的参数不同等等,在此不一一赘述。
[0137]
步骤s313,判断所述当前账号对应的音频特征组中是否存在目标声纹特征。
[0138]
具体地,每一个用户在进行账号注册的时候,都会创建一个音频特征组,用于存放所述用户的目标声纹特征。所述音频特征组可以文件、数组等形式存在。计算所述音频特征组中的目标声纹特征的数量,若数量为零,则所述音频特征组中不存在目标声纹特征,当用户还处于正在注册状态时,数量即为零;若数量不为零,则所述音频特征组中存在目标声纹特征。
[0139]
步骤s314,若所述当前账号对应的音频特征组中存在目标声纹特征,则根据所述目标声纹特征和所述音频声纹特征,判断所述音频数据是否来源于所述当前账号对应的目标用户。
[0140]
具体地,本实施例中,所述目标声纹特征为之前采集用户a的音频数据所提取的声纹特征。若所述当前账号对应的音频特征组中存在目标声纹特征,则计算所述目标声纹特征和所述音频声纹特征之间的间相似度值。若所述间相似度值大于预设的间相似度阈值,则确定所述音频数据来源于当前账户对应的目标用户;若所述间相似度值小于等于所述间相似度阈值,则确定所述音频数据并非来源于所述目标用户,即当前使用设备的用户并非用户a。
[0141]
值得一提的是,本实施例仅以单个目标声纹特征进行描述,但在其他实施例中,可采用多个目标声纹特征的方式,计算所述音频声纹特征与各个所述目标声纹特征之间的间相似度值,然后判断所述间相似度值中大于所述间相似度阈值的数量是否超过预设的合格数量,若是,则确定所述音频数据来源于所述目标用户。
[0142]
步骤s315,若所述当前账号对应的音频特征组中不存在目标声纹特征,则将所述音频声纹特征存入预设的空白数组中,生成所述当前账号对应的音频特征组。
[0143]
具体地,本实施例中,若所述当前账号对应的音频特征组中不存在目标声纹特征,则说明用户正在进行账户注册或之前并未进行目标声纹特征的采集,因此将所述音频声纹特征作为所述目标用户的目标声纹特征写入预设的空白数据中,生成所述当前账号对应的音频特征组。
[0144]
步骤s320,若所述质量合格音频来源于所述当前账号对应的目标用户,则确定所述质量合格音频为音源合格音频。
[0145]
具体地,若所述质量合格音频来源于所述当前账号对应的目标用户,即当前使用设备的用户为用户a,则确定所述质量合格音频为目标用户发出的音频,即改质量合格音频
为音源合格音频。后续可对所述音源合格音频进行语音识别,将音频信号转换指示信号,根据所述音源合格音频中的内容,如“关机”,执行对应的操作。若此时用户正在进行登陆验证操作,则确定用户为用户a,显示初始界面,以供用户使用设备。若所述音频数据不是来源于当前账号对应的目标用户,则说明当前使用设备的用户并非用户a。若用户正在进行登陆操作,则提示登陆失败;若用户正在通过语音输入指令,则提示用户认证错误等信息。
[0146]
进一步地,步骤s320之后,还包括:计算所述音频声纹特征和所述目标声纹特征的平均值,并将所述平均值作为更新后的目标声纹特征并存储。
[0147]
具体地,随着时间变化,人的声音会发生一定的改变,例如年纪越大,声音越低哑。因此用户注册时候存入的目标声纹特征可能随着时间变化而不再适用。本实施例在确定所述音源合格音频后,会将所述音源合格音频的音频声纹特征作为目标声纹特征,存入所述目标用户对应的音频特征组中,从而不断对所述音频特征组中的目标声纹特征进行更新。
[0148]
然而以某一音源合格音频的音频声纹特征作为目标声纹特征存在偏差性,因此,本实施例中,所述目标声纹特征为多个目标用户对应的音频数据的声纹特征的平均值。因此对所述目标声纹特征进行更新,采用计算所述音频声纹特征与所述目标声纹特征的平均值作为更新后的目标声纹特征的方式,从而避免由于某一音频数据的偏差,导致音频音源合格的判断不准确。
[0149]
进一步地,如图3所示,基于上述音频质量检测方法,本发明还相应提供了一种智能终端,所述智能终端包括处理器10、存储器20及显示器30。图3仅示出了智能终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
[0150]
所述存储器20在一些实施例中可以是所述智能终端的内部存储单元,例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备,例如所述智能终端上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据,例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有音频质量检测程序40,该音频质量检测程序40可被处理器10所执行,从而实现本技术中音频质量检测方法。
[0151]
所述处理器10在一些实施例中可以是一中央处理器(central processing unit,cpu),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述音频质量检测方法等。
[0152]
所述显示器30在一些实施例中可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。
[0153]
在一实施例中,当处理器10执行所述存储器20中音频质量检测程序40时实现以下步骤:
[0154]
获取待检测的音频数据;
[0155]
计算所述音频数据的内相似度值,并根据所述内相似度值确定所述音频数据的质量。
[0156]
其中,所述计算所述音频数据的内相似度值,并根据所述内相似度值确定所述音频数据的质量之前,还包括:
[0157]
计算所述音频数据的音质参数,并根据所述音质参数,判断所述音频数据是否符合预设的音质合格条件。
[0158]
其中,所述音质参数包括信噪比和有效音频长度,所述计算所述音频数据的音质参数,并根据所述音质参数,判断所述音频数据是否符合预设的音质合格条件,具体包括:
[0159]
根据预设的列表生成规则,分别提取所述音频数据中的噪声帧和有效帧,生成所述音频数据对应的噪音帧列表和有效帧列表;
[0160]
根据所述有效帧列表和所述噪音帧列表,分别计算所述音频数据的有效音频长度和信噪比;
[0161]
根据所述有效音频长度与预设的有效音频长度阈值,以及所述信噪比与预设的信噪比阈值,判断所述音频数据是否符合预设的音质合格条件。
[0162]
其中,所述根据预设的列表生成规则,分别提取所述音频数据中的噪声帧和有效帧,生成所述音频数据对应的噪音帧列表和有效帧列表,具体包括:
[0163]
对所述音频数据进行降噪处理,生成降噪音频数据;
[0164]
计算同一音频帧在所述音频数据和所述降噪音频数据中的能量差;
[0165]
根据所述能量差,确定所述音频数据中的噪音帧和有效帧;
[0166]
分别将所述噪音帧的音频参数和所述有效帧的音频参数写入预设的空白列表,生成噪音帧列表和有效帧列表
[0167]
其中,所述根据所述能量差,确定所述音频数据中的噪音帧和有效帧,具体包括:
[0168]
判断所述能量差是否大于能量差阈值;
[0169]
若是,则将所述能量差大于所述能量差阈值对应的音频帧作为噪音帧;
[0170]
若否,则将所述能量差小于等于所述能量差阈值对应的音频帧作为有效帧。
[0171]
其中,所述根据所述能量差,确定所述音频数据中的噪音帧和有效帧之后,还包括:
[0172]
根据所述音频数据的采样顺序,依次将所述噪音帧和所述有效帧对应的标志位写入预设的空白列表,生成音频标志位列表。
[0173]
其中,所述计算所述音频数据的内相似度值,并根据所述内相似度值确定所述音频数据的质量,具体包括:
[0174]
计算所述音频数据的内相似度值;
[0175]
根据所述内相似度值,判断所述音频数据是否符合预设的同源合格条件;
[0176]
若所述音频数据符合所述同源合格条件,则确定所述音频数据为质量合格音频。
[0177]
其中,所述计算所述音频数据的内相似度值,具体包括:
[0178]
根据预设的拆分规则,确定所述音频数据的音频拆分位置;
[0179]
根据所述音频拆分位置,对所述音频数据进行拆分,生成多个音频片段;
[0180]
计算所述音频片段的声纹特征之间的内相似度值。
[0181]
其中,所述根据预设的拆分规则,确定所述音频数据的音频拆分位置,具体包括:
[0182]
根据预设的拆分数量和所述有效帧列表,确定所述有效帧列表中的拆分帧;
[0183]
根据所述拆分帧和所述音频标志位列表,确定所述音频数据中对应的音频拆分位置。
[0184]
其中,所述计算所述音频片段的声纹特征之间的内相似度值,具体包括:
[0185]
根据预设的初步特征提取规则,提取所述音频片段的片段初步特征;
[0186]
控制预设的声纹模型对所述片段初步特征进行声纹特征提取,生成片段声纹特征;
[0187]
计算所述片段声纹特征之间的相似度值并作为所述音频片段之间的内相似度值。
[0188]
其中,所述根据所述内相似度值,判断所述音频数据是否符合预设的同源合格条件,具体包括:
[0189]
根据所述内相似度值和预设的内相似度阈值,判断所述音频数据是否符合预设的同源合格条件。
[0190]
其中,所述若所述音频数据符合所述同源合格条件,则确定所述音频数据为质量合格音频之后,还包括:
[0191]
根据当前账号对应的目标声纹特征,判断所述质量合格音频是否来源于所述当前账号对应的目标用户;
[0192]
若所述质量合格音频来源于所述当前账号对应的目标用户,则确定所述质量合格音频为音源合格音频。
[0193]
其中,所述根据当前账号对应的目标声纹特征,判断所述质量合格音频是否来源于所述当前账号对应的目标用户,具体包括:
[0194]
根据预设的音频特征提取规则,提取所述质量合格音频的音频初步特征;
[0195]
控制预设的声纹模型对所述音频初步特征进行声纹特征提取,生成音频声纹特征;
[0196]
判断所述当前账号对应的音频特征组中是否存在目标声纹特征;
[0197]
若所述当前账号对应的音频特征组中存在目标声纹特征,则根据所述目标声纹特征和所述音频声纹特征,判断所述质量合格音频是否来源于所述当前账号对应的目标用户;
[0198]
若所述当前账号对应的音频特征组中不存在目标声纹特征,则将所述音频声纹特征存入预设的空白数组中,生成所述当前账号对应的音频特征组。
[0199]
其中,所述若所述质量合格音频来源于所述当前账号对应的目标用户,则确定所述质量合格音频为音源合格音频之后,还包括:
[0200]
计算所述音频声纹特征和所述目标声纹特征的平均值,并将所述平均值作为更新后的目标声纹特征并存储。
[0201]
本发明还提供一种存储介质,其中,所述存储介质存储有音频质量检测程序,所述音频质量检测程序被处理器执行时实现如上所述的音频质量检测方法的步骤。
[0202]
综上所述,本发明提供一种音频质量检测方法、智能终端及存储介质,所述方法包括:获取待检测的音频数据;计算所述音频数据的内相似度值,并根据所述内相似度值确定所述音频数据的质量。本发明有效提高音频数据质量检测的精确度,保障后续用于声纹识别或语音识别的音频数据的有效性。
[0203]
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
[0204]
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献