一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频质量检测方法、装置、电子设备及存储介质与流程

2021-07-06 18:47:00 来源:中国专利 TAG:人工智能 电子设备 检测方法 装置 音频
音频质量检测方法、装置、电子设备及存储介质与流程

本发明涉及人工智能技术领域,具体涉及一种音频质量检测方法、装置、电子设备及存储介质。



背景技术:

目前语音合成技术(tts,texttospeech)已经在在电话客服,语音机器人,智能应答等领域得到越来越广泛的应用,经由神经网络学习实现的tts技术,在神经网络的训练过程中,选取清晰、发音稳定、音质清晰的音频作为训练数据尤为重要,现有技术主要由人工进行听检、抽检进行音频检测,获取训练数据。

然而,由于不同检查者的听感不同、标准不同,容易引起检测出的音频文件的效果参差不齐的问题,导致音频质量检测的准确率和效率低下。

因此,有必要提供一种可以快速准确的检测音频质量的方法。



技术实现要素:

鉴于以上内容,有必要提出一种音频质量检测方法、装置、电子设备及存储介质,通过从音频特征和音质特征两个维度对所述第二音频进行质量检测,排除主观原因导致得到的音频文件效果参差不齐的问题,提高了音频质量检测的准确率。

本发明的第一方面提供一种音频质量检测方法,所述方法包括:

解析客户端发送的音频质量检测请求获取第一音频;

对所述第一音频进行预处理得到第二音频;

从所述第二音频中提取多个音频特征值和多个音质特征值;

对所述多个音频特征值和所述多个音质特征值进行异常检测,得到异常检测结果;

根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果。

可选地,所述对所述第一音频进行预处理得到第二音频包括:

对所述第一音频进行降噪处理,得到降噪后的第一音频;

对所述降噪后的第一音频进行语音活性检测得到第二音频。

可选地,所述对所述降噪后的第一音频进行语音活性检测得到第二音频包括:

检测所述降噪后的第一音频中的每个句子的音频时长;

判断每个句子的音频时长是否满足预设的音频时长阈值要求;

当每个句子的音频时长满足所述预设的音频时长阈值要求时,将所述第一音频中的每个句子作为第二音频;或者

当任意一个句子的音频时长不满足所述预设的音频时长阈值要求时,删除所述第一音频中的任意一个句子,保留所述第一音频中的其余句子作为第二音频。

可选地,所述从所述第二音频中提取多个音频特征值和多个音质特征值包括:

对所述第二音频的音频信号采用预加重滤波器进行处理得到目标音频信号;

将所述目标音频信号切分为多个短时帧;

对每个短时帧乘以一个预设的窗函数得到加窗后的短时帧;

计算每个加窗后的短时帧傅里叶变换后的功率谱;

根据所述功率谱使用预设的刻度滤波器组在每个加窗后的短时帧中进行多个音频特征值和多个音质特征值提取。

可选地,所述对所述多个音频特征值和所述多个音质特征值进行异常检测,得到异常检测结果包括:

将所述多个音频特征值和所述多个音质特征值作为训练集,并对所述训练集进行子采样得到所述训练集的子样本;

基于所述训练集的子样本建立孤立树;

采用随机超平面切割的方法构建包含多棵孤立树的孤立森林模型;

选取任意一个待检测特征值,令其遍历每一棵孤立树,然后计算所述任意一个待检测特征值的最终的平均路径长度,并计算所述任意一个待检测特征值的异常分数,其中,所述待检测特征值为所述多个音频特征值和所述多个音质特征值;

将所述任意一个待检测特征值的异常分数作为与所述任意一个待检测特征值相同的特征值的异常检测结果。

可选地,所述根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果包括:

从所述异常检测结果中获取每个音频特征值的异常分数及每个音质特征的异常分数;

将每个音频特征值的异常分数与相同音频特征值的第一异常分数阈值进行比较,及将每个音质特征值的异常分数与相同音质特征值的第二异常分数阈值进行比较;

当任意一个音频特征值的异常分数小于或者等于所述相同音频特征值的第一异常分数阈值,或者当任意一个音质特征值的异常分数小于或者等于所述相同音质特征值的第二异常分数阈值时,保留所述任意一个音频特征值对应的音频特征或者所述任意一个音质特征值对应的音质特征;

将保留的音频特征值对应的音频特征和保留的音质特征值对应的音质特征确定为所述第二音频的目标异常检测结果。

可选地,所述方法还包括:

将所述第二音频转换为文本;

将所述文本拆成拼音;

计算所述拼音的字节数;

将所述第二音频中每个句子的音频时长除以相同句子的字节数计算得到所述第二音频的每个句子的语速;

计算所述第二音频的平均语速;

计算所述第二音频的每个句子的语速与所述平均语速的差值;

当所述第二音频的任意一个句子的语速与所述平均语速的差值大于预设的语速阈值时,删除所述第二音频的任意一个句子,保留所述第二音频中的其余句子作为第三音频;或者

当所述第二音频的每个句子的语速与所述平均语速的差值小于或者等于所述预设的语速阈值时,将所述第二音频作为第三音频。

本发明的第二方面提供一种音频质量检测装置,所述装置包括:

解析模块,用于解析客户端发送的音频质量检测请求获取第一音频;

预处理模块,用于对所述第一音频进行预处理得到第二音频;

提取模块,用于从所述第二音频中提取多个音频特征值和多个音质特征值;

异常检测模块,用于对所述多个音频特征值和所述多个音质特征值进行异常检测,得到异常检测结果;

确定模块,用于根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果。

本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的音频质量检测方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的音频质量检测方法。

综上所述,本发明所述的音频质量检测方法、装置、电子设备及存储介质,一方面,通过对所述第一音频进行预处理得到第二音频,即对所述第一音频进行降噪处理和语音活性检测处理,有效提升音频断点检测的准确率,提高了第二音频的音频质量;另一方面,对所述多个音频特征值和所述多个音质特征值进行异常检测,得到第一异常检测结果,通过从音频特征和音质特征两个维度进行综合考虑,对所述第二音频进行质量检测,能够排除主观原因导致得到的音频文件效果参差不齐的问题,提高了音频质量检测的准确率;最后,根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果,最大程度的发现异常和不合适的音频特征和音质特征,从所述第二音频中删除异常的音频特征和音质特征得到所述第二音频的目标异常检测结果,确保了所述目标异常检测结果中的音频质量,提高了音频质量检测的准确度。

附图说明

图1是本发明实施例一提供的音频质量检测方法的流程图。

图2是本发明实施例二提供的音频质量检测装置的结构图。

图3是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

实施例一

图1是本发明实施例一提供的音频质量检测方法的流程图。

在本实施例中,所述音频质量检测方法可以应用于电子设备中,对于需要进行音频质量检测的电子设备,可以直接在电子设备上集成本发明的方法所提供的音频质量检测的功能,或者以软件开发工具包(softwaredevelopmentkit,sdk)的形式运行在电子设备中。

如图1所示,所述音频质量检测方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

s11,解析客户端发送的音频质量检测请求获取第一音频。

本实施例中,客户端在进行音频质量检测时,通过客户端发起音频质量检测请求至服务端,具体地,所述客户端可以是智能手机、ipad或者其他现有智能设备,所述服务端可以为音频质量检测子系统,在音频质量检测过程中,如所述客户端可以向所述音频质量检测子系统发送音频质量检测请求,所述音频质量检测子系统用于接收所述客户端发送的音频质量检测请求。

本实施例中,当所述服务端接收到所述音频质量检测请求,对所述音频质量检测请求进行解析得到第一音频,具体地,所述第一音频可以为所述客户端录制的音频,也可以为从视频中提取的音频。

s12,对所述第一音频进行预处理得到第二音频。

本实施例中,所述预处理包括对所述第一音频进行降噪处理和语音活性检测处理。

在一个可选的实施例中,所述对所述第一音频进行预处理得到第二音频包括:

对所述第一音频进行降噪处理,得到降噪后的第一音频,其中,第一音频存储于区块链节点中;

对所述降噪后的第一音频进行语音活性检测得到第二音频。

本实施例中,需要对所述第一音频进行降噪处理,去除所述第一音频中的杂音,对降噪后的第一音频进行语音活性检测,具体地,所述语音活性检测为现有技术,本实施例在此不做详细阐述。

需要强调的是,为进一步保证上述第一音频的私密和安全性,上述第一音频还可以存储于一区块链的节点中。

进一步地,所述对所述降噪后的第一音频进行语音活性检测得到第二音频包括:

检测所述降噪后的第一音频中的每个句子的音频时长;

判断每个句子的音频时长是否满足预设的音频时长阈值要求;

当每个句子的音频时长满足所述预设的音频时长阈值要求时,将所述第一音频中的每个句子作为第二音频;或者

当任意一个句子的音频时长不满足所述预设的音频时长阈值要求时,删除所述第一音频中的任意一个句子,保留所述第一音频中的其余句子作为第二音频。

本实施例中,对解析得到的第一音频进行降噪预处理,对降噪后的第一音频进行语音活性检测(voiceactivitydetection,vad),具体地,对降噪后的第一音频检测静音段的时长,标注出静音段长度与正常语句中停顿不一致的音频,进行断点检测,同时检测降噪后的第一音频中每个句子的音频时长,每个句子的音频时长是否满足预设的音频时长阈值要求,例如,所述预设的音频时长阈值可以设置为1~10秒,从所述降噪后的第一音频中删除音频时长小于1秒和大于10秒的句子,将其余句子作为第二音频。

本实施例中,通过对所述第一音频进行降噪处理和语音活性检测处理,有效提升音频断点检测的准确率,提高了第二音频的音频质量。

在其他可选的实施例中,所述方法还包括:

将所述第二音频转换为文本;

将所述文本拆成拼音;

计算所述拼音的字节数;

将所述第二音频中每个句子的音频时长除以相同句子的字节数计算得到所述第二音频的每个句子的语速;

计算所述第二音频的平均语速;

计算所述第二音频的每个句子的语速与所述平均语速的差值;

当所述第二音频的任意一个句子的语速与所述平均语速的差值大于预设的语速阈值时,删除所述第二音频的任意一个句子,保留所述第二音频中的其余句子作为第三音频;或者

当所述第二音频的每个句子的语速与所述平均语速的差值小于或者等于所述预设的语速阈值时,将所述第二音频作为第三音频。

本实施例中,通过对所述第一音频进行降噪处理,对所述降噪后的第一音频进行语音活性检测得到第二音频,对第二音频的平均语速与所述第二音频中的每个句子的语速进行差值计算,将计算得到的差值与预设的语速阈值进行比较,从所述第二音频中删除语速出现异常的句子,从多个维度对所述音频进行了质量检测,提高了音频质量检测的准确率。

s13,从所述第二音频中提取多个音频特征值和多个音质特征值。

本实施例中,所述音频特征可以包括以下一种或者多种:音频音高、音强、能量的最大值、最小值、平均值、极差、方差和平均变化率,所述音质特征可以包括以下一种或者多种:第一共振峰频率、带宽、频率微扰和振幅微扰。

在其他可选的实施例中,也可以从第三音频中提取多个音频特征值和多个音质特征值,执行所述s14至s15。

可选地,所述从所述第二音频中提取多个音频特征值和多个音质特征值包括:

对所述第二音频的音频信号采用预加重滤波器进行处理得到目标音频信号;

将所述目标音频信号切分为多个短时帧;

对每个短时帧乘以一个预设的窗函数得到加窗后的短时帧;

计算每个加窗后的短时帧傅里叶变换后的功率谱;

根据所述功率谱使用预设的刻度滤波器组在每个加窗后的短时帧中进行多个音频特征值和多个音质特征值提取。

本实施例中,可以预先设置刻度滤波器组,例如,所述预设的刻度滤波器组可以为mel刻度的三角滤波器,通过对所述第二音频的音频信号进行预加重处理、切分、及傅里叶变换后,根据功率谱使用预设的刻度滤波器组在每个加窗后的短时帧中进行音频特征值和音质特征值提取,依靠机器学习算法的限制所驱动的,避免人类对音频信号进行感知所驱动,提高了音频特征值和音质特征值的提取准确率。

s14,对所述多个音频特征值和所述多个音质特征值进行异常检测,得到异常检测结果。

本实施例中,同一个录音人针对不同的录音需求,音频特征值可能存在变化,但是其韵律学特征会相对近似,在同样的录音条件下,录音人的音质特征也应当相似,故为了确保第二音频的质量检测的准确率,对从所述第二音频中提取的多个音频特征值和多个音质特征值进行异常检测。

可选地,所述对所述多个音频特征值和所述多个音质特征值进行异常检测,得到异常检测结果包括:

将所述多个音频特征值和所述多个音质特征值作为训练集,并对所述训练集进行子采样得到所述训练集的子样本;

基于所述训练集的子样本建立孤立树;

采用随机超平面切割的方法构建包含多棵孤立树的孤立森林模型;

选取任意一个待检测特征值,令其遍历每一棵孤立树,然后计算所述任意一个待检测特征值的最终的平均路径长度,并计算所述任意一个待检测特征值的异常分数,其中,所述待检测特征值为所述多个音频特征值和所述多个音质特征值;

将所述任意一个待检测特征值的异常分数作为与所述任意一个待检测特征值相同的特征值的异常检测结果。

具体地,所述孤立森林模型的构建过程包括:

从训练集中随机抽取多个子样本,放入树的根节点;

随机选取一个特征维度,并在当前特征的所有范围内随机生成一个目标值,所述目标值是在所述随机选取的特征范围的最大值和最小值之间随机产生的;

根据所述目标值对每个子样本进行二叉划分,指定维度中小于所述目标值的数据被放在当前节点的左侧子树即子节点中,大于或等于所述目标值的数据被放在当前节点的右侧子树即子节点中;

在生成的左右两侧子树中,重复执行所述随机选取一个特征维度至大于或等于所述目标值的数据被放在当前节点的右侧子树即子节点中,对子节点进行更新,直到达到终止条件,其中,所述终止条件包括:孤立树的深度达到了预设的最大值、孤立树的节点只有一个样本或者孤立树的节点所包含的样本的数据值全部相同;

构建多棵孤立树,搭建孤立森林模型。

本实施例中,通过孤立森林算法对所述多个音频特征值和所述多个音质特征值进行异常检测,由于孤立森林算法可以从多个维度的特征值进行异常检测,提高了异常检测的检测效率,同时,通过从音频特征和音质特征两个维度进行综合考虑,对所述第二音频进行质量检测,能够排除主观原因导致得到的音频文件效果参差不齐的问题,提高了音频质量检测的准确率。

s15,根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果。

本实施例中,可以预先为每个音频特征值设置第一异常分数阈值,及预先为每个音质特征值设置第二异常分数阈值,根据每个音频特征值设置的第一异常分数阈值和异常检测得到的每个音频特征值的异常分数判断每个音频特征值是否异常;根据每个音质特征值设置的第一异常分数阈值和异常检测得到的每个音质特征值的异常分数判断每个音质特征值是否异常;根据判断结果得到所述第二音频的目标异常检测结果。

在一个可选的实施例中,所述根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果包括:

从所述异常检测结果中获取每个音频特征值的异常分数及每个音质特征的异常分数;

将每个音频特征值的异常分数与相同音频特征值的第一异常分数阈值进行比较,及将每个音质特征值的异常分数与相同音质特征值的第二异常分数阈值进行比较;

当任意一个音频特征值的异常分数小于或者等于所述相同音频特征值的第一异常分数阈值,或者当任意一个音质特征值的异常分数小于或者等于所述相同音质特征值的第二异常分数阈值时,保留所述任意一个音频特征值对应的音频特征或者所述任意一个音质特征值对应的音质特征;

将保留的音频特征值对应的音频特征和保留的音质特征值对应的音质特征确定为所述第二音频的目标异常检测结果。

进一步地,所述方法还包括:

当任意一个音频特征值的异常分数大于所述相同音频特征值的第一异常分数阈值,或者当任意一个音质特征值的异常分数大于所述相同音质特征值的第二异常分数阈值时,删除所述任意一个音频特征值对应的音频特征或者所述任意一个音质特征值对应的音质特征。

本实施例中,通过根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值,判断每个音频特征值和每个音质特征值是否异常,通过整体音频数据进行质量检测,最大程度的发现异常和不合适的音频特征和音质特征,从所述第二音频中删除异常的音频特征和音质特征得到所述第二音频的目标异常检测结果,确保了所述目标异常检测结果中的音频质量,提高了音频质量检测的准确度。

综上所述,本实施例所述的音频质量检测方法,一方面,通过对所述第一音频进行预处理得到第二音频,即对所述第一音频进行降噪处理和语音活性检测处理,有效提升音频断点检测的准确率,提高了第二音频的音频质量;另一方面,对所述多个音频特征值和所述多个音质特征值进行异常检测,得到第一异常检测结果,通过从音频特征和音质特征两个维度进行综合考虑,对所述第二音频进行质量检测,能够排除主观原因导致得到的音频文件效果参差不齐的问题,提高了音频质量检测的准确率;最后,根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果,最大程度的发现异常和不合适的音频特征和音质特征,从所述第二音频中删除异常的音频特征和音质特征得到所述第二音频的目标异常检测结果,确保了所述目标异常检测结果中的音频质量,提高了音频质量检测的准确度。

实施例二

图2是本发明实施例二提供的音频质量检测装置的结构图。

在一些实施例中,所述音频质量检测装置20可以包括多个由程序代码段所组成的功能模块。所述音频质量检测装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)音频质量检测的功能。

本实施例中,所述音频质量检测装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:解析模块201、预处理模块202、提取模块203、异常检测模块204及确定模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

解析模块201,用于解析客户端发送的音频质量检测请求获取第一音频。

本实施例中,客户端在进行音频质量检测时,通过客户端发起音频质量检测请求至服务端,具体地,所述客户端可以是智能手机、ipad或者其他现有智能设备,所述服务端可以为音频质量检测子系统,在音频质量检测过程中,如所述客户端可以向所述音频质量检测子系统发送音频质量检测请求,所述音频质量检测子系统用于接收所述客户端发送的音频质量检测请求。

本实施例中,当所述服务端接收到所述音频质量检测请求,对所述音频质量检测请求进行解析得到第一音频,具体地,所述第一音频可以为所述客户端录制的音频,也可以为从视频中提取的音频。

预处理模块202,用于对所述第一音频进行预处理得到第二音频。

本实施例中,所述预处理包括对所述第一音频进行降噪处理和语音活性检测处理。

在一个可选的实施例中,所述预处理模块202对所述第一音频进行预处理得到第二音频包括:

对所述第一音频进行降噪处理,得到降噪后的第一音频,其中,第一音频存储于区块链节点中;

对所述降噪后的第一音频进行语音活性检测得到第二音频。

本实施例中,需要对所述第一音频进行降噪处理,去除所述第一音频中的杂音,对降噪后的第一音频进行语音活性检测,具体地,所述语音活性检测为现有技术,本实施例在此不做详细阐述。

需要强调的是,为进一步保证上述第一音频的私密和安全性,上述第一音频还可以存储于一区块链的节点中。

进一步地,所述对所述降噪后的第一音频进行语音活性检测得到第二音频包括:

检测所述降噪后的第一音频中的每个句子的音频时长;

判断每个句子的音频时长是否满足预设的音频时长阈值要求;

当每个句子的音频时长满足所述预设的音频时长阈值要求时,将所述第一音频中的每个句子作为第二音频;或者

当任意一个句子的音频时长不满足所述预设的音频时长阈值要求时,删除所述第一音频中的任意一个句子,保留所述第一音频中的其余句子作为第二音频。

本实施例中,对解析得到的第一音频进行降噪预处理,对降噪后的第一音频进行语音活性检测(voiceactivitydetection,vad),具体地,对降噪后的第一音频检测静音段的时长,标注出静音段长度与正常语句中停顿不一致的音频,进行断点检测,同时检测降噪后的第一音频中每个句子的音频时长,每个句子的音频时长是否满足预设的音频时长阈值要求,例如,所述预设的音频时长阈值可以设置为1~10秒,从所述降噪后的第一音频中删除音频时长小于1秒和大于10秒的句子,将其余句子作为第二音频。

本实施例中,通过对所述第一音频进行降噪处理和语音活性检测处理,有效提升音频断点检测的准确率,提高了第二音频的音频质量。

在其他可选的实施例中,将所述第二音频转换为文本;将所述文本拆成拼音;计算所述拼音的字节数;将所述第二音频中每个句子的音频时长除以相同句子的字节数计算得到所述第二音频的每个句子的语速;计算所述第二音频的平均语速;计算所述第二音频的每个句子的语速与所述平均语速的差值;当所述第二音频的任意一个句子的语速与所述平均语速的差值大于预设的语速阈值时,删除所述第二音频的任意一个句子,保留所述第二音频中的其余句子作为第三音频;当所述第二音频的每个句子的语速与所述平均语速的差值小于或者等于所述预设的语速阈值时,将所述第二音频作为第三音频。

本实施例中,通过对所述第一音频进行降噪处理,对所述降噪后的第一音频进行语音活性检测得到第二音频,对第二音频的平均语速与所述第二音频中的每个句子的语速进行差值计算,将计算得到的差值与预设的语速阈值进行比较,从所述第二音频中删除语速出现异常的句子,从多个维度对所述音频进行了质量检测,提高了音频质量检测的准确率。

提取模块203,用于从所述第二音频中提取多个音频特征值和多个音质特征值。

本实施例中,所述音频特征可以包括以下一种或者多种:音频音高、音强、能量的最大值、最小值、平均值、极差、方差和平均变化率,所述音质特征可以包括以下一种或者多种:第一共振峰频率、带宽、频率微扰和振幅微扰。

在其他可选的实施例中,也可以从第三音频中提取多个音频特征值和多个音质特征值,执行所述对所述多个音频特征值和所述多个音质特征值进行异常检测,得到异常检测结果,和所述根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果。

可选地,所述提取模块203从所述第二音频中提取多个音频特征值和多个音质特征值包括:

对所述第二音频的音频信号采用预加重滤波器进行处理得到目标音频信号;

将所述目标音频信号切分为多个短时帧;

对每个短时帧乘以一个预设的窗函数得到加窗后的短时帧;

计算每个加窗后的短时帧傅里叶变换后的功率谱;

根据所述功率谱使用预设的刻度滤波器组在每个加窗后的短时帧中进行多个音频特征值和多个音质特征值提取。

本实施例中,可以预先设置刻度滤波器组,例如,所述预设的刻度滤波器组可以为mel刻度的三角滤波器,通过对所述第二音频的音频信号进行预加重处理、切分、及傅里叶变换后,根据功率谱使用预设的刻度滤波器组在每个加窗后的短时帧中进行音频特征值和音质特征值提取,依靠机器学习算法的限制所驱动的,避免人类对音频信号进行感知所驱动,提高了音频特征值和音质特征值的提取准确率。

异常检测模块204,用于对所述多个音频特征值和所述多个音质特征值进行异常检测,得到异常检测结果。

本实施例中,同一个录音人针对不同的录音需求,音频特征值可能存在变化,但是其韵律学特征会相对近似,在同样的录音条件下,录音人的音质特征也应当相似,故为了确保第二音频的质量检测的准确率,对从所述第二音频中提取的多个音频特征值和多个音质特征值进行异常检测。

可选地,所述异常检测模块204对所述多个音频特征值和所述多个音质特征值进行异常检测,得到异常检测结果包括:

将所述多个音频特征值和所述多个音质特征值作为训练集,并对所述训练集进行子采样得到所述训练集的子样本;

基于所述训练集的子样本建立孤立树;

采用随机超平面切割的方法构建包含多棵孤立树的孤立森林模型;

选取任意一个待检测特征值,令其遍历每一棵孤立树,然后计算所述任意一个待检测特征值的最终的平均路径长度,并计算所述任意一个待检测特征值的异常分数,其中,所述待检测特征值为所述多个音频特征值和所述多个音质特征值;

将所述任意一个待检测特征值的异常分数作为与所述任意一个待检测特征值相同的特征值的异常检测结果。

具体地,所述孤立森林模型的构建过程包括:

从训练集中随机抽取多个子样本,放入树的根节点;

随机选取一个特征维度,并在当前特征的所有范围内随机生成一个目标值,所述目标值是在所述随机选取的特征范围的最大值和最小值之间随机产生的;

根据所述目标值对每个子样本进行二叉划分,指定维度中小于所述目标值的数据被放在当前节点的左侧子树即子节点中,大于或等于所述目标值的数据被放在当前节点的右侧子树即子节点中;

在生成的左右两侧子树中,重复执行所述随机选取一个特征维度至大于或等于所述目标值的数据被放在当前节点的右侧子树即子节点中,对子节点进行更新,直到达到终止条件,其中,所述终止条件包括:孤立树的深度达到了预设的最大值、孤立树的节点只有一个样本或者孤立树的节点所包含的样本的数据值全部相同;

构建多棵孤立树,搭建孤立森林模型。

本实施例中,通过孤立森林算法对所述多个音频特征值和所述多个音质特征值进行异常检测,由于孤立森林算法可以从多个维度的特征值进行异常检测,提高了异常检测的检测效率,同时,通过从音频特征和音质特征两个维度进行综合考虑,对所述第二音频进行质量检测,能够排除主观原因导致得到的音频文件效果参差不齐的问题,提高了音频质量检测的准确率。

确定模块205,用于根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果。

本实施例中,可以预先为每个音频特征值设置第一异常分数阈值,及预先为每个音质特征值设置第二异常分数阈值,根据每个音频特征值设置的第一异常分数阈值和异常检测得到的每个音频特征值的异常分数判断每个音频特征值是否异常;根据每个音质特征值设置的第一异常分数阈值和异常检测得到的每个音质特征值的异常分数判断每个音质特征值是否异常;根据判断结果得到所述第二音频的目标异常检测结果。

在一个可选的实施例中,所述确定模块205根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果包括:

从所述异常检测结果中获取每个音频特征值的异常分数及每个音质特征的异常分数;

将每个音频特征值的异常分数与相同音频特征值的第一异常分数阈值进行比较,及将每个音质特征值的异常分数与相同音质特征值的第二异常分数阈值进行比较;

当任意一个音频特征值的异常分数小于或者等于所述相同音频特征值的第一异常分数阈值,或者当任意一个音质特征值的异常分数小于或者等于所述相同音质特征值的第二异常分数阈值时,保留所述任意一个音频特征值对应的音频特征或者所述任意一个音质特征值对应的音质特征;

将保留的音频特征值对应的音频特征和保留的音质特征值对应的音质特征确定为所述第二音频的目标异常检测结果。

进一步地,当任意一个音频特征值的异常分数大于所述相同音频特征值的第一异常分数阈值,或者当任意一个音质特征值的异常分数大于所述相同音质特征值的第二异常分数阈值时,删除所述任意一个音频特征值对应的音频特征或者所述任意一个音质特征值对应的音质特征。

本实施例中,通过根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值,判断每个音频特征值和每个音质特征值是否异常,通过整体音频数据进行质量检测,最大程度的发现异常和不合适的音频特征和音质特征,从所述第二音频中删除异常的音频特征和音质特征得到所述第二音频的目标异常检测结果,确保了所述目标异常检测结果中的音频质量,提高了音频质量检测的准确度。

综上所述,本实施例所述的音频质量检测装置,一方面,通过对所述第一音频进行预处理得到第二音频,即对所述第一音频进行降噪处理和语音活性检测处理,有效提升音频断点检测的准确率,提高了第二音频的音频质量;另一方面,对所述多个音频特征值和所述多个音质特征值进行异常检测,得到第一异常检测结果,通过从音频特征和音质特征两个维度进行综合考虑,对所述第二音频进行质量检测,能够排除主观原因导致得到的音频文件效果参差不齐的问题,提高了音频质量检测的准确率;最后,根据每个音频特征值的第一异常分数阈值、每个音质特征值的第二异常分数阈值和所述异常检测结果确定所述第二音频的目标异常检测结果,最大程度的发现异常和不合适的音频特征和音质特征,从所述第二音频中删除异常的音频特征和音质特征得到所述第二音频的目标异常检测结果,确保了所述目标异常检测结果中的音频质量,提高了音频质量检测的准确度。

实施例三

参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的音频质量检测装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(read-onlymemory,rom)、可编程只读存储器(programmableread-onlymemory,prom)、可擦除可编程只读存储器(erasableprogrammableread-onlymemory,eprom)、一次可编程只读存储器(one-timeprogrammableread-onlymemory,otprom)、电子擦除式可复写只读存储器(electrically-erasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(centralprocessingunit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(controlunit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。

在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的音频质量检测装置20)、程序代码等,例如,上述的各个模块。

所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到音频质量检测的目的。

在本发明的一个实施例中,所述存储器31存储多个指令,所述多个指令被所述至少一个处理器32所执行以实现音频质量检测的功能。

具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

进一步地,所述计算机可读存储介质可以是非易失性,也可以是易失性。

进一步地,所述计算机可读存储介质主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜