语音质量评估方法、系统、计算机可读存储介质与流程

2021-11-24 19:18:00 来源：中国专利 TAG：

1.本发明涉及声学计算领域，尤其涉及一种用于对降噪质量进行评估的语音质量评估技术。

背景技术：

2.对于增强之后的语音质量评估通常分为两种方式：主观评估测度和客观质量评估测度。
3.主观评估方法主要是对增强之后的语音进行人为试听并进行打分，如使用最广泛的平均意见得分(mos)方法、相对偏好方法(也称之为等偏好测试)等；主观评估测度一般被认为是最可靠的语音质量评估方法，然而由于需要大量的专业人员进行反复试听并进行综合打分，耗时长，评估效率低。

技术实现要素：

4.本发明针对现有主观评估方法进行语音质量评估，耗时长，评估效率低，人力成本大等缺点，提出了一种能够客观、准确评价降噪语音质量的评估技术。
5.为了解决上述技术问题，本发明通过下述技术方案得以解决：
6.一种语音质量评估方法，用于在音频增强过程中，对音频的降噪质量进行评估，包括以下步骤：
7.获取降噪信号和与所述降噪信号相对应的参考信号，所述降噪信号包括若干降噪信号帧，所述参考信号包括与所述降噪信号帧一一对应的参考信号帧；
8.基于参考信号帧，计算各降噪信号帧的语音清晰度，获得相应的帧清晰度；
9.基于声音分贝值对各参考信号帧进行分组，并基于分组结果对各降噪信号帧进行分组，获得若干个降噪信号帧集；
10.基于降噪信号帧集中各降噪信号帧的帧清晰度，计算各降噪信号帧集所对应的语音清晰度，获得相应的段清晰度，如对降噪信号帧集所对应的帧清晰度进行求平均，将所得平均值作为段清晰度；
11.对各段清晰度进行加权计算，获得所述降噪信号的语音清晰度，加权计算时所采用的清晰度权重可为固定权重或自适应权重。
12.作为一种可实施方式：
13.计算参考信号和降噪信号之间的幅度平方相干度；
14.计算所述降噪信号的能量谱密度数据；
15.获取预设的听觉滤波器，所述听觉滤波器设有若干个临界频带；
16.基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算降噪信号帧在各临界频带上的信噪比失真率；
17.基于所述信噪比失真率计算各降噪信号帧的语音清晰度，获得相应的帧清晰度。
18.作为一种可实施方式，计算所述信噪比失真率的公式为：
[0019][0020]
其中，sdr表示m个降噪信号帧分别在j个临界频带上的信噪比失真率，m表示降噪信号帧的总帧数，w
j
表示听觉滤波器，|γ|2表示幅度平方相干度，s
yy
(k)表示能量谱密度数据，k表示频点的总数，k表示频点下标。
[0021]
作为一种可实施方式，计算所述幅度平方相干度|γ|2的公式为：
[0022][0023]
其中，m为降噪信号帧或参考信号帧的总帧数，m指示帧下标，x表示参考频谱数据，x
m
表示帧下标为m的参考信号帧所对应的频谱数据，y表示降噪频谱数据，y
m
表示帧下标为m的降噪信号帧所对应的频谱数据，“*”表示复数的共轭操作。
[0024]
作为一种可实施方式：
[0025]
基于声音分贝值将参考信号帧分为若干组，获得相应的参考信号帧集；
[0026]
基于所述参考信号帧集对降噪信号帧进行分组，获得与所述参考信号帧集一一对应的降噪信号帧集。
[0027]
作为一种可实施方式：
[0028]
计算各参考信号帧的声音分贝值；
[0029]
获取预设的分贝阈值，所述分贝阈值包括第一分贝阈值和第二分贝阈值，其中第一分贝阈值大于所述第二分贝阈值；
[0030]
提取声音分贝值大于所述第一分贝阈值的参考信号帧，获得第一参考信号帧集；
[0031]
提取声音分贝值小于等于所述第一分贝阈值，且大于等于所述第二分贝阈值的参考信号帧，获得第二参考信号帧集；
[0032]
提取声音分贝值小于所述第二分贝阈值的参考信号帧，获得第三参考信号帧集。
[0033]
作为一种可实施方式：
[0034]
所述第一分贝阈值为0db，所述第二分贝阈值为
‑
10db。
[0035]
作为一种可实施方式：
[0036]
计算各参考信号帧的短时平均幅度，获得相应的帧幅度数据；
[0037]
基于所述帧幅度数据，计算各参考信号帧集所对应的整体短时平均幅度，获得段幅度数据；
[0038]
基于所述段幅度数据计算各参考信号帧集所对应的清晰度权重；
[0039]
基于所述段清晰度和所述清晰度权重进行加权计算，获得降噪信号的语音清晰度。
[0040]
本发明还提出一种语音质量评估系统，包括：
[0041]
获取模块，用于获取降噪信号和与所述降噪信号所对应的参考信号，所述降噪信号包括若干降噪信号帧，所述参考信号包括与所述降噪信号帧一一对应的参考信号帧；
[0042]
帧计算模块，用于基于参考信号帧，计算各降噪信号帧的语音清晰度，获得相应的帧清晰度；
[0043]
分段模块，用于基于声音分贝值对各参考信号帧进行分组，并基于分组结果对各
降噪信号帧进行分组，获得若干个降噪信号帧集；
[0044]
段计算模块，用于基于降噪信号帧集中各降噪信号帧的帧清晰度，计算各降噪信号帧集所对应的语音清晰度，获得相应的段清晰度；
[0045]
评估模块，用于对各段清晰度进行加权计算，获得所述降噪信号的语音清晰度。
[0046]
本发明还提出一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现上述任意一项所述方法的步骤。
[0047]
本发明由于采用了以上技术方案，具有显著的技术效果：
[0048]
本发明考虑到不同声音段对语音质量的影响程度不同，对降噪信号帧进行分组，并计算各降噪信号帧集所对应的段清晰度，根据各降噪信号帧集对语音质量的影响程度进行加权计算，使所得语音清晰度更贴合实际人类感知，更符合主观评价结果。
[0049]
本发明基于参考信号与降噪信号之间的幅度平方相干度msc、人耳听觉滤波器和降噪信号的能量谱密度，计算获得相应的帧清晰度，算法简单，计算用时短，能够有效提高评估效率。
[0050]
本发明利用平均幅度来映射元音段，辅音和静音段做出的贡献大小，以计算各带噪语音帧集对应的权重系数，从而使加权所得的语音清晰度能够充分反映语音降噪之后的噪声失真和语音失真程度，使所得语音清晰度更贴合实际人类感知，更符合主观评价结果。
附图说明
[0051]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0052]
图1是本发明一种语音质量评估方法的流程示意图；
[0053]
图2是实施例3中一种语音质量评估系统的模块连接示意图；
[0054]
图3是图2中帧计算模块200的模块连接示意图；
[0055]
图4是实施例4中一种语音质量评估系统的模块连接示意图。
具体实施方式
[0056]
下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。
[0057]
实施例1、一种语音质量评估方法，用于对降噪质量进行评估，包括以下步骤：
[0058]
s100、获取降噪信号和与所述降噪信号相对应的参考信号，所述降噪信号包括若干降噪信号帧，所述参考信号包括与所述降噪信号帧一一对应的参考信号帧；s200、基于参考信号帧，计算各降噪信号帧的语音清晰度，获得相应的帧清晰度；
[0059]
s300、基于声音分贝值对各参考信号帧进行分组，并基于分组结果对各降噪信号帧进行分组，获得若干个降噪信号帧集；
[0060]
本领域技术人员可根据实际需要自行设定分组规则，将各参考信号帧按照声音分贝值分组即可；
[0061]
s400、基于降噪信号帧集中各降噪信号帧的帧清晰度，计算各降噪信号帧集所对
应的语音清晰度，获得相应的段清晰度；
[0062]
s500、对各段清晰度进行加权计算，获得所述降噪信号的语音清晰度，所述语音清晰度能够指示所述降噪信号的语音质量。
[0063]
本领域技术人员可根据实际情况，自行为各类降噪信号帧集设定相应的清晰度权重，基于清晰度权重对各段清晰度进行加权。
[0064]
在对降噪算法或对降噪装置的降噪效果进行评估时，往往利用带噪信号进行测试，获得相应的降噪信号，再利用与带噪信号相对应的参考信号评判所得降噪信号的失真程度，从而对降噪质量进行评估；
[0065]
客观评估方法往往通过计算降噪信号和参考信号之间的差距，模拟或预测主观评估结果，现有已公开的客观评估方法包括经典的感知语音质量评估(pesq)、短时目标清晰度(stoi)、基于lpc的谱距离测度等，上述客观评估方法均通过计算各降噪信号帧和参考信号帧之间的差距，然后利用所有语音帧的平均差距来表征降噪信号相对参考信号的失真程度；
[0066]
但不同语音段所对应的发音内容和性质各不相同，在增强之后对失真程度的反馈亦不同，例如元音段的语音能量较大，幅值较高，辅音段及无声段(无人声段)的语音能量相对较少，振幅较低，但辅音段和无声段往往对降噪所得音频的质量影响更大，如在辅音段更容易发生人声失真，即，过度消声，而在无声段更容易发生噪声失真，即，音乐噪声残留；
[0067]
本实施例考虑到不同声音段对降噪语音质量的影响程度不同，对降噪信号帧进行分组，并计算各降噪信号帧集所对应的段清晰度，根据各降噪信号帧集对语音质量的影响程度进行加权计算，使所得语音清晰度更贴合实际人类感知，更符合主观评价结果。
[0068]
进一步地，步骤s200中基于参考信号帧，计算各降噪信号帧的语音清晰度，获得相应的帧清晰度的具体步骤为：
[0069]
s210、计算参考信号和降噪信号之间的幅度平方相干度；
[0070]
本实施例中，计算所述幅度平方相干度|γ|2的公式如下：
[0071][0072]
其中，m为降噪信号帧或参考信号帧的总帧数，m指示帧下标，x表示参考频谱数据，x
m
表示帧下标为m的参考信号帧所对应的频谱数据，y表示降噪频谱数据，y
m
表示帧下标为m的降噪信号帧所对应的频谱数据，“*”表示复数的共轭操作。
[0073]
注：|γ|2为矩阵，其维度为512，与频点相对应。
[0074]
s220、计算所述降噪信号的能量谱密度数据；
[0075]
即，对所述降噪信号进行傅里叶变换，并对所得计算结果求取平方，获得能量谱密度数据；
[0076]
注：能量谱密度数据为矩阵，维度为(m，k)，m为总帧数，k为频点总数
[0077]
s230、获取预设的听觉滤波器，所述听觉滤波器设有若干个临界频带；
[0078]
本实施例中听觉滤波器采用ro
‑
ex filter，选取16个临界频带，临界频带的权重为fw，临界频带的划分及对应权重的选取可参照《ansi s3.5
‑
1997清晰度指数的计算方法标准》，本说明书不对其进行详细介绍。
[0079]
注，听觉滤波器为矩阵，维度为(j，k)，其中j为临界频带的数量，即16。
[0080]
s240、基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算降噪信号帧在各临界频带上的信噪比失真率；
[0081]
计算公式为：
[0082][0083]
其中，sdr表示m个降噪信号帧分别在j个临界频带上的信噪比失真率，m表示降噪信号帧的总帧数，w
j
表示听觉滤波器，|γ|2表示幅度平方相干度，s
yy
(k)表示降噪信号所对应的能量谱密度数据，k表示频点的总个数，k表示频点下标；
[0084]
注：信噪比失真率sdr为矩阵，维度为(j,m)，j为临界频带的数量，m为对应带噪语音的总帧数。
[0085]
s250、基于所述信噪比失真率计算各降噪信号帧的语音清晰度，获得相应的帧清晰度。
[0086]
计算公式如下：
[0087][0088]
其中，fin_sdr为体现各帧清晰度的矩阵，其维度为m，包含各降噪信号帧对应的帧清晰度，fw为临界频带的权重。
[0089]
sdr’的获取方式包括以下三种：
[0090]
①
、将计算获得的信噪比失真率sdr作为sdr’；
[0091]
②
、基于信噪比失真率sdr计算sdr’，公式如下：
[0092]
sdr
′
＝10*log
10
(sdr)；
[0093]
③
、对方法
②
所得的sdr’做进一步处理：
[0094]
当方法
②
所得sdr’小于
‑
15时，令sdr’取值
‑
15，当所得sdr’大于等于15时，令sdr’取值15：本方法对sdr’最大值和最小值的限定，能够剔除异常数据，避免异常数据影响对应帧清晰度的准确性。
[0095]
本实施例基于参考信号与降噪信号之间的幅度平方相干度msc、人类听觉滤波器和降噪信号的能量谱密度，计算获得各降噪信号帧的语音清晰度，本实施例中，语音清晰度的值越高，表示降噪语音质量越佳。
[0096]
本实施例中所提出的帧清晰度的计算方法，与现有客观评估方法相比，能够在保证帧清晰度准确性的同时，简化计算方式，大大减少计算用时。
[0097]
进一步地，步骤s300中基于声音分贝值对各参考信号帧进行分组，并基于分组结果对各降噪信号帧进行分组，获得若干个降噪信号帧集，具体为：
[0098]
s310、基于声音分贝值将参考信号帧分为若干组，获得相应的参考信号帧集；
[0099]
具体步骤为：
[0100]
计算各参考信号帧的声音分贝值；
[0101]
获取预设的分贝阈值，所述分贝阈值包括第一分贝阈值和第二分贝阈值，其中第一分贝阈值大于所述第二分贝阈值；
[0102]
提取声音分贝值大于所述第一分贝阈值的参考信号帧，获得第一参考信号帧集；
[0103]
提取声音分贝值小于等于所述第一分贝阈值，且大于等于所述第二分贝阈值的参考信号帧，获得第二参考信号帧集；
[0104]
提取声音分贝值小于所述第二分贝阈值的参考信号帧，获得第三参考信号帧集。
[0105]
本领域技术人员可根据实际需要自行设定第一分贝阈值和第二分贝阈值，本实施例中第一分贝阈值为0db，第二分贝阈值为
‑
10db。
[0106]
s320、基于所述参考信号帧集对降噪信号帧进行分组，获得与所述参考信号帧集一一对应的降噪信号帧集。
[0107]
基于参考信号帧集中各帧的帧下标，提取与其相对应的带噪语音帧，以对所述带噪语音帧进行分组，获得与参考信号帧集一一对应的带噪语音帧集。
[0108]
实施例2、于实施例1中增加计算权重的步骤，即，将实施例1中的清晰度权重由固定值更改为自适应值，其余均等同于实施例1；
[0109]
计算清晰度权重的步骤如下：
[0110]
s610、计算各参考信号帧的短时平均幅度，即，平均幅度，获得相应的帧幅度数据m
m
；计算公式如下：
[0111][0112]
其中，i为当前帧的时域采样点下标，i为一帧的长度(采样点个数)，x
m
(i)为当前帧的时域采样点数据，即，幅度值。
[0113]
s620、基于所述帧幅度数据m
m
，计算各参考信号帧集所对应的整体短时平均幅度，获得段幅度数据；
[0114]
各参考信号帧集对应的段幅度数据的计算方法均相同，故本实施例中以计算第一参考信号帧集所对应的段幅度数据为例进行详细说明；
[0115]
计算公式如下：
[0116][0117]
其中，h表示第一参考信号帧集中参考信号帧的数量，m
m
(t)表示第一参考信号帧集中第t个参考信号帧的帧幅度数据，符号“*”表示乘运算。
[0118]
s630、基于所述段幅度数据计算各参考信号帧集所对应的清晰度权重；
[0119]
计算公式如下：
[0120][0121]
其中，m
high
为第一参考信号帧集所对应的段幅度数据，m
middle
为第二参考信号帧集所对应的段幅度数据，m
low
为第三参考信号帧集所对应的段幅度数据，m
middle
和m
low
的计算方法可参照上述步骤620和步骤630，本实施例中不进行重复阐述。
[0122]
此处的对数运算是为了防止各段幅度数据数值过大，而取负值是为了在计算ada_csii时让语音信号的辅音段和过渡段占更大的权重从而达到自适应计算分段语音清晰度
指数的目的。
[0123]
本实施例中使用平均幅度来映射元音，辅音和静音段做出的贡献大小，以计算各带噪语音帧集对应的权重系数，从而使加权所得的语音清晰度能够充分反映语音降噪之后的噪声失真和语音失真程度。
[0124]
参照图1，以下通过具体的案例对本实施例所公开的语音评估方案进行详细介绍：
[0125]
a、预处理：
[0126]
对待评估的降噪信号进行分帧，获得若干降噪信号帧；
[0127]
对降噪信号帧进行加窗，并进行dft计算(离散傅里叶计算)，获得相应的降噪频谱数据，
[0128]
本实施例中窗函数采用汉明窗，并设置单位帧长为25ms，帧移10ms，本领域技术人员可根据实际情况自行设置；
[0129]
获取降噪信号所对应的参考信号，将该参考信号代替上述降噪信号进行预处理，获得若干参考信号帧，还获得各参考信号帧相对应的参考频谱数据，其中参考信号帧和降噪信号帧一一对应；
[0130]
图1中虚线表示参考信号在语音评估过程中的数据处理过程，以区别参考信号和降噪信号在语音质量评估过程中的作用。
[0131]
b、分段：
[0132]
b1、计算各参考信号帧的声音分贝值：
[0133]
计算参考信号帧的能量均方根rms，即，平均响度，计算公式为：
[0134][0135]
其中，i为当前参考信号帧的长度(采样点个数)，i为当前参考信号帧的时域采样点下标，x(i)为当前参考信号帧的时域采样点数据，即，幅度值；
[0136]
基于能量均方根计算当前参考信号帧的声音分贝值rms_db，计算公式如下：
[0137][0138]
其中，rms为当前参考信号帧的能量均方根，rms
sum
为各参考信号对应的能量均方根之和。
[0139]
b2、对参考信号帧进行分组：
[0140]
第一分贝阈值为0db，第二分贝阈值为
‑
10db；基于第一分贝阈值和第二分贝阈值将参考信号帧分为3组，分别为第一参考信号帧集、第二参考信号帧集、第三参考信号帧集；
[0141]
所述第一参考信号帧集包括声音分贝值大于0db的参考信号帧，与元音段相对应；
[0142]
所述第二参考信号帧集包括声音分贝值小于等于0db，且大于等于
‑
10db的参考信号帧，其对应元音段与辅音段和无声段之间的过渡；
[0143]
所述第三参考信号帧集中包括声音分贝值小于
‑
10db的参考信号帧，与辅音段和无声段相对应。
[0144]
b3、对降噪信号帧进行分组：
[0145]
基于参考信号帧集中各帧的帧下标，提取与其相对应的带噪语音帧，以对所述带
噪语音帧进行分组，获得与参考信号帧集一一对应的带噪语音帧集。
[0146]
即，获得第一降噪信号帧集(与第一参考信号帧集相对应)、第二降噪信号帧集(与第二参考信号帧集相对应)、第三降噪信号帧集(与第三参考信号帧集相对应)。
[0147]
c、语音清晰度计算：
[0148]
c1、计算各降噪信号帧的语音清晰度，获得相应的帧清晰度。
[0149]
c2、计算段清晰度：
[0150]
提取降噪信号帧集中各降噪信号帧的帧清晰度，求取平均值，将所得平均值作为所述降噪信号帧集对应的段清晰度；
[0151]
第一降噪信号帧集对应的段清晰度记为csii_high；第二降噪信号帧集对应的段清晰度记为csii_middle；
[0152]
第三降噪信号帧集对应的段清晰度记为csii_low。
[0153]
c3、计算清晰度权重：
[0154]
c3.1、计算各参考信号帧的短时平均幅度，获得相应的帧幅度数据m
m
；
[0155]
c3.2、基于所述帧幅度数据m
m
，计算各参考信号帧集所对应的整体短时平均幅度，获得相应的段幅度数据；
[0156]
第一参考信号帧集对应的段幅度数据记为m
high
；
[0157]
第二参考信号帧集对应的段幅度数据记为m
middle
；
[0158]
第三参考信号帧集对应的段幅度数据记为m
low
；
[0159]
c3.3、基于段幅度数据计算各参考信号帧集所对应的清晰度权重；
[0160]
分别对各段幅度数据进行处理，获得相应的段数据，即，分别对各段幅度数据进行处理，获得相应的段数据，即，
[0161]
对段处理数据进行求和，获得总数据，即，
[0162]
分别计算各段数据在所述总数据中的占比，将所得占比作为对应段清晰度的清晰度权重，清晰度权重分别为w
high
、w
middle
、w
low
。
[0163]
c3、计算语音清晰度ada_csii：
[0164]
ada_csii＝w
high
*csii_high w
middle
*csii_middle w
low
*csii_low；
[0165]
通过以下实验对所得语音清晰度ada_csii进行验证：
[0166]
实验1、基于主观评价结果对各客观评价结果的准确度进行分析：
[0167]
本实验采用维纳滤波和对数mmse估计器作为降噪算法对不同信噪比的带噪音频进行降噪，获得相应的降噪音频，带噪音频的信噪比分别为
‑
10db，
‑
5db，0db，5db，10db，15db，20db，每类各10条，每个音频长度都在5s至10s之间且采样频率都为8khz，16bit。
[0168]
客观评价：
[0169]
根据各带噪音频所对应的参考音频，即纯净音频，按照相应的客观评估算法对所得降噪音频进行质量评估，并取平均值作为相应的客观评估算法的评估结果；
[0170]
本实验中客观评价算法包括现有已公开的对数似然比llr(log
‑
likelihood ratio)、加权谱斜率wss(weighted spectral slope)、感知语音质量评估pesq、复合目标语音质量composite，倒谱距离cd(cepstrum distance)和短时目标清晰度stoi，还包括上述案例所公开的自适应语音清晰度ada_csii；
[0171]
主观评价：
[0172]
人为试听并进行打分，获得平均意见得分mos；
[0173]
本实验选取20名志愿者进行试听并打分，最后取平均值，得分范围为1
‑
5，其中分数1代表语音质量很差，失真程度严重；2代表了质量较差，失真程度较重，3代表了质量一般，失真程度一般；4代表了质量较好，失真较小；5代表了质量非常好，失真程度不可察觉。具体实验结果如下：
[0174]
表1
[0175][0176][0177]
注:
[0178]
对数似然比llr、加权谱斜率wss、倒谱距离cd的评价分越低，表示语音质量越好；
[0179]
感知语音质量评估pesq、复合目标语音质量composit、短时目标清晰度stoi和本实施例所提出的语音清晰度ada_csii的评价分越高，表示语音质量越好。
[0180]
由于各类客观评价算法所得得分值范围不同，故基于各类得分的变化趋势，对各类客观评价算法的准确度进行分析，分析结果如下：
[0181]
在信噪比较高的情况下(10db及以上)，各类客观评价算法的评估得分与主观评估得分变化趋势一致，即都能较好的预测主观评估得分；
[0182]
在低信噪比情况下(5db及以下)：
[0183]
对数似然比llr判定实验组6降噪音频的质量优于实验组5降噪音频的质量，与平均意见得分mos相冲突；
[0184]
加权谱斜率wss判定实验组7降噪音频的质量优于实验组6降噪音频的质量，虽然实验组6和实验组7的平均意见得分mos均为1，本实验采用维纳滤波和对数mmse估计器进行降噪处理，信噪比越低所对应的降噪音频质量越差，故实验组6和实验组7对应的加权谱斜率wss评估分与人类感知相冲突；
[0185]
倒谱距离cd判定实验组5降噪音频的质量优于实验组4降噪音频的质量，与平均意见得分mos相冲突；且倒谱距离cd判定实验组7降噪音频的质量优于实验组6降噪音频的质量，与人类感知相冲突；
[0186]
感知语音质量评估pesq判定实验组7降噪音频的质量优于实验组6降噪音频的质量，与人类感知相冲突；
[0187]
由上可知，对数似然比llr、加权谱斜率wss、倒谱距离cd和感知语音质量评估pesq在低信噪比情况下(5db及以下)不能准确表征音频的主观评估结果。
[0188]
实验2、对算法复杂度进行分析：
[0189]
由实验1可知，复合目标语音质量composite、短时目标清晰度stoi和本实施例所
公开的自适应语音清晰度ada_csii均能准确表征音频的主观评估结果，故基于算法复杂度对上述3种算法的优劣性进行评估。
[0190]
测试数据：60s的降噪信号和参考信号，采样频率为8khz；
[0191]
统计时间：从输入测试数据到输出得分整个过程耗费的时间，包含了系统的数据读取时间以及算法在cpu上的处理时间，本实验中采用python环境下的％time方法进行运行时间的统计；
[0192]
令上述3种算法运行在相同的环境和设备下，基于上述测试数据和统计时间的方式对各算法的运行时间进行统计，结果如下表所示：
[0193]
表2
[0194][0195]
由上表可知，comp，stoi两种现有清晰度算法的复杂度是实施例3中ada_csii算法的两倍多，计算用时长，评估效率低。
[0196]
实施例3、一种语音质量评估系统，如图2所示，包括：
[0197]
获取模块100，用于获取降噪信号和与所述降噪信号所对应的参考信号，所述降噪信号包括若干降噪信号帧，所述参考信号包括与所述降噪信号帧一一对应的参考信号帧；
[0198]
帧计算模块200，用于基于参考信号帧，计算各降噪信号帧的语音清晰度，获得相应的帧清晰度；
[0199]
分段模块300，用于基于声音分贝值对各参考信号帧进行分组，并基于分组结果对各降噪信号帧进行分组，获得若干个降噪信号帧集；
[0200]
段计算模块400，用于基于降噪信号帧集中各降噪信号帧的帧清晰度，计算各降噪信号帧集所对应的语音清晰度，获得相应的段清晰度；
[0201]
评估模块500，用于对各段清晰度进行加权计算，获得所述降噪信号的语音清晰度。
[0202]
进一步地，如图3所示，所述帧计算模块200包括：
[0203]
相干度计算单元210，用于计算参考信号和降噪信号之间的幅度平方相干度；
[0204]
能量谱密度计算单元220，用于计算所述降噪信号的能量谱密度数据；
[0205]
听觉滤波器单元230，用于获取预设的听觉滤波器，所述听觉滤波器设有若干个临界频带；
[0206]
信噪比失真率计算单元240，用于基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算降噪信号帧在各临界频带上的信噪比失真率；
[0207]
帧清晰度计算单元250，用于基于所述信噪比失真率计算各降噪信号帧的语音清晰度，获得相应的帧清晰度。
[0208]
进一步地，分段模块300包括：
[0209]
第一分组单元，用于基于声音分贝值将参考信号帧分为若干组，获得相应的参考信号帧集；
[0210]
第二分组单元，基于所述参考信号帧集对降噪信号帧进行分组，获得与所述参考信号帧集一一对应的降噪信号帧集。
[0211]
进一步地，所述第一分组单元包括：
[0212]
计算子单元，用于计算各参考信号帧的声音分贝值；
[0213]
配置子单元，用于获取预设的分贝阈值，所述分贝阈值包括第一分贝阈值和第二分贝阈值，其中第一分贝阈值大于所述第二分贝阈值；
[0214]
分组子单元，用于提取声音分贝值大于所述第一分贝阈值的参考信号帧，获得第一参考信号帧集；还用于提取声音分贝值小于等于所述第一分贝阈值，且大于等于所述第二分贝阈值的参考信号帧，获得第二参考信号帧集；还用于提取声音分贝值小于所述第二分贝阈值的参考信号帧，获得第三参考信号帧集。
[0215]
对于装置实施例而言，由于其与方法实施例(实施例1)基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0216]
实施例4、如图4所示，于实施例3中增加权重计算模块600，其余均等同于实施例3；
[0217]
权重计算模块600，用于为各段清晰度分配清晰度权重，所述权重计算模块600包括：
[0218]
帧幅度计算单元，用于计算各参考信号帧的短时平均幅度，获得相应的帧幅度数据；
[0219]
段幅度数据计算单元，用于基于所述帧幅度数据，计算各参考信号帧集所对应的整体短时平均幅度，获得段幅度数据；
[0220]
权重分配单元，用于基于所述段幅度数据计算各参考信号帧集所对应的清晰度权重。
[0221]
对于装置实施例而言，由于其与方法实施例(实施例2)基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0222]
实施例5、一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现实施例1及实施例2中任意一项语音质量评估方法的步骤。
[0223]
本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
[0224]
本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
[0225]
本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0226]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方
框或多个方框中指定的功能。
[0227]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0228]
需要说明的是：
[0229]
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
[0230]
尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0231]
此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音转换模型的训练方法、装置、电子设备及介质与流程

语音质量评估方法、系统、计算机可读存储介质与流程

相关文献

最热文献