一种语音噪声分析方法及系统与流程

2022-06-18 04:43:25 来源：中国专利 TAG：

1.本发明涉及语音信号处理技术领域，具体涉及一种语音噪声分析方法及系统。

背景技术：

2.随着移动互联网的高速发展，通讯软件的应用也越来越广泛，例如：越来越多的老师通过即时通讯软件对学生进行在线教学辅导，以替代传统的面对面教学方式。但是，在使用通讯软件时，噪声会严重影响通讯音频质量，在对噪声有较高要求的场所，例如：学生通过通讯软件在线收听老师录制的音频课程时，对音频课程内的音频噪声尽可能小，以提高授课效果。然而，由于在线教学音频数量巨大，传统依靠人工去分析每节课堂的噪声的方式，工作量庞大且分析结果具有极大主观性。
3.而现有技术中，客观评估噪声情况的指标评价方式(如信噪比、分段信噪比等)在在衡量一条音频的噪声情况时需要有与之严格时间对齐的语音内容完全相同的参考音频，而对于教学场景或者其他无法获得参考音频的情况下，现有噪声评估方法将无法进行噪声评估，因此，如何实现在没有参考音频的情况下对语音噪声的客观评估是一个亟待解决的问题。

技术实现要素：

4.有鉴于此，本发明实施例提供了一种语音噪声分析方法及系统，以克服现有技术中对在没有参考音频的情况下，难以实现语音噪声客观评估的问题。
5.本发明实施例提供了一种语音噪声分析方法，包括：
6.获取待分析语音数据；
7.从所述待分析语音数据中提取出仅包含噪声的噪声音频片段；
8.基于每个噪声音频片段的噪声强度指标和预设噪声强度划分等级，确定各所述噪声音频片段对应的噪声强度等级；
9.根据各所述噪声音频片段对应的噪声强度等级的分布情况，确定所述待分析语音数据的噪声水平评估结果。
10.可选地，所述从所述待分析语音数据中提取出仅包含噪声的噪声音频片段，包括：
11.基于所述待分析语音数据的总时长及预设提取时长周期，将所述待分析语音数据划分为多个音频片段；
12.将每个音频片段转换为幅度谱；
13.将每个音频片段对应的幅度谱输入预设噪声分类模型，得到每个音频片段对应的仅包含噪声的概率；
14.基于预设概率阈值从音频片段中筛选仅包含噪声的噪声音频片段。
15.可选地，所述基于每个噪声音频片段的噪声强度指标和预设噪声强度划分等级，确定各所述噪声音频片段对应的噪声强度等级，包括：
16.分别计算每个噪声音频片段对应的噪声强度指标；
17.获取所述预设噪声强度划分等级中不同噪声强度等级对应的噪声强度指标范围；
18.根据当前噪声音频片段对应的噪声强度指标，确定所述当前噪声音频片段对应的当前噪声强度指标范围；
19.将所述当前噪声强度指标范围对应的噪声强度等级确定为所述当前噪声音频片段的噪声强度等级。
20.可选地，所述根据各所述噪声音频片段对应的噪声强度等级的分布情况，确定所述待分析语音数据的噪声水平，包括：
21.获取各所述噪声音频片段中不同噪声强度等级的占比；
22.根据不同噪声强度等级的占比及预设占比评价指标，确定所述待分析语音数据的噪声水平评估结果。
23.可选地，所述噪声强度等级包括：高强度噪声等级、中强度噪声等级和低强度噪声等级。
24.可选地，所述根据不同噪声强度等级的占比及预设占比评价指标，确定所述待分析语音数据的噪声水平评估结果，包括：
25.获取高强度噪声等级的占比；
26.根据所述高强度噪声等级的占比与所述预设占比评价指标中预设高强度噪声等级占比范围的关系，确定所述待分析语音数据的噪声水平评估结果。
27.可选地，所述噪声水平评估结果包括：噪声水平低、噪声水平适中和噪声水平高，其中，
28.当所述高强度噪声等级的占比小于所述预设占比评价指标中预设高强度噪声等级占比范围的最小值时，判断所述噪声水平评估结果为噪声水平低；
29.当所述高强度噪声等级的占比在所述预设占比评价指标中预设高强度噪声等级占比范围内时，判断所述噪声水平评估结果为噪声水平适中；
30.当所述高强度噪声等级的占比大于所述预设占比评价指标中预设高强度噪声等级占比范围的最大值时，判断所述噪声水平评估结果为噪声水平高。
31.本发明实施例还提供了一种语音噪声分析系统，包括：
32.获取模块，用于获取待分析语音数据；
33.第一处理模块，用于从所述待分析语音数据中提取出仅包含噪声的噪声音频片段；
34.第二处理模块，用于基于每个噪声音频片段的噪声强度指标和预设噪声强度划分等级，确定各所述噪声音频片段对应的噪声强度等级；
35.第三处理模块，用于根据各所述噪声音频片段对应的噪声强度等级的分布情况，确定所述待分析语音数据的噪声水平评估结果。
36.本发明实施例还提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明实施例提供的语音噪声分析方法。
37.本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行本发明实施例提供的语音噪声分析方法。
38.本发明技术方案，具有如下优点：
39.本发明实施例提供了一种语音噪声分析方法及系统，通过获取待分析语音数据；从待分析语音数据中提取出仅包含噪声的噪声音频片段；基于每个噪声音频片段的噪声强度指标和预设噪声强度划分等级，确定各噪声音频片段对应的噪声强度等级；根据各噪声音频片段对应的噪声强度等级的分布情况，确定待分析语音数据的噪声水平评估结果。从而通过计算仅包含噪声的噪声音频片段的噪声强度指标来对各个噪声音频片段的噪声强度等级进行单独分析，然后根据所有噪声音频片段的噪声强度等级的分布情况确定整个待分析语音数据的噪声水平评估结果，避免了待分析语音数据中正常语音的影响，实现了对待分析语音数据噪声水平的客观评估，并且无需参考音频，应用范围更广，能够准确的反映各种场景下的噪声情况。
附图说明
40.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
41.图1为本发明实施例中的语音噪声分析方法的流程图；
42.图2为本发明实施例中的将每个音频片段对应的幅度谱输入预设噪声分类模型，得到每个音频片段对应的仅包含噪声的概率的过程示意图；
43.图3为本发明实施例中的语音噪声分析系统的结构示意图；
44.图4为本发明实施例中的电子设备的结构示意图。
具体实施方式
45.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
46.下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
47.随着移动互联网的高速发展，在线教育渐渐取代传统的教育方式，目前越来越多的老师通过即时通讯软件对学生进行教学辅导，这使得智能化分析课堂情况具有更大的便捷性。噪音是影响学生课堂学习质量的一种因素，因此有必要检测噪声以为学生创造一个安静的环境，保证学习效果。然而目前每天都能产生海量的在线教学音视频，人工去分析每节课堂的噪声情况工作量庞大且分析结果具有极大主观性，对音频噪声的客观智能化分析尤为必要。
48.目前，客观评估噪声情况的指标(如信噪比、分段信噪比等)在应用时都有极大的限制，即在衡量一条教学音频的噪声情况时需要有与之严格时间对齐的语音内容完全相同的参考音频，这在教学场景是极难获取到的。因此，如何实现非参考情况下的噪声评估亟待解决。
49.本发明实施例提供了一种语音噪声分析方法，可应用于在线教学平台的噪声分析，如图1所示，该语音噪声分析方法主要包括如下步骤：
50.步骤s101：获取待分析语音数据。具体地，该待分析语音数据为包含有噪声的音频数据，例如：在线教学平台上录制的教学音频或者是从包含有语音数据的教学视频提取相应的音频数据等。待分析语音数据的获取方式可以是直接下载音频数据或者从预设的待分析语音数据库中进行提取等，本发明并不以此为限。
51.步骤s102：从待分析语音数据中提取出仅包含噪声的噪声音频片段。具体地，由于在包含噪声的待分析语音数据中既包含有正常的语音也包含有噪声，为了避免评估噪声需要参考音频即正常语音，通过提取出仅包含噪声的噪声音频片段的方式，可以直接通过提取音频的声量或能量等噪声强度指标来直观衡量噪声的大小。
52.步骤s103：基于每个噪声音频片段的噪声强度指标和预设噪声强度划分等级，确定各噪声音频片段对应的噪声强度等级。具体地，不同的噪声音频片段噪声能量或声量差异存在较大的差异，更通过对每个噪声音频片段划分等级的方式可以更为直观地对各个噪声音频片段进行对比，便于后续对整个待分析语音数据的噪声水平评估，
53.步骤s104：根据各噪声音频片段对应的噪声强度等级的分布情况，确定待分析语音数据的噪声水平评估结果。具体地，由于在一个完整的待分析语音数据中包含有很多噪声音频片段，为了提高对整个待分析语音数据噪声评估的精确性，通过考虑所有噪声音频片段噪声强度等级的分布来得出噪声水平评估结果，实现了对待分析语音数据的客观噪声评估。
54.通过上述步骤s101至步骤s104，本发明实施例提供的语音噪声分析方法，通过计算仅包含噪声的噪声音频片段的噪声强度指标来对各个噪声音频片段的噪声强度等级进行单独分析，然后根据所有噪声音频片段的噪声强度等级的分布情况确定整个待分析语音数据的噪声水平评估结果，避免了待分析语音数据中正常语音的影响，实现了对待分析语音数据噪声水平的客观评估，并且无需参考音频，应用范围更广，能够准确的反映各种场景下的噪声情况。
55.具体地，在一实施例中，上述的步骤s102具体包括如下步骤：
56.步骤s201：基于待分析语音数据的总时长及预设提取时长周期，将待分析语音数据划分为多个音频片段。具体地，根据总时长的时间轴将待分析语音数据划分为若干个等长的时长比较小的音频片段，预设提取时长周期可以根据总时长及噪音分析的精度需求进行灵活的设置，例如1s，3s等，本发明并不以此为限。
57.步骤s202：将每个音频片段转换为幅度谱。具体地，通过对每个音频片段进行分帧，傅里叶变换，求幅度以及对幅度归一化等操作将每个音频片段转化为幅度谱。
58.步骤s203：将每个音频片段对应的幅度谱输入预设噪声分类模型，得到每个音频片段对应的仅包含噪声的概率。该预设噪声分类模型是通过事先建立的分类模型，该分类模型的输入为音频片段，输出为预测该音频片段仅包含噪声的概率，并利用大量的已知音频片段对该分类模型进行训练后得到的。
59.在本发明实施例中，如图2所示，分类模型以mobilenet－v2为主干网络，进一步得到音频的若干个深度特征，然后将这些深度特征进行聚合得到音频的稠密特征最后送入分类器进行分类。其中主干网络mobilenet－v2采用深度可分离卷积代替传统的卷积，推理速
度更快，其在业界已广泛使用，这里不再深入介绍；在特征聚合阶段，采用更有效的特征聚合方法netvlad pooling。假设主干网络得到的深度特征为{x1,x2,
…
,x
t
}，netvlad pooling的中间输出为一个k
×
d的矩阵v，k表示预先定义的聚类数，d表示每个聚类中心的维度大小，则矩阵v的每一个行通过下式得到：
[0060][0061]
其中{wk}，{bk}，{ck}为训练参数，跟随分类模型一起训练。将矩阵v进行l2正则化后拼接在一起即为netvlad pooling聚合的特征，之后送入全连接层进行二分类。整个分类模型采用二元交叉熵损失函数作为目标进行训练。
[0062]
步骤s204：基于预设概率阈值从音频片段中筛选仅包含噪声的噪声音频片段。具体地，将上述步骤s203得到的音频片段的概率与预设概率阈值进行比较判断，如果概率值超过该阈值的则表示该音频片段仅包含噪声，否则该音频还包含有人声等非噪声，然后保留所有判断为仅包含噪声的音频片段即噪声音频片段，舍弃其他音频片段。
[0063]
具体地，在一实施例中，上述的步骤s103具体包括如下步骤：
[0064]
步骤s301：分别计算每个噪声音频片段对应的噪声强度指标。具体地，该噪声强度指标可以是噪声的能量或音量等可以反映噪声大小程度的指标，在本发明实施例中，采用噪声能量指标，即计算噪声音频片段的能量。假设噪声音频片段用a＝{a1,a2,
…
,an}表示，n为该音频所包含的样本点数，则该音频的能量通过计算方法为：
[0065][0066]
其中，energy表示该音频的能量，t表示该音频的时长，n为该音频所包含的样本点数，a1,a2,
…
,an表示该音频每个样本点的能量值。
[0067]
步骤s302：获取预设噪声强度划分等级中不同噪声强度等级对应的噪声强度指标范围。具体地，在本发明实施例中以预设噪声强度划分等级包括低强度噪声等级、中强度噪声等级及高强度噪声等级为例，划分依据为噪声强度指标范围，在本发明实施例中，通过预先设定高低两个能量阈值t
l
、th，能量小于低阈值的为低强度噪声，介于低阈值和高阈值之间的为中强度噪声，大于高阈值的划分为高强度噪声。
[0068]
步骤s303：根据当前噪声音频片段对应的噪声强度指标，确定当前噪声音频片段对应的当前噪声强度指标范围。通过上述步骤s301计算的噪声能量值与上述步骤s302中两个能量阈值t
l
、th的关系，确定其所属的当前噪声强度指标范围。
[0069]
步骤s304：将当前噪声强度指标范围对应的噪声强度等级确定为当前噪声音频片段的噪声强度等级。具体地，假设当前噪声音频片段对应的能量值为a，且t
l
＜a＜th，则该噪声音频片段所属的当前噪声强度指标范围与中强度噪声等级对应，则将该噪声音频片段的噪声等级确定为中强度噪声等级。
[0070]
具体地，在一实施例中，上述的步骤s104具体包括如下步骤：
[0071]
步骤s401：获取各噪声音频片段中不同噪声强度等级的占比。具体地，通过计算整个待分析语音数据中各噪声音频片段中属于低强度噪声等级的噪声音频片段在总噪声音
频片段数量中的比例，以及中强度噪声等级的噪声音频片段对应的比例和高强度噪声等级的噪声音频片段对应的比例。
[0072]
步骤s402：根据不同噪声强度等级的占比及预设占比评价指标，确定待分析语音数据的噪声水平评估结果。具体地，该预设占比评价指标可以根据实际需要进行设定，例如：占比最大的噪声强度等级作为待分析语音数据的噪声水平评估结果，或者，也可以为不同噪声强度等级占比设置权重，再对加权后的占比进行比较，将加权后占比最大的噪声强度等级作为待分析语音数据的噪声水平评估结果等，本发明并不以此为限。
[0073]
在本发明实施例中，在更为关注影响学生学习的高强度噪声的情况下，为了提高噪声水平评估结果对高强度噪声的敏感性，通过综合每个噪声音频片段的噪声等级结果得到高强度噪声等级的占比，根据高强度噪声等级的占比与预设占比评价指标中预设高强度噪声等级占比范围的关系，确定待分析语音数据的噪声水平评估结果。当高强度噪声等级的占比小于预设占比评价指标中预设高强度噪声等级占比范围的最小值时，判断噪声水平评估结果为噪声水平低；当高强度噪声等级的占比在预设占比评价指标中预设高强度噪声等级占比范围内时，判断噪声水平评估结果为噪声水平适中；当高强度噪声等级的占比大于预设占比评价指标中预设高强度噪声等级占比范围的最大值时，判断噪声水平评估结果为噪声水平高。在实际应用中，该预设高强度噪声等级占比范围也可以通过设定高低两个阈值t
l
、th来确定，如果小于t
l
表示待分析语音数据的整体噪声水平低，介于t
l
和th之间表示待分析语音数据的整体噪声水平适中，大于th表示待分析语音数据的整体噪声水平高。
[0074]
通过执行上述步骤，本发明实施例提供的语音噪声分析方法，通过获取待分析语音数据；从待分析语音数据中提取出仅包含噪声的噪声音频片段；基于每个噪声音频片段的噪声强度指标和预设噪声强度划分等级，确定各噪声音频片段对应的噪声强度等级；根据各噪声音频片段对应的噪声强度等级的分布情况，确定待分析语音数据的噪声水平评估结果。从而通过计算仅包含噪声的噪声音频片段的噪声强度指标来对各个噪声音频片段的噪声强度等级进行单独分析，然后根据所有噪声音频片段的噪声强度等级的分布情况确定整个待分析语音数据的噪声水平评估结果，避免了待分析语音数据中正常语音的影响，实现了对待分析语音数据噪声水平的客观评估，并且无需参考音频，应用范围更广，能够准确的反映各种场景下的噪声情况。
[0075]
本发明实施例还提供了一种语音噪声分析系统，如图3所示，该语音噪声分析系统包括：
[0076]
获取模块101，用于获取待分析语音数据。详细内容参见上述方法实施例中步骤s101的相关描述，在此不再进行赘述。
[0077]
噪声提取模块102，用于从待分析语音数据中提取出仅包含噪声的噪声音频片段。详细内容参见上述方法实施例中步骤s102的相关描述，在此不再进行赘述。
[0078]
噪声估计模块103，用于基于每个噪声音频片段的噪声强度指标和预设噪声强度划分等级，确定各噪声音频片段对应的噪声强度等级。详细内容参见上述方法实施例中步骤s103的相关描述，在此不再进行赘述。
[0079]
噪声统计模块104，用于根据各噪声音频片段对应的噪声强度等级的分布情况，确定待分析语音数据的噪声水平评估结果。详细内容参见上述方法实施例中步骤s104的相关描述，在此不再进行赘述。
[0080]
通过上述各个组成部分的协同合作，本发明实施例提供的语音噪声分析系统，通过获取待分析语音数据；从待分析语音数据中提取出仅包含噪声的噪声音频片段；基于每个噪声音频片段的噪声强度指标和预设噪声强度划分等级，确定各噪声音频片段对应的噪声强度等级；根据各噪声音频片段对应的噪声强度等级的分布情况，确定待分析语音数据的噪声水平评估结果。从而通过计算仅包含噪声的噪声音频片段的噪声强度指标来对各个噪声音频片段的噪声强度等级进行单独分析，然后根据所有噪声音频片段的噪声强度等级的分布情况确定整个待分析语音数据的噪声水平评估结果，避免了待分析语音数据中正常语音的影响，实现了对待分析语音数据噪声水平的客观评估，并且无需参考音频，应用范围更广，能够准确的反映各种场景下的噪声情况。
[0081]
根据本发明实施例还提供了一种电子设备，如图4所示，该电子设备可以包括处理器901和存储器902，其中处理器901和存储器902可以通过总线或者其他方式连接，图4中以通过总线连接为例。
[0082]
处理器901可以为中央处理器(central processing unit，cpu)。处理器901还可以为其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。
[0083]
存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。
[0084]
存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0085]
一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法实施例中的方法。
[0086]
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。
[0087]
本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(read－only memory，rom)、随机存储记忆体(random access memory，ram)、快闪存储器(flash memory)、硬盘(hard disk drive，缩写：hdd)或固态硬盘(solid－state drive，ssd)等；存储介质还可以包括上述种类的存储器的组合。
[0088]
虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所
限定的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：车载虚拟人物的语音控制方法、装置及具有其的车辆与流程

一种语音噪声分析方法及系统与流程

相关文献

最热文献