一种基于麦克风阵列的语音增强降噪系统的制作方法

2021-09-29 01:57:00 来源：中国专利 TAG：语音阵列麦克风降噪增强

1.本发明涉及语音处理技术领域，尤其涉及一种基于麦克风阵列的语音增强降噪系统。

背景技术：

2.工厂、医院等是噪声的集中区域，在工厂中，例如各种机器工作时会产生强烈的噪声，严重影响工人之间的沟通和工作效率，在医院中，在核磁共振扫描时，由于梯度切换产生强大的机械噪声，使得医生与患者的语音对讲系统受到梯度噪声强烈干扰。
3.随着语音处理技术的发展，语音增强，又称作语音降噪，是指从被噪声污染的信号中恢复出原始的语音信号，从而提高语音信号的可懂度和清晰度。大部分语音增强技术一般是将原始信号的功率谱和估计出的噪声信号功率谱直接相减，但是其对于噪音的检测较为粗略，尤其是针对是否为人发出的语音和非人产生的噪音判断不够准确，不利于在工厂或医院等人机共存的场合交流。

技术实现要素：

4.本发明的目的是为了解决上述的问题，而提出的一种基于麦克风阵列的语音增强降噪系统。
5.为了实现上述目的，本发明采用了如下技术方案：
6.一种基于麦克风阵列的语音增强降噪系统，该系统包括：
7.麦克风，所述麦克风用于采集用户语音，所述麦克风的数量为多个且组成麦克风阵列；
8.视觉传感器，所述视觉传感器用于采集用户位置信息，所述视觉传感器的数量为多个且组成视觉传感器阵列；
9.控制模块，分别与麦克风和视觉传感器电性连接，用于接收麦克风和视觉传感器的数据。
10.可选地，控制模块对检测到用户所在的视觉传感器的区域定义为语音区域，并对语音区域内所有的声音标记为语音并增强输出；
11.对未检测到用户的区域定义为噪音区域，并对噪音区域内所有的声音标记为噪音，该噪音不包括语音区域内优先检测到的声音；
12.对检测到用户所在的视觉传感器之间的重叠区域定义为重叠语音区域，并对重叠语音区域内所有的语音剔除噪音区域内优先检测到的噪音；
13.对位于最外侧的麦克风同时监测到的声音标记为噪音。
14.可选地，所述视觉传感器的视觉观测范围为圆形，且观测范围内至少包括四个麦克风。
15.可选地，所述视觉传感器采用摄像头热红外人体传感器中的一种或多种。
16.可选地，所述麦克风阵列为矩形阵列，所述视觉传感器阵列为矩形阵列且分布在
麦克风阵列之间。
17.本发明具备以下优点：
18.本发明通过设置麦克风阵列和与之配合的视觉传感器，从而可以检测人所在的位置，并增强人发出的声音，而屏蔽非人所在位置的噪音。
19.本发明通过模块划分噪音区域和重叠语音区域，并通过三个区域内不同优先级的声音进行语音和噪音的判定，增强输出语音而屏蔽噪音。
20.本发明突出的特点在于，适应性广，对于非人的噪音屏蔽效果好，且在人不断走动中，视觉传感器可以根据人所在的位置不断的转换语音区域噪音区域和重叠语音区域，实现始终输出语音区域和重叠语音区域内优先级较高的语音，而屏蔽非人噪音。
附图说明
21.图1为本发明麦克风阵列和视觉传感器阵列示意图；
22.图2为本发明中语音区域、噪音区域和重叠语音区域示意图。
23.图中：1基板、2麦克风、3视觉传感器、3a语音区域、3b噪音区域、3c重叠语音区域。
具体实施方式
24.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。
25.一种基于麦克风阵列的语音增强降噪系统，该系统具体如下：
26.参照图1，麦克风2用于采集用户语音，麦克风2的数量为多个且组成麦克风阵列分布在基板1上，
27.参照图1，视觉传感器3用于采集用户位置信息，视觉传感器3的数量为多个且组成视觉传感器阵列分布在基板1上，视觉传感器3采用摄像头、热红外人体传感器中的一种或多种。
28.参照图1，麦克风阵列为矩形阵列，视觉传感器阵列为矩形阵列且分布在麦克风阵列之间。
29.参照图2，每个视觉传感器3的视觉观测范围为圆形，且观测范围内至少包括四个麦克风2，参照图2所示，根据麦克风2阵列可以为四个、十二个、十六个等等。
30.控制模块分别与麦克风2和视觉传感器3电性连接，用于接收麦克风2和视觉传感器3的数据。
31.控制模块对检测到用户所在的视觉传感器3的区域定义为语音区域3a，并对语音区域3a内所有的声音标记为语音并增强输出，声音由语音区域3a内的麦克风2检测。
32.对未检测到用户的区域定义为噪音区域3b，并对噪音区域3b内所有的声音标记为噪音，该噪音不包括语音区域3a内优先检测到的声音。
33.对检测到用户所在的视觉传感器3之间的重叠区域定义为重叠语音区域，并对重叠语音区域3c内所有的语音剔除噪音区域3b内优先检测到的噪音。
34.对位于最外侧的麦克风2同时监测到的声音标记为噪音，值得一提的时，位于最外侧的麦克风2之间的距离不应过近，当周围噪音较大时，会使得最外侧边角处的麦克风2都能同时监测到该声音，而人正常讲话40
‑
60db明显不能传播这么远，此时则应当将该声音作
为噪音屏蔽。假设人和噪音源均位于语音区域3a内时，通过上述噪音判定，可以避免噪音优先级比人高且同处于语音区域3a内时优先输出噪音。
35.上述语音区域3a、噪音区域3b和重叠语音区域3c均按照声音接收时间排列优先级，优先级越高则判定为声音距离语音区域3a越近，具体判定如下：
36.当语音区域3a和重叠语音区域3c内优先级最高的声音，但在噪音区域3b优先级较低时，则增强语音区域3a和重叠语音区域3c高优先级的声音；
37.当噪音区域3b内优先级较高的声音，但在语音区域3a和重叠语音区域3c内优先级较低时，则判定为非人发出的噪音，在后续声音输出中屏蔽；
38.当仅存在噪音区域3b时，屏蔽所有声音。
39.在人不断走动的场合，视觉传感器3可以根据人所在的位置不断的转换语音区域3a、噪音区域3b和重叠语音区域3c，实现始终输出语音区域3a和重叠语音区域3c内优先级较高的语音，而屏蔽非人噪音。
40.以上所述，仅为本发明较佳的具体实施方式，这里无法对所有的实施方式予以穷举，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

技术特征：
1.一种基于麦克风阵列的语音增强降噪系统，其特征在于，该系统包括：麦克风(2)，所述麦克风(2)用于采集用户语音，所述麦克风(2)的数量为多个且组成麦克风阵列；视觉传感器(3)，所述视觉传感器(3)用于采集用户位置信息，所述视觉传感器(3)的数量为多个且组成视觉传感器阵列；控制模块，分别与麦克风(2)和视觉传感器(3)电性连接，用于接收麦克风(2)和视觉传感器(3)的数据。2.根据权利要求1所述的一种基于麦克风阵列的语音增强降噪系统，其特征在于，控制模块对检测到用户所在的视觉传感器(3)的区域定义为语音区域(3a)，并对语音区域(3a)内所有的声音标记为语音并增强输出；对未检测到用户的区域定义为噪音区域(3b)，并对噪音区域(3b)内所有的声音标记为噪音，该噪音不包括语音区域(3a)内优先检测到的声音；对检测到用户所在的视觉传感器(3)之间的重叠区域定义为重叠语音区域(3c)，并对重叠语音区域(3c)内所有的语音剔除噪音区域(3b)内优先检测到的噪音；对位于最外侧的麦克风(2)同时监测到的声音标记为噪音。3.根据权利要求2所述的一种基于麦克风阵列的语音增强降噪系统，其特征在于，所述视觉传感器(3)的视觉观测范围为圆形，且观测范围内至少包括四个麦克风(2)。4.根据权利要求3所述的一种基于麦克风阵列的语音增强降噪系统，其特征在于，所述视觉传感器(3)采用摄像头、热红外人体传感器中的一种或多种。5.根据权利要求1所述的一种基于麦克风阵列的语音增强降噪系统，其特征在于，所述麦克风阵列为矩形阵列，所述视觉传感器阵列为矩形阵列且分布在麦克风阵列之间。

技术总结
本发明公开了一种基于麦克风阵列的语音增强降噪系统，涉及语音处理技术领域，该系统包括：麦克风，所述麦克风用于采集用户语音，所述麦克风的数量为多个且组成麦克风阵列；视觉传感器，所述视觉传感器用于采集用户位置信息，所述视觉传感器的数量为多个且组成视觉传感器阵列；控制模块，分别与麦克风和视觉传感器电性连接，用于接收麦克风和视觉传感器的数据。本发明通过设置麦克风阵列和与之配合的视觉传感器，从而可以检测人所在的位置，并增强人发出的声音，而屏蔽非人所在位置的噪音。本发明通过模块划分噪音区域和重叠语音区域，并通过三个区域内不同优先级的声音进行语音和噪音的判定，增强输出语音而屏蔽噪音。增强输出语音而屏蔽噪音。增强输出语音而屏蔽噪音。

技术研发人员：胡程远
受保护的技术使用者：合肥三恩信息科技有限公司
技术研发日：2021.06.11
技术公布日：2021/9/28

再多了解一些

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用户情绪分析方法、装置、计算机可读存储介质及服务器与流程

一种基于麦克风阵列的语音增强降噪系统的制作方法

相关文章

最热文献