一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频处理方法、装置、存储介质及智能眼镜与流程

2023-03-20 15:30:48 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,具体涉及一种音频处理方法、装置、存储介质及智能眼镜。


背景技术:

2.当前,我国听障人群规模已达到近三千万,大多数听障人士需要借助助听器才能与健全人进行一定程度的交流。然而,对于听障人士的不同情况,助听器的效果无法得到保障,许多听障人士使用助听器的效果并不理想,并且长时间佩戴助听器还有可能引发耳部疾病。随着科技进步和社会发展,可穿戴设备逐渐走入人们的日常生活,智能眼镜为用户的生活带来了便利,也为听障人士提供一种与健全人交流的工具。现有通过智能眼镜辅助听障人士交流的方案主要集中在声源定位、语音识别等。
3.申请人发现,在现有技术中,通过智能眼镜进行声源定位,仅能确定声源位置,但并不能明确发声的含义;语音识别将语音转换为文字辅助听障人士进行交流,但无法处理如门铃声、警报声、车辆鸣笛声等非语音信号。这些问题均导致听障人士的生活受到限制。


技术实现要素:

4.本技术实施例提供一种音频处理方法、装置、存储介质及智能眼镜,可以通过声源定位及声音事件检测,并且在智能眼镜中进行显示的方式提升听障人士的提醒效率。
5.本技术实施例提供了一种音频处理方法,应用于智能眼镜,所述智能眼镜包括麦克风阵列,包括如下步骤:基于所述麦克风阵列接收多通道音频信号,并根据所述多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值;根据所述功率值确定目标观测区域,在所述目标观测区域进行声源定位,以确定目标声源方向;针对所述目标声源方向进行自适应波束形成,以得到单通道增强信号;对所述单通道增强信号进行声音事件检测,并将检测结果以及所述目标声源方向显示至所述智能眼镜上。
6.在一实施例中,所述根据所述多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值,包括:对所述多通道音频信号进行分帧、加窗和傅里叶变换处理,以得到处理后的频域信号;在多个预设方向上对所述频域信号进行波束形成,生成波束形成信号;计算所述多个预设方向上分别对应的波束形成信号的频域功率值。
7.在一实施例中,所述根据所述功率值确定目标观测区域,包括:将所述多个预设方向上分别对应的波束形成信号的频域功率值进行对比;根据对比结果确定目标方向,并根据所述目标方向确定目标观测区域。
8.在一实施例中,所述在所述目标观测区域进行声源定位,以确定目标声源方向,包括:根据所述目标观测区域从所述麦克风阵列中选取至少一个目标麦克风;将所述至少一个目标麦克风组成麦克风子阵列,并基于所述麦克风子阵列进行声源定位,以确定目标声源方向。
9.在一实施例中,所述基于所述麦克风子阵列进行声源定位,以确定目标声源方向,包括:对所述麦克风子阵列进行无重复麦克风配对,并计算配对组合的广义互相关函数;对所述广义互相关函数进行逆傅里叶变换,得到所述配对组合的角度谱函数;遍历所有麦克风配对组合,以将所有麦克风配对组合的角度谱函数累加,得到所述麦克风子阵列的角度谱函数;提取所述麦克风子阵列的角度谱函数的至少一个局部极大值,并根据满足预设条件的局部极大值对应的方位角及俯仰角确定声源方向估计值。
10.在一实施例中,所述针对所述目标声源方向进行自适应波束形成,以得到单通道增强信号,包括:获取所述麦克风子阵列各通道当中的噪声信号功率谱;基于所述噪声信号功率谱和所述声源方向估计值进行自适应波束形成,得到所述单通道增强信号。
11.在一实施例中,所述获取所述麦克风子阵列各通道当中的噪声信号功率谱,包括:获取所述麦克风子阵列中每个频点的信号频域平滑功率谱;根据所述信号频域平滑功率谱更新所述麦克风子阵列中每个频点的功率最小值,并计算所述每个频点的语音存在概率;根据所述语音存在概率,更新所述麦克风子阵列中每个频点的噪声平滑因子;根据所述麦克风子阵列接收的信号频域功率谱和所述噪声平滑因子,得到所述麦克风子阵列中每个频点的噪声功率估计值。
12.本技术实施例还提供一种音频处理装置,应用于智能眼镜,所述智能眼镜包括麦克风阵列,包括:计算模块,用于基于所述麦克风阵列接收多通道音频信号,并根据所述多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值;定位模块,用于根据所述功率值确定目标观测区域,在所述目标观测区域进行声源定位,以确定目标声源方向;增强模块,用于针对所述目标声源方向进行自适应波束形成,以得到单通道增强信号;检测模块,用于对所述单通道增强信号进行声音事件检测,并将检测结果以及所述目标声源方向显示至所述智能眼镜上。
13.本技术实施例还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的音频处理方法中的步骤。
14.本技术实施例还提供一种智能眼镜,所述智能眼镜包括存储器和处理器,所述存
储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,执行如上任一实施例所述的音频处理方法中的步骤。
15.本技术实施例提供的音频处理方法、装置、存储介质及智能眼镜,可以基于麦克风阵列接收多通道音频信号,并根据多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值,根据功率值确定目标观测区域,在目标观测区域进行声源定位,以确定目标声源方向,针对目标声源方向进行自适应波束形成,以得到单通道增强信号,对单通道增强信号进行声音事件检测,并将检测结果以及目标声源方向显示至智能眼镜上。本技术实施例通过对目标观测区域进行声源定位及声音事件检测,并且显示在智能眼镜中,从而提升听障人士的事件提醒效率。
附图说明
16.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1为本技术实施例提供的音频处理装置的一种系统示意图。
18.图2为本技术实施例提供的音频处理方法的一种流程示意图。
19.图3为本技术实施例提供的麦克风阵列布置示意图。
20.图4为本技术实施例提供的选取麦克风子阵列的场景示意图。
21.图5为本技术实施例提供的声音事件检测模型的结构示意图。
22.图6为本技术实施例提供的音频处理方法的另一种流程示意图。
23.图7为本技术实施例提供的音频处理装置的一种结构示意图。
24.图8为本技术实施例提供的音频处理装置的另一结构示意图。
25.图9为本技术实施例提供的智能眼镜的结构示意图。
具体实施方式
26.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.本技术实施例提供一种音频处理方法、装置、存储介质及智能眼镜。具体地,本技术实施例的音频处理方法可以由电子设备执行,其中,该电子设备可以为智能眼镜,且该智能眼镜中包含麦克风阵列,上述麦克风阵列用于获取音频信号。
28.例如,当该音频处理方法运行于智能眼镜上时,对麦克风阵列进行监测,当麦克风阵列接收到多通道音频信号时,开启智能眼镜的提醒模式,根据多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值,根据功率值确定目标观测区域,在目标观测区域进行声源定位,以确定目标声源方向,针对目标声源方向进行自适应波束形成,以得到单通道增强信号,对单通道增强信号进行声音事件检测,并将检测结果以及目标声源方向显示至智能眼镜上。其中智能眼镜可以通过图形用户界面显示文字信息以及与用
户进行交互。该智能眼镜将图形用户界面提供给用户的方式可以包括多种,例如,可以渲染显示在智能眼镜镜片上的显示屏上,或者,通过全息投影在在智能眼镜镜片上以呈现图形用户界面。例如,智能眼镜可以包括显示屏和处理器,该显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。
29.请参阅图1,图1为本技术实施例提供的音频处理装置的系统示意图。该系统可以包括智能眼镜1000,至少一个服务器或个人电脑2000。用户持有的智能眼镜1000可以通过网络连接到服务器或个人电脑。智能眼镜1000可以是具有计算硬件的终端设备,该计算硬件能够支持和执行与多媒体对应的软件产品,例如能够支持声源定位以及声音事件检测。另外,智能眼镜1000还可以具有用于显示文字的显示屏或投影装置。另外,智能眼镜1000可以通过网络与服务器或个人电脑2000相互连接。网络可以是无线网络或者有线网络,比如无线网络为无线局域网(wlan)、局域网(lan)、蜂窝网络、2g网络、3g网络、4g网络、5g网络等。另外,不同的智能眼镜1000之间也可以使用自身的蓝牙网络或者热点网络连接到其他智能眼镜或者连接到服务器以及个人电脑等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
30.本技术实施例提供了一种音频处理方法,该方法可以由智能眼镜或服务器执行。本技术实施例以音频处理方法由智能眼镜执行为例来进行说明。其中,该智能眼镜包括显示屏和处理器,该处理器被配置为当麦克风阵列接收到多通道音频信号时,开启智能眼镜的提醒模式,并根据多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值,根据功率值确定目标观测区域,在目标观测区域进行声源定位,以确定目标声源方向,针对目标声源方向进行自适应波束形成,以得到单通道增强信号,对单通道增强信号进行声音事件检测,最终将检测结果以及目标声源方向显示至智能眼镜上。
31.请参阅图2,该方法的具体流程可以如下:步骤101,基于麦克风阵列接收多通道音频信号,并根据多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值。
32.在本技术实施例中,智能眼镜的麦克风阵列包含至少三个麦克风,且至少安装在两条镜腿上,即智能眼镜的至少两边均有麦克风分布,从而构成平面阵或立体阵,即麦克风阵列可以进行360
°
全空域声源定位,也就是既可以对位于智能眼镜用户身前的声源进行定位,如电话铃声、家用电器提示音等,提示用户来电或电器完成工作,保障用户正常生活,也可以对位于智能眼镜用户身后的声源进行定位,如汽车鸣笛声、非机动车铃声等,提示用户注意避让,保障用户出行安全。
33.在一实施例中,智能眼镜的尺寸及各麦克风间的距离均已知。为了叙述简便,将任一镜腿上的各麦克风统称为同侧麦克风,将任一镜腿和镜框上的麦克风统称为异侧麦克风,将两条镜腿上的各麦克风统称为对侧麦克风。由于镜框宽度较宽,则为了保证较低的栅瓣水平,对侧麦克风需平行安装,即对侧麦克风间距为镜框宽度。另一方面,若邻侧麦克风或同侧麦克风的最大间距小于对侧麦克风间距,则为了保证较高的声源定位精度,主瓣宽度应尽可能窄,同时麦克风子阵列被用户头部遮挡的程度应尽可能小,邻侧麦克风或同侧麦克风的最大间距需至少为对侧麦克风间距的二分之一。若对车辆鸣笛声等危险提示的定
位准确率要求较高,则还需要尽可能增大该间距以降低栅瓣水平,从而减小挑选到栅瓣角度的概率。
34.在一实施例中,首先将全空域观测范围划分为多个观测区域,接着在声源定位前,先在各观测区域的预设方向上进行波束形成,然后根据多个预设方向上的波束形成信号以及对应的功率值从全空域中挑选出几个或多个小观测区域,最后在这些小观测区域内进行声源定位,可以避免在全空域进行声源定位时导致的高运算负担。这里的多个观测区域互不相交,且这些观测区域的并集为全空域观测范围,也就是说虽然仅在各观测区域的预设方向上进行波束形成,但本质上仍与全空域观测等价。预设方向可直接设定,如各观测区域的角平分线方向,也可以根据一定规律设定,如智能眼镜用户的正前方、正后方等等。若事先在预设方向进行波束形成,则可以通过各预设方向波束形成信号的能量对目标所在区域进行初步判断,即能量较高的区域出现声源的概率就较高,仅在能量较高的区域进行声源定位便可以降低运算复杂度,同时也能以较小的观测间隔提高声源定位的准确性。其中,预设方向上的波束形成算法包括但不限于固定波束形成、超指向性波束形成、方向图综合波束形成等波束形成算法。
35.在一实施例中,智能眼镜的麦克风阵列布置、坐标系俯视图及预设方向设置如图3所示,其中,智能眼镜共有4个麦克风,以智能眼镜中心为原点建立坐标系,麦克风1、麦克风2、麦克风3和麦克风4的坐标分别、、和,其中,,和分别表示第m(m=1,2,3,4)个麦克风的横坐标、纵坐标和竖坐标。将360
°
全空域观测范围划分为[0,90)
°
、[90,180)
°
、[180,270)
°
和[270,360)
°
四个区域,分别记作第一、第二、第三和第四观测区域,四个预设方向分别为45
°
、135
°
、225
°
和315
°
,即第一、第二、第三和第四观测区域的角平分线方向,分别记作第一、第二、第三和第四预设方向。在本实施例中,根据多通道音频信号分别计算在上述四个预设方向上的波束形成信号以及对应的功率值。
[0036]
步骤102,根据功率值确定目标观测区域,在目标观测区域进行声源定位,以确定目标声源方向。
[0037]
在一实施例中,智能眼镜在用户佩戴的过程中,对于来自不同方向的声源信号,会有部分麦克风被用户头部遮挡,也就是这些麦克风的接收信号质量不高,将会一定程度影响声源定位的准确性。于是,可以根据上述多个预设方向上的波束形成信号以及对应的功率值选取目标观测区域来进行声源定位,不使用部分质量不高的接收信号,仅选择接收信号质量较高的麦克风组成麦克风子阵列进行声源定位和语音增强,从而改善声源定位和声音事件检测的性能。值得注意的是,构成麦克风子阵列的麦克风至少为三个,且构成平面阵或立体阵,因此,若智能眼镜的麦克风只有三个,则为了保证全空域声源定位不需要选择麦克风子阵列。
[0038]
在本发明实施例中,智能眼镜麦克风阵列各麦克风之间间距较大,栅瓣较明显,并且仅选择部分麦克风组成麦克风子阵列,虽然主瓣宽度相比全麦克风阵列变化不大,但栅瓣水平会进一步抬高。而在小观测区域内进行声源定位时,栅瓣主要分布在其他非观测区域,因此与全空域声源定位相比,还可以降低栅瓣问题对声源定位性能的影响,从而提高定位准确率。
[0039]
在一实施例中,在进行上述声源定位时,可通过多个麦克风同步采集声音信号,利用多个麦克风之间的信号相位差,从而求得声源信号的发出位置。在其他实施例中,声源定位算法包括但不限于互相关、超分辨等算法。
[0040]
举例来说,根据4个预设方向上的波束形成信号功率判定目标观测区域,若则认为第i个观测区域内存在声源,其中表示门限系数,也就是根据实际得到的门限值,目标观测区域既可以为一个,也可以为多个,即可以同时观测到多个位于不同区域的声源。也即所述根据所述功率值确定目标观测区域的步骤可以包括:将多个预设方向上分别对应的波束形成信号的频域功率值进行对比,根据对比结果确定目标方向,并根据目标方向确定目标观测区域。
[0041]
然后,根据目标观测区域及智能眼镜麦克风分布情况,选择麦克风子阵列。若声源位于第i个观测区域,则麦克风子阵列的频域接收信号记为,麦克风数记为n(n<m),如图4所示,若目标声源位于第一观测区域,即麦克风3被遮挡程度较高,则选择麦克风1、麦克风2和麦克风4组成子阵列。相应的,若目标声源位于第二观测区域,则选择麦克风1、麦克风2和麦克风3组成子阵列;若目标声源位于第三观测区域,则选择麦克风2、麦克风3和麦克风4组成子阵列;若目标声源位于第四观测区域,则选择麦克风1、麦克风3和麦克风4组成子阵列。最后,在目标观测区域内进行声源定位,以确定目标声源方向。也即在目标观测区域进行声源定位,以确定目标声源方向的步骤可以包括:根据目标观测区域从麦克风阵列中选取至少一个目标麦克风,将至少一个目标麦克风组成麦克风子阵列,并基于麦克风子阵列进行声源定位,以确定目标声源方向。
[0042]
步骤103,针对目标声源方向进行自适应波束形成,以得到单通道增强信号。
[0043]
在确定目标声源以及对应的目标声源方向之后,便可以通过自适应波束形成以得到一个单通道增强信号,具体为一个单通道频域波束形成信号。在一实施例中,上述目标声源方向可以通过声源方向估计值进行表示,该声源方向估计值较精确,利用该估计值进行自适应波束形成,可以定向增强声源方向的信号,保证了自适应波束形成的音频信号的性能。从而得到较准确的声音事件检测结果,改善用户体验。同时,设置一定时长的波束形成信号缓存区用于声音事件检测。对于不同时长的缓存区,一方面可以突出检测短时声音,如汽车鸣笛声、敲门声等,另一方面还能够检测长时声音,如警报声、家电提示音等。该缓存区时长既可以采用默认数值,也可以由用户根据自身需要设置。
[0044]
虽然进行自适应波束形成可以定向增强方向性语音,但自适应波束形成后信号仍包含一定程度的环境噪声,再次进行单通道语音增强可以进一步提高输出信噪比,从而得到较准确的语音识别结果,改善用户体验。其中,自适应波束形成方法包括但不限于最小方差无畸变响应、广义旁瓣相消等算法等。自适应波束形成中的噪声估计方法包括但不限于最小值跟踪、递归最小二乘等传统算法,还包括以卷积神经网络或循环神经网络等结构实现的深度学习算法。单通道语音增强方法包括但不限于维纳滤波、最小均方误差估计等传统算法,还包括以卷积神经网络或循环神经网络等结构实现的深度学习算法。
[0045]
步骤104,对单通道增强信号进行声音事件检测,并将检测结果以及目标声源方向
显示至智能眼镜上。
[0046]
在一实施例中,上述增强后的音频信号为一个单通道频域信号,将该单通道频域信号进行特征提取,并将提取到的特征参数输入至预先训练好的声音事件检测模型以得到检测结果,最终再将检测结果以及目标声源方向显示至智能眼镜的显示屏当中或者直接通过投影的方式投影在智能眼镜的镜片上。
[0047]
在一实施例中,声音事件检测指的是检测听障用户较难识别到的非语音信号,通过事件分类并结合声源定位信息,提示用户在什么方向发生着什么事情,提醒用户予以关注。如在室外,对汽车鸣笛、自行车和电动车等非机动车车铃声进行检测,提醒用户注意避让;如在封闭场所,对警报器铃声进行检测,提醒用户注意人身安全;如在家中,对门铃声、电话铃声、电器提示音等进行检测,提醒用户有人来访、来电、电器已完成工作注意及时断电;还可以进一步对小孩哭声、宠物叫声等其他非语音信号进行检测。通过声源定位及声音事件检测,既可以保障用户安全,还可以辅助用户生活。
[0048]
在一实施例中,还需要预先训练得到声音事件检测模型,训练过程可以包括以下步骤:步骤a:定义需要检测的声音事件,并对声音事件进行分类。如,将鸣笛声、车铃声分为一类,将铃声、提示音分为一类,将警报音分为一类,将敲门声分为一类,将哭声、笑声分为一类,分别标记为类别一到五。也就是说,当检测到所有类别中任一类别的声音事件时,将声源定位及声音事件检测结果反馈给用户。
[0049]
步骤b:构建声音事件检测模型训练数据集,并准备标签。首先,依据定义好的声音事件类别准备数据量均衡的各类音频数据;其次,由于各种声音事件,如铃声和敲门声等,可能在同一时间出现,还需要根据可能同时出现的声音事件类别,从数据集中随机抽样并进行叠加得到混合声音事件的训练数据;接着,对训练集运用时间拉伸、音高变换等增扩方式进一步扩充训练集数据量;然后,将增扩后的音频数据进行随机拼接得到不同长度的音频;最后,对各音频对应的声音事件类型进行编码,例如步骤a中所示的五种声音事件类别,可采用五位二进制数表示当前音频存在的声音事件类型,即若只存在类别一,编码为10000,若同时存在类别二和四,编码为01010,以此类推。
[0050]
步骤c:搭建声音事件检测模型,并进行训练。声音事件检测模型包含多层非线性层,可由卷积层、全连接层、注意力层、长短时神经网络层等构建而成,该声音事件检测模型的结构请参阅图5。
[0051]
在训练时,对样本音频进行分帧、加窗、傅里叶变换和梅尔滤波等操作提取特征参数,并将特征参数输入搭建好的声音事件检测模型,网络使用分类器层输出预测的类别编码,分类器的输出层可由sigmoid单元组成,为每个事件类别提供概率值。将输出层与真实标签之间的sigmoid交叉熵作为损失函数,利用损失函数,通过反向传播和梯度下降算法,训练得到最终的声音事件检测模型。
[0052]
训练完成后,便可以提取通过步骤103得到的k个波束形成信号缓存区中各单通道增强信号的特征参数,并依次将特征参数输入声音事件检测模型,得到k个方向上预测的各声音事件编码对应的概率值,依据设定的阈值判断是否存在声音事件,若存在则将声音事件编码转换为相应的声音事件,并与声源定位估计值关联。最后,将声音事件检测结果及发生该声音事件的声源定位估计值显示在智能眼镜镜片上,提醒用户予以关注。
[0053]
由上可知,本技术实施例提供的音频处理方法可以基于麦克风阵列接收多通道音频信号,并根据多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值,根据功率值确定目标观测区域,在目标观测区域进行声源定位,以确定目标声源方向,针对目标声源方向进行自适应波束形成,以得到单通道增强信号,对单通道增强信号进行声音事件检测,并将检测结果以及目标声源方向显示至智能眼镜上。本技术实施例通过在预设方向进行波束形成,并在既定的麦克风阵列中选择子阵列,在降低声源定位运算复杂度的同时,能够保证定位准确率和自适应波束形成的算法性能,从而提高声音事件检测的准确性,通过声源定位及声音事件检测,不仅可以保障用户安全,还可以辅助用户生活。
[0054]
请参阅图6,为本技术实施例提供的音频处理方法的另一流程示意图。该方法的具体流程可以如下:步骤201,基于麦克风阵列接收多通道音频信号,对多通道音频信号进行分帧、加窗和傅里叶变换处理,以得到处理后的频域信号。
[0055]
在一实施例中,首先,对智能眼镜麦克风阵列接收到的4个通道时域信号分别进行分帧、加窗和傅里叶变换,将4个通道的时域信号转换至频域:其中,表示麦克风阵列第m个麦克风通道在第t帧、第f个频点的频域信号;若采样率为,帧长为n,帧移为n/2,窗长为n,傅里叶变换点数为n,那么对应的频域信号共有f=n/2 1个频点,频率间隔为,表示转置操作;加窗时窗函数可选汉明窗、汉宁窗等常用窗函数。
[0056]
步骤202,在多个预设方向上对频域信号进行波束形成,生成波束形成信号。
[0057]
进一步的,在4个预设方向上分别进行波束形成得到各预设方向上的频域波束形成信号:其中,表示在第i(i=1,2,3,4)个预设方向、第t帧、第f个频点的频域波束形成信号,表示第i个预设方向、第f个频点的波束形成权矢量,表示麦克风阵列横坐标列向量,表示麦克风阵列纵坐标列向量,c表示声速,j表示虚数单位,表示共轭转置操作。
[0058]
步骤203,计算多个预设方向上分别对应的波束形成信号的频域功率值。
[0059]
最后,分别计算4个预设方向上波束形成信号的频域总功率:
其中,表示在第i个预设方向上的频域总功率,|
·
|表示取绝对值操作。
[0060]
步骤204,根据功率值确定目标观测区域,在目标观测区域进行声源定位,以确定声源方向估计值。
[0061]
具体的,先根据波束形成信号功率值判定目标观测区域,然后再根据目标观测区域选择麦克风子阵列,最后在目标观测区域内进行声源定位得到声源方向估计值。
[0062]
在一实施例中,在目标观测区域内进行声源定位的步骤可以包括:a. 首先,对该区域内的麦克风子阵列进行无重复麦克风配对,以麦克风n1与麦克风n2的配对组合为例:b. 计算该配对组合的广义互相关函数:其中,表示麦克风与麦克风在第t帧、第f个频点的广义互相关函数,表示麦克风与麦克风在第f个频点的加权函数,可使用相位变换、平滑相干变换等加权函数,表示麦克风子阵列第n个麦克风通道在第t帧、第f个频点的频域信号,表示共轭操作;c. 计算该配对组合广义互相关函数的逆傅里叶变换,得到该配对组合的角度谱函数;d. 然后,遍历所有麦克风配对组合重复步骤b~c,将所有麦克风配对组合的角度谱函数累加,得到麦克风子阵列的角度谱函数a(θ,
ϕ
);e. 接着,遍历角度谱函数a(θ,
ϕ
),提取角度谱函数的局部极大值,其中,q表示局部极大值个数;f. 最后,通过计算,若则将第q(q=1,2,

q)个角度谱函数极大值对应的方位角及俯仰角组合作为声源方向的估计值,其中,表示角度谱函数门限,表示声源方位角的估计值,表示声源俯仰角的估计值,也就是根据实际的门限值,在任一观测区域内观测到的声源信号既可以为一个,也可以为多个,即可以同时观测到多个方向的声源。
[0063]
重复上述步骤a~f,完成所有观测区域的声源定位,共得到k个声源方向的估计值。
[0064]
步骤205,获取麦克风子阵列各通道当中的噪声信号功率谱。
[0065]
首先,估计各声源对应麦克风子阵列中各通道的噪声信号功率谱,以第k(k=1,2,

k)个声源为例,其对应的麦克风子阵列的频域接收信号为,麦克风数为n:a. 更新每个通道每个频点的信号频域平滑功率谱:
其中,表示第n个麦克风通道在第t帧、第f个频点的频域平滑功率谱,表示频域功率谱平滑因子。
[0066]
b. 其次,根据得到的信号频域平滑功率谱,更新每个通道每个频点的功率最小值:其中,表示第n个麦克风通道在第t帧、第f个频点的功率最小值,γ和β均表示经验常数;c.接着,根据得到的信号频域平滑功率谱和频域功率最小值,计算每个通道每个频点的语音存在概率:其中,表示第n个麦克风通道在第t帧、第f个频点上语音是否存在,表示第f个频点的门限值,表示第n个麦克风通道在第t帧、第f个频点的语音存在概率,表示语音存在概率平滑因子。
[0067]
d. 然后,根据得到的语音存在概率,更新每个通道每个频点的噪声平滑因子:其中,表示第n个麦克风通道在第t帧、第f个频点的噪声平滑因子,表示噪声平滑因子系数。
[0068]
e. 最后,根据接收信号频域功率谱和噪声平滑因子,得到每个通道每个频点的噪声功率估计值:其中,表示第n个麦克风通道在第t帧、第f个频点的噪声功率估计值。
[0069]
值得注意的是,由于k个声源对应的麦克风子阵列存在交集,则相同参数只计算一次,各子阵列共用该参数。
[0070]
步骤206,基于噪声信号功率谱和声源方向估计值进行自适应波束形成,得到单通道增强信号。
[0071]
以第k个声源为例:a. 首先,提取每个通道每个频点语音信号频域数据的相位:
其中,表示第n个麦克风通道在第t帧、第f个频点的相位,angle(.)表示取相位操作。
[0072]
b. 然后,利用相位和噪声功率估计值得到每个通道每个频点的噪声信号频域数据:其中,表示第n个麦克风通道在第t帧、第f个频点的噪声信号频域数据。
[0073]
c. 其次,利用噪声信号计算每个频点的噪声协方差矩阵:其中,表示麦克风子阵列在第t帧、第f个频点的噪声协方差矩阵,表示噪声协方差矩阵平滑因子。
[0074]
d. 接着,利用步骤2)得到的声源方向估计值对应的导向矢量和噪声协方差矩阵,计算自适应波束形成权矢量:其中,表示第t帧、第f个频点对应的自适应波束形成权矢量,表示声源方向估计值在第f个时频点对应的导向矢量。计算公式为:其中,x、y、z分别表示麦克风子阵列麦克风的横坐标向量、纵坐标向量和竖坐标向量,表示第k个声源方位角的估计值,表示第k个声源俯仰角的估计值;e. 最后,利用自适应波束形成权矢量对当前帧频域数据进行频域滤波,得到第k个声源的单通道自适应波束形成频域信号:其中,表示第k个声源在第t帧、第f个频点对应的单通道自适应波束形成频域信号。
[0075]
最后,将k个频域波束形成信号缓存至k个声源相应的波束形成信号缓存区。若用户未指定缓存区时长,则默认对任一声源均缓存t帧波束形成信号用于声音事件检测。若任一声源停止发声,即则在一段时间后将其声源定位信息及波束形成缓存区清除。
[0076]
步骤207,对单通道增强信号进行声音事件检测,并将检测结果以及目标声源方向显示至智能眼镜上。
[0077]
针对步骤206得到的单通道增强信号提取特征参数,并将特征参数输入声音事件检测模型得到声音事件检测结果,最终将声源定位估计值及声音事件检测结果显示在智能眼镜镜片上。如在室外,对汽车鸣笛、自行车和电动车等非机动车车铃声进行检测,提醒用户注意避让;如在封闭场所,对警报器铃声进行检测,提醒用户注意人身安全;如在家中,对门铃声、电话铃声、电器提示音等进行检测,提醒用户有人来访、来电、电器已完成工作注意及时断电;还可以进一步对小孩哭声、宠物叫声等其他非语音信号进行检测。通过声源定位及声音事件检测,既可以保障用户安全,还可以辅助用户生活上述所有的技术方案,可以采用任意结合形成本技术的可选实施例,在此不再一一赘述。
[0078]
由上可知,本技术实施例提供的音频处理方法可以基于麦克风阵列接收多通道音频信号,对多通道音频信号进行分帧、加窗和傅里叶变换处理,以得到处理后的频域信号,在多个预设方向上对频域信号进行波束形成,生成波束形成信号,计算多个预设方向上分别对应的波束形成信号的频域功率值,根据功率值确定目标观测区域,在目标观测区域进行声源定位,以确定声源方向估计值,获取麦克风子阵列各通道当中的噪声信号功率谱,基于噪声信号功率谱和声源方向估计值进行自适应波束形成,得到单通道增强信号,对单通道增强信号进行声音事件检测,并将检测结果以及目标声源方向显示至智能眼镜上。本技术实施例通过对目标观测区域进行声源定位及声音事件检测,并且显示在智能眼镜中,从而提升听障人士的事件提醒效率。
[0079]
为便于更好的实施本技术实施例的音频处理方法,本技术实施例还提供一种音频处理装置。请参阅图7,图7为本技术实施例提供的音频处理装置的一种结构示意图。该音频处理装置可以包括:计算模块301,用于基于所述麦克风阵列接收多通道音频信号,并根据所述多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值;定位模块302,用于根据所述功率值确定目标观测区域,在所述目标观测区域进行声源定位,以确定目标声源方向;增强模块303,用于针对所述目标声源方向进行自适应波束形成,以得到单通道增强信号;检测模块304,用于对所述单通道增强信号进行声音事件检测,并将检测结果以及所述目标声源方向显示至所述智能眼镜上。
[0080]
在一实施例中,请进一步参阅图8,图8为本技术实施例提供的音频处理装置的另一种结构示意图。其中,定位模块302可以包括:选取子模块3021,用于根据所述目标观测区域从所述麦克风阵列中选取至少一个目标麦克风;定位子模块3022,用于将所述至少一个目标麦克风组成麦克风子阵列,并基于所述麦克风子阵列进行声源定位,以确定目标声源方向。
[0081]
在一实施例中,增强模块303可以包括:获取子模块3031,用于获取所述麦克风子阵列各通道当中的噪声信号功率谱;增强子模块3032,用于基于所述噪声信号功率谱和所述声源方向估计值进行自适应波束形成,得到所述单通道增强信号。
[0082]
上述所有的技术方案,可以采用任意结合形成本技术的可选实施例,在此不再一一赘述。
[0083]
由上可知,本技术实施例提供的音频处理装置可以基于麦克风阵列接收多通道音频信号,并根据多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值,根据功率值确定目标观测区域,在目标观测区域进行声源定位,以确定目标声源方向,针对目标声源方向进行自适应波束形成,以得到单通道增强信号,对单通道增强信号进行声音事件检测,并将检测结果以及目标声源方向显示至智能眼镜上。本技术实施例通过对目标观测区域进行声源定位及声音事件检测,并且显示在智能眼镜中,从而提升听障人士的事件提醒效率。
[0084]
相应的,本技术实施例还提供一种智能眼镜,该智能眼镜可以为终端或者服务器,该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(pc,personalcomputer)、个人数字助理(personal digital assistant,pda)等终端设备。如图9所示,图9为本技术实施例提供的智能眼镜的结构示意图。该智能眼镜400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中,处理器401与存储器402电性连接。本领域技术人员可以理解,图中示出的智能眼镜结构并不构成对智能眼镜的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0085]
处理器401是智能眼镜400的控制中心,利用各种接口和线路连接整个智能眼镜400的各个部分,通过运行或加载存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行智能眼镜400的各种功能和处理数据,从而对智能眼镜400进行整体监控。
[0086]
在本技术实施例中,智能眼镜400中的处理器401会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能:基于所述麦克风阵列接收多通道音频信号,并根据所述多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值;根据所述功率值确定目标观测区域,在所述目标观测区域进行声源定位,以确定目标声源方向;针对所述目标声源方向进行自适应波束形成,以得到单通道增强信号;对所述单通道增强信号进行声音事件检测,并将检测结果以及所述目标声源方向显示至所述智能眼镜上。
[0087]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0088]
可选的,如图9所示,智能眼镜400还包括:触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中,处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解,图9中示出的智能眼镜结构并不构成对智能眼镜的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0089]
触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中,显示面板可用于显示由
用户输入的信息或提供给用户的信息以及智能眼镜的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的,可以采用液晶显示器(lcd,liquidcrystal display)、有机发光二极管(oled,organiclight-emitting diode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并生成相应的操作指令,且操作指令执行对应程序。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本技术实施例中,可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中,触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。
[0090]
在本技术实施例中,通过处理器401执行应用程序在触控显示屏403上生成图形用户界面。该触控显示屏403用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。
[0091]
射频电路404可用于收发射频信号,以通过无线通信与网络设备或其他智能眼镜建立无线通讯,与网络设备或其他电子设备之间收发信号。
[0092]
音频电路405可以用于通过扬声器、传声器提供用户与智能眼镜之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路405接收后转换为音频数据,再将音频数据输出处理器401处理后,经射频电路404以发送给比如另一电子设备,或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔,以提供外设耳机与电子设备的通信。
[0093]
输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0094]
电源407用于给智能眼镜400的各个部件供电。可选的,电源407可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0095]
尽管图9中未示出,智能眼镜400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等,在此不再赘述。
[0096]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0097]
由上可知,本实施例提供的智能眼镜,基于麦克风阵列接收多通道音频信号,并根据多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值,根据功率值确定目标观测区域,在目标观测区域进行声源定位,以确定目标声源方向,针对目标声
源方向进行自适应波束形成,以得到单通道增强信号,对单通道增强信号进行声音事件检测,并将检测结果以及目标声源方向显示至智能眼镜上。本技术实施例通过对目标观测区域进行声源定位及声音事件检测,并且显示在智能眼镜中,从而提升听障人士的事件提醒效率。
[0098]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一存储介质中,并由处理器进行加载和执行。
[0099]
为此,本技术实施例提供一种存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本技术实施例所提供的任一种音频处理方法中的步骤。例如,该计算机程序可以执行如下步骤:基于所述麦克风阵列接收多通道音频信号,并根据所述多通道音频信号分别计算在多个预设方向上的波束形成信号以及对应的功率值;根据所述功率值确定目标观测区域,在所述目标观测区域进行声源定位,以确定目标声源方向;针对所述目标声源方向进行自适应波束形成,以得到单通道增强信号;对所述单通道增强信号进行声音事件检测,并将检测结果以及所述目标声源方向显示至所述智能眼镜上。
[0100]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0101]
其中,该存储介质可以包括:只读存储器(rom,read onlymemory)、随机存取记忆体(ram,random accessmemory)、磁盘或光盘等。
[0102]
由于该存储介质中所存储的计算机程序,可以执行本技术实施例所提供的任一种音频处理方法中的步骤,因此,可以实现本技术实施例所提供的任一种音频处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0103]
以上对本技术实施例所提供的一种音频处理方法、装置、存储介质及智能眼镜进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献