一种音频信息的处理方法及电子设备与流程

2022-02-21 09:41:10 来源：中国专利 TAG：

1.本技术涉及音频处理技术领域，特别涉及一种音频信息的处理方法及电子设备。

背景技术：

2.在线教育的场景下，网络视频上课是刚需，视频通话下的降噪功能成为电子设备必须具备的一项功能。
3.目前，电子设备上使用的是传统噪音消除算法或者单纯基于深度神经网络的算法来进行降噪，但是当前的降噪功能对于瞬态的噪声，比如宠物叫声、东西掉地上的声音、家长在旁边说话的声音等的消除效果仍不佳。

技术实现要素：

4.本技术实施例的目的在于提供一种音频信息的处理方法及电子设备，能够有效地消除环境噪音以及其他对象产生的音频，以得到清晰的目标音频，提高音频质量。
5.第一方面，本技术实施例提供了一种音频信息的处理方法，应用于电子设备，所述处理方法包括：
6.获取电子设备所处环境的第一图像以及第一音频；
7.识别所述第一图像以确定目标对象；
8.针对所述目标对象确定音频采集范围；
9.对属于所述音频采集范围内的第一音频进行第一处理，以及对属于所述音频采集范围外的第一音频进行第二处理，得到目标音频，其中，所述目标音频为所述目标对象产生的。
10.在一种可能的实施方式中，所述识别所述目标图像以确定目标对象，包括：
11.识别所述目标图像，确定所述目标图像中的候选对象；
12.基于所述候选对象的数量和/或所述候选对象的位置信息，从所述候选对象中确定所述目标对象。
13.在一种可能的实施方式中，基于所述候选对象的数量和所述候选对象的位置信息，从所述候选对象中确定所述目标对象，包括：
14.若所述候选对象的数量为一个，将该候选对象确定为所述目标对象；
15.若所述候选对象的数量为多个，基于距离所述电子设备最近的候选对象确定为所述目标对象。
16.在一种可能的实施方式中，在距离所述电子设备最近的候选对象为多个的情况下，筛选每个距离所述电子设备最近的候选对象中符合预定条件的候选对象，并确定为所述目标对象；其中，所述预定条件为所述候选对象的人脸图像为预设人脸图像或所述候选对象的人脸图像中嘴唇处于张开状态。
17.在一种可能的实施方式中，所述针对所述目标对象确定音频采集范围，包括：
18.基于所述电子设备上阵列分布的多个音频采集装置确定的所述第一音频的方向，
对所述电子设备与所述目标对象之间的连接线、预设角度以及所述目标对象与所述电子设备之间的距离进行计算，得到所述音频采集范围。
19.在一种可能的实施方式中，所述对属于所述音频采集范围内的第一音频进行第一处理，包括：
20.将所述音频采集范围内的第一音频与所述电子设备的播放器播放的音频进行对比，以确定所述音频采集范围内的第一音频中是否存在所述电子设备播放的音频；
21.若存在，则对所述第一音频进行回声消除处理。
22.在一种可能的实施方式中，所述对属于所述音频采集范围外的第一音频进行第二处理，包括：
23.对属于所述音频采集范围外的第一音频进行降噪处理。
24.在一种可能的实施方式中，在获取电子设备所处环境的第一图像以及第一音频之前，还包括：
25.响应模式切换指令，获取电子设备所处环境的第一音频；
26.对所述第一音频中非人声音频进行降噪处理，以得到目标音频。
27.第二方面，本技术实施例还提供了一种电子设备，包括：
28.获取模块，其配置地获取电子设备所处环境的第一图像以及第一音频；
29.识别模块，其配置地识别所述第一图像以确定目标对象，其中，所述目标对象为当前应用所述电子设备的人物；
30.确定模块，其配置地针对所述目标对象确定音频采集范围；
31.第一降噪模块，其配置地对属于所述音频采集范围内的第一音频进行第一处理，以及对属于所述音频采集范围外的第一音频进行第二处理，得到目标音频，其中，所述目标音频为所述目标对象产生的。
32.在一种可能的实施方式中，电子设备还包括第二降噪模块，其配置地：
33.响应模式切换指令，获取电子设备所处环境的第一音频；
34.对所述第一音频中非人声音频进行降噪处理，以得到目标音频。
35.本技术实施例提供的音频信息的处理方法中，结合电子设备所处环境的第一图像以及第一音频来得到目标对象产生的目标音频，有效地消除环境噪音以及其他对象产生的音频，得到的目标音频较为清晰，大大提高了音频质量。
附图说明
36.为了更清楚地说明本技术或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
37.图1示出了本技术所提供的一种音频信息的处理方法的流程图；
38.图2示出了本技术所提供的一种音频信息的处理方法中识别目标图像以确定目标对象的流程图；
39.图3示出了本技术所提供的一种音频信息的处理方法中对属于音频采集范围内的第一音频进行第一处理的流程图；
40.图4示出了本技术所提供的电子设备的结构示意图。
具体实施方式
41.此处参考附图描述本技术的各种方案以及特征。
42.应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本技术的范围和精神内的其他修改。
43.包含在说明书中并构成说明书的一部分的附图示出了本技术的实施例，并且与上面给出的对本技术的大致描述以及下面给出的对实施例的详细描述一起用于解释本技术的原理。
44.通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本技术的这些和其它特性将会变得显而易见。
45.还应当理解，尽管已经参照一些具体实例对本技术进行了描述，但本领域技术人员能够确定地实现本技术的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
46.当结合附图时，鉴于以下详细说明，本技术的上述和其他方面、特征和优势将变得更为显而易见。
47.此后参照附图描述本技术的具体实施例；然而，应当理解，所申请的实施例仅仅是本技术的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本技术模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本技术。
48.本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本技术的相同或不同实施例中的一个或多个。
49.本技术实施例提供的音频信息的处理方法能够有效地消除环境噪音以及其他对象产生的音频，得到清晰的目标音频，提高音频质量。为便于对本技术进行理解，首先对本技术提供的一种音频信息的处理方法进行详细介绍。
50.在实际应用中，本技术实施例中的音频信息的处理方法应用于电子设备，例如平板电脑、手机等，并且该处理方法的执行主体可以是服务器或处理器等，为了便于阐述，下文中用处理器进行详细说明。如图1所示，为本技术实施例提供的音频信息的处理方法的流程图，其中，具体步骤包括s101-s104。
51.s101，获取电子设备所处环境的第一图像以及第一音频。
52.在具体实施中，电子设备上设置一个或多个图像采集装置以及至少两个音频采集装置。例如，在电子设备的屏幕侧设置一图像采集装置，同时在电子设备的背板侧设置一图像采集装置，背板侧与屏幕侧相对设置，通过设置的两个图像采集装置能够采集到电子设备所处环境的完整图像。同样地，至少两个音频采集装置可以同时设置在电子设备的一侧，如屏幕侧的上边缘等。
53.图像采集装置可以实时采集电子设备所处环境的第一图像，音频采集装置可以实时采集电子设备所处环境的第一音频。
54.s102，识别第一图像以确定目标对象。
55.在获取到电子设备所处环境的第一图像之后，利用图像识别技术对第一图像进行识别分析，确定第一图像中的目标对象。其中，目标对象为当前使用该电子设备的对象。
56.具体地，图2示出了识别目标图像以确定目标对象的方法流程图，其中，具体步骤包括s201和s202。
57.s201，识别目标图像，确定目标图像中的候选对象。
58.s202，基于候选对象的数量和/或候选对象的位置信息，从候选对象中确定目标对象。
59.在具体实施中，利用图像识别技术对第一图像进行识别分析，确定出目标图像中的候选对象，其中，候选对象为第一图像中的人体，也即电子设备所处环境中存在的人物。具体可以将第一图像输入至预先训练好的识别模型中，该识别模型对第一图像进行计算以得到并输出一个或多个候选对象。
60.在确定出目标图像中的候选对象之后，基于候选对象的数量和/或候选对象的位置信息，从候选对象中确定目标对象，具体地，若候选对象的数量为一个，也即使用该电子设备的对象为该候选对象，则直接将该候选对象确定为目标对象。
61.若候选对象的数量为多个，也即不确定使用该电子设备的对象为候选对象中的哪一个，此时，基于距离电子设备最近的候选对象确定为目标对象。具体地，基于对第一图像的识别分析，还可以得到第一图像中的每个候选对象的位置信息，针对每个候选对象，基于其位置信息计算其与电子设备之间的距离，从多个距离中选取最近的距离，并将该最近的距离对应的候选对象确定为目标对象。在实际应用中，考虑到电子设备的背板侧对应的候选对象无法看到电子设备的屏幕，因此，还可以预先确定哪些候选对象为电子设备的屏幕侧对应的候选对象，进而仅计算屏幕侧对应的候选对象与电子设备之间的距离，降低资源消耗，且计算效率较高。
62.进一步地，在距离电子设备最近的候选对象为多个的情况下，如电子设备的屏幕侧存在两个对象且两个对象与电子设备之间的距离相同，此时，筛选每个距离电子设备最近的候选对象中符合预定条件的候选对象，并确定为目标对象；其中，预定条件为候选对象的人脸图像为预设人脸图像或候选对象的人脸图像中嘴唇处于张开状态。也就是说，在电子设备的屏幕侧存在两个对象且两个对象与电子设备之间的距离相同的情况下，将该两个对象的人脸图像分别与预设人脸图像进行对比，将与预设人脸图像相同的人脸图像对应的对象确定为目标对象；还可以对两个对象的人脸图像进行特征识别，确定是否存在嘴唇处于张开状态的人脸图像，若存在，表征该嘴唇处于张开状态的人脸图对应的对象正在讲话，即将其确定为目标对象。
63.s103，针对目标对象确定音频采集范围。
64.在确定目标对象之后，以目标对象为基准来确定音频采集范围，具体地，电子设备上阵列分布有多个音频采集装置，例如，音频采集装置为4个，均设置在电子设备的上边缘，相邻两个音频采集装置之间的距离为80mm，当然，这仅为其中一个实施例，本技术并不限定于此。
65.在具体实施中，音频采集装置实时采集电子设备所处环境的第一音频，基于电子设备上阵列分布的多个音频采集装置确定的第一音频的方向，其中，采用来波方向
(direction of arrival，doa)这一算法对多个音频采集装置采集到的音频进行计算，以得到声音来源的方向，具体为基于多个音频采集装置采集到同一音源造成的不同延迟进行计算。
66.在确定第一音频的方向之后，对电子设备与目标对象之间的连接线、预设角度以及目标对象与电子设备之间的距离进行计算，得到音频采集范围。具体地，构建电子设备与目标对象之间的一连接线，并以电子设备为旋转点，在该连接线所在的水平面上分别向两边旋转预设角度，以形成一扇形区域，该扇形区域的圆心角为两倍的预设角度，此时，该扇形区域为设置弧线；例如，设置预设角度为30
°
，在确定电子设备与目标对象之间的连接线之后，在该连接线所在的水平面上以电子设备为旋转点往左旋转30
°
，此处为第一半径，在该连接线所在的水平面上以电子设备为旋转点往右旋转30
°
，此处为第二半径，第一半径和第二半径便能够形成一个扇形区域，当然，该扇形区域为开口区域，也即不存在弧线。
67.之后，计算目标对象与电子设备之间的距离，以目标对象与电子设备之间的距离为扇形区域的半径，以确定扇形区域的弧线，形成扇形区域，其中，目标对象所在的位置与扇形区域的弧线中的一点重合。当然，为了能够较为精确且清晰的采集目标对象的音频，可以设置以大于目标对象与电子设备之间的距离预设阈值的值为扇形区域的半径，进而确定扇形区域的弧线以形成扇形区域。例如，考虑到对象在使用平板电脑进行工作或学习时，对象距离平板的距离通常为50cm或35cm，进而，在确定扇形区域的圆心角为60
°
之后，若目标对象与电子设备之间的距离小于50cm，则可以以目标对象与电子设备之间的距离为扇形区域的半径，还可以以50cm为扇形区域的半径等，以形成封闭的扇形区域，当然，本技术实施例对此不做具体限定。
68.s104，对属于音频采集范围内的第一音频进行第一处理，以及对属于音频采集范围外的第一音频进行第二处理，得到目标音频，其中，目标音频为目标对象产生的。
69.在确定音频采集范围之后，通过beamforming技术来获取音频采集范围内的第一音频，其中，beamforming技术用于控制传播的方向和射频信号的接收。
70.在获取到音频采集范围内的第一音频之后，对属于音频采集范围内的第一音频进行第一处理，具体地，图3示出了对属于音频采集范围内的第一音频进行第一处理的方法流程图，其中，具体步骤包括s301和s302。
71.s301，将音频采集范围内的第一音频与电子设备的播放器播放的音频进行对比，以确定音频采集范围内的第一音频中是否存在电子设备播放的音频。
72.s302，若存在，则对第一音频进行回声消除处理。
73.在具体实施中，音频采集范围内存在目标对象，因此，音频采集范围内的第一音频中包括的人声音频为目标对象发出的。但考虑到在目标对象通过电子设备进行网课学习或进行远程线上会议等场景下，电子设备的播放器也会播放人声音频，如网课学习时老师的讲课音频，线上会议时参会人员的发言音频等，此时，利用声学回声消除(acoustic echo cancellation，aec)技术对电子设备播放的人声音频进行消除。
74.在实际应用中，电子设备在通过播放器播放人声音频时，对该人声音频进行分析，并存储该人声音频，进而在音频采集装置采集到音频采集范围内的第一音频之后，将该人声音频与采集到的第一音频中的每一个音频进行对比，以确定音频采集范围内的第一音频中是否存在电子设备播放的音频，若存在，则对第一音频进行回声消除处理，也即从第一音
频中删除与该电子设备播放的音频相同的音频，以确保第一音频中仅存在目标对象的目标音频。
75.值得说明的是，将音频采集范围内的第一音频与电子设备的播放器播放的音频进行对比，以确定音频采集范围内的第一音频是否为电子设备播放的音频之前，还可以利用盲源分离(blind source sepration，bss)这一技术对第一音频进行降噪处理，也即将第一音频中的环境噪音进行降噪，具体可以通过预先训练的神经网络对环境噪音进行识别降噪等，本技术实施例不做过多赘述。
76.在具体实施中，对属于音频采集范围外的第一音频进行降噪处理，具体地，可以通过近场处理(near field processing，nfp)算法来对音频采集范围内的第一音频做保留，对属于音频采集范围外的第一音频直接进行降噪处理。
77.上述图1-3示出的方法步骤适用于电子设备处于网课模式下，可选地，电子设备还可以适用于电子设备处于会议模式下，也即，电子设备上设置有实体按键或虚拟按键，以针对实体按键或虚拟按键执行预设操作如按压实体按键或点击虚拟按键使得电子设备在网课模式与会议模式之间切换。
78.在电子设备处于网课模式下时，也即电子设备需要收录电子设备所处环境中所有对象的音频，此时，电子设备接收模式切换指令，响应模式切换指令，由网课模式切换至会议模式，之后，获取电子设备所处环境的第一音频，对第一音频中非人声音频进行降噪处理，以得到目标音频，也即无需对第一音频中的人声音频进行区分处理等。
79.可选地，电子设备上还可以设置自动增益控制模块，以基于该自动增益控制模块控制播放器播放的音频的音量在一定范围内，确保目标对象的体验度。
80.基于同一发明构思，本技术的第二方面还提供了一种与音频信息的处理方法对应的电子设备，由于本技术中的装置解决问题的原理与本技术上述音频信息的处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。
81.图4示出了本技术实施例提供的电子设备的示意图，具体包括：
82.获取模块401，其配置地获取电子设备所处环境的第一图像以及第一音频；
83.识别模块402，其配置地识别所述第一图像以确定目标对象，其中，所述目标对象为当前应用所述电子设备的人物；
84.确定模块403，其配置地针对所述目标对象确定音频采集范围；
85.第一降噪模块404，其配置地对属于所述音频采集范围内的第一音频进行第一处理，以及对属于所述音频采集范围外的第一音频进行第二处理，得到目标音频，其中，所述目标音频为所述目标对象产生的。
86.在又一实施例中，所述识别模块402具体配置为：
87.识别所述目标图像，确定所述目标图像中的候选对象；
88.基于所述候选对象的数量和/或所述候选对象的位置信息，从所述候选对象中确定所述目标对象。
89.在又一实施例中，所述识别模块402在从所述候选对象中确定所述目标对象时，包括：
90.若所述候选对象的数量为一个，将该候选对象确定为所述目标对象；
91.若所述候选对象的数量为多个，基于距离所述电子设备最近的候选对象确定为所
述目标对象。
92.在又一实施例中，所述识别模块402还配置为：
93.在距离所述电子设备最近的候选对象为多个的情况下，筛选每个距离所述电子设备最近的候选对象中符合预定条件的候选对象，并确定为所述目标对象；其中，所述预定条件为所述候选对象的人脸图像为预设人脸图像或所述候选对象的人脸图像中嘴唇处于张开状态
94.在又一实施例中，确定模块403具体配置为：
95.基于所述电子设备上阵列分布的多个音频采集装置确定的所述第一音频的方向，对所述电子设备与所述目标对象之间的连接线、预设角度以及所述目标对象与所述电子设备之间的距离进行计算，得到所述音频采集范围。
96.在又一实施例中，第一降噪模块404在对属于所述音频采集范围内的第一音频进行第一处理时，包括：
97.将所述音频采集范围内的第一音频与所述电子设备的播放器播放的音频进行对比，以确定所述音频采集范围内的第一音频中是否存在所述电子设备播放的音频；
98.若存在，则对所述第一音频进行回声消除处理。
99.在又一实施例中，第一降噪模块404在对属于所述音频采集范围外的第一音频进行第二处理时，包括：
100.对属于所述音频采集范围外的第一音频进行降噪处理。
101.在又一实施例中，该电子设备还包括第二降噪模块405，其配置地：
102.响应模式切换指令，获取电子设备所处环境的第一音频；
103.对所述第一音频中非人声音频进行降噪处理，以得到目标音频。
104.本技术实施例通过结合电子设备所处环境的第一图像以及第一音频来得到目标对象产生的目标音频，有效地消除环境噪音以及其他对象产生的音频，得到的目标音频较为清晰，大大提高了音频质量。
105.附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
106.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本邻域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
107.此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所
示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
108.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
109.以上实施例仅为本技术的示例性实施例，不用于限制本技术，本技术的保护范围由权利要求书限定。本领域技术人员可以在本技术的实质和保护范围内，对本技术做出各种修改或等同替换，这种修改或等同替换也应视为落在本技术的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音音频的分析方法及装置、电子设备和可读存储介质与流程

一种音频信息的处理方法及电子设备与流程

相关文献

最热文献