自适应降噪方法、装置、设备及存储介质与流程

2022-02-19 12:44:06 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种自适应降噪方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.随着直播业务的发展，带货场景越来越呈现出多元化。全民直播时代，任何地方都可以成为直播场地，而不限于录影棚，于是导致直播过程中的背景噪声种类越来越多，为了保证直播质量需要对直播的音频进行降噪处理。
3.现有的降噪技术需要设定不同的降噪等级，用户根据不同的背景选择不同的降噪等级进行降噪。但是，在每次更改使用环境的时候，都需要重新选择合适的降噪等级，以达到更好的直播质量，如此不仅使用不便，而且手动调节存在降噪不准确的问题。综上所述，当前的降噪方法普适性低。

技术实现要素：

4.本发明提供一种自适应降噪方法、装置及计算机可读存储介质，其主要目的在于解决进行降噪时普适性低的问题。
5.为实现上述目的，本发明提供的一种自适应降噪方法，包括：获取当前的环境音频数据；计算所述环境音频数据的电平值，根据所述电平值确定对应的降噪门限值；利用所述降噪门限值对所述环境音频数据对应的待处理音频数据进行降噪处理。
6.可选地，所述根据所述环境音频数据的电平值确定对应的降噪门限值，包括：检测所述环境音频数据的电平值大于或等于预设的电平阈值的持续时间；将所述持续时间与预设的时间阈值进行比对；当所述持续时间大于或等于所述时间阈值时，增大所述电平阈值，并返回所述检测所述环境音频数据的电平值大于或等于预设的电平阈值的持续时间的步骤；当所述持续时间小于所述时间阈值时，将所述电平阈值增加预设的冗余值后作为所述降噪门限值。
7.可选地，所述检测所述环境音频数据的电平值大于或等于预设的电平阈值的持续时间之前，所述方法还包括：提取所述环境音频数据的总体平均电平值；根据所述总体平均电平值设定所述电平阈值。
8.可选地，所述检测所述环境音频数据的电平值大于或等于预设的电平阈值的持续时间，包括：对所述环境音频数据进行分帧加窗，得到l帧音频数据；提取所述l帧音频数据的电平值；检测所述电平值大于或等于所述电平阈值的持续时间。
9.可选地，所述计算所述环境音频数据的电平值，包括：对所述环境音频数据的振幅进行离散化处理，得到采样值；对所述采样值进行对数处理后，得到对应的电平值。
10.可选地，所述利用所述降噪门限值对所述环境音频数据对应的待处理音频数据进行降噪处理，包括：提取所述待处理音频数据的电平值，并将所述待处理音频数据的电平值与所述降噪门限值进行比对；当所述待处理音频数据的电平值小于所述降噪门限值时，消除对应的待处理音频数据；当所述待处理音频数据的电平值大于或等于所述降噪门限值时，保留对应的待处理音频数据。
11.可选地，所述获取当前的环境音频数据之前，所述方法还包括：接收用户触发的环境音频采集指令时，启动音频采集程序，利用预设的音频输入接口获取当前的环境音频数据。
12.为了解决上述问题，本发明还提供一种自适应降噪装置，所述装置包括：环境音频数据获取模块，用于获取当前的环境音频数据；降噪门限确认模块，用于计算所述环境音频数据的电平值，根据所述电平值确定对应的降噪门限值；降噪处理模块，用于利用所述降噪门限值对所述环境音频数据对应的待处理音频数据进行降噪处理。
13.为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的自适应降噪方法。
14.为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的自适应降噪方法。
15.本发明实施例通过获取当前的环境音频数据，根据所述环境音频数据的电平值确定对应的降噪门限值，利用所述降噪门限值对接收到的音频数据进行降噪处理，通过环境音频数据自动确定对应的降噪门限值，无需提前设置噪声等级，可以适配多种场景，使得对应的降噪门限值的更加准确，按照所述降噪门限值进行降噪处理，背景噪声段会很干净，但不影响人声段的声音，提高了降噪方法的普适性。因此本发明提出的自适应降噪方法、装置、电子设备及计算机可读存储介质，可以解决进行降噪时普适性低的问题。
附图说明
16.图1为本发明一实施例提供的自适应降噪方法的流程示意图；图2为图1所示自适应降噪方法中其中一个步骤的详细实施流程示意图；
图3为图1所示自适应降噪方法中其中另一个步骤的详细实施流程示意图；图4为本发明一实施例提供的自适应降噪装置的功能模块图；图5为本发明一实施例提供的实现所述自适应降噪方法的电子设备的结构示意图。
17.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
18.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
19.本技术实施例提供一种自适应降噪方法。所述自适应降噪方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之，所述自适应降噪方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
20.参照图1所示，为本发明一实施例提供的自适应降噪方法的流程示意图。在本实施例中，所述自适应降噪方法包括：s1、获取当前的环境音频数据。
21.本发明实施例中，所述环境音频数据为当前所处的环境的背景音频数据，所述背景音频数据中不包括任何前景声音，避免采集到的环境音频数据不准确。其中，所述前景声音可以是，例如用户的直播声音。
22.本发明其中一个实施例中，可以通过电子终端的音频输入接口获取当前的环境音频数据。其中，所述电子终端可以是声卡、音效器、耳麦、音频设备、视频设备等设备。
23.本发明其中一个实施例中，所述获取当前的环境音频数据之前，所述方法还包括：接收用户触发的环境音频采集指令时，启动音频采集程序，利用预设的音频输入接口获取当前的环境音频数据。
24.本发明其中一个实施例中，所述环境音频采集指令，可以是按键式、触摸屏式、光电感应式或手势等多种形式触发的触发信号。所述触发信号的触发方式可以通过物理按键的方式触发，也可以通过虚拟按键的方式触发或者光电感应的方式触发。例如，可以在电子终端上设置“自动降噪等级设定”或“自动降噪”的按键，或者在触摸屏的界面中设置“自动降噪等级设定”或“自动降噪”的功能键，或者利用预设的手势作为环境音频采集指令的触发信号。
25.本发明实施例中，当检测到用户基于所述按键、所述功能键所述预设的手势的触发操作时，获取当前的环境音频数据；需要说明的是，本发明实施例要求用户在采集环境噪声数据的过程中，不能说话，以免采集到的音频信号不准确。
26.本发明另一个实施例中，侦测到用户一直按压所述自动降噪的按键或功能键，直到达到预设的时间阈值时，控制预设的提示灯亮（代表降噪门限值设置成功），提示用户松开所述所述自动降噪的按键或功能键，以获取到所述环境音频数据。其中，所述降噪门限值
是一个门限值，当低于此门限值的信号归零，大于此值的信号没有变化。本发明实施例通过设置的所述自动降噪的按键或功能键可以随时采集周围环境噪声音频，避免因为预先设置的降噪等级与实际的环境噪声不匹配导致降噪不准确；并且预先设置的降噪等级种类有限，实时采集的当前的环境音频数据，可以适配任何场景。
27.本发明实施例中，获取当前环境音频数据，无需根据不同的场景预先设定降噪等级，有利于提高降噪的普适性。
28.s2、计算所述环境音频数据的电平值，根据所述电平值确定对应的降噪门限值。
29.本发明实时例中，所述电平值表示两个信号之间的相对功率或幅度电平关系的标准单位。本发明实施例中可以通过采样声音信号的幅度，再进量化转化为电平值。
30.详细地，s2中计算所述环境音频数据的电平值，包括：对所述环境音频数据的振幅进行离散化处理，得到采样值；对所述采样值进行对数处理后，得到对应的电平值。
31.所述电平值的具体计算公式如下：当samplevalue>0时，当samplevalue<0时，其中，samplevalue表示所述环境音频数据振幅的采样值；表示所述环境音频数据在采样值samplevalue对应的电平值；a表示比例系数；b表示常数；c表示所述环境音频数据振幅的采样深度。
32.本发明其中一个实施例中，对于高质量的数字音频信号的采样深度可以为24bit
‑
32bit。在采样时，较高的采样深度可以提供更多可能性的振幅值，从而产生更大的震动范围，更高的信噪比，提高保真度。然而，采样深度越高对应的计算数值越庞大，计算越复杂。本发明实施例中，c可以选取16bit，此采样深度不仅能保证较好的音频保真度，而且又能简化计算，减少获取电平值的时间。a可以取20，b取10，以10为底的对数计算简单，准确度较高，为获取电平值的准确度提供了保证。
33.进一步地，参阅图2所示，s2中所述根据所述电平值确定对应的降噪门限值，包括：s21、检测所述环境音频数据的电平值大于或等于预设的电平阈值的持续时间；s22、将所述持续时间与预设的时间阈值进行比对；当所述持续时间大于或等于所述时间阈值时，执行s23、增大所述电平阈值，并返回所述s21的步骤；当所述持续时间小于所述时间阈值时，执行s24、将所述电平阈值增加预设的冗余值后作为所述降噪门限值。
34.本发明实施例中，根据所述时间阈值及所述持续时间确定所述降噪门限值可以是，例如，所述时间阈值可以设置为20ms，当所述持续时间大于或等于20ms时，则根据预设的规则调整电平阈值，并返回所述s22的步骤，当所述持续时间小于20ms时，则将增加预设的冗余值的电平阈值作为所述降噪门限值。
35.其中，所述增大所述电平阈值可以是将所述电平阈值增加所述环境音频数据的总体平均电平值作为所述降噪门限值。
36.详细地，所述s21之前，所述方法还包括：提取所述环境音频数据的总体平均电平值；根据所述总体平均电平值设定所述电平阈值。
37.例如，本发明其中一个实施例中，所述预设的电平阈值可以设置为所述总体平均电平值的3倍，也可根据实际需求进行设置。
38.进一步地，参阅图3所示，所述s21包括：s211、对所述环境音频数据进行分帧加窗，得到l帧音频数据；s212、提取所述l帧音频数据的电平值；s213、检测所述电平值大于或等于所述电平阈值的持续时间。
39.本发明实施例中，所述分帧是将所述环境音频数据每a个采样点采集的语音信号集合成一个观测单位。本发明其中一个实施例中，a的值可以为256或512，每帧的涵盖的时间约为20
‑
30ms左右，为了避免相邻两帧的变化过大，会让相邻两帧之间有一段重叠区域，所述重叠区域包含了b个采样点，本发明其中一个实施例中，b的值约为a值得1/2或1/3。进一步地，本发明其中一个实施例中，为了保证所述环境音频数据的完整性，避免分帧过程中地信息丢失，需要进行补零操作。所述补零操作为前面各帧都是选定特定帧长，最后一帧不够特定帧长时，可以利用enframe函数实现补零操作。
40.其中，所述补零操作可利用如下公式实现：f=(zeros(nf,len)，其中len为帧长度，nf为帧数量。
41.其中所述加窗是为了减少起始帧和结束帧信号不连续性的问题，可以为矩形窗、汉明窗等。本发明其中一个实施例可以选择汉明窗，所述汉明窗可以有效减少在加窗过程中信号泄露现象。
42.本发明实施例，根据所述环境音频数据的电平值实时确定对应的降噪门限，可以适配多种场景，无需担心因为场景不同，需要提前设定不同的降噪等级，或者因改变使用环境时因为无此种场景模式而导致降噪效果不好。
43.s3、利用所述降噪门限值对所述环境音频数据对应的待处理音频数据进行降噪处理。
44.本发明实施例中，所述待处理音频数据是指在具有当前的环境音频数据的背景下，获取的包含语音信息及环境音频数据的综合音频数据，例如直播时声卡或者麦克风等音频设备接收到的音频数据。
45.详细地，所述s3包括：提取所述待处理音频数据的电平值，并将所述待处理音频数据的电平值与所述降噪门限值进行比对；当所述待处理音频数据的电平值小于所述降噪门限值时，消除对应的待处理音频数据；当所述待处理音频数据的电平值大于或等于所述降噪门限值时，保留对应的待处理音频数据。
46.本发明实施例通过获取当前的环境音频数据，根据所述环境音频数据的电平值确定对应的降噪门限值，利用所述降噪门限值对接收到的音频数据进行降噪处理，通过环境音频数据自动确定对应的降噪门限值，无需提前设置噪声等级，可以适配多种场景，使得对
interconnect，简称pci）总线或扩展工业标准结构（extended industry standard architecture，简称eisa）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
56.所述通信接口13用于上述电子设备与其他设备之间的通信，包括网络接口和用户接口。可选地，所述网络接口可以包括有线接口和/或无线接口（如wi
‑
fi接口、蓝牙接口等），通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器（display）、输入单元（比如键盘（keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled（organic light
‑
emitting diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
57.图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。
58.例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi
‑
fi模块等，在此不再赘述。
59.应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。
60.所述电子设备1中的所述存储器11存储的自适应降噪程序是多个指令的组合，在所述处理器10中运行时，可以实现：获取当前的环境音频数据；计算所述环境音频数据的电平值，根据所述电平值确定对应的降噪门限值；利用所述降噪门限值对所述环境音频数据对应的待处理音频数据进行降噪处理。
61.具体地，所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述，在此不赘述。
62.进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（rom，read
‑
only memory）。
63.本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：获取当前的环境音频数据；计算所述环境音频数据的电平值，根据所述电平值确定对应的降噪门限值；利用所述降噪门限值对所述环境音频数据对应的待处理音频数据进行降噪处理。
64.在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以
通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
65.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
66.另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
67.对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
68.因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
69.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
70.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
71.此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。
72.最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种面向分区操作系统的轻量级安全通信方法及系统与流程

自适应降噪方法、装置、设备及存储介质与流程

相关文献

最热文献