语音降噪方法、电子设备和存储介质与流程

2023-02-02 01:45:31 来源：中国专利 TAG：

1.本发明属于语音处理技术领域，尤其涉及一种语音降噪方法、电子设备和存储介质。

背景技术：

2.随着语音技术的不断发展，各种语音交互设备已经融入到了人们生活中的各个方面。其中，无线领夹麦以便捷的语音交互特点，受到了众多用户的青睐，尤其是在户外节目录制场景和户外直播场景下的应用尤为广泛。
3.目前，市面上的无线领夹麦的近场拾音降噪基本是通过芯片内部的传统降噪算法实现，且音量无法实现动态调整。通过传统滤波函数，对领夹麦拾取到的原始音频进行粗加工，送给录音终端，降噪表现在各场景下都一样，无法满足领夹麦复杂的使用环境，导致在户外场景下的降噪性能较差。
4.针对上述问题，目前业界暂时并未提供较佳的解决方案。

技术实现要素：

5.本发明实施例提供一种语音降噪方法、电子设备和存储介质，用于至少解决上述技术问题之一。
6.第一方面，本发明实施例提供一种语音降噪方法，包括：获取原始语音数据；预测所述原始语音数据所对应的纯净语音数据；比较所述原始语音数据和所述纯净语音数据，以确定噪声特征参数；确定与所述噪声特征参数相匹配的降噪策略；基于所述降噪策略，对所述原始语音数据进行降噪处理。
7.第二方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。
8.第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述方法的步骤。
9.第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述方法的步骤。
10.本发明实施例的有益效果在于：
11.针对原始语音数据，通过预测算法输出相应的纯净语音数据，基于语音对比以确定噪声特征参数，以较佳地解析出原始语音数据的噪声特点。进而，根据噪声特征参数确定相匹配的降噪策略，由此能够依据原始语音数据的噪声特点有针对性地实施降噪处理，实现较佳的降噪效果。
附图说明
12.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
13.图1示出了根据本发明实施例的语音降噪方法的一示例的流程图；
14.图2示出了根据本发明实施例的对vdcnn进行训练的一示例的流程图；
15.图3示出了根据本发明实施例的vdcnn的训练原理示意图；
16.图4示出了根据本发明实施例的语音降噪方法的一示例的流程图；
17.图5a示出了现有技术中的无线领夹麦的降噪性能效果的仿真示意图；
18.图5b示出了根据本发明实施例的语音降噪方法进行改进的无线领夹麦的降噪性能效果的仿真示意图；
19.图6a示出了现有技术中的无线领夹麦的拾音音量效果的仿真示意图；
20.图6b示出了根据本发明实施例的语音降噪方法进行改进的无线领夹麦的拾音音量调整效果的仿真示意图；
21.图7为本发明的电子设备的一实施例的结构示意图。
具体实施方式
22.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
23.需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
24.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
25.在本发明中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
26.最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的
要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
27.图1示出了根据本发明实施例的语音降噪方法的一示例的流程图。关于本发明实施例方法的实施主体，其可以是具有语音采集功能和处理能力的终端(例如，手机、智能音箱等)，在此应不加限制。在一些业务场景中，本发明实施例方法可应用于无线领夹麦，实现对所采集的语音数据进行实时降噪处理。在应用产品的形态上，可以是集成在硬件产品的芯片上；另外，还可以是通过手机app或者电脑软件来实现，以进行对无线麦的音频降噪功能，由于语音算法不跑在产品芯片上，功耗、硬件资源要求都更小，但降噪必须结合软件实现，会增加用户的学习和使用成本。
28.如图1所示，在步骤110中，获取原始语音数据。其中，基于音频采集器对周围的音频进行采集，以确定原始语音数据。
29.在步骤120中，预测原始语音数据所对应的纯净语音数据。这里，可以使用预设的预测算法来确定与原始语音数据相应的纯净语音数据。
30.在步骤130中，比较原始语音数据和纯净语音数据，以确定噪声特征参数。具体地，将原始语音数据与纯净语音数据进行对比，基于差异信息而得到噪声特征参数，例如，可以依据差异信息确定噪声的强度和分布，识别稳态噪声和瞬态噪声，等等。
31.在步骤140中，确定与噪声特征参数相匹配的降噪策略。示例性地，可以依据噪声类型、噪声强度和噪声分布等特征，采用有针对性的降噪策略。
32.在步骤150中，基于降噪策略，对原始语音数据进行降噪处理。
33.通过本发明实施例，针对原始语音数据，预测相应的纯净语音数据，通过音频数据比较而得到噪声特点，实现有针对性的降噪策略，提高降噪效果。
34.需说明的是，在目前相关技术中，有一些降噪策略是通过识别语音所处环境(例如，办公室或公交等)，并基于环境场景而采用相应的降噪策略。但是，这样的降噪策略的明显缺陷在于，在某种环境场景下的噪声特征并不是持续恒定的，例如在公交环境的“行驶中情境”的语音噪声是轻噪声类型的，而在公交环境的“上下车情境”的语音噪声是重噪声类型的，而与环境适配的降噪策略会导致降噪效果无法稳定的缺点。
35.相比之下，在本发明实施例中，通过分析对应预设采集时间的原始语音数据，而针对原始语音数据确定相应的降噪策略，能够起到实时的降噪策略匹配的目标，保障恒定的语音降噪效果。
36.在本发明实施例的一些示例中，针对实时输入的每一段原始语音数据，都会进行如图1中步骤110-150的降噪操作，从而实时地对降噪策略进行调整以实现实时降噪效果，但同时也会导致较大的资源消耗量。在本发明实施例的另一示例中，基于降噪策略，对后续对应预设时间段的原始语音数据进行降噪处理，以降低语音设备在语音降噪时的系统资源消耗。此外，降噪策略还被配置成根据预设周期进行更新，以在满足语音降噪需求的同时，还能够降低系统资源配置的需求，在更广泛的硬件和场景下适用。
37.关于上述步骤140的实施细节，一方面，可以确定噪声特征参数所对应的噪声等级，进而确定具有与噪声等级相对应的降噪深度的降噪策略。具体地，可以根据噪声的类别和强度等维度进行综合评估，得到噪声相应的等级，以便于实施相应降噪深度的降噪策略。示例性地，系统被设置成具备多种对应不同深度的降噪算法，例如，高保真、轻降噪、中等降
噪和深度降噪，当检测到原始语音数据中的噪声成分较少时实施轻降噪算法，当检测到原始语音数据中的噪声主要为稳态噪声时实施中等降噪算法，而当检测到原始语音数据中的噪声类型较多(例如，包含稳态噪声和瞬态噪声)且强度较大时实施深度降噪算法。由此，对噪声的深度进行判断，实现定制化的深度降噪。
38.另一方面，可以确定纯净语音数据所对应的人声特征参数，进而基于人声特征参数和噪声特征参数确定降噪策略。在本实施例的示例中，在实施语音降噪操作时，综合考虑原始语音数据中的人声特征参数和噪声特征参数，实现在语音降噪的同时不会削弱人声信息，保障较佳的降噪效果。在一些实施方式中，人声特征参数包括人声频谱特征信息，以及噪声特征参数包括噪声频谱特征信息。示例性地，当人声频谱特征信息与噪声频谱特征信息之间存在重叠的频谱区间时，应尽量降低针对重叠的频谱区间的噪声的降噪深度，以实现对人声信息的保留。
39.关于上述步骤120的实施细节，在本发明实施例的一些示例中，可以基于极深卷积神经网络(vdcnn,very deep convolutional networks)，预测原始语音数据所对应的纯净语音数据。这里，神经网络模型以带噪语音数据作为输入数据，以纯净语音数据作为输出数据。
40.图2示出了根据本发明实施例的对vdcnn进行训练的一示例的流程图。
41.如图2所示，在步骤210中，对纯净人声和纯噪声音频进行叠加混合，得到带噪音频。
42.在步骤220中，对得到的带噪音频和纯净人声分别进行频域特征提取，得到对应的特征向量。
43.在步骤230中，基于所得到的训练集对极深卷积神经网络进行训练，学习带噪音频与纯净人声间差异映射，确定相应的极深卷积神经网络。
44.图3示出了根据本发明实施例的vdcnn的训练原理示意图。在本发明实施例中，将带噪音频与纯净人声的差异判断和精准识别的训练融合在一个网络模型中，实现降噪策略动态判断和有效降噪。在训练时，将对应的纯净人声进行特征提取，得到一组对应的向量，作为干净人声的标签。采用multi-target loss来学习纯人声和带噪音频之间的细节信息，并且在每个卷积层之前填零以保持所有特征向量的大小相同。由此，极深卷积神经网络(vdcnn)基于音频集的频域信息进行训练，得到强泛化、优性能的检测/降噪模型。
45.图4示出了根据本发明实施例的语音降噪方法的一示例的流程图。
46.如图4所示，在步骤410中，降噪策略的判断环节。
47.具体地，对产品现在所处的噪声进行检测，即，通过极深卷积神经网络(vdcnn)对输入的音频进行预判，得到预期的干净人声，并通过比较预期的干净人声和输入音频之间的差异，判断降噪策略，实现动态决策并保证高通用性，适配生活各个场景；
48.在步骤420中，智慧降噪环节。
49.具体地，通过极深卷积神经网络(vdcnn)为根基的降噪模型，区分人声和噪声，对稳态和瞬态噪声进行有效抑制，人声保留并适当增强，得到降噪模型预期的干净人声。
50.在步骤430中，自适应增益环节。
51.具体地，确定经降噪之后的语音数据所对应的音强等级，进而根据音强等级和预设等级阈值，对经降噪之后的语音数据进行音频增益调整处理。例如，当语音数据的音强过
低时，进行音频增益放大操作，并当语音数据的音强过高时，进行音频增益降低操作，由此保障输出音频处于一个合理的音强区间。
52.需说明的是，由于最近几年疫情的反复，自媒体迅速火了起来，作为自媒体基本人手一个的领夹麦，但实际体验下来，尤其在户外的使用感并不好，如果噪声过大基本要靠后期。如果佩戴离人嘴偏远，拾取音量可能会非常小。
53.在一些业务应用场景中，本发明实施例的语音降噪方法可被应用于无线领夹麦，在保障语音降噪效果的同时，通过自适应agc(automatic gain control,自动增益控制)技术实现人声音量的动态调整，离人嘴太近不会破音，太远也不会声音过小。
54.针对无线领夹麦，考虑到其户外使用场景的多变和用户佩戴习惯不同，决定用深度学习降噪模型搭配自适应增益算法解决这些问题。在实际应用时，对产品现在所处的噪声进行检测，即通过极深卷积神经网络(vdcnn)对输入的音频进行预判，得到预期的干净人声，并通过比较预期的干净人声和输入音频之间的差异，判断降噪策略，实现动态决策并保证高通用性，适配生活各个场景。通过vdcnn为根基的降噪模型区分人声和噪声，对稳态和瞬态噪声进行有效抑制，人声保留并适当增强，得到降噪模型预期的干净人声。通过自适应agc技术实现人声音量的动态调整，离人嘴太近不会破音，太远也不会声音过小。
55.进一步地，对无线领夹麦的降噪性能进行了仿真测试。图5a示出了现有技术中的无线领夹麦的降噪性能效果的仿真示意图。图5b示出了根据本发明实施例的语音降噪方法进行改进的无线领夹麦的降噪性能效果的仿真示意图。通过直观的仿真数据比较可知，语音数据的降噪性能实现了明显改进。
56.图6a示出了现有技术中的无线领夹麦的拾音音量效果的仿真示意图。图6b示出了根据本发明实施例的语音降噪方法进行改进的无线领夹麦的拾音音量调整效果的仿真示意图。通过直观的仿真数据比较可知，能够实现稳定的拾音音量输出。
57.通过本发明实施例，在领夹麦上实施智慧降噪(含自适应增益)方案，强化产品对噪声的处理能力和拾音稳定。进一步地，由于领夹麦对生活中噪声的处理更优秀，拾音更稳定，拓展了领夹麦的使用场景，无需手动调整音量大小，使得用户使用也更加便捷。
58.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
59.在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音降噪方法。
60.在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音降噪方法。
61.在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，
以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音降噪方法。
62.图7是本发明另一实施例提供的执行语音降噪方法的电子设备的硬件结构示意图，如图7所示，该设备包括：
63.一个或多个处理器710以及存储器720，图7中以一个处理器710为例。
64.执行语音降噪方法的设备还可以包括：输入装置730和输出装置740。
65.处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。
66.存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的语音降噪方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音降噪方法。
67.存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音交互设备的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至语音交互设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
68.输入装置730可接收输入的数字或字符信息，以及产生与语音交互设备的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。
69.所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的语音降噪方法。
70.上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。
71.本发明实施例的电子设备以多种形式存在，包括但不限于:
72.(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
73.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等。
74.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
75.(4)其他具有数据交互功能的机载电子装置，例如安装上车辆上的车机装置。
76.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
77.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可
借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
78.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：请求响应方法、装置、计算机设备和存储介质与流程

语音降噪方法、电子设备和存储介质与流程

相关文献

最热文献