一种音频处理方法、装置、介质和电子设备与流程

2021-12-01 01:16:00 来源：中国专利 TAG：

1.本公开的实施方式涉及音频处理领域，更具体地，本公开的实施方式涉及一种音频处理方法、装置、介质和电子设备。

背景技术：

2.本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是相关技术。
3.webrtc(web real
‑
time communication，以下简称rtc)，即页面即时通信，是指通过网页浏览器进行实时通信的技术。
4.在一些实时通信场景中通常会涉及到音频数据的传输。而不同类型的音频数据的处理过程有所区别。如果将音乐数据当作非音乐数据(例如，语音数据或噪音)进行处理，则可能对有用的音乐数据造成损伤。
5.可见，在rtc中需要对音频数据进行分类。

技术实现要素：

6.在本上下文中，本公开的实施方式期望提供一种音频处理方法、装置、介质和电子设备。
7.在本公开实施方式的第一方面中，提供了一种音频处理方法，包括：获取待处理音频包括的多个音频帧中至少部分音频帧分别对应的频域信息，以及所述至少部分音频帧中相邻两个音频帧之间的频谱变化信息；基于所述频域信息与所述频谱变化信息，生成与所述待处理音频对应的输入特征；将所述输入特征输入音频类型识别模型，得到所述待处理音频对应的音频类型识别结果；其中，所述音频类型识别模型包括基于多个标注了音频类型信息的音频样本训练得到的神经网络模型。
8.在一些实施例中，所述频域信息包括由第一预设数量的梅尔带分别对应的幅度所组成的梅尔频谱；所述频谱变化信息包括由所述相邻两个音频帧分别在各所述梅尔带下的幅度变化值。
9.在一些实施例中，所述音频类型识别模型包括卷积神经网络；所述卷积神经网络包括第二预设数量的卷积层与池化层。
10.在一些实施例中，所述第二预设数量不大于5。
11.在一些实施例中，所述音频样本包括多种音乐类型的音乐样本。
12.在一些实施例中，所述待处理音频包括通过音频数据采样得到的音频片段；其中，通过采样得到的相邻的两个音频片段至少包括部分相同的音频帧。
13.在一些实施例中，所述方法还包括：响应于所述音频类型识别结果指示所述待处理音频的类型为预设类型，对所述待处理音频数据进行动态范围压缩处理，并输出处理后的音频；响应于所述音频类型识别结果指示所述待处理音频的类型不是所述预设类型，对所述待处理音频数据进噪音抑制和/或自动增益控制处理，并输出处理后的音频。
14.在本公开实施方式的第二方面中，提供了一种音频处理装置，包括：获取模块，用于获取待处理音频包括的多个音频帧中至少部分音频帧分别对应的频域信息，以及所述至少部分音频帧中相邻两个音频帧之间的频谱变化信息；生成模块，用于基于所述频域信息与所述频谱变化信息，生成与所述待处理音频对应的输入特征；识别模块，用于将所述输入特征输入音频类型识别模型，得到所述待处理音频对应的音频类型识别结果；其中，所述音频类型识别模型包括基于多个标注了音频类型信息的音频样本训练得到的神经网络模型获取模定的目标文本进行聚类，并输出聚类结果。
15.在本公开实施方式的第三方面中，提供了一种介质，所述介质存储有计算机程序，所述计算机程序用于使处理器执行如前述任一实施例示出的音频处理方法。
16.在本公开实施方式的第四方面中，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现如前述任一实施例示出的音频处理方法。
17.在前述记载的技术方案中，基于待处理音频包括的音频帧的频域信息以及音频帧之间的频谱变化信息生成输入特征，并输入识别模型进行计算，可以使模型结合对识别音频类型有益的频率特征与音频帧之间的能量变化特征进行音频类型识别，从而提升音频类型识别准确性，为用户带来了更好的体验。
附图说明
18.通过参考附图阅读下文的详细描述，本公开示例性实施方式的前述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
19.图1为本公开实施例示出的示出的一种音频处理的应用场景示意图；
20.图2为本公开实施例示出的示出的一种音频处理方法的方法流程图；
21.图3为本公开实施例示出的一种获取频域信息与频谱变化信息的方法流程示意图；
22.图4为本公开实施例示出的一种获取频域信息的方法流程示意图；
23.图5为本公开实施例示出的一种获取频谱变化信息的方法流程示意图；
24.图6为本公开实施例示出的一种生成输入特征的方法流程示意图；
25.图7为本公开实施例示出的一种模型训练方法的方法流程示意图；
26.图8为本公开实施例示出的一种音频处理方法的方法流程图；
27.图9为本公开实施例示出的一种获取频域信息的方法流程示意图；
28.图10为本公开实施例示出的一种获取频谱变化信息的方法流程示意图；
29.图11为本公开实施例示出的一种音频处理流程示意图；
30.图12为本公开实施例示出的一种音频处理装置的结构示意图；
31.图13为本公开实施例示出的示出的一种应用于音频处理方法的程序产品；
32.图14为本公开实施例示出的示出的一种电子设备的结构示意图。
33.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
34.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
35.本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。
36.根据本公开的实施方式，提出了一种音频处理的方法、介质、装置和电子设备。
37.在本文中，需要理解的是，所涉及的术语表示如下。
38.音频(数据)，数字化的声音(数据)。
39.音频帧，按照预设的音频数据采样频率进行采样，每采集到预设的采样点数量即可得到一个音频帧。其中，音频数据采样频率和采样点数量都是可以根据业务需求设置的。举例来说，音频数据采样频率可以是20000hz，采样点数量可以是250。当然本公开不对所述采样频率与所述采样点数量进行特别限定。在本公开中，多个音频帧可以构成音频(数据)。
40.音频片段，由预设数量的音频帧可以组成音频片段。在一些实施例中，可以对获取到的音频数据进行划分得到多个音频片段。例如10、20或30个音频帧划分成一个音频片段，从而得到多个音频片段。在一些实施例中，可以在数据采集的过程中完成音频片段的采集，即采集到预设数量的音频帧，可以生成一个音频片段。在一些实施例中，相邻的两个音频片段之间可以存在部分音频帧的交叉，由此在对当前音频片段进行处理的时候，可以结合其之前的音频片段的信息，提升处理效果。
41.神经网络，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络可以通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。
42.此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
43.下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。
44.目前，可以采用rnn(recurrent neural networks，循环神经网络)音乐检测器可以进行音频类型识别。其优势是运算开销小，适合在rtc的框架中运算；其劣势是准确率较低，容易混淆语音与音乐。这非常令人烦恼。
45.为此，非常需要一种改进的音频处理方法，以准确地对音频类型进行识别。
46.发明概述
47.一方面，发明人发现，神经网络具有一定的学习与识别能力。该网络可以基于先验知识学习到包含各类音频具有的特征，并基于学习到的特征，对音频数据进行分类。因此，发明人可以利用神经网络进行音频类别识别。
48.另一方面，发明人发现，不同类型的音频具有比较明显的频率特征与音频帧之间的能量变化特征上的差异。频域信息可以很好的表征频率特征；频谱变化信息可以很好的表征音频帧之间的能量变化特征。因此，发明人可以基于待处理音频包括的音频帧的频域信息以及音频帧之间的频谱变化信息生成输入特征，并输入识别模型进行计算，可以使模
型结合对识别音频类型有益的频率特征与能量变化特征进行音频类型识别，从而提升音频类型识别准确性，为用户带来了更好的体验。
49.在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。
50.应用场景总览
51.请参考图1，图1为本公开实施例示出的示出的一种音频处理的应用场景示意图。
52.如图1所示，示意性的，前述应用场景可以包括手机1012、平板电脑1013、计算机1011等终端101，以及搭载音频处理服务逻辑的服务器102。
53.其中，示意性的，前述终端可以通过实时采集或接收上传等形式收集音频数据，并将收集的音频数据传输至服务器102进行处理。
54.所述服务器102可以通过搭载的服务逻辑，基于待处理音频包括的音频帧的频域信息以及音频帧之间的频谱变化信息生成输入特征，并输入识别模型进行计算，可以使模型结合对识别音频类型有益的频率特征与能量变化特征进行音频类型识别，从而提升音频类型识别准确性。该服务器102还可以依据音频数据的音频类型进行后续处理(例如，噪音抑制处理，增强增益处理等)，得到有用的音频数据103。从而可以对不同类型的音频进行对应的后续处理，减少对有用音频数据的损伤，提升音频数据质量。
55.示例性方法
56.请参见图2，图2为本公开实施例示出的示出的一种音频处理方法的方法流程图。
57.图2示出的音频处理方法可以应用于电子设备中。其中，所述电子设备可以通过搭载与音频处理方法对应的软件逻辑执行该方法。所述电子设备的类型可以是笔记本电脑，计算机，手机，pda(personal digital assistant，个人数字助理终端)等。在本公开中不特别限定所述电子设备的类型。所述电子设备也可以是用户端设备或服务端设备，在此不作特别限定。
58.如图2所示，所述音频处理方法可以包括s202
‑
s206。
59.s202，获取待处理音频包括的多个音频帧中至少部分音频帧分别对应的频域信息，以及所述至少部分音频帧中相邻两个音频帧之间的频谱变化信息。
60.在一些实施例中，可以通过时域转频域的方法，对获取的所述至少部分音频进行视频转换，得到所述频域信息。然后可以基于所述至少部分音频帧中相邻两个音频的频域信息，确定所述频谱信息。
61.s204，基于所述频域信息与所述频谱变化信息，生成与所述待处理音频对应的输入特征。
62.在一些实施例中，可以对所述频域信息与所述频谱变化信息进行向量化处理，然后通过融合所述频域信息与所述频谱变化信息的向量化表达，得到所述输入特征。
63.s206，将所述输入特征输入音频类型识别模型，得到所述待处理音频对应的音频类型识别结果。
64.其中，所述音频类型识别模型包括基于多个标注了音频类型信息的音频样本训练得到的神经网络模型。
65.通过训练所述音频类型识别模型，可以使该模型具备识别音频类型的能力。
66.在前述记载的技术方案中，基于待处理音频包括的音频帧的频域信息以及音频帧
之间的频谱变化信息生成输入特征，并输入识别模型进行计算，可以使模型结合对识别音频类型有益的频率特征与音频帧之间的能量变化特征进行音频类型识别，从而提升音频类型识别准确性，为用户带来了更好的体验。
67.以下对实施例进行具体说明。
68.s202，获取待处理音频包括的多个音频帧中至少部分音频帧分别对应的频域信息，以及所述至少部分音频帧中相邻两个音频帧之间的频谱变化信息。
69.所述待处理音频，可以是指实时采集或实时上传的音频数据。在一些实时通信场景中，所述待处理音频可以参与实时通信的任意方实时上传或发出的音频。所述待处理音频可以包括多个音频帧。
70.在实时采集音频时，可以在设备部署音频采集单元(例如，麦克风)，实时采集发声人员发出的声音，并将采集的声音转换为数字音频信号，即所述待处理音频。
71.在一些实施例中，可以预先设置采样频率，采样点数量以及待处理音频包括的音频帧个数。音频采集单元可以根据所述采样频率不断的采集声音信号，每当得到所述采样点数量的采样点后，可以生成一个音频帧。每当得到所述个数的音频帧，则可以生成所述待处理音频，并进行音频处理。
72.在一些实施例中，采集的所述待处理音频一般是时域信号。所述时域信号表示了信号幅度在时域上的变化情况。在一些实施例中，在执行s202时，可以采用预设的转换方法，对所述待处理音频进行时域到频域变换。
73.所述转换方法可以是fft(fast fourier transform，快速傅立叶变换)，dft(discrete fourier transform，离散傅立叶变换)等时域到频域转换方法。以下以fft为例对s202进行说明。
74.请参见图3，图3为本公开实施例示出的一种获取频域信息与频谱变化信息的方法流程示意图。
75.图3示出的步骤为s202的细化步骤。如图3所示，在执行s202时，可以执行s2021，获取待处理音频包括的多个音频帧分别对应的频域信息，以及s2022，获取所述多个音频帧中相邻两个音频帧之间的频谱变化信息。
76.在执行s2021时，可以分别针对各音频帧进行处理，得到各音频帧对应的频域信息。
77.以对第k个音频帧进行处理为例，请参见图4，图4为本公开实施例示出的一种获取频域信息的方法流程示意图。如图4所示，对第k个音频帧进行处理可以执行s11
‑
s12。
78.其中，s11，通过公式1对第k个音频帧进行时域到频域的变换：
79.x
k
(m)＝fft{x
k
(n)}
ꢀꢀꢀ
公式1。
80.其中，x
k
(n)代表第k个音频帧的时域信号(即所述待处理音频)。fft{}代表预设的时频转换算法。在此不列明fft算法的具体过程。x
k
(m)代表通过时频变换后第k个音频帧的频域信号。
81.第k个音频帧的频域信号可以表示为：其中，σ
k
(m)代表第k个音频帧的频域信号的幅度。代表频域信号的相位。
82.s12，可以通过第k个音频帧在不同相位下的幅度σ
k
(m)表征所述第k个音频帧对应
的频域信息ms
k
。
83.针对所述待处理音频包括的各音频帧，执行前述s11
‑
s12之后，则可以得到待处理音频包括的多个音频帧分别对应的频域信息。
84.在一些实施例中，在执行s2022时，可以分别针对各音频帧，通过比较各音频帧，与其相邻音频帧在相同相位下的幅度变化情况，得到各音频帧与其相邻的音频帧之间的频谱变化信息。
85.需要说明的是，本公开所指的与音频帧相邻的帧可以是指该音频帧之前或之后的帧。以下以相邻的帧是指该音频帧之前的帧为例进行说明。
86.以对第k个音频帧进行处理为例，请参见图5，图5为本公开实施例示出的一种获取频谱变化信息的方法流程示意图。如图5所示，对第k个音频帧进行处理，可以执行s21
‑
s22。
87.其中，s21，获取第k个音频帧(以下简称第k帧)，以及第k
‑
1个音频帧(以下简称第k
‑
1帧)分别对应的频域信息。
88.在一些实施例中，可以从s2021的执行结果中，获取第k和第k
‑
1个音频帧分别对应的频域信息。
89.s22，分别针对各相位，将第k帧和第k
‑
1帧在各相位下的幅度之差，确定为第k帧与第k
‑
1帧之间的频谱变化信息。
90.针对所述待处理音频包括的各音频帧，执行前述s21
‑
s22之后，则可以得到获取各音频帧中任意相邻的两个音频帧之间的频谱变化信息sf
k
。
91.s204，基于所述频域信息与所述频谱变化信息，生成与所述待处理音频对应的输入特征。
92.所述输入特征，是所述频域信息与所述频谱变化信息的向量化表达。所述输入特征用于输入音频类型识别模型，使所述模型通过分析所述输入特征携带的信息，识别所述待处理音频的类型。针对音频类型识别模型的介绍参见后续实施例。
93.请参见图6，图6为本公开实施例示出的一种生成输入特征的方法流程示意图。图6示意的步骤为s204的细化步骤。如图6所示，在执行s204时，可以执行s2041
‑
s2042。
94.其中s2041，可以将s202获取到的所述频域信息与所述频谱变化信息进行向量化处理，得到所述频域信息与所述频谱变化信息分别对应的向量表达。
95.在一些实施例中，在执行s2041时，可以针对各音频帧，按照各相位由低到高的顺序，将各相位对应的幅度值和与前一帧的幅度变化值排列起来，得到各音频帧的频域信息和频谱变化信息分别对应的向量表达。然后再按照音频帧排列顺序，将各音频帧的频域信息和频谱变化信息分别对应的向量表达排列起来，得到所述待处理音频对应的频域特征和频谱变化特征。需要说明的是，在执行s2041时，也可以采用相位由高到低的顺序，对幅度进行排列。
96.例如，将第k帧对应的频域信息记作ms
k
，对应的频谱变化信息记作sf
k
。执行s2041后，可以得到所述待处理音频对应的频域特征为[ms1，...，ms
k
，...，ms
n
]，频谱变化特征为[sf1，...，sf
k
，...，sf
n
]。其中，n代表待处理音频包括n个音频帧。
[0097]
s2042，将所述待处理音频对应的频域特征和频谱变化特征合并，得到所述待处理音频对应的输入特征。
[0098]
在一些实施例中，在执行s2042时，可以采用叠加，拼接等特征合并方式，得到所述
输入特征。
[0099]
例如，将第k帧对应的频域信息记作ms
k
，对应的频谱变化信息记作sf
k
。执行s2042后，所述输入特征φ可以包括
[0100]
s206，将所述输入特征输入音频类型识别模型，得到所述待处理音频对应的音频类型识别结果；其中，所述音频类型识别模型包括基于多个标注了音频类型信息的音频样本训练得到的神经网络模型。
[0101]
所述音频类型识别模型(以下简称模型)可以是基于神经网络构建的分类或回归模型。该模型可以基于多个标注了音频类型信息的音频样本进行有监督训练得到。以下以所述模型为分类模型为例进行说明。
[0102]
在利用所述模型进行音频类型识别之前，可以先对该模型进行训练。请参见图7，图7为本公开实施例示出的一种模型训练方法的方法流程示意图。
[0103]
如图7所示，对该模型进行训练的步骤可以包括s31
‑
s33。
[0104]
其中s31，可以获取多种音频样本。所述音频样本标注了所述模型可以识别的音频类型。
[0105]
例如，假设所述模型可以识别音乐，语音，噪音三种音频类型，则可以获取前述三种音频类型分别对应的音频样本。
[0106]
s32，基于所述模型，得到各音频样本的预测类型。
[0107]
在一些实施例中，在执行s32时，可以将所述各音频样本分别作为待处理音频，并执行如前述s102
‑
s104所述的步骤，得到各音频样本对应的输入特征。然后可以将各音频样本对应的输入特征分别输入所述模型进行预测，得到各音频样本的预测类型。
[0108]
s33，根据预设的损失函数，确定各音频样本标注的音频类型与预测类型之间的损失信息，并基于所述损失信息调整所述模型的模型参数。
[0109]
通过执行预设次数的s31
‑
s33，即可使所述模型收敛，完成针对该模型的训练。
[0110]
完成训练后，即可将所述输入特征输入所述模型，通过所述模型进行特征分析，得到与所述待处理音频对应的音频特征，然后通过映射即可得到所述待处理音频被预测为各种可能的音频类型的置信度，从中选取最大置信度对应的音频类型，作为所述待处理音频的音频类型识别结果。
[0111]
例如，假设所述模型可以识别音乐，语音，噪音三种音频类型。通过所述模型得到所述待处理音频为音乐，语音，噪音三种音频类型的置信度分别为0.7，0.2，0.1。即可确定所述待处理音频的音频类型为音乐。
[0112]
在前述记载的技术方案中，基于待处理音频包括的音频帧的频域信息以及音频帧之间的频谱变化信息生成输入特征，并输入识别模型进行计算，可以使模型结合对识别音频类型有益的频率特征与音频帧之间的能量变化特征进行音频类型识别，从而提升音频类型识别准确性，为用户带来了更好的体验。
[0113]
音乐可以包括多中音乐类型。例如，音乐可以包括轻音乐，流行音乐，摇滚乐，说唱乐等。在一些实施例中，为了使所述音频类型识别模型可以将这些类型的音频识别为音乐类型，训练模型使用的音频样本可以包括多种音乐类型的音乐样本。
[0114]
举例来说，所述多种音乐类型可以包括轻音乐，流行音乐，摇滚乐，说唱乐等。所述
音频样本可以包括这些类型的音乐样本，这些样本可以被标注为音乐类型。利用这些音乐样本进行模型训练，可以使模型学习到所述多种音乐类型具备的特征，从而可以准确地将这些音乐类型的待处理音频识别为音乐类型。
[0115]
在一些实施例中，所述多种音乐类型还可以包括接近人物说话的音乐类型。由此利用包括这类音乐类型的音频样本对模型训练，可以使模型具备区分出易与语音类型混淆的接近人物说话的音乐类型的能力。
[0116]
举例来说，所述接近人物说话的音乐类型可以是说唱乐。由此可以使模型具备区分出说唱乐与语音类型的能力，提升模型的识别准确性。
[0117]
在一些实施例中，可以在所述音乐样本中添加噪音信号，提升模型对噪音的适应能力，提升模型的识别准确性。
[0118]
本公开还提出一种音频处理方法。该方法的执行步骤可以参见s202
‑
s206，其中，在执行s206之后，可以根据待处理音频的类型，进行不同的后续处理步骤，以提升音频处理合理性与适用性。请参见图8，图8为本公开实施例示出的一种音频处理方法的方法流程图。
[0119]
如图8所示，在执行s206之后，所述方法可以执行s208或s210。以下不对s202
‑
s206的步骤进行重复说明。
[0120]
其中，s208，响应于所述音频类型识别结果指示所述待处理音频的类型为预设类型，对所述待处理音频数据进行动态范围压缩处理，并输出处理后的音频。
[0121]
所述预设类型可以根据业务需求进行设定。例如，如果需要减少对音乐的损伤，提升音乐信号质量，则可以将所述预设类型设置为音乐。
[0122]
所述动态范围压缩处理，是一种限制音频信号动态范围的技术，该可以把安静的小信号变得更响，把高幅度的尖峰信号变得更小，并且不产生信号削波，保护扬声器和功放免受冲击和损坏。需要说明的是，本公开中可以采用对所述预设类型的音频更友好的其它音频算法进行后续处理。本公开不一一列举所述其它音频算法。
[0123]
由此通过动态范围压缩处理对预设类型的待处理音频进行后续处理，可以减少对该类音频的损伤，提升该类音频信号质量。
[0124]
s210，响应于所述音频类型识别结果指示所述待处理音频的类型不是所述预设类型，对所述待处理音频数据进噪音抑制和/或自动增益控制处理，并输出处理后的音频。
[0125]
所述噪音抑制，是压制噪音的一种技术。
[0126]
所述自动增益控制，使放大电路的增益自动地随信号强度而调整的自动控制方法。
[0127]
由此可以采用不同的后续处理方法对预设类型和非预设类型的待处理音频进行处理，提升音频处理合理性与适用性。
[0128]
本公开还提出一种音频处理方法。该方法的执行步骤可以参见s202
‑
s206。其中，在执行s202
‑
s204时，所述频域信息可以包括由第一预设数量的梅尔带分别对应的幅度所组成的梅尔频谱；所述频谱变化信息可以包括由所述相邻两个音频帧分别在各所述梅尔带下的幅度变化值，由此可以简化输入特征的数据量，减少运算开销，提升音频处理效率与实时性。以下不对s206的步骤进行重复说明。
[0129]
在一些实施例中，在执行s202时，可以执行s2021，获取待处理音频包括的多个音频帧分别对应的频域信息，以及s2022，所述多个音频帧中相邻两个音频帧之间的频谱变化
信息。
[0130]
在执行s2021时，可以分别针对各音频帧进行处理，得到各音频帧对应的频域信息。
[0131]
以对第k个音频帧进行处理为例。请参见图9，图9为本公开实施例示出的一种获取频域信息的方法流程示意图。如图9所示，对第k个音频帧进行处理可以执行s41
‑
s42。
[0132]
其中，s41，通过前述公式1对第k个音频帧进行时域到频域的变换。其中，具体说明可以参见s11，在此不做详述。
[0133]
s42，可以基于第k个音频帧在多个预设梅尔带下的幅度得到所述第k个音频帧对应的梅尔频谱，以得到所述第k个音频帧对应的频域信息ms
k
。
[0134]
在执行s42时，可以利用梅尔带代替s21中得到的频域信号的相位。具体地，可以根据业务需求，设置预设数量的梅尔带(梅尔滤波器)。然后将频域信号的σ
k
(m)转换为各梅尔带下的幅度，得到梅尔频谱，以得到所述第k个音频帧对应的频域信息ms
k
。
[0135]
在一些实施例中，在执行s2022时，可以分别针对各音频帧，通过比较各音频帧，与其相邻音频帧在相同梅尔带下的幅度变化情况，得到各音频帧与其相邻的音频帧之间的频谱变化信息。
[0136]
需要说明的是，本公开所指的与音频帧相邻的帧可以是指该音频帧之前或之后的帧。以下以相邻的帧是指该音频帧之前的帧为例进行说明。
[0137]
以对第k个音频帧进行处理为例。请参见图10，图10为本公开实施例示出的一种获取频谱变化信息的方法流程示意图。如图10所示，对第k个音频帧进行处理可以执行s51
‑
s52。
[0138]
其中，s51，获取第k个音频帧(以下简称第k帧)，以及第k
‑
1个音频帧(以下简称第k
‑
1帧)分别对应的频域信息。
[0139]
在一些实施例中，可以从s2021的执行结果中，获取第k和第k
‑
1个音频帧分别对应的频域信息。其中，所述频域信息包括梅尔频谱。
[0140]
s52，分别针对各梅尔带，将第k帧和第k
‑
1帧在各相位下的幅度之差，确定为第k帧与第k
‑
1帧之间的频谱变化信息。
[0141]
针对所述待处理音频包括的各音频帧，执行前述s51
‑
s52之后，则可以得到获取各音频帧中任意相邻的两个音频帧之间的频谱变化信息sf
k
。
[0142]
在获得频域信息与频谱变化信息后可以执行s204。对s204的说明可以参照s2041
‑
s2042，其中，在执行s2041时，利用梅尔带代替相位，即按照梅尔带由低到高的顺序，对幅度进行排列。以下不对s2041
‑
s2042进行详述。需要说明的是，在执行s2041时，也可以采用梅尔带由高到低的顺序，对幅度进行排列。
[0143]
举例来说，将第k帧对应的频域信息记作ms
k
，对应的频谱变化信息记作sf
k
。执行s2041后，可以得到所述待处理音频对应的频域特征为[ms1，...，ms
k
，...，ms
n
]，频谱变化特征为[sf1，...，sf
k
，...，sf
n
]。其中，n代表待处理音频包括n个音频帧。执行s2042后，所述输入特征φ可以包括
[0144]
通过将音频帧的梅尔频谱作为音频帧的频域信息，将两个相邻的音频帧在各梅尔带下的幅度变化值作为频谱变化信息，可以降低频域信息与频谱变化信息的数据量，从而
可以简化输入特征的数据量，减少运算开销，提升音频处理效率与实时性。
[0145]
本公开还提出一种音频处理方法。该方法的执行步骤可以参见s202
‑
s206。其中，该方法中使用的音频类型识别模型可以包括卷积神经网络；所述卷积神经网络包括第二预设数量的卷积层与池化层。由此使用轻量化的卷积神经网络构建所述音频类型识别模型，可以简化识别模型结构，提升音频处理效率与实时性。
[0146]
其中，所述卷积层用于对s204生成的输入特征进行特征提取，提取对识别音频类型有益的高阶和低阶特征。所述池化层可以对卷积层提取的特征进行压缩，降维等处理，简化运算量，防止模型过拟合。
[0147]
在一些实施例中，可以在每个卷积层后可以部署一个池化层，从而可以对提取的特征即时进行处理，简化后续数据处理量。
[0148]
所述第二预设数量，可以根据业务需求进行设定。在一些实施例中，所述第二数量可以不大于5。通过限制所述音频类型识别模型的核心处理层(包括卷积层与池化层)的层数，可以进一步简化模型结构，提升音频处理效率与实时性。
[0149]
本公开还提出一种音频处理方法。该方法可以针对持续采集的音频数据进行音频处理。在音频采集过程中，可以按照预设的音频数据采样频率进行采样，每采集到预设的采样点数量即可得到一个音频帧，每采集到预设数量的音频帧，可以生成一个音频片段，每得到一个音频片段则可以作为待处理音频进行s202
‑
s206的音频处理过程。由此可以得到持续采集的音频数据的音频类型，便于根据音频类型做出后续音频处理。
[0150]
在一些实施例中，所述待处理音频包括通过音频数据采样得到的音频片段；其中，通过采样得到的相邻的两个音频片段至少包括部分相同的音频帧。由此对当前音频片段(待处理音频)进行类型识别的时候，可以结合其之前的音频片段的信息，提升当前音频片段的识别准确性。
[0151]
在一些实施例中，可以在生成音频片段的时候可以保留其之前音频片段的部分音频帧，然后再新生成预设数量的音频帧后，可以将保留的所述部分音频帧与新生成的音频帧组成新的音频片段。
[0152]
举例来说，假设一个音频片段包括60个音频帧，则可以将所述预设数量设置为30，即每生成30个音频帧后，可以将前一个音频片段的后30帧，与所述生成的30个音频帧进行组合，得到新的音频片段。然后可以对所述新的音频片段进行音频类型识别。由于其包含之前音频片段的音频帧，因此可以结合其之前音频片段包含的音频信息，提升所述新的音频片段的识别准确性。
[0153]
下面结合图1的应用场景，进行实施方式说明。需要注意的是，前述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。
[0154]
在图1示出的场景中，服务器102中可以部署音频处理逻辑。任意类型的客户端终端101可以依赖麦克风设备采集音频信息，并将采集的音频信息发生指服务器102。
[0155]
请参见图11，图11为本公开实施例示出的一种音频处理流程示意图。
[0156]
如图11所示，服务器102可以执行s111，对接收的音频信息进行预处理。所述预处理可以包括诸如滤波，放大等常规处理。
[0157]
所述预处理还可以按照预设采样频率进行音频采样，每采样到256个采样点，可以
生成一个音频帧，每得到30个音频帧，可以和前一个音频片段中后30个音频帧生成新的待处理音频片段(以下称为当前音频)。由此可以结合当前音频之前的音频包括的信息，对当前音频进行音频识别，提升类型识别准确性。
[0158]
服务器102可以执行s112，对当前音频进行音频类型识别。
[0159]
所述服务器102可以搭载基于卷积神经网络构建的音频类型识别模型(以下简称识别模型)。该识别模型可以包括5个卷积层和5个池化层，2个全连接层和1个softmax层。其中，一个卷积层后连接一个池化层。采用如此结构的卷积神经网络可以简化识别模型结构，提升音频处理效率与实时性。
[0160]
在对所述识别模型进行训练时，可以获取多种音乐类型的音乐样本。所述音乐类型可以包括古典乐，流行乐，说唱乐。可以将这些音乐样本标注为音乐类型。还可以在这些音乐样本添加噪音信号。利用这些音乐样本进行模型训练，第一，可以使模型学习到所述多种音乐类型具备的特征，准确地将这些音乐类型的待处理音频识别为音乐类型；第二，可以使模型具备区分出说唱乐与语音类型的能力，提升模型的识别准确性；第三，可以提升模型对噪音的适应能力，提升模型的识别准确性。
[0161]
所述服务器102在执行s112时，可以将当前音频输入训练完成的识别模型中，得到所述当前音频的音频类型。
[0162]
所述服务器102可以执行s113，确定所述当前音频的音频类型是否为音乐。如果是，可以执行s114，利用动态范围压缩算法，对当前音频进行处理。如果否，可以执行s115与s116，利用噪音抑制与自动增益控制算法，对当前音频进行处理。由此第一，可以采用不同的后续处理方法对预设类型和非预设类型的待处理音频进行处理，提升音频处理合理性与适用性；第二，可以通过动态范围压缩处理对音乐进行压缩处理，减少对该音乐的损伤，提升音乐信号质量。
[0163]
之后所述服务器102还可以执行s117，对当前音频进行后处理，并输出处理之后的音频信号。由此可以输出有用的音频信号。
[0164]
示例性装置
[0165]
在介绍了本公开示例性实施方式的方法之后，接下来，参考图6对本公开示例性公开的音频处理装置进行说明。该音频处理装置用于实现前述任一实施例示出的音频处理方法。
[0166]
请参见图12，图12为本公开实施例示出的一种音频处理装置的结构示意图。
[0167]
如图12所示，所述装置120可以包括：
[0168]
获取模块121，用于获取待处理音频包括的多个音频帧中至少部分音频帧分别对应的频域信息，以及所述至少部分音频帧中相邻两个音频帧之间的频谱变化信息；
[0169]
生成模块122，用于基于所述频域信息与所述频谱变化信息，生成与所述待处理音频对应的输入特征；
[0170]
识别模块123，用于将所述输入特征输入音频类型识别模型，得到所述待处理音频对应的音频类型识别结果；其中，所述音频类型识别模型包括基于多个标注了音频类型信息的音频样本训练得到的神经网络模型。
[0171]
在一些实施例中，所述频域信息包括由第一预设数量的梅尔带分别对应的幅度所组成的梅尔频谱；所述频谱变化信息包括由所述相邻两个音频帧分别在各所述梅尔带下的
幅度变化值。
[0172]
在一些实施例中，所述音频类型识别模型包括卷积神经网络；所述卷积神经网络包括第二预设数量的卷积层与池化层。
[0173]
在一些实施例中，所述第二预设数量不大于5。
[0174]
在一些实施例中，所述音频样本包括多种音乐类型的音乐样本。
[0175]
在一些实施例中，所述待处理音频包括通过音频数据采样得到的音频片段；其中，通过采样得到的相邻的两个音频片段至少包括部分相同的音频帧。
[0176]
在一些实施例中，所述装置120还包括：
[0177]
处理与输出模块124，用于响应于所述音频类型识别结果指示所述待处理音频的类型为预设类型，对所述待处理音频数据进行动态范围压缩处理，并输出处理后的音频；
[0178]
响应于所述音频类型识别结果指示所述待处理音频的类型不是所述预设类型，对所述待处理音频数据进噪音抑制和/或自动增益控制处理，并输出处理后的音频。
[0179]
由此可以基于待处理音频包括的音频帧的频域信息以及音频帧之间的频谱变化信息生成输入特征，并输入识别模型进行计算，可以使模型结合对识别音频类型有益的频率特征与音频帧之间的能量变化特征进行音频类型识别，从而提升音频类型识别准确性，为用户带来了更好的体验。
[0180]
示例性介质
[0181]
在介绍了本公开示例性实施方式的方法和装置之后，接下来，参考图13对本公开示例性公开的一种可读存储介质进行说明。所述存储介质存储有计算机程序，所述计算机程序用于使处理器执行如前述任一实施例示出音频处理方法。
[0182]
请参见图13，图13为本公开实施例示出的示出的一种应用于音频处理方法的程序产品130。
[0183]
在示出的一些实施方式中，可以通过程序产品70实现前述任一实施例示出的音频处理方法，如可以采用便携式紧凑盘只读存储器(cd
‑
rom)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0184]
该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者前述的任意合适的组合。
[0185]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或前述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0186]
可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有
线、光缆、re等等，或者前述的任意合适的组合。
[0187]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如java、c 等，还包括常规的过程式程序设计语言，诸如c语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
[0188]
示例性电子设备
[0189]
在介绍了本公开示例性实施方式的方法、装置和介质之后，接下来，参考图14对本公开示例性公开的一种电子设备进行说明。所述设备包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现如前述任一实施例示出的音频处理方法。
[0190]
请参见图14，图14为本公开实施例示出的示出的一种电子设备的结构示意图。
[0191]
图14显示的电子设备1400仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0192]
如图14所示，电子设备1400以通用电子设备的形式表现。电子设备1400的组件可以包括但不限于：前述至少一个处理器1401、前述至少一个存储处理器1402，连接不同系统组件(包括处理器1401和存储处理器1402)的总线1403。
[0193]
总线1403包括数据总线、控制总线和地址总线。
[0194]
存储处理器1402可以包括易失性存储器形式的可读介质，例如随机存取存储器(ram)14021和/或高速缓存存储器14022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(rom)14023。
[0195]
存储处理器1402还可以包括具有一组(至少一个)程序模块14024的程序/实用工具14025，这样的程序模块14024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0196]
电子设备1400也可以与一个或多个外部设备1404(例如键盘、指向设备等)通信。
[0197]
这种通信可以通过输入/输出(i/o)接口1405进行。并且，电子设备1400还可以通过网络适配器1406与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图8所示，网络适配器1406通过总线1403与电子设备1400的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0198]
应当注意，尽管在上文详细描述中提及了文本处理装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0199]
此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的
结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
[0200]
虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于脑电信号的语音生成方法、装置、终端及存储介质与流程

一种音频处理方法、装置、介质和电子设备与流程

相关文献

最热文献