音频优化方法及相关装置、电子设备、存储介质与流程

2022-02-22 02:50:47 来源：中国专利 TAG：

1.本技术涉及音频处理技术领域，特别是涉及一种音频优化方法及相关装置、电子设备、存储介质。

背景技术：

2.在现实场景中，由于手机、智能音箱、电视等电子设备中扬声器与麦克风存在耦合，麦克风会采集扬声器发出的信号，从而形成回声系统，且环境中也不可避免地存在噪声，进而音频质量将会受到较大的影响。
3.以通信领域为例，如果近端说话人和扬声器播放的远端说话人的声音同时传向远端，经过网络传输产生时延，远端说话人会听到自己的回声以及环境噪声，严重影响通话体验，甚至造成沟通障碍；或者，以智能硬件领域为例，在对智能电视、智能音箱等同时具备播放与交互功能的电子设备进行交互控制时，声音播放源相较于说话人来说，通常离麦克风近得多，从而影响交互识别。虽然目前已经提出若干音频优化算法，但优化效果均不理想。有鉴于此，如何提高音频优化效果成为亟待解决的问题。

技术实现要素：

4.本技术主要解决的技术问题是提供一种音频优化方法及相关装置、电子设备、存储介质，能够提高音频优化效果。
5.为了解决上述技术问题，本技术第一方面提供了一种音频优化方法，包括：提取采集音频的第一音频表示，并提取参考音频的第二音频表示；基于第一音频表示和第二音频表示，分别提取得到第一回声表示、第一语音表示和第一噪声表示；将第一语音表示分别与第一回声表示、第一噪声表示进行交互处理，得到第二语音表示、第二回声表示和第二噪声表示；其中，交互处理包括：回声抑制、噪声抑制、语音增强；基于第二语音表示、第二回声表示和第二噪声表示中至少一者，得到优化之后的目标音频。
6.为了解决上述技术问题，本技术第二方面提供了一种音频优化装置，包括：音频特征提取模块、声音表示提取模块、声音表示交互模块和目标音频获取模块，音频特征提取模块，用于提取采集音频的第一音频表示，并提取参考音频的第二音频表示；声音表示提取模块，用于基于第一音频表示和第二音频表示，分别提取得到第一回声表示、第一语音表示和第一噪声表示；声音表示交互模块，用于将第一语音表示分别与第一回声表示、第一噪声表示进行交互处理，得到第二语音表示、第二回声表示和第二噪声表示；其中，交互处理包括：回声抑制、噪声抑制、语音增强；目标音频获取模块，用于基于第二语音表示、第二回声表示和第二噪声表示中至少一者，得到优化之后的目标音频。
7.为了解决上述技术问题，本技术第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的音频优化方法。
8.为了解决上述技术问题，本技术第四方面提供了一种计算机可读存储介质，存储
有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的音频优化方法。
9.上述方案，提取采集音频的第一音频表示，并提取参考音频的第二音频表示，基于第一音频表示和第二音频表示，分别提取得到第一回声表示、第一语音表示和第一噪声表示，在此基础上，再将第一语音表示分别与第一回声表示、第一噪声表示进行交互处理，得到第二语音表示、第二回声表示和第二噪声表示，且交互处理包括：回声抑制、噪声抑制、语音增强，并基于第二语音表示、第二回声表示和第二噪声表示中至少一者，得到优化之后的目标音频，由于第一语音表示和第一回声表示进行交互处理，有利于抑制回声并增强语音，而第一语音表示和第一噪声表示进行交互处理，有利于抑制噪声并增强语音，故在音频优化过程中，能够考虑到不同信号的统计特性，而采用并行方式交互处理第一语音表示和第一回声表示，以及第一语音表示和第一噪声表示，有利于提升提高音频优化效果。
附图说明
10.图1是本技术音频优化方法一实施例的流程示意图；
11.图2是音频优化模型一实施例的框架示意图；
12.图3是交互网络一实施例的框架示意图；
13.图4是本技术音频优化方法另一实施例的流程示意图；
14.图5是训练音频优化模型一实施例的流程示意图；
15.图6是本技术音频优化装置一实施例的框架示意图；
16.图7是本技术电子设备一实施例的框架示意图；
17.图8是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
18.下面结合说明书附图，对本技术实施例的方案进行详细说明。
19.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本技术。
20.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。
21.请参阅图1，图1是本技术音频优化方法一实施例的流程示意图。具体而言，可以包括如下步骤：
22.步骤s11：提取采集音频的第一音频表示，并提取参考音频的第二音频表示。
23.在一个实施场景中，采集音频可以是由电子设备的麦克风采集得到的，而参考音频可以是电子设备的扬声器所播放的音频。以语音交互场景为例，电子设备(如，手机、智能音箱、智能电视)的扬声器可以播放由tts(text to speech，语音合成)处理得到的交互音频(如，“已经帮您找到未来一周的天气预报”)，与此同时，麦克风处于开启状态并采集用户的语音指令(如，“帮我订一张明天去上海的机票”)，则在此情况下，麦克风所采集到的采集音频即为用户的语音指令和扬声器所播放的交互音频，以及周围环境的噪声音频的混合，而参考音频即为前述交互音频，噪声音频可以包括但不限于：用户正常活动的声音、自然环
境中风声等等，在此不做限定；或者，以语音电话场景为例，电子设备(如，手机、平板电脑)的扬声器可以播放远端说话人的通话音频(如，“你最近挺好的吧”)，与此同时，麦克风处于开启状态并采集近端说话人的语音音频(如，“我挺好的”)，则在此情况下，麦克风所采集到的采集音频即为远端说话人的通话音频和近端说话人的语音音频，以及周围环境的噪声音频的混合，而参考音频即为前述通话音频，噪声音频可以包括但不限于：近端说话人正常活动的声音、近端说话人的其他电子设备(如，音箱、电视)播放的声音等等，在此不做限定；或者，以语音识别场景为例，电子设备(如，手机、平板电脑)的扬声器可以播放音乐音频，与此同时，麦克风处于开启状态并采集待识别语音，则在此情况下，麦克风所采集到的采集音频即为音乐音频和待识别语音，以及周围环境的噪声音频的混合，而参考音频即为音乐音频，噪声音频可以包括但不限于：用户正常活动的声音、自然环境中风声等等，在此不做限定。其他情况可以以此类推，在此不再一一举例。
24.在一个实施场景中，可以采用短时傅里叶变换分别对采集音频、参考音频进行处理，得到采集音频的幅度谱和参考音频的幅度谱，从而可以直接将采集音频的幅度谱，作为采集音频的第一音频表示，并可以直接将参考音频的幅度谱，作为参考音频的第二音频表示。
25.在一个实施场景中，也可以对采集音频、参考音频分别进行傅里叶变换，得到两者的复数形式(即，实部与虚部的拼接)，在此情况下，可以将采集音频的复数形式，作为采集音频的第一音频表示，并可以将参考音频的复数形式，作为参考音频的第二音频表示。需要说明的是，相较于前述将幅度谱作为音频表示的方式，将复数形式作为音频表示，不仅能够引入幅度信息，还能够引入相位信息。
26.在一个实施场景中，为了尽可能提高音频优化质量，在提取音频表示之前，还可以先基于采集音频和参考音频进行回声消除，具体可以通过自适应滤波将采集音频中线性回声消除。需要说明的是，在现实场景中，由于采集音频中噪声音频的存在，线性回声无法被完全消除，故可以通过本公开实施例以及下述公开实施例尽可能地消除采集音频中残余回声以及噪声，以尽可能提升音频优化质量。在此基础上，可以采用前述任一种方式提取采集音频的第一音频表示和参考音频的第二音频表示，具体可以参阅前述相关描述，在此不再赘述。
27.步骤s12：基于第一音频表示和第二音频表示，分别提取得到第一回声表示、第一语音表示和第一噪声表示。
28.在一个实施场景中，可以先融合第一音频表示和第二音频表示，得到融合音频表示，再在融合音频表示的基础上，分别进行回声提取、语音提取以及噪声提取，以分别得到第一回声表示、第一语音表示和第一噪声表示。需要说明的是，第一回声表示包含回声特征信息，第一语音表示包含语音特征信息，而第一噪声表示包含噪声特征信息，此外，第一回声表示和第一噪声表示中可能含有残留的语音特征信息，而第一语音表示中可能含有残留的回声特征信息、残留的噪声特征信息中至少一者，在此不做限定。
29.在一个具体的实施场景中，可以将第一音频表示和第二音频表示进行拼接，得到融合音频表示。
30.在一个具体的实施场景中，为了提高音频优化效果，可以预先训练一个音频优化模型，且该音频优化模型可以包括回声提取网络、语音提取网络和噪声提取网络，在此基础
上，可以利用回声提取网络对前述融合音频表示进行特征提取，得到第一回声表示，并可以利用语音提取网络对前述融合音频表示进行特征提取，得到第一语音表示，以及可以利用噪声提取网络对前述融合音频表示进行特征提取，得到第一噪声表示。需要说明的是，回声提取网络、语音提取网络和噪声提取网络分别可以包括但不限于：lstm(long-short term memory，长短期记忆网络)、cnn(convolutional neural network，卷积神经网络)、crn(convolutional recurrent network，卷积循环网络)等等，在此不做限定。
31.步骤s13：将第一语音表示分别与第一回声表示、第一噪声表示进行交互处理，得到第二语音表示、第二回声表示和第二噪声表示。
32.本公开实施例中，交互处理包括：回声抑制、噪声抑制、语音增强。需要说明的是，在将第一语音表示与第一回声表示进行交互处理时，交互处理可以包括回声抑制和语音增强，在第一语音表示与第一噪声表示进行交互处理时，交互处理可以包括噪声抑制和语音增强。
33.在一个实施场景中，可以基于第一回声表示和第一语音表示分别进行回声抑制和语音增强，得到第二回声表示和第一增强语音表示，并基于第一噪声表示和第一语音表示进行噪声抑制和语音增强，得到第二噪声表示和第二增强语音表示，在此基础上，可以再基于第一增强语音表示和第二增强语音表示，得到第二语音表示。上述方式，基于第一回声表示和第一语音表示分别进行回声抑制和语音增强，能够有利于将第一回声表示中残留语音特征信息与第一语音表示中残留回声特征信息相互交互，且基于第一噪声表示和第一语音表示进行噪声抑制和语音增强，能够有利于将第一噪声表示中残留语音特征信息与第一语音表示中残留噪声特征信息相互交互，故此有利于提升语音优化质量。
34.在一个具体的实施场景中，为了便于描述，以下交互处理的步骤暂不体现回声表示、语音表示及噪声表示，而以待交互的目标音频表示和参考音频表示来辅助说明。具体地，可以基于目标音频表示和参考音频表示之间的相关度，得到参考音频表示的参考权重，并基于参考权重，对目标音频表示和参考音频表示进行加权，得到加权音频表示。
35.以交互处理是回声抑制为例，上述目标音频表示即为第一回声表示，以表征第一回声表示为回声抑制的目标，而上述参考音频表示为第一语音表示，以表征第一语音表示为回声抑制的参考，在此情况下，上述加权音频表示即为第二回声表示。为了便于描述，可以将第一回声表示记为fe，将第一语音表示记为fs，第一语音表示fs的参考权重可以表示为mask(fe，fs)，则第二回声表示f
eout
可以表示为：
36.f
eout
＝fe fs*mask(fe，fs)......(1)
37.由上述公式(1)可见，由于参考权重mask(fe，fs)表征第一回声表示fe和第一语音表示fs之间的相关性，故通过第一语音表示fs与参考权重mask(fe，fs)相乘，能够获取到第一语音表示fs中与第一回声表示fe相关的部分，即第一语音表示fs中残留的回声特征信息，从而能够提升第二回声表示f
eout
中回声特征信息的占比，提高回声表示的准确性。
38.以交互处理是噪声抑制为例，上述目标音频表示即为第一噪声表示，以表征第一噪声表示为噪声抑制的目标，而上述参考音频表示为第一语音表示，以表征第一语音表示为噪声抑制的参考，在此情况下，上述加权音频表示即为第二噪声表示。为了便于描述，可以将第一噪声表示记为fn，将第一语音表示记为fs，第一语音表示fs的参考权重可以表示为mask(fn，fs)，则第二噪声表示f
nout
可以表示为：
short term memory，长短期记忆网络)、cnn(convolutional neural network，卷积神经网络)、crn(convolutional recurrent network，卷积循环网络)中至少一者实现，在此不做限定。此外，请结合参阅图3，图3是交互网络一实施例的框架示意图。如图3所示，仍以前述待交互的目标音频表示和待交互的参考音频表示为例，目标音频表示和参考音频表示可以先进行拼接，得到拼接音频表示，在此基础上，可以经过若干层卷积层的卷积处理，得到参考音频表示的参考权重，之后可以将参考权重与参考音频表示的乘积与目标音频表示之和，作为加权音频表示。此外，音频优化模型的具体训练过程，可以参阅下述相关公开实施例，在此暂不赘述。
49.在一个实施场景中，可以基于第一回声表示和第一语音表示分别进行回声抑制和语音增强，得到第二回声表示和增强后的第一语音表示，以及基于第一噪声表示和增强后的第一语音表示进行噪声抑制和语音增强，得到第二噪声表示和第二语音表示。上述方式，基于第一回声表示和第一语音表示分别进行回声抑制和语音增强，能够有利于将第一回声表示中残留语音特征信息与第一语音表示中残留回声特征信息相互交互，且基于第一噪声表示和增强后的第一语音表示进行噪声抑制和语音增强，能够有利于将第一噪声表示中残留语音特征信息与增强后的第一语音表示中残留噪声特征信息进行交互，故此有利于提升语音优化质量。
50.在一个具体的实施场景中，与前述描述类似地，为了便于描述，可以以待交互的目标音频表示和参考音频表示来辅助说明交互处理过程，具体可以参阅前述相关描述，本实施场景仅描述两者不同之处，相同之处可以参阅前述相关描述，在此不再赘述。基于第一回声表示和第一语音表示分别进行回声抑制和语音增强的过程，可以分别参阅公式(1)及其相关描述和公式(3)及其相关描述，在此不再赘述。与前述描述不同的是，在通过公式(3)得到增强后的第一语音表示f
sout
之后，可以基于第一噪声表示fn和增强后的第一语音表示f
sout
，获取增强后的第一语音表示f
sout
的参考权重mask(fn，f
sout
)，则可以基于参考权重mask(fn，f
sout
)，对第一噪声表示fn和增强后的第一语音表示f
sout
进行加权，得到第二噪声表示f
nout
，具体可以表示为：
51.f
nout
＝fn f
sout
*mask(fn，f
sout
)
……
(5)
52.由公式(5)可见，由于参考权重mask(fn，f
sout
)表征第一噪声表示fn和增强后的第一语音表示f
sout
之间的相关性，故通过增强后的第一语音表示f
sout
与参考权重mask(fn，f
sout
)相乘，能够获取到增强后的第一语音表示f
sout
中与第一噪声表示fn相关的部分，即增强后的第一语音表示f
sout
中残留的噪声特征信息，从而能够提升第二噪声表示f
nout
中噪声特征信息的占比，提高噪声表示的准确性。与此同时，在通过公式(3)得到增强后的第一语音表示f
sout
之后，还可以基于第一噪声表示fn和增强后的第一语音表示f
sout
，获取第一噪声表示fn的参考权重mask(f
sout
，fn)，则可以基于参考权重mask(f
sout
，fn)，对第一噪声表示fn和增强后的第一语音表示f
sout
进行加权，得到第二语音表示f
′
sout
，具体可以表示为：
53.f
′
sout
＝f
sout
fn*mask(f
sout
，fn)......(6)
54.由公式(6)可见，由于参考权重mask(f
sout
，fn)表征增强后的第一语音表示f
sout
和第一噪声表示fn之间的相关性，故通过第一噪声表示fn与参考权重mask(f
sout
，fn)相乘，能够获取到第一噪声表示fn中与增强后的第一语音表示f
sout
相关的部分，即第一噪声表示fn中残留的语音特征信息，从而能够提升第二语音表示f
′
sout
中语音特征信息的占比，提高语
音表示的准确性。
55.在一个具体的实施场景中，如前所述，为了提高音频优化的效率，可以预先训练一个音频优化模型，以利于音频优化模型实现上述表示提取、交互处理等过程。音频处理模型的具体框架，可以参阅图2以及前述相关描述，在此不再赘述。
56.在一个实施场景中，可以基于第一噪声表示和第一语音表示分别进行噪声抑制和语音增强，得到第二噪声表示和增强后的第一语音表示，以及基于第一回声表示和增强后的第一语音表示进行回声抑制和语音增强，得到第二回声表示和第二语音表示。上述方式，基于第一噪声表示和第一语音表示分别进行噪声抑制和语音增强，能够有利于将第一噪声表示中残留语音特征信息与第一语音表示中残留噪声特征信息相互交互，且基于第一回声表示和增强后的第一语音表示进行回声抑制和语音增强，能够有利于将第一回声表示中残留语音特征信息与增强后的第一语音表示中残留回声特征信息进行交互，故此有利于提升语音优化质量。
57.在一个具体的实施场景中，与前述描述类似地，为了便于描述，可以以待交互的目标音频表示和参考音频表示来辅助说明交互处理过程，具体可以参阅前述相关描述，本实施场景仅描述两者不同之处，相同之处可以参阅前述相关描述，在此不再赘述。基于第一噪声表示和第一语音表示分别进行噪声抑制和语音增强的过程，可以分别参阅公式(2)及其相关描述和公式(4)及其相关描述，在此不再赘述。与前述描述不同的是，在通过公式(4)得到增强后的第一语音表示f
sout
之后，可以基于第一回声表示fe和增强后的第一语音表示f
sout
，获取增强后的第一语音表示f
sout
的参考权重mask(fe，f
sout
)，则可以基于参考权重mask(fe，f
sout
)，对第一回声表示fe和增强后的第一语音表示f
sout
进行加权，得到第二回声表示f
eout
，具体可以表示为：
58.f
eout
＝fe f
sout
*mask(fe，f
sout
)...(7)
59.由公式(5)可见，由于参考权重mask(fe，f
sout
)表征第一回声表示fe和增强后的第一语音表示f
sout
之间的相关性，故通过增强后的第一语音表示f
sout
与参考权重mask(fe，f
sout
)相乘，能够获取到增强后的第一语音表示f
sout
中与第一回声表示fe相关的部分，即增强后的第一语音表示f
sout
中残留的回声特征信息，从而能够提升第二回声表示f
eout
中回声特征信息的占比，提高回声表示的准确性。与此同时，在通过公式(4)得到增强后的第一语音表示f
sout
之后，还可以基于第一回声表示fe和增强后的第一语音表示f
sout
，获取第一回声表示fn的参考权重mask(f
sout
，fe)，则可以基于参考权重mask(f
sout
，fe)，对第一回声表示fe和增强后的第一语音表示f
sout
进行加权，得到第二语音表示f
′
sout
，具体可以表示为：
60.f
′
sout
＝f
sout
fe*mask(f
sout
，fe)
……
(8)
61.由公式(6)可见，由于参考权重mask(f
sout
，fe)表征增强后的第一语音表示f
sout
和第一回声表示fe之间的相关性，故通过第一回声表示fe与参考权重mask(f
sout
，fe)相乘，能够获取到第一回声表示fn中与增强后的第一语音表示f
sout
相关的部分，即第一回声表示fe中残留的语音特征信息，从而能够提升第二语音表示f
′
sout
中语音特征信息的占比，提高语音表示的准确性。
62.在一个具体的实施场景中，如前所述，为了提高音频优化的效率，可以预先训练一个音频优化模型，以利于音频优化模型实现上述表示提取、交互处理等过程。音频处理模型的具体框架，可以参阅图2以及前述相关描述，在此不再赘述。
63.需要说明的是，在实际应用过程中，可以在上述三种交互方式中任意选择，以获取到第二语音表示、第二回声表示和第二噪声表示，在此不做限定。
64.步骤s14：基于第二语音表示、第二回声表示和第二噪声表示中至少一者，得到优化之后的目标音频。
65.具体地，可以根据实际应用需要，基于第二语音表示、第二回声表示和第二噪声表示中至少一者，恢复得到目标音频。例如，在语音识别场景下，往往需要经回声抑制、噪声抑制等相关优化之后的音频进行识别，以尽可能地提升语音识别的准确性，故此可以基于第二语音表示，恢复得到目标音频，需要说明的是，在此情况下，目标音频为语音音频；或者，在对回声系统进行研究的场景下，可以基于第二回声表示，恢复得到目标音频，需要说明的是，在此情况下，目标音频为回声音频；或者，在对噪声系统进行研究的情况下，可以基于第二噪声表示，恢复得到目标音频，需要说明的是，在此情况下，目标音频为噪声音频。其他场景可以以此类推，在此不再一一举例。此外，需要说明的是，如前所述，音频表示可以为幅度谱或者复数形式，则第二语音表示、第二回声表示、第二噪声表示也可以对应地为幅度谱或复数形式，即最终可以基于幅度谱或复数形式恢复得到目标语音，具体恢复过程可以参阅griffin lim算法等还原恢复算法，在此不再赘述。
66.上述方案，提取采集音频的第一音频表示，并提取参考音频的第二音频表示，基于第一音频表示和第二音频表示，分别提取得到第一回声表示、第一语音表示和第一噪声表示，在此基础上，再将第一语音表示分别与第一回声表示、第一噪声表示进行交互处理，得到第二语音表示、第二回声表示和第二噪声表示，且交互处理包括：回声抑制、噪声抑制、语音增强，并基于第二语音表示、第二回声表示和第二噪声表示中至少一者，得到优化之后的目标音频，由于第一语音表示和第一回声表示进行交互处理，有利于抑制回声并增强语音，而第一语音表示和第一噪声表示进行交互处理，有利于抑制噪声并增强语音，故在音频优化过程中，能够考虑到不同信号的统计特性，而采用并行方式交互处理第一语音表示和第一回声表示，以及第一语音表示和第一噪声表示，有利于提升提高音频优化效果。
67.请参阅图4，图4是本技术音频优化方法另一实施例的流程示意图。本公开实施例中，目标音频是经预设数值轮优化阶段得到的。具体而言，可以包括如下步骤：
68.步骤s41：提取采集音频的第一音频表示，并提取参考音频的第二音频表示。
69.具体可以参阅前述公开实施例中相关描述，在此不再赘述。
70.步骤s42：基于第一音频表示和第二音频表示，分别提取得到第一回声表示、第一语音表示和第一噪声表示。
71.具体可以参阅前述公开实施例中相关描述，在此不再赘述。
72.步骤s43：将第一语音表示分别与第一回声表示、第一噪声表示进行交互处理，得到第二语音表示、第二回声表示和第二噪声表示。
73.本公开实施例中，交互处理包括：回声抑制、噪声抑制、语音增强。具体可以参阅前述公开实施例中相关描述，在此不再赘述。
74.步骤s44：检测当前优化阶段的优化轮数是否低于预设数值，若是，则执行步骤s45，否则执行步骤s47。
75.在一个实施场景中，预设数值可以根据实际应用需要进行设置，如在对音频优化的质量要求较高的情况下，预设数值可以设置地适当大一些，如可以设置为7、8、9等，或者，
在对音频优化的效率要求较高且对音频优化的质量要求相对宽松的情况下，预设数值可以设置地适当小一些，如可以设置为2、3、4等，在此不做限定。
76.在一个实施场景中，如前述公开实施例以及图2所示，为了提高音频优化效率，可以预先训练一个音频优化模型，且音频优化模型包括回声分支网络、语音分支网络、噪声分支网络，以及位于回声分支网络和语音分支网络之间的第一交互网络、位于噪声分支网络和语音分支网络之间的第二交互网络。请继续参阅图2，回声分支网络包括预设数值个顺序连接的回声子网络，语音分支网络包括预设数值个顺序连接的语音子网络，噪声分支网络包括预设数值个顺序连接的噪声子网络，第一交互网络包括预设数值个第一交互子网络，第二交互网络包括预设数值个第二交互子网络，且第i个第一交互子网络位于第i个回声子网络和第二i个语音子网络之间，第i个第二交互子网络位于第i个噪声子网络和第i个语音子网络之间。需要说明的是，回声子网络、语音子网络、噪声子网络分别可以基于lstm、cnn、crn中至少一者实现，在此不做限定。此外，第一交互子网络以及第二交互子网络的网络结构可以参阅图3以及前述公开实施例中相关描述，在此亦不再赘述。
77.步骤s45：分别对第二回声表示、第二语音表示和第二噪声表示进行特征提取，得到新的第一回声表示、新的第一语音表示和新的第一噪声表示。
78.在当前优化阶段的优化轮数低于预设数值时，可以继续执行下一阶段优化，具体可以分别对第二回声表示、第二语音表示和第二噪声表示进行特征提取，得到新的第一回声表示、新的第一语音表示和新的第一噪声表示。请结合参阅图2，在当前优化阶段为第一阶段时，则第一个回声子网络提取到第一回声表示，第一个语音子网络提取到第一语音表示，第一个噪声子网络提取到第一噪声表示，在此基础上，第一个第一交互子网络对第一回声表示和第一语音表示进行交互处理，得到第二回声表示和第一增强语音表示，第二个交互子网络对第一噪声表示和第一语音表示进行交互处理，得到第二噪声表欧式和第二增强语音表示，再基于第一增强语音表示和第二增强语音表示可以得到第二语音表示，由于当前优化阶段的优化轮数低于预设数值，故可以利用第二个回声子网络对第二回声表示进行特征提取，得到新的第一回声表示，并利用第二个语音子网络对第二语音表示进行特征提取，得到新的第一语音表示，以及利用第二个噪声子网络对第二噪声表示进行特征提取，得到新的第一噪声表示。其他优化阶段可以以此类推，在此不再一一举例。
79.步骤s46：重新执行上述步骤s43以及后续步骤。
80.具体地，在得到新的第一回声表示、新的第一语音表示和新的第一噪声表示的情况下，可以执行前述交互处理以及相关步骤，具体可以参阅前述公开实施例中相关描述，在此不再赘述。
81.步骤s47：基于第二语音表示、第二回声表示、第二噪声表示中至少一者，恢复得到目标音频。
82.在当前优化阶段的优化轮数不低于预设数值时，可以基于第二语音表示、第二回声表示、第二噪声表示中至少一者，恢复得到目标音频，具体可以参阅前述公开实施例中相关描述，在此不再赘述。
83.上述方案，提取采集音频的第一音频表示，并提取参考音频的第二音频表示，基于第一音频表示和第二音频表示，分别提取得到第一回声表示、第一语音表示和第一噪声表示，在此基础上，再将第一语音表示分别与第一回声表示、第一噪声表示进行交互处理，得
到第二语音表示、第二回声表示和第二噪声表示，且交互处理包括：回声抑制、噪声抑制、语音增强，并基于第二语音表示、第二回声表示和第二噪声表示中至少一者，得到优化之后的目标音频，由于第一语音表示和第一回声表示进行交互处理，有利于抑制回声并增强语音，而第一语音表示和第一噪声表示进行交互处理，有利于抑制噪声并增强语音，在此基础上，通过进一步检测当前优化阶段的优化轮数是否低于预设数值，并在低于预设数值的情况下，分别对第二回声表示、第二语音表示和第二噪声表示进行特征提取，得到新的第一回声表示、新的第一语音表示和新的第一噪声表示，以及重新执行上述交互处理以及后续流程，故可以进一步抑制回声和噪声并增强语音，而在不低于预设数值的情况下，基于第二语音表示、第二回声表示、第二噪声表示中至少一者，恢复得到目标音频，故此能够在音频优化过程中，持续多轮优化，有利于循序渐进地提升音频优化质量。
84.请参阅图5，图5是训练音频优化模型一实施例的流程示意图。如前述公开实施例所述，目标音频可以是利用音频优化模型处理得到的，而音频优化模型可以是利用若干组样本音频数据训练得到的，每组样本音频数据可以包括样本噪声音频、样本参考音频、样本语音音频，以及由样本噪声音频、样本参考音频和样本语音音频生成的样本采集音频。具体而言，可以通过如下步骤训练得到音频优化模型：
85.步骤s51：分别对样本噪声音频、样本参考音频、样本语音音频和样本采集音频进行特征提取，得到初始样本噪声表示、初始样本参考表示、初始样本语音表示和初始样本音频表示。
86.在一个实施场景中，可以分别获取噪声的第一房间冲激响应、回声的第二房间冲激响应和语音的第三房间冲激响应，并将样本噪声音频、样本参考音频和样本语音音频分别与第一房间冲激响应、第二房间冲激响应和第三房间冲激响应进行卷积，得到样本采集音频。上述方式，可以通过模拟生成的方式，获取到尽可能丰富的样本数据，能够克服实时场景中样本采集困难的问题，大大提升模型训练性能。
87.在一个具体的实施场景中，可以预先构建房间模型，房间模型可以包括但不限于：房间尺寸(即长、宽、高)、房间材质(如，空心砖墙、实心砖墙、混凝土墙、表面乳胶、表面墙纸等)等，在此不做限定。在此基础上，可以基于该房间模型，通过image method等算法生成第一房间冲激响应、第二房间冲激响应和第三房间冲激响应，其具体生成过程，可以参阅image method的技术细节，在此不再赘述。
88.在一个具体的实施场景中，为了尽可能地丰富样本数据，可以生成房间模型不同位置处的房间冲激响应，具体可以生成房间模型中与声源偏离不同角度不同距离处的房间冲激响应。例如，声源左偏10度方向1米处的房间冲激响应、声源右偏30度2米处的冲激响应，在此不做限定。
89.在一个具体的实施场景中，样本语音音频即为人说话音频，且为了进一步丰富样本数据，还可以根据不同场景使用不同的样本噪声音频和样本参考音频。以语音交互场景为例，可以将白噪声音频作为样本噪声音频，并可以将tts音频作为样本参考音频，也可以将音乐音频作为样本噪声音频，并可以将tts音频作为样本参考音频；或者，以语音电话场景为例，可以将白噪声音频、音乐音频任一者作为样本噪声音频，并可以将tts音频、说话人音频任一者作为样本参考音频；或者，以语音识别场景为例，可以将白噪声音频作为样本噪声音频，并可以将音乐音频作为样本参考音频。其他情况可以以此类推，在此不再一一举
例。需要说明的是，为了使音频优化模型能够尽可能地适用于不同场景，训练过程中所使用的样本音频数据可能覆盖尽可能多的使用场景。
90.在一个具体的实施场景中，为了便于描述，可以将第一房间冲激响应记为in，可以将第二房间冲激响应记为ie，可以将第三房间冲激响应记为is，则样本采集音频y可以表示为：
91.y＝s*is ref*ie n*in……
(9)
92.上述公式(9)中，s表示样本语音音频，ref表示样本参考音频，n表示样本噪声音频，*表示卷积运算。
93.在另一个实施场景中，与前述样本采集音频的生成过程不同的是，为了尽可能提高音频优化质量，可以将卷积之后的样本音频作为初始采集音频，并对初始采集音频进行线性回声消除，得到样本采集音频。具体地，可以采用自适应滤波，基于样本参考音频，将初始采集音频中线性回声消除，得到样本采集音频y：
94.y＝s*is refn*ie n*in……
(10)
95.上述公式(9)中，refn表示样本参考音频中非线性成分。
96.在一个实施场景中，如前述公开实施例所述，可以采用幅度谱、复数形式中任一者进行特征提取，即初始样本噪声表示、初始样本参考表示、初始样本语音表示和初始样本音频表示可以均采用幅度谱来表示，或者也可以均采用复数形式来表示，在此不做限定。
97.步骤s52：基于初始样本音频表示和初始样本参考表示，分别提取到第一样本回声表示、第一样本语音表示和第一样本噪声表示。
98.具体地，请结合参阅图2，可以通过拼接等方式将初始样本音频表示和初始样本参考表示进行融合，得到初始样本融合表示，在此基础上，分别采用回声分支网络提取得到第一样本回声表示，采用语音分支网络提取得到第一样本语音表示，采用噪声分支网络提取得到第一样本噪声表示。
99.步骤s53：将第一样本语音表示分别与第一样本回声表示、第一样本噪声表示进行交互处理，得到第二样本语音表示、第二样本回声表示和第二样本噪声表示。
100.在一个实施场景中，与前述公开实施例所描述的一种交互方式类似地，可以采用第一交互网络将第一样本语音表示和第一样本回声表示进行回声抑制和语音增强，得到第二样本回声表示和第一样本增强语音表示，并可以采用第二交互网络将第一样本语音表示和第一样本噪声表示进行噪声抑制和语音增强，得到第二样本噪声表示和第二样本增强语音表示，在此基础上，可以再通过拼接、平均等方式处理第一样本增强语音表示和第二样本增强语音表示，得到第二样本语音表示。具体过程可以参阅前述公开实施例中相关描述，在此不再赘述。
101.在另一个实施场景中，与前述公开实施例所描述的另一种交互方式类似地，可以采用第一交互网络将第一样本语音表示和第一样本回声表示进行回声抑制和语音增强，得到第二样本回声表示和增强后的第一样本语音表示，再利用第二交互网络将增强后的第一样本语音表示和第一样本噪声表示进行噪声抑制和语音增强，得到第二样本噪声表示和第二样本语音表示。具体过程可以参阅前述公开实施例中相关描述，在此不再赘述。
102.在又一个实施场景中，与前述公开实施例所描述的又一种交互方式类似地，可以采用第二交互网络对第一样本语音表示和第一样本噪声表示进行噪声抑制和语音增强，得
到第二样本噪声表示和增强后的第一样本语音表示，再采用第一交互网络对增强后的第一样本语音表示和第一样本回声表示进行回声抑制和语音增强，得到第二样本回声表示和第二样本语音表示。具体过程可以参阅前述公开实施例中相关描述，在此不再赘述。
103.此外，如图2以及前述公开实施例所述，回声分支网络包括预设数值个顺序连接的回声子网络，语音分支网络包括预设数值个顺序连接的语音子网络，噪声分支网络包括预设数值个顺序连接的噪声子网络，第一交互网络包括预设数值个第一交互子网络，第二交互网络包括预设数值个第二交互子网络，且第i个第一交互子网络位于第i个回声子网络和第二i个语音子网络之间，第i个第二交互子网络位于第i个噪声子网络和第i个语音子网络之间，则在此情况下，可以通过片接等方式融合初始样本音频表示和初始样本参考表示，得到初始样本融合表示，分别利用第1个回声子网络提取到第一样本回声表示、利用第1个语音子网络提取到第一样本语音表示，以及利用第1个噪声子网络提取到第一样本噪声表示，再分别利用第1个第一交互子网络以及第1个第二交互子网络将最新提取到的第一样本回声表示、第一样本语音表示、第一样本噪声表示进行交互处理，得到第二样本回声表示、第二样本语音表示和第二样本噪声表示，并检测预设数值个子网络是否已经全部处理完毕，若是，则可以执行下述步骤s54，否则可以利用第2个子网络(即第2个回声子网络、第2个语音子网络、第2个噪声子网络以及第2个第一交互子网络、第2个第二交互子网络)重新执行上述特征提取以及交互处理的步骤，直至预设数值个子网络全部处理完毕为止。
104.步骤s54：基于初始样本语音表示和第二样本语音表示之间的差异，得到语音优化子损失，并基于初始样本噪声表示和第二样本噪声表示之间的差异，得到噪声优化子损失，以及基于初始样本参考表示和第二样本回声表示之间的差异，得到回声优化子损失。
105.在一个实施场景中，在相关表示采用幅度谱描述的情况下，可以采用mse(mean squared error，均方误差)计算各个子损失，具体计算过程，可以参考mse相关技术细节，在此不再赘述。
106.在一个实施场景中，在相关描述采用复数形式描述的情况下，可以采用ssnr(segmental snr，分段信噪比)计算各个子损失，具体过程，可以参阅ssnr相关技术细节，在此不再赘述。
107.步骤s55：基于本轮迭代的迭代次数，获取语音优化权重、噪声优化权重和回声优化权重。
108.需要说明的是，音频优化模型是经过多轮迭代训练得到的，如音频优化模型可以经过500轮、1000轮等迭代训练得到的，具体迭代次数在此不做限定。在此情况下，为了提升训练效果，各轮迭代可以分别侧重于对不同分支网络进行训练。具体地，在迭代次数满足预设条件的情况下，回声优化权重可以高于噪声优化权重，而在迭代次数不满足预设条件的情况下，回声优化权重可以低于噪声优化权重。
109.在一个实施场景中，预设条件可以包括迭代次数能够被2整除，即迭代次数为偶数；或者，预设条件也可以包括迭代次数不能被2整除，即迭代次数为奇数，在此不做限定。上述方式，将预设条件设置为迭代次数为偶数或奇数，能够在多轮训练过程中，交替侧重回声分支网络以及噪声分支网络，有利于提升训练效果。
110.在一个实施场景中，训练过程中，也可以略侧重于其中一个分支网络。例如，预设条件可以包括迭代次数不能被3整除，即迭代次数为1、2、4、5、7、8等，在此情况下，在迭代次
数为1、2、4、5、7、8等情况下，回声优化权重高于噪声优化权重，即侧重于训练回声分支网络；或者，预设条件也可以包括迭代次数能够被3整除，即在迭代次数不能被3整除的情况下，噪声优化权重高于回声优化权重，也就是说，在迭代次数为1、2、4、5、7、8等情况下，噪声优化权重高于回声优化权重，即侧重于训练噪声分支网络。其他情况可以以此类推，在此不再一一举例。
111.在一个实施场景中，语音优化权重可以不随迭代次数而变化，即语音优化权重可以设置为一个固定常数，如可以设置为1，在此不做限定。
112.步骤s56：基于语音优化权重、噪声优化权重和回声优化权重对语音优化子损失、噪声优化子损失和回声优化子损失的加权结果，调整音频优化模型的网络参数。
113.在一个实施场景中，加权结果为各个子损失的加权和(或加权平均)。为了便于描述，可以将语音优化子损失记为ls，可以将噪声优化子损失记为l
竹
，可以将回声优化子损失记为le，并可以将语音优化权重记为λs，可以将噪声优化权重记为λn，可以将回声优化权重记为λe，则加权损失l可以表示为：
114.l＝λs×
ls λ
竹
×
l
竹
λe×
le......(11)
115.以预设条件设置为迭代次数能够被2整除为例，在迭代次数为偶数的情况下，回声优化权重λe可以高于噪声优化权重λn，如可以将回声优化权重λe设置为0.9，噪声优化权重λ
竹
可以设置为0.1；或者，在迭代次数为奇数的额情况下，噪声优化权重λn可以高于回声优化权重λe，如可以将噪声优化权重λ
竹
设置为0.9，回声优化权重λe可以设置为0.1。其他情况可以以此类推，在此不再一一举例。
116.在一个实施场景中，可以采用梯度下降的优化方式，调整音频优化模型的网络参数，具体调整过程，可以参阅梯度下降等优化方式的技术细节，在此不再赘述。
117.上述方案，通过基于本轮迭代的迭代次数，获取语音优化权重、噪声优化权重和回声优化权重，并基于语音优化权重、噪声优化权重和回声优化权重对语音优化子损失、噪声优化子损失和回声优化子损失的加权结果，调整音频优化模型的网络参数，能够在各轮迭代过程中，分别侧重于对不同分支网络进行训练，有利于提升音频优化模型的训练效果。
118.请参阅图6，图6是本技术音频优化装置60一实施例的框架示意图。音频优化装置60包括：音频特征提取模块61、声音表示提取模块62、声音表示交互模块63和目标音频获取模块64，音频特征提取模块61，用于提取采集音频的第一音频表示，并提取参考音频的第二音频表示；声音表示提取模块62，用于基于第一音频表示和第二音频表示，分别提取得到第一回声表示、第一语音表示和第一噪声表示；声音表示交互模块63，用于将第一语音表示分别与第一回声表示、第一噪声表示进行交互处理，得到第二语音表示、第二回声表示和第二噪声表示；其中，交互处理包括：回声抑制、噪声抑制、语音增强；目标音频获取模块64，用于基于第二语音表示、第二回声表示和第二噪声表示中至少一者，得到优化之后的目标音频。
119.上述方案，提取采集音频的第一音频表示，并提取参考音频的第二音频表示，基于第一音频表示和第二音频表示，分别提取得到第一回声表示、第一语音表示和第一噪声表示，在此基础上，再将第一语音表示分别与第一回声表示、第一噪声表示进行交互处理，得到第二语音表示、第二回声表示和第二噪声表示，且交互处理包括：回声抑制、噪声抑制、语音增强，并基于第二语音表示、第二回声表示和第二噪声表示中至少一者，得到优化之后的目标音频，由于第一语音表示和第一回声表示进行交互处理，有利于抑制回声并增强语音，
而第一语音表示和第一噪声表示进行交互处理，有利于抑制噪声并增强语音，故在音频优化过程中，能够考虑到不同信号的统计特性，而采用并行方式交互处理第一语音表示和第一回声表示，以及第一语音表示和第一噪声表示，有利于提升提高音频优化效果。
120.在一些公开实施例中，声音表示交互模块63包括交互处理子模块，用于基于第一回声表示和第一语音表示分别进行回声抑制和语音增强，得到第二回声表示和第一增强语音表示，并基于第一噪声表示和第一语音表示分别进行噪声抑制和语音增强，得到第二噪声表示和第二增强语音表示，声音表示交互模块63包括表示融合子模块，用于基于第一增强语音表示和第二增强语音表示，得到第二语音表示。
121.因此，基于第一回声表示和第一语音表示分别进行回声抑制和语音增强，能够有利于将第一回声表示中残留语音特征信息与第一语音表示中残留回声特征信息相互交互，且基于第一噪声表示和第一语音表示进行噪声抑制和语音增强，能够有利于将第一噪声表示中残留语音特征信息与第一语音表示中残留噪声特征信息相互交互，故此有利于提升语音优化质量。
122.在一些公开实施例中，交互处理子模块包括参考权重获取单元，用于基于待交互的目标音频表示与待交互的参考音频表示之间的相关度，得到参考音频表示的参考权重；交互处理子模块包括音频表示加权单元，用于基于参考权重，对目标音频表示和参考音频表示进行加权，得到加权音频表示，其中，在交互处理为回声抑制的情况下，目标音频表示为第一回声表示，参考音频表示为第一语音表示，加权音频表示为第二回声表示；在交互处理为噪声抑制的情况下，目标音频表示为第一噪声表示，参考音频表示为第一语音表示，加权音频表示为第二噪声表示；在交互处理为语音增强的情况下，目标音频表示为第一语音表示，参考音频表示为第一回声表示，目标音频表示为第一增强语音表示，或者，参考音频表示为第一噪声表示，目标音频表示为第二增强语音表示。
123.因此，通过基于待交互的目标音频表示与待交互的参考音频表示之间的相关度，得到参考音频表示的参考权重，并基于参考权重，对目标音频表示和参考音频表示进行加权，得到加权音频表示，故加权处理，能够获取到参考音频表示中与目标音频表示相关的部分，即参考音频表示中残留的目标音频特征信息，从而能够提升加权音频表示中目标音频特征信息的占比，提高加权音频表示的准确性。
124.在一些公开实施例中，表示融合子模块包括第一融合单元，用于将第一增强语音表示和第二增强语音表示进行拼接，得到第二语音表示；或者表示融合子模块包括第二融合单元，用于将第一增强语音表示和第二增强语音表示进行平均，得到第二语音表示。
125.因此，通过将第一增强语音表示和第二增强语音表示进行拼接或进行平均，得到第二语音表示，能够降低语音处理的复杂度，有利于提升音频优化效率。
126.在一些公开实施例中，目标音频是经预设数值轮优化阶段得到的；音频优化装置60还包括优化阶段检测模块，用于检测当前优化阶段的优化轮数是否低于预设数值，声音表示提取模块62还用于在优化阶段检测模块检测到当前优化阶段的优化轮数低于预设数值的情况下，分别对第二回声表示、第二语音表示和第二噪声表示进行特征提取，得到新的第一回声表示、新的第一语音表示和新的第一噪声表示，并结合声音表示交互模块63重新执行将第一语音表示分别与第一回声表示、第一噪声表示进行交互处理，得到第二语音表示、第二回声表示和第二噪声表示的步骤以及后续步骤。
127.因此，通过进一步检测当前优化阶段的优化轮数是否低于预设数值，并在低于预设数值的情况下，分别对第二回声表示、第二语音表示和第二噪声表示进行特征提取，得到新的第一回声表示、新的第一语音表示和新的第一噪声表示，以及重新执行上述交互处理以及后续流程，故可以进一步抑制回声和噪声并增强语音，有利于提升音频优化效果。
128.在一些公开实施例中，目标音频获取模块64还用于在优化阶段检测模块检测到当前优化阶段的优化轮数不低于预设数值的情况下，检测到当前优化阶段的优化轮数不低于预设数值，基于第二语音表示、第二回声表示、第二噪声表示中至少一者，恢复得到目标音频。
129.因此，在当前优化阶段的优化轮数不低于预设数值的情况下，基于第二语音表示、第二回声表示、第二噪声表示中至少一者，恢复得到目标音频，故此能够在音频优化过程中，持续多轮优化，有利于循序渐进地提升音频优化质量。
130.在一些公开实施例中，目标音频是利用音频优化模型处理得到的，音频优化模型包括回声分支网络、语音分支网络、噪声分支网络，以及位于回声分支网络和语音分支网络之间的第一交互网络、位于噪声分支网络和语音分支网络之间的第二交互网络。
131.因此，因此通过音频优化模型处理得到目标音频，且音频优化模型包括回声分支网络、语音分支网络、噪声分支网络，以及位于回声分支网络和语音分支网络之间的第一交互网络、位于噪声分支网络和语音分支网络之间的第二交互网络，即在音频优化过程中，声音表示提取以及声音表示交互均可以由网络模型执行，故能够有利于提升音频优化效率。
132.在一些公开实施例中，回声分支网络包括预设数值个顺序连接的回声子网络，语音分支网络包括预设数值个顺序连接的语音子网络，噪声分支网络包括预设数值个顺序连接的噪声子网络，第一交互网络包括预设数值个第一交互子网络，第二交互网络包括预设数值个第二交互子网络；其中，第i个第一交互子网络位于第i个回声子网络和第二i个语音子网络之间，第i个第二交互子网络位于第i个噪声子网络和第i个语音子网络之间。
133.因此，通过将各个分支网络对应设置预设数值个子网络，能够在音频优化过程中执行多轮优化，有利于在提升音频优化效率的情况下，进一步提升音频优化质量。
134.在一些公开实施例中，目标音频是利用音频优化模型处理得到的，音频优化模型是利用若干组样本音频数据训练得到的，每组样本音频数据包括样本噪声音频、样本参考音频、样本语音音频，以及由样本噪声音频、样本参考音频和样本语音音频生成的样本采集音频。
135.因此，可以通过模拟生成的方式，获取到尽可能丰富的样本数据，能够克服实时场景中样本采集困难的问题，大大提升模型训练性能。
136.在一些公开实施例中，音频优化模型是经过多轮迭代训练得到的，音频优化装置60还包括初始表示提取模块，用于分别对样本噪声音频、样本参考音频、样本语音音频和样本采集音频进行特征提取，得到初始样本噪声表示、初始样本参考表示、初始样本语音表示和初始样本音频表示；音频优化装置60还包括样本表示提取模块，用于基于初始样本音频表示和初始样本参考表示，分别提取到第一样本回声表示、第一样本语音表示和第一样本噪声表示；音频优化装置60还包括样本表示交互模块，用于将第一样本语音表示分别与第一样本回声表示、第一样本噪声表示进行交互处理，得到第二样本语音表示、第二样本回声表示和第二样本噪声表示；音频优化装置60还包括优化损失计算模块，用于基于初始样本
语音表示和第二样本语音表示之间的差异，得到语音优化子损失，并基于初始样本噪声表示和第二样本噪声表示之间的差异，得到噪声优化子损失，以及基于初始样本参考表示和第二样本回声表示之间的差异，得到回声优化子损失；音频优化装置60还包括优化权重获取模块，用于基于本轮迭代的迭代次数，获取语音优化权重、噪声优化权重和回声优化权重；音频优化装置60还包括网络参数调整模块，用于基于语音优化权重、噪声优化权重和回声优化权重对语音优化子损失、噪声优化子损失和回声优化子损失的加权结果，调整音频优化模型的网络参数。
137.因此，通过基于本轮迭代的迭代次数，获取语音优化权重、噪声优化权重和回声优化权重，并基于语音优化权重、噪声优化权重和回声优化权重对语音优化子损失、噪声优化子损失和回声优化子损失的加权结果，调整音频优化模型的网络参数，能够在各轮迭代过程中，分别侧重于对不同分支网络进行训练，有利于提升音频优化模型的训练效果。
138.在一些公开实施例中，在迭代次数满足预设条件的情况下，回声优化权重高于噪声优化权重；和/或，在迭代次数不满足预设条件的情况下，噪声优化权重高于回声优化权重。
139.因此，能够各轮迭代可以分别侧重于对不同分支网络进行训练，有利于提升训练效果。
140.在一些公开实施例中，音频优化装置60还包括样本音频生成模块，包括冲激响应获取子模块，用于分别获取噪声的第一房间冲激响应、回声的第二房间冲激响应和语音的第三房间冲激响应；样本音频生成模块包括初始音频生成子模块，用于将样本噪声音频、样本参考音频和样本语音音频分别与第一房间冲激响应、第二房间冲激响应和第三房间冲激响应进行卷积，得到初始采集音频；样本音频生成模块包括线性回声消除子模块，用于对初始采集音频进行线性回声消除，得到样本采集音频。
141.因此，可以通过模拟生成的方式，获取到尽可能丰富的样本数据，能够克服实时场景中样本采集困难的问题，大大提升模型训练性能，通过线性回声消除得到样本采集音频，也能够大大提升样本音频数据的质量，有利于提升模型训练性能。
142.请参阅图7，图7是本技术电子设备70一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72，存储器71中存储有程序指令，处理器72用于执行程序指令以实现上述任一音频优化方法实施例中的步骤。具体地，电子设备70可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。
143.具体而言，处理器72用于控制其自身以及存储器71以实现上述任一音频优化方法实施例中的步骤。处理器72还可以称为cpu(central processing unit，中央处理单元)。处理器72可能是一种集成电路芯片，具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器72可以由集成电路芯片共同实现。
144.上述方案，由于第一语音表示和第一回声表示进行交互处理，有利于抑制回声并增强语音，而第一语音表示和第一噪声表示进行交互处理，有利于抑制噪声并增强语音，故
在音频优化过程中，能够考虑到不同信号的统计特性，而采用并行方式交互处理第一语音表示和第一回声表示，以及第一语音表示和第一噪声表示，有利于提升提高音频优化效果。
145.请参阅图8，图8是本技术计算机可读存储介质80一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令81，程序指令81用于实现上述任一音频优化方法实施例中的步骤。
146.上述方案，由于第一语音表示和第一回声表示进行交互处理，有利于抑制回声并增强语音，而第一语音表示和第一噪声表示进行交互处理，有利于抑制噪声并增强语音，故在音频优化过程中，能够考虑到不同信号的统计特性，而采用并行方式交互处理第一语音表示和第一回声表示，以及第一语音表示和第一噪声表示，有利于提升提高音频优化效果。
147.在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。
148.上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。
149.在本技术所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。
150.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
151.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
152.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：电话随访语音识别方法、装置及系统与流程

音频优化方法及相关装置、电子设备、存储介质与流程

相关文献

最热文献