音频处理方法、装置、设备和计算机可读存储介质与流程

2022-05-21 04:45:09 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种音频处理方法、装置、设备和计算机可读存储介质。

背景技术：

2.当前终端可以随时随地的进行语音录制，得到音频信息，提高了用户体验。录制环境中会存在各种各样噪音的情况，因此，在得到音频信息之后，还需要对音频信息进行降噪处理，从而得到处理后的音频。
3.现有技术中，在得到音频信息之后，采用统一的降噪处理方式对音频信息进行降噪处理。然而，不同录制场景下的噪声种类是不同的，现有技术中采用相同的降噪处理方式对不同录制场景下的音频信息进行降噪处理，所能达到的降噪效果有限，降低了音频处理质量。

技术实现要素：

4.本技术实施例提供一种音频处理方法、装置、设备和计算机可读存储介质，通过分类并展示出多种音源类型，根据选中的目标音源类型，对待处理音频进行降噪处理，使得降噪处理结果适用于不同用户和不同环境，提高了音频处理效果。
5.本技术实施例的技术方案是这样实现的：
6.第一方面，本技术实施例提供一种音频处理方法，所述方法包括：获取待处理音频；对所述待处理音频对应的音频特征进行分类，得到多种音源类型，并展示所述多种音源类型；针对展示的所述多种音源类型，响应于音源类型选择操作，选中目标音源类型；根据所述目标音源类型，对所述待处理音频进行降噪处理，得到目标音频。
7.第二方面，本技术实施例提供一种音频处理装置，所述装置包括：获取模块，用于获取待处理音频；分类模块，用于对所述待处理音频对应的音频特征进行分类，得到多种音源类型，并展示所述多种音源类型；响应模块，用于针对展示的所述多种音源类型，响应于音源类型选择操作，选中目标音源类型；降噪模块，用于根据所述目标音源类型，对所述待处理音频进行降噪处理，得到目标音频。
8.第三方面，本技术实施例提供一种音频处理设备，所述设备包括存储器，用于存储可执行指令，处理器，用于执行所述存储器中存储的可执行指令时，实现上述音频处理方法。
9.第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有可执行指令，用于被处理器执行时，实现上述音频处理方法。
10.本技术实施例提供了一种音频处理方法、装置、设备和计算机可读存储介质。根据本技术实施例提供的方案，获取待处理音频；对待处理音频对应的音频特征进行分类，得到多种音源类型，并展示多种音源类型；通过分类出多种音源类型，便于用户根据自身实际录制环境选择合适的降噪策略。针对展示的多种音源类型，响应于音源类型选择操作，选中目
标音源类型，通过用户界面交互，使得降噪策略更适合于不同用户和不同环境。根据目标音源类型对待处理音频进行降噪处理，得到目标音频，提高了音频处理效果。
附图说明
11.图1为本技术实施例提供的一种音频处理方法的可选的流程图；
12.图2为本技术实施例提供的另一种音频处理方法的可选的流程图；
13.图3为本技术实施例提供的再一种音频处理方法的可选的流程图；
14.图4为本技术实施例提供的又一种音频处理方法的可选的流程图；
15.图5为本技术实施例提供的又一种音频处理方法的可选的流程图；
16.图6为本技术实施例提供的又一种音频处理方法的可选的流程图；
17.图7为本技术实施例提供的一种音频处理装置的结构示意图；
18.图8为本技术实施例提供的一种音频处理设备的结构示意图。
具体实施方式
19.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。应当理解的是，此处所描述的一些实施例仅仅用以解释本技术的技术方案，并不用于限定本技术的技术范围。
20.为便于理解本方案，在对本技术实施例进行说明之前，对本技术实施例中的应用背景(相关技术)进行说明。
21.为便于理解本方案，在对本技术实施例进行说明之前，对本技术实施例中的相关技术进行说明。
22.相关技术中的录音降噪技术，是将除语音消息之外的都认为是噪声，以语音场景和非语音场景进行划分，采用相同的降噪处理方式对所有不同场合的录制音频做同一类降噪处理。示例性的，通过某些神经网络算法或其他人工智能检测算法区分语音信号与非语音信号，对非语音信号的幅值进行弱化，从而达到降噪效果。
23.上述录音降噪方案可以实现对录音音频进行整体降噪的功能，但是，由于区分维度从是否为语音的角度进行考虑，比较单一，降低了音频处理效果。不同用户在不同场景下对噪声的判断并非一成不变的，是否为噪声需要用户根据实际录制环境进行判断。例如，在用户对话的场景中，风声在录制音频中是噪声，但是，在户外采集风声的场景中，风声正是要采集的音频，此种场景下风声不能再当做噪声被消除。
24.本技术实施例提供的音频处理方法可以应用于终端，终端可以是车载设备、可穿戴设备、个人计算机(personal computer，pc)、智能手机、平板电脑、便携计算机等具有显示功能的设备。
25.本技术实施例提供的音频处理方法可以应用于一个终端，例如，该音频处理方法承载在应用程序(application，app)，app)，安装在终端上，终端获取待处理音频；对待处理音频对应的音频特征进行分类，得到多种音源类型。该终端具有显示功能，显示功能用于展示多种音源类型，并接收针对展示的多种音源类型所进行的音源类型选择操作。终端还用于根据所选中的目标音源类型，对待处理音频进行降噪处理，得到目标音频。
26.本技术实施例提供的音频处理方法也可以应用于两个设备之间，两个设备之间通
trees)、朴素贝叶斯(naive bayes)和支持向量机(support vector machines，svm)。上述二分类算法，输出的是两个音源类型。本技术实施例对于分类模型的具体结构不做限制。
38.s103、针对展示的多种音源类型，响应于音源类型选择操作，选中目标音源类型。
39.在本技术实施例中，以通过用户界面(user interface，ui)向用户展示多种音源类型为例进行说明，由用户根据展示的多种音源类型进行选择操作，选中目标音源类型，目标音源类型包括一个或多个音源类型，对此本技术实施例不做限制。
40.在本技术实施例中，在某些场景下背景噪声中的鸟叫声和水流声等，是用户需要的环境细节，相关技术中的录音降噪技术无法保留用户需要的环境细节，将区分得到的非语音信号均进行消除，降低了音频处理效果。
41.在本技术实施例中，根据音源类型，对不同类型的音源加以区分，使得用户能够根据个人需要进行定向噪声的消除，在选择消除噪声的同时还保留了有用的录制环境背景音和语音，提高了用户体验。
42.s104、根据目标音源类型，对待处理音频进行降噪处理，得到目标音频。
43.在本技术实施例中，以音频处理方法应用于终端为例进行说明，终端接收并响应选中的目标音源类型。所选中的目标音源类型可以是需要消除的音源类型，也可以是需要保留的音源类型。无论是上述哪一种情况，在得到所选中的目标音源类型之后，可以根据目标音源类型确定降噪策略，降噪策略为定向保留噪声或定向滤除噪声，根据降噪策略对待处理音频进行定向的降噪处理。
44.示例性的，叠加反向幅值信号，或者对某种特定噪声频率进行盲源分离等，从而达到定向降噪的效果。其中，盲源分离，也可以理解为盲信号分离(blind signal/source separation，bss)。
45.示例性的，当采用叠加反向幅值信号的降噪方式时，若所选中的目标音源类型是需要消除的音源类型，则根据所选中的目标音源类型适配反向声波频谱的输出功率，将两种相反的波形相互抵消，所选中的目标音源类型与反向声波频谱重叠，从而达到对指定音源类型抵消的定向降噪效果。
46.示例性的，当采用盲源分离的的降噪方式时，若所选中的目标音源类型是需要消除的音源类型，则将所选中的目标音源类型作为特定噪声，采用盲源分离从混合信号中分离或恢复出原始源信号(即，目标音频)，从而达到将特定噪声消除的效果。
47.在本技术实施例中，通过定向选择需要保留或消除目标音源类型，并针对目标音源类型进行降噪处理，使得降噪结果更具有针对性，提高了音频降噪效果，同时保留了除噪声以外的环境背景音，避免错失有用的环境背景音，保留的环境背景音作为录制音频中与外界联系的桥梁，降低了由于环境背景声缺失所导致的音频失真的情况，提高了音频处理质量。
48.根据本技术实施例提供的方案，获取待处理音频；对待处理音频对应的音频特征进行分类，得到多种音源类型，并展示多种音源类型；通过分类出多种音源类型，便于用户根据自身实际录制环境选择合适的降噪策略。针对展示的多种音源类型，响应于音源类型选择操作，选中目标音源类型，通过ui交互，使得降噪策略更适合于不同用户和不同环境。根据目标音源类型对待处理音频进行降噪处理，得到目标音频，提高了音频处理效果。
49.在一些实施例中，待处理音频对应的音频特征可以通过s201-s203获得。如图2所
s305。如图3所示，图3为本技术实施例提供的再一种音频处理方法的可选的流程图。
63.s301、获取预设音源类型的音频样本，预设音源类型包括汽笛声、鸟叫声、水流声、风声、乐曲声和设备声中至少一项。
64.在本技术实施例中，预设音源类型的音频样本可以理解为音源类型已知的音频样本，预设音源类型可以在后续的应用过程中进行补充和添加，例如，音源类型还可以包括雨声、马路噪声、鼻鼾声、婴儿声、哭声和装修噪声等。对此本技术实施例不做限制。
65.s302、基于初始特征提取模型，对各种预设音源类型的音频样本分别进行多维度的特征提取，得到各种预设音源类型的多个维度特征样本。
66.s303、根据各种预设音源类型的多个维度特征样本，确定各种预设音源类型的音频特征样本。
67.在本技术实施例中，s302和s303是在训练过程中，对音频样本进行特征提取的过程，与图2中s201-s203中的特征提取步骤一致，在此不再赘述。
68.s304、计算各种预设音源类型的音频特征样本两两之间的区分度，得到多个特征区分度。
69.s305、若多个特征区分度均大于预设阈值，则得到预设的特征提取模型。
70.在本技术实施例中，在得到各种预设音源类型的音频特征样本之后，还需要判断初始特征提取模型所提取的音频特征样本是否符合要求，也就是音频特征样本两两之间的区分度是否满足大于预设阈值的要求。若达到要求，则说明特征提取模型的参数以及特征所对应的维度可以用于后续特征提取的应用过程中，也可以理解为特征提取模型训练完成。
71.需要说明的是，预设阈值可以由本领域技术人员根据实际情况进行设置，只要能够区分出音频特征即可。示例性的，可以根据训练过程所采用的大量阈值分析中确定，对此，本技术实施例不做限制。
72.在本技术实施例中，通过预设音源类型的音频样本对初始特征提取模型进行训练，直至得到的各种预设音源类型的音频特征样本两两之间的区分度达到要求，得到特征提取模型，该特征提取模型可以用于后续的特征提取，对多维度特征进行提取后融合，得到音频特征，提高了音频特征的准确性。
73.在一些实施例中，在上述图3中s305之后，该音频处理方法还包括s306和s307。
74.s306、若多个特征区分度存在小于或等于预设阈值的特征区分度，则对初始特征提取模型进行参数调整，得到参数调整后的特征提取模型。
75.s307、根据参数调整后的特征提取模型，持续对各种预设音源类型的音频样本分别进行目标维度的特征提取，直至多个特征区分度均大于预设阈值时，得到预设的特征提取模型；其中，目标维度为多维度中的至少一项。
76.在本技术实施例中，若音频特征样本两两之间的区分度不满足要求，则说明当前所提取特征的维度不合适，或者特征提取模型的参数不合适。需要重新选择目标维度，目标维度可以是一个维度，也可以是多个维度，目标维度是多维度中的一项，也可以是新增加的维度，对此本技术实施例不做限制。
77.在本技术实施例中，对初始特征提取模型的参数进行调整，以及对所提取特征的维度进行筛选，持续对初始特征提取模型进行训练，直至达到要求，得到特征提取模型，提
高了特征提取模型的准确性，从而提高了其所提取的不同音源类型的音频特征之间的区分度，便于区分不同音源类型的音频特征，提高噪声分类结果的准确性。
78.下面，将说明本技术实施例在一个实际的应用场景中的示例性应用。在对待处理音频进行降噪处理之前，以噪声分类模型表示分类模型为例，如图4所示，图4为本技术实施例提供的又一种音频处理方法的可选的流程图，包括s401-s405。
79.s401、噪声细化。
80.将录制的环境噪声按照音源类型进行划分，得到多种预设音源类型。多种预设音源类型包括但不限于汽笛声、鸟叫声、水流声、风声、乐曲声和设备声等。
81.s402、最佳特征提取。
82.针对每种预设音源类型，均在时域、频域、空域和幅度中提取不同预设音源类型的特征，得到多个维度特征。
83.需要说明的是，由于还需要对多个维度特征所确定的音频特征进行评估，评估音频特征是否满足区分度强的条件。若满足区分度强的条件，则音频特征可以作为音频特征样本输出；若不满足区分度强的条件，则还需要对维度特征进行重新提取，因此，这里用维度特征表示维度特征样本、音频特征表示音频特征样本。
84.s403、特征量化。
85.对多个维度特征进行归一化后融合，实现对多维度的特征的量化，得到音频特征。
86.s404、特征评估。
87.对各种预设音源类型的音频特征进行评估。
88.s405、若多个预设音源类型的音频特征两两之间的特征区分度强，则输出噪声分类数据库。
89.在本技术实施例中，噪声分类数据库包括多个预设音源类型的音频特征。噪声分类数据库用于对预设的噪声分类模型进行训练。
90.若特征区分度弱，则重新执行s402-s404，进行最佳特征的选取，直至多个预设音源类型的音频特征两两之间的特征区分度强，输出噪声分类数据库。
91.在本技术实施例中，将录制音频进行预设音源类型划分，并进行特征提取，得到音频特征样本，建立噪声分类数据库之后，需要选择合适的噪声分类模型对音频特征样本进行学习，使得噪声分类模型实现对音频特征样本进行分类得到音源类型的功能。噪声分类模型可以是采用多输出的nn模型，也可以是其他机器学习方法，例如，二分类模型svm。
92.在本技术实施例中，将录制的环境噪声进行音源分类的细化，建立完善的噪声分类数据库，为用户提供了一种个性化可选择的降噪方案，以便用户可根据在不同场景、不同条件下选择不同的音源类型进行消除，提高了录制音频的声音音质以及细节处理。
93.在对待处理音频进行降噪处理时，如图5所示，图5为本技术实施例提供的又一种音频处理方法的可选的流程图，包括s501-s506。
94.s501、录音音源。
95.录音音源表示待处理音频
96.s502、特征提取。
97.对录音音源进行特征提取，得到音频特征。
98.s503、噪声分类。
99.对音频特征进行分类，得到噪声分类结果。
100.s504、呈现噪声分类结果。
101.将待处理音频的音频特征输入噪声分类模型，噪声分类模型输出噪声分类结果，噪声分类结果包括多个音源类型。通过噪声分类模型将音频特征转换为多个音源类型，并通过ui界面展示给用户，让用户根据录制环境自主选择需要消除的音源类型。
102.s505、用户选择性消除噪声。
103.s506、噪声消除。
104.根据用户选择性消除噪声对应的目标音源类型，对待处理音频进行噪声消除，得到目标音频。
105.在本技术实施例中，用户在选择定向消除某种音源类型的噪声之后。根据所选中的音源类型从待处理音频中进行定向的降噪处理，例如，叠加反向幅值信号，或者对某中特定噪声频率进行盲源分离等，从而达到特定降噪的目的，提高降噪效果。
106.在本技术实施例中，通过选择消除背景噪声技术方案，可以让用户自己选择想要保留或消除的音源类型，提高了用户体验，提高了音频处理效果。
107.在一些实施例中，本技术实施例提供了一种音频处理方法，包括s601-s605。如图6所示，图6为本技术实施例提供的又一种音频处理方法的可选的流程图。
108.s601、获取待处理音频。
109.s602、对待处理音频对应的音频特征进行分类，得到多种音源类型。
110.需要说明的是，s601和s602与图1中的s101和s102的具体实现一致，在此不再赘述。
111.s603、基于预设的推荐模型对多种音源类型进行降噪预测，生成至少一个降噪方案，并展示至少一个降噪方案；其中，预设的推荐模型用于预测用户降噪偏好。
112.在本技术实施例中，预设的推荐模型也可以理解为机器学习模型，可以是任意适当的、能够用于对用户偏好信息进行预测的神经网络(neural networks，nn)模型。预设的推荐模型是基于历史选中的目标音源类型，预测用户降噪偏好，用户降噪偏好也可以理解为用户的降噪习惯。基于预设的推荐模型可以根据多种音源类型和用户降噪偏好，进行降噪预测，生成降噪方案。降噪方案可以是一个，也可以是多个，降噪方案可以表征消除一个或多个音源类型，也可以表征保留消除一个或多个音源类型，对此本技术实施例不做限制。
113.示例性的，一种场景中，通过向用户推荐降噪方案，可以减少用户的操作步骤，当用户想要消除多个音源类型时，用户不需要对多个音源类型进行选中操作，仅需要选中对应的降噪方案即可，提高了降噪效率及用户体验。另一种场景中，用户对音频处理领域未涉及或涉及较少，在面对多个音源类型时，无法选中最优选的降噪方案。推荐的至少一个降噪方案可以起到提示作用，用户可以在推荐的至少一个降噪方案中，选择以往被选中概率靠前的降噪方案，从而保证音频处理质量。
114.在一些实施例中，上述s603中的预设的推荐模型通过以下方式实现。获取用户历史行为信息，其中，用户历史行为信息包括所选中的历史目标音源类型，和/或，历史降噪方案对应的历史选择方案；根据用户历史行为信息，对初始推荐模型进行训练，得到预设的推荐模型。
115.在本技术实施例中，在向用户展示多个音源类型的场景中，所选中的历史目标音
源类型是由用户在多个音源类型中选中的，反映了用户的降噪习惯。以推荐多个降噪方案为例，在向用户推荐多个降噪方案的场景中，用户可以是在多个降噪方案中选中某一个降噪方案，也可以是放弃多个降噪方案，重新自行选择目标音源类型；历史选择方案表征用户针对多个降噪方案的选择结果，历史选择方案包括目标降噪方案和目标音源类型，历史选择方案反映了用户的降噪习惯。
116.在本技术实施例中，推荐模型的训练可以根据以上两种场景中任意一个场景所对应的用户历史行为信息，也可以是以上两种场景所对应的用户历史行为信息的结合。预设的推荐模型用于根据用户历史行为信息对用户降噪偏好进行降噪方案的预测，输出至少一个降噪方案。
117.需要说明的是，在对推荐模型进行训练时，用户历史行为信息可以是多个不同用户的用户历史行为信息，也可以是某一用户的用户历史行为信息。对于某一用户来说，初始处理音频时，是没有当前用户的用户历史行为信息的，因此，也就无法预测当前用户的降噪偏好信息，此时，可以根据由其他用户的用户历史行为信息训练得到的普适性的推荐模型，进行降噪方案的推荐。随着推荐次数的增多，获取到当前用户的用户历史行为信息，可以根据当前用户的用户历史行为信息进行训练，得到适应于当前用户的推荐模型，从而实现对当前用户进行个性化降噪方案的推荐。
118.s604、响应于至少一个降噪方案的选择操作，确定目标降噪方案。
119.在本技术实施例中，以通过ui向用户展示降噪方案为例进行说明，由用户对展示的降噪方案进行选择。示例性的，若向用户展示多个降噪方案，则用户可以根据录制环境或自身需求，通过一键确认的方式进行选择，选中目标降噪方案，提高了用户体验。
120.在本技术实施例中，目标降噪方案表示被选中的降噪方案，目标降噪方案中包括一个或多个音源类型。
121.s605、根据目标降噪方案，对待处理音频进行降噪处理，得到目标音频。
122.在本技术实施例中，以音频处理方法应用于终端为例进行说明，终端接收并响应选中的目标降噪方案。目标降噪方案可以是一个或多个需要消除的音源类型，也可以是一个或多个需要保留的音源类型。无论是上述哪一种情况，在得到目标降噪方案之后，可以根据目标降噪方案确定降噪策略，根据降噪策略对待处理音频进行定向的降噪处理。降噪策略可以包括叠加反向幅值信号和盲源分离，可参考图1中s104的描述，在此不再赘述。
123.在本技术实施例中，基于预设的推荐模型对多种音源类型进行降噪预测，生成至少一个降噪方案，通过ui交互，推荐至少一个降噪方案，便于用户根据自身实际录制环境，一键选择合适的目标降噪方案，提高了降噪效率。所选中的降噪方案更适合于不同用户和不同环境。然后，根据目标降噪方案，对待处理音频进行降噪处理，得到目标音频，提高了音频处理效果。
124.在一些实施例中，在上述s605之后，该音频处理方法还包括：针对同一种音源类型，根据历史选择方案和目标降噪方案，确定推荐偏差；根据推荐偏差，对预设的推荐模型进行调整，得到调整后的推荐模型，调整后的推荐模型用于下次推荐降噪方案的过程。
125.在本技术实施例中，预设的推荐模型是根据用户历史行为信息进行训练得到的，用于预测用户降噪偏好。针对某一用户，在初始处理音频时，没有当前用户的用户历史行为信息，还未对当前用户的用户降噪偏好进行调整。因此，在向当前用户推荐至少一个降噪方
案时，是按照默认的、具有普适性的用户降噪偏好，向当前用户推荐至少一个降噪方案。也就是说，无法对当前用户进行个性化降噪方案的推荐。
126.在本技术实施例中，随着推荐次数的增多，不断的向当前用户进行多个音源类型或至少一个降噪方案的推荐，将接收到的当前用户选中的目标音源类型，和/或，目标降噪方案，作为当前用户的用户历史行为信息。根据当前用户的用户历史行为信息，对预设的推荐模型进行调整，也可以理解为对当前用户的用户偏好信息进行调整。并且，随着推荐次数的增多，当前用户在不同环境下的用户降噪偏好是不同的，也就是说，随着录制环境的改变，用户在不同录制环境下的降噪习惯是不同的。例如，在用户对话的场景中，用户会选择将风声作为噪声滤除，在户外采集风声的场景中，用户会选择保留风声为背景音。
127.在本技术实施例中，针对某一用户，在得到目标降噪方案之后，还需要根据目标降噪方案以及最终的选择方案，确定推荐偏差，从而根据推荐偏差不断对预设的推荐模型进行迭代更新，使得推荐模型更适应于当前用户，从而进行个性化降噪方案的推荐。
128.示例性的，预设的推荐模型生成的降噪方案并非一成不变的。随着录制环境的改变以及用户实际偏爱的降噪习惯不同，需要对推荐模型进行不断学习和调整。也就是说，推荐模型输出的降噪方案和用户实际选择方案之间会存在偏差，使得推荐模型的输出准确率下降。因此，还需要将偏差信息输入到推荐模型中，自行的更新推荐模型，以适应当前用户的降噪习惯。可以预想的是，对用户在演唱会现场所录制的音频生成的降噪方案，与用户在户外踏青所录制的音频生成的降噪方案是截然不同的。
129.在本技术实施例中，随着音源类型的数量逐渐增多，以及机器学习模型的不断迭代更新，噪声种类的划分会逐渐完善，音频特征之间区分度也会更加精细化。由于不断更新特征提取模型、分类模型和推荐模型，从而完成将用户录制音频转化成输入包含多维度信息的音频，输出适合用户的降噪方案的映射桥梁。本技术实施例中提供的选择性消除噪声的技术方案，可以根据用户的个人喜好以及用户所处于的录制环境，提供合适的降噪方案，提高了降噪效率。
130.基于本技术实施例的音频处理方法，本技术实施例还提供一种音频处理装置，如图7所示，图7为本技术实施例提供的一种音频处理装置的结构示意图，该音频处理装置70包括：获取模块701，用于获取待处理音频；分类模块702，用于对所述待处理音频对应的音频特征进行分类，得到多种音源类型，并展示所述多种音源类型；响应模块703，用于针对展示的所述多种音源类型，响应于音源类型选择操作，选中目标音源类型；降噪模块704，用于根据所述目标音源类型，对所述待处理音频进行降噪处理，得到目标音频。
131.在一些实施例中，该音频处理装置70还包括特征提取模块；
132.特征提取模块，用于对所述待处理音频进行多维度的特征提取，得到多个维度特征，所述多维度包括时域、频域、空域和幅度中的至少一项；分别对各个维度特征进行归一化，得到多个归一化后的维度特征；根据所述多个归一化后的维度特征，融合得到所述音频特征。
133.在一些实施例中，特征提取模块还用于根据预设的特征提取模型，对所述待处理音频进行所述多维度的特征提取，得到所述多个维度特征；所述预设的特征提取模型用于特征提取。
134.在一些实施例中，该音频处理装置70还包括训练模块；
135.获取模块701，还用于获取预设音源类型的音频样本，所述预设音源类型包括汽笛声、鸟叫声、水流声、风声、乐曲声和设备声中至少一项；
136.特征提取模块，还用于基于初始特征提取模型，对各种所述预设音源类型的音频样本分别进行所述多维度的特征提取，得到各种所述预设音源类型的多个维度特征样本；
137.训练模块，用于根据各种所述预设音源类型的多个维度特征样本，确定各种所述预设音源类型的音频特征样本；计算各种所述预设音源类型的音频特征样本两两之间的区分度，得到多个特征区分度；若所述多个特征区分度均大于预设阈值，则得到所述预设的特征提取模型。
138.在一些实施例中，训练模块，还用于若所述多个特征区分度存在小于或等于所述预设阈值的特征区分度，则对所述初始特征提取模型进行参数调整，得到参数调整后的特征提取模型；根据所述参数调整后的特征提取模型，持续对各种所述预设音源类型的音频样本分别进行目标维度的特征提取，直至所述多个特征区分度均大于预设阈值时，得到所述预设的特征提取模型；其中，所述目标维度为所述多维度中的至少一项。
139.在一些实施例中，分类模块702，还用于基于预设的分类模型对所述待处理音频对应的音频特征进行分类，得到所述多种音源类型，其中，所述预设的分类模型是根据多种预设音源类型的音频特征进行训练得到的。
140.在一些实施例中，该音频处理装置70还包括生成模块；
141.生成模块，用于基于预设的推荐模型对所述多种音源类型进行降噪预测，生成至少一个降噪方案，并展示所述至少一个降噪方案；其中，所述预设的推荐模型用于预测用户降噪偏好；
142.响应模块703，还用于响应于所述至少一个降噪方案的选择操作，确定目标降噪方案；
143.降噪模块704，还用于根据所述目标降噪方案，对所述待处理音频进行降噪处理，得到所述目标音频。
144.在一些实施例中，获取模块701，用于获取用户历史行为信息，其中，所述用户历史行为信息包括所选中的历史目标音源类型，和/或，历史降噪方案对应的历史选择方案；
145.训练模块，用于根据所述用户历史行为信息，对初始推荐模型进行训练，得到所述预设的推荐模型。
146.在一些实施例中，训练模块，还用于针对同一种音源类型，根据历史选择方案和所述目标降噪方案，确定推荐偏差；根据所述推荐偏差，对所述预设的推荐模型进行调整，得到调整后的推荐模型，所述调整后的推荐模型用于下次推荐降噪方案的过程。
147.需要说明的是，上述实施例提供的音频处理装置在进行音频处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思，其具体实现过程及有益效果详见方法实施例，这里不再赘述。对于本装置实施例中未披露的技术细节，请参照本技术方法实施例的描述而理解。
148.在本技术实施例中，图8为本技术实施例提出的音频处理设备组成结构示意图，如图8所示，本技术实施例提出的设备80还可以包括处理器801、存储有处理器801可执行指令
的存储器802，在一些实施例中，音频处理设备80还可以包括通信接口803，和用于连接处理器801、存储器802以及通信接口803的总线804。
149.在本技术实施例中，上述处理器801可以为特定用途集成电路(application specific integrated circuit，asic)、数字信号处理器(digital signal processor，dsp)、数字信号处理装置(digital signal processing device，dspd)、可编程逻辑装置(programmable logic device，pld)、现场可编程门阵列(field programmable gate array，fpga)、中央处理器(central processing unit，cpu)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本技术实施例不做具体限定。
150.在本技术实施例中，总线804用于连接通信接口803、处理器801以及存储器802以及这些器件之间的相互通信。
151.在本技术实施例中，上述处理器801，用于执行上述任一实施例所描述的音频处理方法。
152.音频处理设备80中存储器802可以与处理器801连接，存储器802用于存储可执行程序代码和数据，该程序代码包括计算机操作指令，存储器802可能包含高速ram存储器，也可能还包括非易失性存储器，例如，至少两个磁盘存储器。在实际应用中，上述存储器802可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，ram)；或者非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，rom)，快闪存储器(flash memory)，硬盘(hard disk drive，hdd)或固态硬盘(solid-state drive，ssd)；或者上述种类的存储器的组合，并向处理器801提供指令和数据。
153.另外，在本技术实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。
154.集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
155.本技术实施例提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上任一实施例所述的音频处理方法。
156.示例性的，本实施例中的一种音频处理方法对应的程序指令可以被存储在光盘，硬盘，u盘等存储介质上，当存储介质中的与一种音频处理方法对应的程序指令被一电子设备读取或被执行时，可以实现如上述任一实施例所述的音频处理方法。
157.本领域内的技术人员应明白，本技术实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质
(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
158.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
159.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
160.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
161.以上所述，仅为本技术的较佳实施例而已，并非用于限定本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种处理语音的方法及电子设备与流程

音频处理方法、装置、设备和计算机可读存储介质与流程

相关文献

最热文献