一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频处理方法及装置、终端及存储介质与流程

2021-07-13 16:21:00 来源:中国专利 TAG:终端 音频处理 装置 公开 方法
音频处理方法及装置、终端及存储介质与流程

本公开涉及电子技术领域,尤其涉及一种音频处理方法及装置、终端及存储介质。



背景技术:

语音分离的目标是从多个混合的说话人中将每个目标说话人的语音信号给分离出来。传统的语音分离方法主要以基于独立分量分析的盲分离技术为主,近年来基于深度学习的语音分离技术逐渐成为语音分离中的主流趋势,在其训练过程中多以某一语音特征作为网络输入来进行训练,使模型具备区分不同说话人的能力。然而,上述方案均难以获得较好的语音分离效果。



技术实现要素:

本公开提供一种音频处理方法及装置、终端及存储介质。

根据本公开实施例的第一方面,提供一种音频处理方法,包括:

确定目标对象的第一声纹特征;

对混合音频进行预分离处理,获得多路语音信号;

根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。

在一些实施例中,所述根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频,包括:

确定所述多路语音信号中各语音信号的第二声纹特征;

将各所述语音信号的第二声纹特征以及所述第一声纹特征进行拼接,获得第三声纹特征;

将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频。

在一些实施例中,所述将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频,包括:

将所述第三声纹特征输入所述预定的语音分离网络模型的各子模块,得到各子模块的输出结果;

根据所述各子模块的输出结果串联的总输出结果,确定所述混合音频中与所述目标对象匹配的目标音频。

在一些实施例中,所述子模块包括:多层长短期记忆网络lstm和全连接层。

在一些实施例中,所述确定目标对象的第一声纹特征,包括:

获取所述目标对象的音频信号;

根据所述音频信号的频谱,提取所述目标对象的第一声纹特征。

在一些实施例中,所述根据所述音频信号的频谱,提取所述目标对象的第一声纹特征,包括:

将所述音频信号的频谱输入预定的声纹提取网络模型,获取所述目标对象的第一声纹特征。

在一些实施例中,所述声纹提取网络模型包括:

残差网络resnet;

至少一层池化层,与所述resnet连接;

全连接层,与所述池化层连接。

在一些实施例中,所述对混合音频进行预分离处理,获得多路语音信号,包括:

对所述混合音频采用独立向量分析iva方式进行预分离处理,获得所述多路语音信号。

在一些实施例中,所述混合音频是语音通话过程中采集到的;

所述方法还包括:

对所述语音分离后的所述目标音频进行降噪处理,输出增强后的所述目标音频。

根据本公开实施例的第二方面,提供一种音频处理装置,包括:

确定模块,配置为确定目标对象的第一声纹特征;

预分离模块,配置为对混合音频进行预分离处理,获得多路语音信号;

提取模块,配置为根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。

在一些实施例中,所述提取模块,还配置为确定所述多路语音信号中各语音信号的第二声纹特征;将各所述语音信号的第二声纹特征以及所述第一声纹特征进行拼接,获得第三声纹特征;将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频。

在一些实施例中,所述提取模块,还配置为将所述第三声纹特征输入所述预定的语音分离网络模型的各子模块,得到各子模块的输出结果;根据所述各子模块的输出结果串联的总输出结果,确定所述混合音频中与所述目标对象匹配的目标音频。

在一些实施例中,所述子模块包括:多层长短期记忆网络lstm和全连接层。

在一些实施例中,所述确定模块,还配置为获取所述目标对象的音频信号;根据所述音频信号的频谱,提取所述目标对象的第一声纹特征。

在一些实施例中,所述确定模块,还配置为将所述音频信号的频谱输入预定的声纹提取网络模型,获取所述目标对象的第一声纹特征。

在一些实施例中,所述声纹提取网络模型包括:

残差网络resnet;

至少一层池化层,与所述resnet连接;

全连接层,与所述池化层连接。

在一些实施例中,所述预分离模块,还配置为对所述混合音频采用独立向量分析iva方式进行预分离处理,获得所述多路语音信号。

在一些实施例中,所述混合音频是语音通话过程中采集到的;

所述装置还包括:

增强模块,配置为对所述语音分离后的所述目标音频进行降噪处理,输出增强后的所述目标音频。

根据本公开实施例的第三方面,提供一种终端,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行如上述第一方面中所述的音频处理方法。

根据本公开实施例的第四方面,提供一种存储介质,包括:

当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行如上述第一方面中所述的音频处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果:

在本公开的实施例中,对混合音频进行预分离处理,再结合确定出的目标对象的第一声纹特征和预分离的多路语音信号,进一步确定混合音频中目标对象的目标音频,因第一声纹特征来自于目标对象,所以第一声纹特征的引入能提供更多目标对象的信息,因而在预分离结果基础上结合第一声纹特征,能使得对目标音频的提取更加精准。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是本公开一示例性实施例示出的一种音频处理方法流程图。

图2为本公开一示例性实施例中一种声纹特征提取的模块结构图。

图3为根据本公开一示例性实施例中音频处理方法的功能结构图。

图4是根据本公开一示例性实施例示出的一种音频处理装置图。

图5是本公开一示例性实施例示出的一种终端的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是本公开一示例性实施例示出的一种音频处理方法流程图,如图1所示,应用于终端中的音频处理方法包括以下步骤:

s11、确定目标对象的第一声纹特征;

s12、对混合音频进行预分离处理,获得多路语音信号;

s13、根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。

在本公开的实施例中,终端设备包括:移动设备和固定设备;所述移动设备包括:手机、平板电脑或可穿戴式设备等。所述固定设备包括但不限于个人电脑(personalcomputer,pc)、智能音箱、智能电视、智能家电设备等。

终端设备中包括音频采集组件和音频输出组件,以手机为例,手机中的音频采集组件可以是麦克风,音频输出组件可以是扬声器。终端设备中可包括多个音频采集组件,支持多个音频采集通道采集音频信号。

在步骤s11中,终端会确定目标对象的第一声纹特征。其中,声纹特征包括音调、音色、强度、声波波长、频率以及变化节奏等等能够反映不同人说话特点的特征。由于不同人的口腔、声带等发声器官存在差异,并且不同人的说话习惯不同,因此每个人也具有不同的声纹特征。

需要说明的是,目标对象可以是进行声纹注册的用户,也可以是该用户指定的其他对象。目标对象的第一声纹特征可以通过对目标对象进行采样得到,例如,用户根据指示朗读指定的文字内容,实现语音的输入,终端根据用户的输入内容进行语音采样,并根据采样的内容得到第一声纹特征。

第一声纹特征可以预先获取,例如在用户进行终端注册的过程中指示用户进行音频输入,从而获取声纹特征,终端则可以存储该用户的声纹特征,即目标对象的第一声纹特征。当然这里的用户不限于终端的使用者,也可以是经过授权的任何用户。在需要进行语音识别的场景中,终端则可以调用该第一声纹特征作为验证的参数对用户进行识别认证。

此外,第一声纹特征也可以是在语音通话、语音输入等过程中获取。例如,用户通过终端进行语音通话,此时通话场景下用户与终端距离最近因此音量最大,此时终端可以将进行语音通话的用户作为目标用户获取其声纹特征,并实时地基于该声纹特征对当前通话过程中的语音进行识别,从而分离目标音频以及环境噪声中的音频,实现通话过程中的降噪。

在步骤s12中,终端会对混合音频进行预分离处理,以获得多路语音信号。其中,混合音频可以包含有目标对象说话产生的目标音频以及其他人说话发出的音频,或者包括目标音频以及其他环境噪声等。

需要说明的是,在对混合音频进行预分离处理时,因未事先引入目标对象的信息或者预知混合音频的混合方式,因而该预处理方式相当于一种盲源分离的方式。经过预分离后的各路语音信号中,一种可能的情况是:目标对象的目标音频和非目标对象的非目标音频分布于不同路信号中,但因未事先加入目标对象的信息,导致无法区分哪路信号对应目标音频。另一种可能的情况是:各路语音信号中非目标对象和目标对象的音频并未较好的分离开,分离后的各路语音信号中可能均包括了目标对象的目标音频。

在本公开的实施例中,在进行预分离处理时,可基于传统的如独立分量分析(independentcomponentanalysis,ica)方式或基于深度学习模型来获得多路语音信号,对此本公开不做限制。

在步骤s13中,终端结合第一声纹特征和多路语音信号,进一步从混合音频中分离出目标对象的目标音频。

可以理解的是,本公开对混合音频进行预分离处理,再结合第一声纹特征和预分离的多路语音信号,进一步确定混合音频中目标对象的目标音频,因第一声纹特征来自于目标对象,所以第一声纹特征的引入能提供更多目标对象的信息,因而在预分离结果基础上结合第一声纹特征,能使得对目标音频的提取更加精准。

在一些实施例中,所述根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频,包括:

确定所述多路语音信号中各语音信号的第二声纹特征;

将各所述语音信号的第二声纹特征以及所述第一声纹特征进行拼接,获得第三声纹特征;

将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频。

在该实施例中,对于多路语音信号,终端设备提取各路语音信号的第二声纹特征,并将各第二声纹特征以及第一声纹特征进行拼接,得到第三声纹特征。在一些实施例中,可将预分离后的多路语音信号的各第二声纹特征以及目标对象的第一声纹特征直接进行拼接,获得维度为各第二声纹特征和第一声纹特征维度总和的第三声纹特征。

示例性的,若有n路语音信号,那么第二声纹特征就有n路。假设第一声纹特征和第二声纹特征的维度均为1,那么将各语音信号的第二声纹特征以及第一声纹特征进行拼接后,得到的第三声纹特征有n 1维。

在另一些实施例中,也可将各第二声纹特征和第一声纹特征输入一个特征拼接模型,该特征拼接模型对输入的各第二声纹特征和第一声纹特征进行分析处理,提取出各第二声纹特征和第一声纹特征中的主要特征作为第三声纹特征,以减少冗余特征,实现降维。

需要说明的是,对第二声纹特征的提取可采用和第一声纹特征提取相同的方式,也可采用不同的方式,对此本公开实施例不做限制。若第二声纹特征和第一声纹特征的提取方式不同,在特征拼接过程中,还可将第一声纹特征和第二声纹特征进行归一化后得到第三声纹特征,以使第一声纹特征和第二声纹特征的特征量能在同一数值范围内表征声音的特性。

在得到第三声纹特征后,即可将该第三声纹特征输入预定的语音分离网络模型,从而确定混合音频中与目标对象匹配的目标音频。

可以理解的是,在该实施例中,将目标对象的第一声纹特征以及每路预分离的语音信号的第二声纹特征结合,即在预分离结果基础之上加入目标对象的第一声纹特征,以目标对象的第一声纹特征做参考,因而再将第三声纹特征输入预定的语音分离网络模型时,能提升目标音频提取的精准度。

在一些实施例中,所述将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频,包括:

将所述第三声纹特征输入所述预定的语音分离网络模型的各子模块,得到各子模块的输出结果;

根据所述各子模块的输出结果串联的总输出结果,确定所述混合音频中与所述目标对象匹配的目标音频。

在该实施例中,语音分离网络模型可以包括多个子模块,各子模块输出结果串联的总输出结果,即为对混合音频整体的分离结果。

在一些实施例中,所述子模块包括:多层长短期记忆网络lstm和全连接层。

在本公开实施例中,语音分离网络模型的各子模块的网络结构为长短期记忆网络(longshort-termmemory,lstm)连接一层全连接层,训练的损失函数可以为交叉熵。

通过本公开实施例的技术方案,基于深度学习网络,结合目标对象的第一声纹特征和预分离的各路语音信号的第二声纹特征对混合音频进行分离,能够有效提升对目标音频的分离准确率。

当然,本公开在训练语音分离网络模型时,并不限定于lstm网络,还可以是循环/递归神经网络(recurrentneuralnetworks,rnn)等。

在一些实施例中,所述确定目标对象的第一声纹特征,包括:

获取所述目标对象的音频信号;

根据所述音频信号的频谱,提取所述目标对象的第一声纹特征。

在该实施例中,第一声纹特征可以预先获取并存储,在进行语音分离时利用已存储的第一声纹特征进行分离。获取第一声纹特征的过程,是通过采集目标对象的音频信号,利用该音频信号的频谱进行特征提取而实现的。

示例性的,可以通过对音频信号进行短时傅里叶变换(short-timefouriertransform,stft)得到音频信号的频谱。

在一些实施例中,所述根据所述音频信号的频谱,提取所述目标对象的第一声纹特征,包括:

将所述音频信号的频谱输入预定的声纹提取网络模型,获取所述目标对象的第一声纹特征。

在该实施例中,将目标对象的音频信号的频谱输入至声纹提取的神经网络模型,输出得到声纹特征。

在一些实施例中,所述声纹提取网络模型包括:

残差网络resnet;

至少一层池化层,与所述resnet连接;

全连接层,与所述池化层连接。

在该实施例中,声纹提取网络模型可以由残差网络resnet、池化层以及全连接层等构成。其中,池化层可以包括多层,例如两层。进行模型训练时采用的损失函数(loss)可以为交叉熵。

如前所述的,本公开中对各路预分离的语音信号中的第二声纹特征的提取,也可采用和第一声纹提取相同的方式。但需要说明的是,在本公开的实施例中,对第一声纹特征和/或第二声纹特征的提取并不局限于上述方法,也可以利用其它神经网络模型从音频信号的频谱中提取声纹特征,或者利用其它方式从音频信号中基于时域特性来提取声纹特征。

图2为本公开一示例性实施例中一种声纹特征提取的模块结构图,如图2所示,利用声纹提取模块对目标对象的语音信号进行声纹提取,得到目标对象的声纹特征(第一声纹特征)。声纹提取模块可利用深度学习技术训练得到,该模块的输入为目标对象的注册语料stft幅度谱,经过该模块后输出可为128维声纹特征。

在一些实施例中,所述对混合音频进行预分离处理,获得多路语音信号,包括:

对所述混合音频采用独立向量分析iva方式进行预分离处理,获得所述多路语音信号。

在该实施例中,终端可采用传统的独立向量分析(independentvectoranalysis,iva)方式对混合音频进行预分离处理,以获得多路语音信号。

可以理解的是,本公开通过传统的iva方式进行预分离,然后采用基于深度学习方法训练的语音分离网络模型再次进行分离,即将深度学习方法与传统iva相结合的方式,一方面避免了iva技术面临的通道选择的问题,并解决了iva技术所面临的分离效果不理想的问题;另一方面,相对于单一使用深度学习方法进行分离的方式,将两种方式相结合能同时使整体系统的分离性能得到两种方法的收益,因而分离性能更佳。

在一些实施例中,所述混合音频是语音通话过程中采集到的;

所述方法还包括:

对所述语音分离后的所述目标音频进行降噪处理,输出增强后的所述目标音频。

在本公开实施例中,混合音频是语音通话过程中采集到的,对于语音分离后的目标音频,由于其可能仍含有一部分噪声,因而可对目标音频进行降噪处理,以得到质量更好的目标音频。示例性的,可采用维纳滤波技术对目标音频进行降噪。

本公开的上述方案,可在语音通话过程中进行实时语音分离,从混合音频中分离出目标音频,或者进一步的进行降噪或放大等后处理传输至对端,这样,对端接收到的音频信号中噪声的部分在很大程度上已经被滤除,从而提升通话质量。

本方案的具体应用场景可以为手机通话的场景,实现针对特定说话人的语音增强和降噪功能。例如,说话人a在使用前进行注册,完成注册后进行通话时a的声音可以通过并传递给对方。若此时用户b、用户c等其他说话人的声音出现则不会传递,若abc同时说话则只有a的声音通过并传递给对方。

图3为根据本公开一示例性实施例中音频处理方法的功能结构图,如图3所示,音频处理方法通过多个模块实现对目标音频的获取,包括如下几个模块:

iva模块(预分离处理),该模块的输入为mic1、mic2…micn的混合音频,输出为预分离后的n路语音信号。

特征提取模块,该模块的输入为预分离后的n路语音信号,经过网络后输出为n路语音信号的声纹特征。通过该模块,得到多路语音信号中各语音信号的第二声纹特征。

特征拼接模块,该模块输入为预分离后的n路语音信号的声纹特征和目标说话人的声纹特征(第一声纹特征),经过特征拼接,例如将第一声纹特征和各第二声纹特征进行拼接,输出为拼接特征,即第三声纹特征。

目标说话人分离模块(语音分离网络模型),该模块的输入为拼接特征,在预分离的多通道语音信号中分离出目标说话人的语音。具体的,如将第三声纹特征输入预定的语音分离网络模型,从而确定出混合音频中的目标音频。语音分离网络模型的网络结构可以为多层lstm网络串联一层全连接层的神经网络作为一个子模块,将每个子模块的输入特征与声纹特征串联,完整的目标说话人分离模块的网络则是由多个相同的子模块串联拼接构成。

后处理模块,该模块可采用维纳滤波技术,对目标说话人语音进行降噪,进一步增强目标说话人的语音,即获得增强后的目标音频。

通过本公开实施例的技术方案,将传统的iva方式和深度学习相结合,能得到两种方法的收益,因而语音分离性能更佳。

图4是根据本公开一示例性实施例示出的一种音频处理装置图。参照图4,所述装置包括:

确定模块101,配置为确定目标对象的第一声纹特征;

预分离模块102,配置为对混合音频进行预分离处理,获得多路语音信号;

提取模块103,配置为根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。

在一些实施例中,所述提取模块103,还配置为确定所述多路语音信号中各语音信号的第二声纹特征;将各所述语音信号的第二声纹特征以及所述第一声纹特征进行拼接,获得第三声纹特征;将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频。

在一些实施例中,所述提取模块103,还配置为将所述第三声纹特征输入所述预定的语音分离网络模型的各子模块,得到各子模块的输出结果;根据所述各子模块的输出结果串联的总输出结果,确定所述混合音频中与所述目标对象匹配的目标音频。

在一些实施例中,所述子模块包括:多层长短期记忆网络lstm和全连接层。

在一些实施例中,所述确定模块101,还配置为获取所述目标对象的音频信号;根据所述音频信号的频谱,提取所述目标对象的第一声纹特征。

在一些实施例中,所述确定模块101,还配置为将所述音频信号的频谱输入预定的声纹提取网络模型,获取所述目标对象的第一声纹特征。

在一些实施例中,所述声纹提取网络模型包括:

残差网络resnet;

至少一层池化层,与所述resnet连接;

全连接层,与所述池化层连接。

在一些实施例中,所述预分离模块102,还配置为对所述混合音频采用独立向量分析iva方式进行预分离处理,获得所述多路语音信号。

在一些实施例中,所述混合音频是语音通话过程中采集到的;

所述装置还包括:

增强模块104,配置为对所述语音分离后的所述目标音频进行降噪处理,输出增强后的所述目标音频。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图5是本公开一示例性实施例示出的一种终端装置800的框图。例如,装置800可以是手机,电脑等。

参照图5,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。

处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wi-fi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行音频处理方法,所述方法包括:

确定目标对象的第一声纹特征;

对混合音频进行预分离处理,获得多路语音信号;

根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜