一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频处理方法、装置及电子设备与流程

2021-08-24 16:08:00 来源:中国专利 TAG:
音频处理方法、装置及电子设备与流程
本申请属于信号处理领域,具体涉及一种音频处理方法、装置及电子设备。
背景技术
:随着电子技术的进步,电子设备性能的不断提升,高清电视、耳机、音箱和手机等已经可以支持高清音频的播放,人们对具有高保真和高表现力的高清音频的需求也更加迫切。一般的,音频信号通常包括语音信号和非语音信号(如,音乐信号)。在相关技术中,电子设备可以基于语音信号生成模型,将窄带语音信号扩展为宽带语音信号,以减少语音信号的声音信息的损失,提升语音信号的保真度。然而,由于非语音信号的频谱特征与语音信号的频谱特征不同,而电子设备中的语音信号生成模型是基于语音信号的频谱特征生成的,仅能处理频谱特征与语音信号相同的音频信号。因此,电子设备中的语音信号生成模型并无法适用于非语音信号(如,音乐信号,自然界产生的声音信号)。如此,使得电子设备无法处理该非语音信号,进而导致非语音信号的播放效果较差。技术实现要素:本申请实施例的目的是提供一种音频处理方法,能够解决宽带/全带非语音信号的播放效果较差的问题。为了解决上述技术问题,本申请是这样实现的:第一方面,本申请实施例提供了一种音频处理方法,该方法包括:对第一音频信号进行分辨率提升处理,得到第二音频信号;对上述第二音频信号进行低通滤波处理,得到处理后的第二音频信号;对上述处理后的第二音频信号进行信号处理,得到y个带宽相同的第一子带信号;根据上述y个第一子带信号中的低频子带信号,生成m个高频子带信号;基于上述第一音频信号的高频特征信息,对上述m个高频子带信号进行频谱调整,得到m个目标高频子带信号;将上述m个目标高频子带信号进行合成,得到目标音频信号;其中,y、m为正整数。第二方面,本申请实施例提供了一种音频处理装置,所述装置包括:处理模块,生成模块和合成模块,其中:上述处理模块,用于对第一音频信号进行分辨率提升处理,得到第二音频信号;上述处理模块,还用于对上述第二音频信号进行低通滤波处理,得到处理后的第二音频信号;上述处理模块,还用于对上述处理后的第二音频信号进行信号处理,得到y个带宽相同的第一子带信号;上述生成模块,用于根据处理模块得到的y个第一子带信号中的低频子带信号,生成m个高频子带信号;上述处理模块,还用于基于上述第一音频信号的高频特征信息,对上述生成模块生成的m个高频子带信号进行频谱调整,得到m个目标高频子带信号;上述合成模块,用于将上述处理模块得到的m个目标高频子带信号进行合成,得到目标音频信号;其中,y、m为正整数。第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。第六方面,本申请实施例提供了一种计算机程序产品,该程序产品被存储在非易失的存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。在本申请实施例中,电子设备可以对低分辨率的第一音频信号(如,宽带/全带非语音信号)进行分辨率提升处理得到高分辨率的第二音频信号,并对第二音频信号进行低通滤波处理,从而滤除第二音频信号中的高频信号,然后,对处理后的第二音频信号进行信号处理,得到y个带宽相同的第一子带信号,并根据上述y个第一子带信号中的低频子带信号,生成m个高频子带信号,最后,基于低分辨率的第一音频信号的高频频谱信息,对上述m个高频子带信号进行频谱调整,得到m个目标高频子带信号,并将上述m个目标高频子带信号进行合成,得到高频部分的谐波特性得到良好重建的第一音频信号,如此,便可得到具有高保真和高表现力的高清音频信号,从而提升了非语音信号的播放效果。附图说明图1是本申请实施例提供的一种音频处理方法的流程图;图2是本申请实施例提供的音频信号的波形图的示意图之一;图3是本申请实施例提供的音频信号的波形图的示意图之二;图4是本申请实施例提供的频谱复制/翻转示意图;图5是本申请实施例提供的一种神经网络拓扑结构的示意图;图6是本申请实施例提供的低通原型滤波器和pqmf分析滤波器组的幅频响应曲线;图7是本申请实施例提供的一种pqmf子带分析/合成滤波器组原理图;图8是本申请实施例提供的高清音频生成系统框图;图9是本申请实施例提供的一种音频处理装置的结构示意图之一;图10是本申请实施例提供的一种音频处理装置的结构示意图之二;图11是本申请实施例提供的一种电子设备的硬件结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的音频处理方法进行详细地说明。本申请实施例提供了一种音频处理方法,该音频处理方法可以应用于音频处理装置,图示出了本申请实施例提供的音频处理方法的流程图,如图1所示,本申请实施例提供的音频处理方法可以包括如下步骤101至步骤106:步骤101:对第一音频信号进行分辨率提升处理,得到第二音频信号。在本申请实施例中,上述第一音频信号包括以下至少一项:宽带音频(16khz采样),超宽带音频(32khz采样)和全带音频(44.1khz采样、48khz采样)。在本申请实施例中,上述第一音频信号的分辨率小于上述第二音频信号的分辨率。需要说明的是,音频信号的分辨率是由采样率(samplerate)和位深(bitdepth)决定的,对于位深相同的两个音频信号,采样率高的音频信号的分辨率比采样率低的音频信号的分辨率高,因此,可以通过提升音频信号的采样率来提升音频信号的分辨率。即,上述第一音频信号的采样率小于上述第二音频信号的采样率。例如,上述第二音频信号的采样率可以为96khz。在本申请实施例中,由于第一音频信号通常为宽带/超宽带/全带音频,其播放效果较差,因此,需要将第一音频信号调整为高清音频,然而,生成高清音频片源对软硬件环境要求较高。因此,本申请可以在不改变数字音频片源的采样率与编码格式,以及不增加网络传输带宽的情况下,可以将上述第一音频信号的采样率提升,以达到高清音频的采样率,从而可以将宽带/超宽带/全带音频调整为高清音频(96khz采样)。一般的,上采样和下采样都是对数字信号进行重采样,具体的,将重采样的采样率与原来获得该数字信号(比如从模拟信号采样而来)的采样率比较,若重采样的采样率大于原来获得该数字信号的采样率,则为上采样,反之,则为下采样。可以理解的是,上述分辨率提升处理可以认为是:对第一音频信号进行上采样的处理。即,上述步骤101可以包括如下步骤101a:步骤101a:对第一音频信号进行l倍上采样,得到预定采样率的第二音频信号。其中,l大于0。示例性的,假定第一音频信号为采样率为48khz的全带音频信号,在对其进行2倍上采样(即,重采样)的情况下,该全带音频信号的采样率(48khz)转换为高清音频(96khz)的采样率。示例1,以通过48khz采样的全带音频(即,第一音频信号)生成96khz采样的高清音频为例,来说明上述步骤101a的具体实施过程。该全带音频的音频信号的时域波形图如图2中的(a)所示,该全带音频的音频信号的频谱图如图2中的(b)所示。例如,假设该全带音频的采样率为48khz,有效带宽为24khz,该音频处理装置会对该全带音频输入进行2倍上采样,得到96khz采样的信号(即,第二音频信号)。需要说明的是,由于音频信号的上采样处理会提升音频信号的带宽,因此,第二音频信号的带宽大于第一音频信号。步骤102:对第二音频信号进行低通滤波处理,得到处理后的第二音频信号。在本申请实施例中,信号处理装置可以通过低通滤波器,将第二音频信号中的高频分量(即,高频信号)过滤,只保留第二音频信号的低频分量(即,低频信号)。需要说明的是,低通滤波可以简单的认为:设定一个频率点(即,截止频率),当信号频率高于这个频率时不能通过,当频域高于这个截止频率时,则全部赋值为0。示例2,结合上述示例1,来说明上述对第二音频信号的信号处理。音频处理装置在得到上述96khz采样的信号后,可以对该音频信号经过一个截止频率为24khz的低通滤波器进行滤波,以去除上采样后高频部分的镜像频率成分。经过上采样和低通滤波后的音频信号的波形图和频谱图分别如图3中的(a)和图3中的(b)所示。需要说明的是,上述第一音频信号的带宽与上述处理后的第二音频信号的带宽相同。例如,参照图3,处理后的音频信号的采样率为96khz处理后的音频信号的有效带宽仍然保持为24khz。需要说明的是,音频信号的带宽定义为:该音频信号所拥有的频率范围,根据奈奎斯特定律,信号的采样频率(即,采样率)是信号带宽的2倍,即,信号的带宽为信号的采样频率的1/2。假定第一音频信号的采样率为48khz,其带宽为48khz/2,即,24khz。步骤103:对上述处理后的第二音频信号进行信号处理,得到y个带宽相同的第一子带信号。其中,y为正整数。在本申请实施例中,上述y个第一子带信号包括高频子带信号和低频子带信号。可选地,在本申请实施例中,上述对处理后的第二音频信号进行信号处理可以为:对处理后的第二音频信号进行滤波处理和下采样处理。示例性的,上述信号处理包括pqmf子带滤波处理和下采样处理。进一步地,音频处理装置可以先通过pqmf子带滤波器组,将输入的处理后的第二音频信号分成y个等带宽的子带信号,再通过对各个子带信号进行下采样,得到y个第一子带信号。需要说明的是,pqmf子带分析对原始信号进行时频变换,其目的是能够得到反映高低频相关性、具有良好谐波特性且便于分析的多个子带信号。在分析端,通过pqmf分析滤波器组把输入的时域信号分成多个等带宽的子带信号,然后再对各个子带信号进行下采样。在合成端,首先对各个子带信号进行上采样,然后通过pqmf合成滤波器组把上采样后的子带信号转换为时域信号。需要说明的是,上述y个第一子带信号中的高频子带信号和低频子带信号的划分是根据处理后的第二音频信号的高频分量和低频分量的频率范围确定的。即,信号频率在低频分量的频率范围内的第一子带信号为低频子带信号;信号频率在高频分量的频率范围内的第一子带信号为高频子带信号。步骤104:根据y个第一子带信号中的低频子带信号,生成m个高频子带信号。在本申请实施例中,音频处理装置可以根据一个低频子带信号生成一个或者多个高频子带信号,即,y个第一子带信号中的每个低频子带信号分别对应一个或多个高频子带信号,y小于或等于m。在本申请实施例中,可以利用高频生成器,根据y个第一子带信号中的低频子带信号的频谱生成高频子带信号频谱,以生成高频子带信号。示例性的,音频处理装置生成m个高频子带信号的方法可以包括表1所示的4种方法中的任意一种。表1高频子带频谱生成方法参照上表1可知,上述方法1和方法2对应的频谱处理类型为频谱复制,上述方法3和方法4对应的频谱处理类型为频谱翻转,而该频谱复制和频谱翻转的差异可以参照图4所示。步骤105:基于第一音频信号的高频特征信息,对上述m个高频子带信号进行频谱调整,得到m个目标高频子带信号。在本申请实施例中,上述高频特征信息可以为上述m个高频子带信号的信号增益。在本申请实施例中,音频处理装置可以通过包络调节器对上述m个高频子带信号的幅度进行调整,得到m个重建高频子带信号(即,上述m个目标高频子带信号)。步骤106:将m个目标高频子带信号进行合成,得到目标音频信号。其中,m为正整数。在本申请实施例中,音频处理装置可以通过pqmf合成滤波器组,对上述m个目标高频子带信号进行合成,得到目标音频信号。在本申请实施例提供的音频处理方法中,电子设备可以对低分辨率的第一音频信号(如,宽带/全带非语音信号)进行分辨率提升处理得到高分辨率的第二音频信号,并对第二音频信号进行低通滤波处理,从而滤除第二音频信号中的高频信号,然后,对处理后的第二音频信号进行信号处理,得到y个带宽相同的第一子带信号,并根据上述y个第一子带信号中的低频子带信号,生成m个高频子带信号,最后,基于低分辨率的第一音频信号的高频频谱信息,对上述m个高频子带信号进行频谱调整,得到m个目标高频子带信号,并将上述m个目标高频子带信号进行合成,得到高频部分的谐波特性得到良好重建的第一音频信号,如此,便可得到具有高保真和高表现力的高清音频信号,从而提升了非语音信号的播放效果。可选地,在本申请实施例中,由于音频信号的高频子带信号和低频子带信号之间存在相关性,因此,可以根据处理后的第二音频信号中的低频子带信号生成相应的高频子带信号。示例性的,上述步骤104可以包括如下步骤104a:步骤104a:对上述y个子带信号中的所有低频子带信号进行频谱复制,生成m个高频子带信号。示例性的,音频处理装置可以采用上述的表1中频谱复制的方法,来生成m个高频子带信号的频谱。示例性的,音频处理装置可以将低频子带信号的频谱的上半部分复制多次,来生成m个高频子带信号的频谱,以生成m个高频子带信号。如此,音频处理装置可以基于处理后的第二音频信号中的低频分量,得到处理后的第二音频信号中的高频分量,从而初步得到处理后的第二音频信号的频谱。可选地,在本申请实施例中,音频处理装置可以基于音频信号的低频特征和高频谱包络间较强的相关性,抽取原始音频信号的低频特征,以根据低频特征预测音频信号的高频特征。示例性的,上述步骤105之前,本申请实施例提供的音频处理方法还包括如下步骤a1和步骤a2:步骤a1:对第一音频信号进行特征提取,得到上述第一音频信号的低频特征信息。步骤a2:将上述低频特征信息输入预设神经网络模型预测出第一音频信号的高频特征信息。示例性的,上述低频特征信息包括以下至少一项:第一音频信号的归一化自相关系数(xacf),梯度指数xgi,子带谱平坦度(xsfm)。需要说明的是,上述低频特征信息可以视为第一音频信号的特征参数,特征参数的选择需要考虑以下三个原则:(1).低频特征参数与高频谱包络具有较强的相关性;(2).特征分量之间有良好的独立性;(3).特征分量易于计算。基于上述原则,本申请实施例选择通过上述3个特征参数,分别从时域和频域的角度来对音频特性进行描述。在实际应用中,还可以选用其他的具备可行性的特征参数,本申请实施例对此不做任何限定。对于上述三个频特征信息(即,特征参数)的进一步详细说明见下文。示例性的,上述预设神经网络可以为dnn神经网络。需要说明的是,dnn神经网络是一种单向传播的多层前向网络,其能够高效的对复杂数据进行抽象和建模。dnn神经网络拓扑结构如图5所示,其分为三类,输入层、隐藏层和输出层。通常,第一层是输入层,最后一层是输出层,中间层都是隐藏层。各层神经元之间实现全连接,而相同层神经元之间无连接。示例性的,上述dnn神经网络用于建立从第一音频信号的低频特征到第一音频信号的高频谱包络的非线性映射。示例性的,上述dnn神经网络的输入为上述第一音频信号的高频特征信息,包括归一化自相关系数、梯度指数、子带谱平坦度,上述dnn神经网络的输出为第一音频信号的高频子带信号的信号增益(用g表示)。如此,音频处理装置可以基于第一音频信号的低频特征信息,预测出第一音频信号的高频特征信息,从而通过该高频特征信息对上述处理后的第二音频信号的频谱(即,频谱包络)进行调整。可选地,在本申请实施例中,音频处理装置可以对上述处理后的第二音频信号进行分帧,然后基于每个音频信号帧进行音频信号处理,以减少语音信号整体的非稳态、时变的影响。示例性的,上述步骤103可以包括如下步骤103a和步骤103b:步骤103a:对上述处理后的第二音频信号进行分帧,得到x个音频信号帧。步骤103b:依次对每个音频信号帧进行滤波和下采样处理,得到每个音频信号帧对应的n个第一子带信号。其中,上述y个第一子带信号包括:每个音频信号帧对应的n个第一子带信号。示例性的,每个音频信号帧包括第一预定数量的样本点。例如,可以预设每个信号帧包括2048个样本点。示例性的,上述x个音频信号帧中的x是根据第二音频信号的采样率和上述每个音频信号帧包括的样本点的数量确定的。示例性的,音频处理装置可以对得到的x个音频信号帧进行编号,每个音频信号帧可以对应一个序号,例如,假设处理后的第二音频信号包括l个音频信号帧,则可以将上述l个音频信号帧从1-l进行编号。举例说明,以通过48khz采样的全带音频(即,第一音频信号)生成96khz采样的高清音频为例。结合上述示例1和示例2,在对第一音频信号进行上采样和低通滤波,得到处理后的第二音频信号后,处理后的第二音频信号的采样率为96khz,可以按照96khz的采样率,将其分为每帧2048个样本点的46个音频信号帧(即,x个音频信号帧)。示例性的,音频处理装置可以按照x个音频信号帧的时序信息,依次对每个音频信号帧进行上述滤波处理和下采样处理。示例性的,上述n个第一子带信号中的每个第一子带信号存在一个索引,一个索引对应一个第一子带信号。示例性的,上述n个第一子带信号包括p个低频子带信号和q个高频子带信号。其中,p和q为正整数。示例性的,上述每个音频信号帧对应的子带信号的个数(即,n)为预设的,进一步地,上述子带信号的个数是根据为pqmf子带滤波器组设置的参数确定的。例如,将pqmf子带滤波器组的子带个数设定为64,在通过pqmf子带滤波器组对每个音频信号帧进行处理后,则可以得到每个音频信号帧对应的64个子带信号。示例性的,针对上述步骤103b,音频处理装置可以先对每个音频信号帧进行pqmf滤波处理,得到每个音频信号帧对应的n个子带信号,然后,对n个子带信号后进行下采样,得到n个第一子带信号。进一步的,上述下采样处理可以为n倍下采样处理。示例性的,上述n个第一子带信号中的每个第一子带信号包括第二预定数量的样本点。进一步地,上述第二预定数量是根据下采样的采样倍数确定的。示例性的,上述每个第一子带信号中的第二预定数量的样本点,在该第一子带信号所在的频率范围内按时间顺序排列。示例3,以通过48khz采样的全带音频(即,第一音频信号)生成96khz采样的高清音频为例。在对上述处理后的第二音频信号进行分帧后,假设上述每个信号帧包括2048个样本点,经过pqmf分析滤波器组滤波后得到64个子带信号,再对每个子带信号进行64倍下采样,得到64个第一子带信号,每个第一子带信号包括32个样本点。其中,第0-31个子带信号为低频子带信号,第32-63个子带信号为高频子带信号。需要说明的是,上述每个音频信号帧对应的n个第一子带信号,分别属于第二音频信号的n个不同的频率范围(即,频段)。例如,假设上述每个音频信号帧对应64个第一子带信号,则将上述第二音频信号按照信号频率划分为64个频率范围,每个第一子带信号属于上述64个频率范围中的一个频率范围。如此,得到的n个第一子带信号具备能够反映信号的频率特性,具备良好的谐波特性。为了便于描述,将pqmf分析滤波器组输出信号,即上述n个第一子带信号表示为xl[k][n],其中k表示子带序号,其范围为0≤k≤63,n表示每个子带内时序样点的时序序号,其范围为0≤n≤31,l表示当前音频信号帧的序号。需要说明的是,针对x个音频信号帧中的每个音频信号帧,经过pqmf分析滤波器组滤波后,输出的子带信号(即,第一子带信号)形成x[k][n]矩阵,其中k表示变换后的子带序号(第一子带信号的序号),n表示变换后的子带时序样本点(即,第一子带信号的时序样本点)的序号。x[k][n]具有时间和频率双重解析度,既具备频域的频率分布特性,又具备时域的波形特性。为了便于理解,以下对pqmf分析滤波器组与合成滤波器组的表达式进行说明。示例性的,本申请实施例使用的pqmf分析滤波器组与合成滤波器组的数学表达式如下:分析滤波器:合成滤波器:其中,式(1)和式(2)中的n为第一子带信号的个数,p(n)为低通原型滤波器,其归一化截止频率为π/(2n),滤波器长度为m,m=ln,l为任意正整数,k=0,1,…,n-1,表示子带序号,n标识变换后的子带时序样本点的序号。示例性的,上述pqmf子带滤波器组的子带个数可以设定为n=64,低通原型滤波器p(n)的阶数可以设定为m=768,滤波器阻带衰减设计为-90db。图6中的(a)为低通原型滤波器p(n)的幅频响应曲线,图6中的(b)为pqmf分析滤波器组的幅频响应曲线。图7为pqmf子带分析/合成滤波器组原理示意图,图7中的hk(z)为hk(n)的z变换,fk(z)为fk(n)的z变换。需要说明的是,上述分析滤波器组用于将输入的时域信号分成n个子带信号,上述合成滤波器组用于将n个子带信号合成为一个时域信号。进一步可选地,结合上述103b,上述步骤104a可以包括如下步骤104a1:步骤104a1:根据上述每个音频信号帧的n个第一子带信号中的低频子带信号,生成至少一个高频子带信号。示例性的,每个音频信号帧最终生成的高频子带信号的数量相同。示例4,结合上述示例3,音频处理装置在得到每个音频信号帧对应的64个第一子带信号后,音频处理装置在进行复制时,可以选择子带索引为15-30的16个低频子带信号(即,对应表2中的低频源子带序号),并将该低频子带信号的频谱系数复制2次,生成32个高频子带频谱系数(即,对应表2中的高频目标子带序号),其频段复制时的对应关系如表2所示。低频源子带信号高频目标子带信号1532、481633、491734、501835、511936、522037、532138、542239、552340、562441、572542、582643、592744、602845、612946、623047、63表2高频和低频频段复制对应表需要说明的是,表2中的“低频源子带序号”为上述低频子带信号的序号,“高频目标子带序号”为上述高频子带信号的序号。进一步可选地,在本申请实施例中,上述步骤a1,包括如下步骤b1:步骤b1:对上述每个音频信号帧中的n个第一子带信号中的p个低频子带信号进行特征提取,得到每个音频信号帧的低频特征信息。示例性的,音频处理装置可以根据第一音频信号的样本数和自相关函数的阶数,计算第一音频信号的归一化自相关系数和梯度指数。下面对上述低频特征信息的定义详细进行说明:(1)上述归一化自相关系数用于描述信号在时域上的相关性。令x(n)为输入的音频信号,n为每帧信号的样点数,m为自相关函数的阶数(m=1,2,…,m,m为最大自相关阶数),则归一化自相关系数计算如下:(2)上述梯度指数用于区分音频信号的谐波和噪声特性,其定义为音频信号在每个变化方向上的梯度幅度之和,即:其中,变量ψ(n)为信号变化方向的指示函数:其中,sign(x)为符号函数,其定义为:其中,e为当前帧的输入信号的总能量:(3)上述子带谱平坦度用于区分子带内音频信号的音调和噪声特性。子带谱平坦度越大,该子带频谱中表现出越多的音调成分。反之,该子带频谱中表现出越多的噪声成分。其定义为每个低频pqmf子带内所有频谱(mdtc谱系数)的几何平均与代数平均的比值。下面结合上述低频特征信息的定义,以在具体的示例对上述低频特征信息进行进一步说明。示例性的,音频处理装置可以获取上述p个低频子带信号中的每个低频子带信号的频谱系数,来计算每个低频子带信号的子带谱平坦度。示例性的,上述第一音频信号的低频特征信息可以为上述每个音频信号帧的一组64维的特征矢量示例5,以通过48khz采样的全带音频(即,第一音频信号)生成96khz采样的高清音频为例。假设上述每个信号帧对应64个子带信号(第一子带信号),音频处理装置可以获取其中的0-31个子带信号的频谱系数,并计算0-31个子带信号中的每个子带信号的子带谱平坦度。需要说明的是,在进行特征提取时,上述归一化自相关系数的最大自相关阶数可以设定为m=31,本申请实施例中的特征维数的设置如表3所示。表3特征名称和维数进一步可选地,在本申请实施例中,结合上述步骤b1,上述步骤a2,包括如下步骤b2:步骤b2:将上述每个音频信号帧的低频特征信息输入预设神经网络模型,预测出每个音频信号帧的高频特征信息。示例性的,上述每个音频信号帧的高频特征信息可以为上述h个高频子带信号的信号增益。举例说明,假定上述m个高频子带信号中的第k个高频子带信号由上述低频子带信号中的第j个低频子带信号生成,则第k个高频子带的子带增益g[k]定义为:式(9)中enk为第k个高频子带频谱系数总能量,enj为低频第j个pqmf子带mdct谱系数总能量。需要说明的是,音频信号是有时序的“序列化”数据,前后信号是有关联的。为了能充分利用其上下文相关性,dnn神经网络(即,dnn模型)采用拼帧来考虑上下文相关信息对于当前帧的影响。具体来说,假定当前帧信号提取的特征参数矢量为拼帧时其向前后各选择m帧组成一个超帧特征向量作为dnn模型的输入,表示如下:示例性的,为了充分利用音频信号的上下文相关性(即,多个连续的音频信号帧之间的相关性),音频处理装置在得到每个音频信号帧的低频特征信息后,可以采取拼帧的策略,在dnn神经网络中输入多个音频信号帧。例如,拼帧时其向前和向后各选择3帧,包括当前帧特征在内一共7帧特征向量组成一个超帧特征向量作为dnn模型的输入,其维数为64*7=448,即:示例6,以通过48khz采样的全带音频(即,第一音频信号)生成96khz采样的高清音频为例。假设每个音频信号帧对应64个子带信号(第一子带信号),其中子带32-63为高频子带信号,在通过dnn神经网络对每个音频信号帧进行处理后,输出的高频子带信号的信号增益是一个32维的特征矢量,其数学表达式如下:示例性的,上述dnn神经网络的超参数设置如表4所示。表4dnn神经模型的超参数进一步可选地,在本申请实施例中,上述步骤105包括如下步骤105a:步骤105a:根据上述每个音频信号帧的高频特征信息,对上述每个音频信号帧中的h个高频子带信号进行频谱调整,得到h个目标高频子带信号。其中,上述m个目标高频子带信号包括上述每个音频信号帧的h个目标高频子带信号。示例性的,令高频生成器得到的h个高频子带信号中的第k个高频子带信号为其总能量为令包络预测器得到的第k个高频子带增益为g[k],包络调节器得到的第k个重建高频子带信号(即,目标高频子带信号)为x[k][m],则有:其中n为pqmf子带一帧mdct系数的帧长,kl和kh分别为高频pqmf子带的起始索引和结束索引。示例7,以通过48khz采样的全带音频(即,第一音频信号)生成96khz采样的高清音频为例。假设每个音频信号帧对应64个子带信号(第一子带信号),其中子带32-63为高频子带信号,令高频生成器得到的第k个高频子带信号为其总能量为令包络预测器得到的第k个高频子带增益为g[k],包络调节器得到的第k个重建高频子带信号为x[k][m],则有:进一步可选的,在本申请实施例中,在对上述处理后的第二音频信号进行分帧后,相邻两帧边界处的音频信号可能产生较大的幅度差异,从而导致音频信号不连续,进而产生噪声。为了消除这种噪声,可以通过对上述x个音频信号帧进行去噪处理。示例性的,上述步骤103a之后,本申请实施例提供的信号处理方法还包括如下步骤c1:步骤c1:对x个音频信号帧中的相邻两个音频信号帧中的n个第一子带信号进行信号处理,得到处理后的n个第一子带信号。示例性的,上述处理后的第一子带信号包括上述每个音频信号帧中的低频子带信号。示例性的,上述信号处理可以包括mdct变换。进一步地,在进行mdct变换的情况下,可以依次获取上述相邻两个音频信号帧中频段相同的两个第一子带信号,然后,对上述两个第一子带信号进行加窗和mdct变换,得到具备mdct谱系数(即,频谱)的一个第一子带信号。为了便于后续描述,将上述相邻两个音频信号帧中频段相同的两个第一子带信号记为相关的两个子带信号。进一步地,上述每个子带信号包括n个样本点数,在进行mdct变换的情况下,将第一音频信号帧的输入序列(即,x(n))和第一音频信号帧的输入序列的n个样本点组合构成2n个样本点,再对2n个样本点的信号进行加窗,然后对加窗后的信号进行mdct变换得到n个样本点的mdct谱系数。mdct的表达式如下:示例性的,对信号进行加窗时,窗函数选择正弦窗,其定义为:示例8,以通过48khz采样的全带音频(即,第一音频信号)生成96khz采样的高清音频为例。假设每个音频信号帧对应64个子带信号(第一子带信号),其中,每个子带信号包括32个样本点,在对上述相关的两个子带信号进行加窗和mdct变换后,每个子带信号得到32个样本点的mdct谱系数,记为xl[k][m],其中k表示子带序号,其范围为0≤k≤63,m表示mdct谱序号,其范围为0≤m≤31,l表示音频信号帧序号。进一步可选的,在本申请实施例中,结合上述步骤103a,上述步骤106,包括如下步骤106a和步骤106b:步骤106a:对每个音频信号帧中的h个目标高频子带信号进行合成,得到每个音频信号帧对应的第四音频信号。步骤106b:将每个音频信号帧对应的第四音频信号进行合成,得到目标音频信号。示例性的,音频处理装置可以通过上采样和滤波处理,将每个音频信号帧中的h个目标高频子带信号进行合成,得到每个音频信号帧对应的第四音频信号。进一步地,音频处理装置在对上述每个音频信号帧中的h个目标高频子带信号进行合成的情况下,首先对各个子带信号进行n倍上采样,然后通过pqmf合成滤波器组把上采样后的子带信号转换为时域信号。本申请实施例使用的pqmf合成滤波器组的数学表达式已在上文进行说明,此处不再赘述。进一步可选的,在本申请实施例中,在对上述n个第一子带信号进行mdct变换的情况下,音频处理装置可以对频谱调整后的h个高频子带信号进行mdct逆变换(即,imdct)变换,以恢复每个音频信号帧中的子带信号。结合上述步骤103a和步骤c1,上述步骤105a中对上述每个音频信号帧中的h个高频子带信号进行频谱调整之后,本申请实施例提供的音频信号处理方法还包括如下步骤d1:步骤d1:对进行频谱调整后的h个高频子带信号进行imdct变换,得到上述每个高频子带信号对应的子带重建信号。其中,上述h个目标高频子带信号包括上述子带重建信号。示例性的,音频处理装置在对上述处理后的第一子带信号进行idmt变换的情况下,对每个子带的mdct谱系数执行imdct变换和重叠-相加操作,得到当前第l帧的n个子带重建信号x′l[k][n],其中k表示子带序号,其范围为0≤k≤63,n表示每个子带内时序样点的时序序号,其范围为0≤n≤31,l表示音频信号帧序号。imdct的表达式如下:其中,w(n)为窗函数。对imdct变换后的输出信号执行overlap-add操作,得到当前帧l的子带重建信号x′l(n),即:需要说明的是,本申请实施例提供的音频处理方法的整体流程框图如图8所示。需要说明的是,本申请实施例提供的音频处理方法,执行主体可以为音频处理装置,或者该音频处理装置中的用于执行音频处理方法的控制模块。本申请实施例中以音频处理装置执行音频处理方法为例,说明本申请实施例提供的音频处理装置。本申请实施例提供一种音频处理装置,如图9所示,该装置包括:处理模块801,生成模块802和合成模块803,其中:上述处理模块801,用于对第一音频信号进行分辨率提升处理,得到第二音频信号;上述处理模块801,还用于对上述第二音频信号进行低通滤波处理,得到处理后的第二音频信号;上述处理模块801,还用于对上述处理后的第二音频信号进行滤波处理和下采样处理,得到y个带宽相同的第一子带信号;上述生成模块802,用于根据上述处理模块801得到的上述y个第一子带信号中的低频子带信号,生成m个高频子带信号;上述处理模块801,还用于基于上述第一音频信号的高频特征信息,对上述生成模块802生成的m个高频子带信号进行频谱调整,得到m个目标高频子带信号;上述合成模块803,用于将上述处理模块801得到的m个目标高频子带信号进行合成,得到目标音频信号;其中,y、m为正整数。在本申请实施例提供的音频处理装置中,电子设备可以对低分辨率的第一音频信号(如,宽带/全带非语音信号)进行分辨率提升处理得到高分辨率的第二音频信号,并对第二音频信号进行低通滤波处理,从而滤除第二音频信号中的高频信号,然后,对处理后的第二音频信号进行信号处理,得到y个带宽相同的第一子带信号,并根据上述y个第一子带信号中的低频子带信号,生成m个高频子带信号,最后,基于低分辨率的第一音频信号的高频频谱信息,对上述m个高频子带信号进行频谱调整,得到m个目标高频子带信号,并将上述m个目标高频子带信号进行合成,得到高频部分的谐波特性得到良好重建的第一音频信号,如此,便可得到具有高保真和高表现力的高清音频信号,从而提升了非语音信号的播放效果。可选地,在本申请实施例中,上述生成模块802,具体用于对上述y个子带信号中的所有低频子带信号进行频谱复制,生成m个高频子带信号,其中,一个低频子带信号对应至少一个高频子带信号,y小于或等于m。可选地,在本申请实施例中,上述音频处理装置还包括:提取模块804和预测模块805;上述提取模块804,用于对上述第一音频信号进行特征提取,得到上述第一音频信号的低频特征信息;上述预测模块805,用于上述提取模块提取的上述低频特征信息输入预设神经网络模型,预测出上述第一音频信号的高频特征信息。可选地,在本申请实施例中,上述处理模块801,具体用于对上述第一音频信号进行l倍上采样,得到预定采样率的第二音频信号,上述第一音频信号与上述第二音频信号的带宽相同。可选地,在本申请实施例中,上述处理模块801,还用于对上述第二音频信号的低频分量进行分帧,得到x个音频信号帧,每个音频信号帧包括预定数量的样本点;上述处理模块801,具体用于依次对每个音频信号帧进行滤波和下采样处理,得到每个音频信号帧对应的n个第一子带信号;其中,上述y个第一子带信号包括:每个音频信号帧对应的n个第一子带信号。可选地,在本申请实施例中,上述处理模块801,具体用于对第一音频信号帧的n个第一子带信号和第二音频信号帧中的n个第一子带信号进行信号处理,得到处理后的n个第一子带信号;其中,上述第一音频信号帧和上述第二音频信号帧为上述x个音频信号帧中的相邻音频信号帧。本申请实施例中的音频处理装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobilepersonalcomputer,umpc)、上网本或者个人数字助理(personaldigitalassistant,pda)等,非移动电子设备可以为服务器、网络附属存储器(networkattachedstorage,nas)、个人计算机(personalcomputer,pc)、电视机(television,tv)、柜员机或者自助机等,本申请实施例不作具体限定。本申请实施例中的音频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。本申请实施例提供的音频处理装置能够实现图1至图8的方法实施例实现的各个过程,为避免重复,这里不再赘述。可选的,如图10所示,本申请实施例还提供一种电子设备900,包括处理器901,存储器902,存储在存储器902上并可在所述处理器901上运行的程序或指令,该程序或指令被处理器901执行时实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。图11为实现本申请实施例的一种电子设备的硬件结构示意图。该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图11中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。其中,上述处理器110,用于对第一音频信号进行分辨率提升处理,得到第二音频信号;上述处理器110,还用于对上述第二音频信号进行低通滤波处理,得到处理后的第二音频信号,对上述处理后的第二音频信号进行滤波处理和下采样处理,得到y个带宽相同的第一子带信号,根据上述y个第一子带信号中的低频子带信号,生成m个高频子带信号;上述处理器110,还用于基于上述第一音频信号的高频特征信息,对上述生成的m个高频子带信号进行频谱调整,得到m个目标高频子带信号,将上述m个目标高频子带信号进行合成,得到目标音频信号;其中,y、m为正整数。在本申请实施例提供的电子设备中,电子设备可以对低分辨率的第一音频信号(如,宽带/全带非语音信号)进行分辨率提升处理得到高分辨率的第二音频信号,并对第二音频信号进行低通滤波处理,从而滤除第二音频信号中的高频信号,然后,对处理后的第二音频信号进行信号处理,得到y个带宽相同的第一子带信号,并根据上述y个第一子带信号中的低频子带信号,生成m个高频子带信号,最后,基于低分辨率的第一音频信号的高频频谱信息,对上述m个高频子带信号进行频谱调整,得到m个目标高频子带信号,并将上述m个目标高频子带信号进行合成,得到高频部分的谐波特性得到良好重建的第一音频信号,如此,便可得到具有高保真和高表现力的高清音频信号,从而提升了非语音信号的播放效果。可选地,在本申请实施例中,上述处理器110,具体用于对上述y个子带信号中的所有低频子带信号进行频谱复制,生成m个高频子带信号,其中,一个低频子带信号对应至少一个高频子带信号,y小于或等于m。可选地,在本申请实施例中,上述处理器110,还用于对上述第一音频信号进行特征提取,得到上述第一音频信号的低频特征信息,将上述低频特征信息输入预设神经网络模型,预测出上述第一音频信号的高频特征信息。可选地,在本申请实施例中,上述处理器110,具体用于对上述第一音频信号进行l倍上采样,得到预定采样率的第二音频信号,上述第一音频信号与上述第二音频信号的带宽相同。可选地,在本申请实施例中,上述处理器110,还用于对上述第二音频信号的低频分量进行分帧,得到x个音频信号帧,每个音频信号帧包括预定数量的样本点,依次对每个音频信号帧进行滤波和下采样处理,得到每个音频信号帧对应的n个第一子带信号;其中,上述y个第一子带信号包括:每个音频信号帧对应的n个第一子带信号。可选地,在本申请实施例中,上述处理器110,具体用于对第一音频信号帧的n个第一子带信号和第二音频信号帧中的n个第一子带信号进行信号处理,得到处理后的n个第一子带信号;其中,上述第一音频信号帧和上述第二音频信号帧为上述x个音频信号帧中的相邻音频信号帧。应理解的是,本申请实施例中,输入单元104可以包括图形处理器(graphicsprocessingunit,gpu)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器109可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等。本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。本申请实施例提供了一种计算机程序产品,该程序产品被存储在非易失的存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜