一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于频谱搬移的音频对象编解码方法与流程

2021-08-27 13:36:00 来源:中国专利 TAG:对象 音频 搬移 适用于 频谱
一种基于频谱搬移的音频对象编解码方法与流程

本发明属于数字音频信号处理技术领域,具体涉及一种基于频谱搬移的音频对象编解码方法,适用于同时传输的多音频对象信号,并在解码端恢复出音质良好的每个音频对象。



背景技术:

空间音频技术(也称三维音频)因其无与伦比的沉浸式聆听体验而逐渐流行,这是单声道或立体声音频无法比拟的。传统的空间音频编码方案是基于声道进行的,但该方法存在一定的局限性[文献1][文献2]。首先,它难以与非标准的回放环境相兼容。当扬声器的数量和位置不符合标准摆放要求时,音频的空间位置感知就会失真。其次,基于声道的空间音频难以支持交互式音频服务。如果我们调整某个声道中的某个对象的能量,该声道中包含的所有对象信号都会发生改变。

为了克服上述缺陷,音频系统的编码框架由基于声道向基于对象转变。这种基于对象的编码方法可以兼容不同的扬声器布局,并且能够根据用户交互进行调整。其中最具代表性的技术是德国知名研究机构fraunhofer提出的空间音频对象联合编码技术(spatialaudioobjectcoding,saoc)[文献1][文献3]。该技术直接对录制场景中的多个独立音频对象进行联合压缩,传输下混信号与边信息。原始音频场景是由对象组成的,可以通过使用下混信号和边信息进行重构。这样,用户就可以通过不同的设备配置获得最佳的体验,为个性化互动内容[文献4]提供了新的机会。

而在saoc方案中,为了获得更低的编码比特率,同一子带中的所有频点共用了相同的参数。这导致了频域的混叠失真[文献5],单独的某个音频目标信号会存在包含其他对象信号的混合成分。这一问题会影响后续的空间音频交互服务,严重降低个性化调整过程中的听音体验。一些研究试图通过使用残差信号或进一步细分子带来改善解码的音质[文献6][文献7][文献8]。其改进方法在一定程度上改善了听者的听觉体验,但听者仍然可以感知到混叠失真的问题。即,重建的对象仍然存在不需要的谐波分量,并覆盖了原始对象的频谱细节。

文献1:herre,j.,disch,s.:newconceptsinparametriccodingofspatialaudio:fromsactosaoc.in:internationalconferenceonmultimediaandexpo.ieee(2007).文献2:fug,s.,hoelzer,a.,borss,c.,etal.:design,codingandprocessingofmetadataforobject-basedinteractiveaudio.in:audioengineeringsocietyconvention137.audioengineeringsociety(2014).

文献3:breebaart,j.,engdegard,j.,falch,c.,etal.:spatialaudioobjectcoding(saoc)-theupcomingmpegstandardonparametricobjectbasedaudiocoding.in:audioengineeringsocietyconvention124.audioengineeringsociety(2008).文献4:coleman,p.,franck,a.,francombe,j.,etal.:anaudiovisualsystemforobject-basedaudio:fromrecordingtolistening.ieeetransactionsonmultimedia20(8),1919-1931(2018).

文献5:wu,t.,hu,r.,wang,x.,ke,s.:wu,t.,hu,r.,wang,x.,ke,s.:highqualityaudioobjectcodingframeworkbasedonnon-negativematrixfactorization.chinacommunications14(9),32-41(2017).

文献6:wu,t.,hu,r.,wang,x.,ke,s.:audioobjectcodingbasedonoptimalparameterfrequencyresolution.multimediatoolsandapplicationspp.1-16(2019).文献7:lee,b.,kim,k.,hahn,m.:efficientresidualcodingmethodofspatialaudioobjectcodingwithtwo-stepcodingstructureforinteractiveaudioservices.ieicetransactionsoninformationandsystems99(7),1949-1952(2016)

文献8:hu,c.,wang,x.,hu,r.,etal.:audioobjectcodingbasedonn-stepresidualcompensating.multimediatoolsandapplications,10.1007/s11042-020-10339-0,1-17(2021).



技术实现要素:

为解决上述技术问题,本发明提供了一种基于频谱搬移的音频对象编解码方法,这里的频谱搬移是指,混叠区域的频谱能量被调整至非混叠区域,最大限度保证的每个频点仅有一个对象活跃。该方法能够在中低码率下进行高质量的多对象联合编解码,保证所有音频对象都具有良好解码音质。

本发明所采用的技术方案是:一种基于频谱搬移的音频对象编码方法,包括以下步骤:

步骤a1,对音频对象信号分帧加窗,将输入的时域信号转换到稀疏的频域,一定长度的时域信号经过变换后得到每个音频对象的时频矩阵;

步骤a2,根据经过听觉阈值保留下的时频矩阵,计算每个音频对象的子带宽度,该宽度指活跃子带宽度之和,活跃表示该子带出现能量;

步骤a3,计算初始混叠区域sa,判断需要搬移的频域数据,sa也用于确定需要搬移的频域数据可以移至的区域;

步骤a4,按整体-局部策略进行搬移;首先,进行整体搬移,以子带为操作对象进行搬移;然后,当空余子带不足以进行整体搬移时,转入局部搬移阶段,局部搬移以频点为操作对象,搬移时记录被搬移子带或频点的原始位置;

步骤a5,将每个对象搬移后的时频矩阵按saoc框架进行能量比参数提取与下混;

步骤a6,将步骤a5中的下混信号进行编码,获得下混信号码流;并量化能量比参数及搬移记录的标志,获得边信息码流;

步骤a7,步骤a6得到的码流合成为输出码流,传输到解码端。

进一步的,步骤a2中,根据人耳听觉阈值,将人耳不可感知的频域成分置0;根据剩下保留的频域能量计算每个子带频带宽度;

人耳听觉阈值的计算如下式所示:

其中,ts(f)反映了stft域下不同频率的人耳听觉阈值,f为频率值;然后将ts(f)转换为mdct域,将频率值f抽样与mdct域频点对应后,mdct域听力的绝对阈值可以表示为向量:

ath(b)=[ath(1),ath(2),…,ath(b)]#(2)

其中,b表示频点数,b表示第b个频点;ath向量作为阈值判断每个对象时频矩阵中的数据是否需要置0,具体如下式所示:

其中,s′(i,j,b)为经过阈值处理后的时频矩阵,i表示第i个音频对象,j表示第j帧,b表示第b个频点,根据s′计算每个对象的子带宽度。

进一步的,步骤a3中,将每个音频对象时频矩阵中非0元素置1后相加得到矩阵sa,该矩阵中大于1的位置表示该频点所在的子带会存在混叠,同时值为0的位置表示该点不存在混叠可以进行搬移,该矩阵会随着搬移的进行实时更新。

进一步的,步骤a4中,通过计算得到的子带宽度判断是否进行整体搬移,判断的标志参数计算如下:

其中,w(i,j)为第i个音频对象在第j帧的子带宽度,子带宽度是指活跃子带宽度之和,活跃表示该子带出现能量;整体搬移是以子带宽度最小的对象为基底,将其他对象按子带宽度从小到大整体平移至非混叠区域,直至剩余空间不足以进行整体搬移,平移后时频矩阵计算如下:

其中,wt为向上的平移向量,其数值取决于矩阵sa对应帧中非0频点的最大值。

进一步的,步骤a4中,局部搬移根据调度信息sch进行,sch计算如下:

其中,old′是实际每个频点的真实能量比,old是saoc框架中每个子带内所有频点共用的能量比参数,计算见公式8;sch(j,k)是根据old误差所计算的调度参数,其数值越大表示第j帧中第k个子带被搬移的优先级越高,按照该优先级,将混叠区域的频点逐个搬移至非混叠区域,直至没有足够的空间进行局部搬移;

其中,p(i,j,k)代表第i个对象在第j帧的第k个子带的能量,pmax(:,j,k)代表所有对象在第j帧的第k个子带的能量最大值。

进一步的,步骤a6中,能量比参数量化可通过查表法实现,具体的量化方法参照saoc框架进行;

搬移记录的标志中,整体搬移标志表示被搬移子带原始所在的子带序号,子带划分为28个,故整体搬移标志取值范围为1~28,可用5位进行量化;

搬移记录的标志中,局部搬移标志表示被搬移频点原始所在的帧序号和频点序号;为保证搬移空间充足,频点搬移可在前后x帧进行,因此局部搬移标志中需要记录被搬移频点的原始帧号,帧序号取值范围1~3;mdct的变换长度为2048点时,得到的频点为1024点,因此频点序号取值范围1~1024;帧序号和频点序号两部分合计需要13位进行量化。

进一步的,步骤a6中下混信号为解码端进行对象信号重建的基础,其采用aac128k进行编码;步骤a7中合成输出码流是指将最终下混信号码流与边信息码流进行码流合并,并添加标志位用于标识解析,最终下混信号码流指经aac编码后的输出码流,边信息码流指量化后的能量比参数与搬移记录标志。

本发明还提供一种基于频谱搬移的音频对象解码方法,用于对上述技术方案生成的编码进行解码;

具体实现包括以下子步骤:

步骤b1,解析接收到的码流,得到边信息码流与最终下混信号码流;

步骤b2,下混信号码流经过aac解码得到下混信号,并经过时频变换得到下混信号的时频矩阵;

步骤b3,边信息码流经过去量化后得到能量比参数及搬移记录的标志;

步骤b4,按照saoc框架,根据能量比参数从下混信号中分离出每个对象的时频数据;

步骤b5,根据搬移记录的标志,将每个对象的时频数据进行反向搬移,恢复至原本的时频位置;

步骤b6,利用时频反变换,将频域的音频对象信号转换到时域。

与现有音频对象编码技术相比,本发明的优势在于:利用频谱搬移,最大程度上将混叠区域内的多对象频域信息搬移至非混叠区域,保证每个音频对象都具有较好的听音质量;同时,考虑到全部按频点搬移需要记录的搬移信息数据量过大,提出整体-局部策略进行搬移,降低需要记录的搬移信息。因此,本发明可以保证在中低码率下,解码得到高质量的音频对象,以满足音频个性化交互系统的使用需求。

附图说明

图1是本发明实施例的编码原理图;

图2是本发明实施例的子带宽度示例图;

图3是本发明实施例的解码原理图。

具体实施方式

为了便于本领域的技术人员理解和实施本发明,下面结合附图以及具体实施示例对本发明的技术方案作进一步说明,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明:

本发明以现有的联合对象编码方法saoc为基础开展进一步研究,提出了一种基于频谱搬移的音频对象编解码方法。首先,根据听觉阈值保留下的时频矩阵中人耳可以感知的成分,其余频谱位置用于保留其他被搬移的频谱成分;然后,根据子带宽度与混叠区域,确定要搬移的频点与可以搬移的位置;最后,按照先按子带整体搬移,再按频点局部搬移的策略进行频谱搬移,有效降低下混后同一频点包含多个对象能量的可能,提升所有重建对象的重建质量。

参见图1,本发明提出一种基于频谱搬移的音频对象编码方法,本实施示例以输入s1、s2、s3、s4四个对象举例说明,具体实施示例包含以下步骤:

步骤a1:输入音频对象s1、s2、s3、s4(可包含多种不同类型的音频信号,如人声、乐器、环境声等),每个输入信号进行分帧加窗,利用改进离散余弦变换(modifieddiscretecosinetransform,mdct)将其从时域信号转换到稀疏的mdct域,此步可以得到每个音频对象的时频矩阵;

本实施例中,通过分帧、加窗与mdct变换将原本时域的一维声音信号,变为频域的二维频谱图,输出的是以矩阵形式保存的数据。

输入的音频对象信号采样率为44.1khz,位深度16位,wav音频格式。

应注意的是,此处规定的音频参数和对象种类仅为举例说明本发明的实施过程,并不用于限定本发明。

分帧加窗中,按长度2048进行操作,窗函数选择hanning窗,50%时域交叠;改进离散余弦变换mdct的变换长度为2048点;最终输出多个矩阵形式的音频对象信号,其中矩阵行数等于帧数(或列数等于帧数)、矩阵的列数等于频点数(或行数等于频点数)。例如,某时刻输入6144个时域采样点,分帧为3帧信号,经过50%重叠窗和2048点mdct变换后得到大小为1024×7的时频矩阵。

应注意的是,此处规定的帧长,窗函数类型以及变换方式等只是为了举例说明本发明的具体实施步骤,并不用作限定本发明。

步骤a2:根据经过听觉阈值保留下的时频矩阵,计算每个对象的子带宽度。该宽度指指活跃子带宽度之和,活跃表示该子带出现能量;

本实施例中,根据人耳听觉阈值,将人耳不可感知的频域成分置0;根据剩下保留的频域能量计算每个子带频带宽度;

人耳听觉阈值的计算如下式所示:

其中,ts(f)反映了stft域下不同频率的人耳听觉阈值,f为频率值。在实施例中,采用的是改进的离散余弦变换(mdct)域。因此,需要经过四步将ts(f)转换到mdct域(四步分别是:反对数、逆stft、mdct和转换为db)。将频率值f抽样与mdct域频点对应后,mdct域听力的绝对阈值可以表示为向量:

ath(b)=[ath(1),ath(2),…,ath(b)]#(2)

其中,b表示频点数,b表示第b个频点。在本实施例中,按照a1步骤中举例操作后b=1024。ath向量作为阈值判断每个对象时频矩阵中的数据是否需要置0,具体如下式所示:

其中,s(i,j,b)为经过阈值处理后的时频矩阵,i表示第i个音频对象,j表示第j帧,b表示第b个频点。根据s计算每个对象的子带宽度。子带宽度是指活跃子带宽度之和,活跃表示该子带有频点包含大于0的能量。以图3为例,四张图像为a、b、c、d某三帧信号经过听觉阈值处理后的声谱图,图中连续的分割横线表示saoc框架中子带划分的边界,为便于观察截取前27个子带(558个频点)。这里给出图3中前3帧子带宽度作为举例,对象a在1-3帧的子带宽度为314、552、552;对象b在1-3帧的子带宽度为284、156、16;对象c在1-3帧的子带宽度为216、248、248;对象d在1-3帧的子带宽度为412、408、472。

应注意的是,此处显示的对象数量、频点数量以及示意的子带宽度,只是用于举例说明本发明的具体实施步骤,并不用作限定本发明。

步骤a3:计算初始混叠区域sa,判断需要搬移的频域数据。同时用于记录混叠区域的矩阵sa也用于确定需要搬移的频域数据可以移至的区域;

本实施例中,将每个对象时频矩阵中非0元素置1后相加得到矩阵sa。该矩阵中大于1的位置表示该频点所在的子带会存在混叠,同时值为0的位置表示该点不存在混叠可以进行搬移。该矩阵会随着搬移的进行实时更新。

步骤a4:按整体-局部策略进行搬移。首先,进行整体搬移,以子带为操作对象进行搬移。然后,当空余子带不足以进行整体搬移时,转入局部搬移阶段。局部搬移以频点为操作对象。搬移时记录被搬移子带/频点的原始位置;

本实施例中,通过计算得到的子带宽度判断是否进行整体搬移,判断的标志参数计算如下:

其中,w(i,j)为第i个音频对象在第j帧的子带宽度,子带宽度是指活跃子带宽度之和,活跃表示该子带出现能量。例如,如果即可以进行整体搬移。整体搬移是以子带宽度最小的对象为基底(即宽度小的对象不需要进行整体搬移,保持其原有位置不变),将其他对象按子带宽度从小到大整体平移至非混叠区域,直至剩余空间不足以进行整体搬移,平移后时频矩阵计算如下:

其中,wt为向上的平移向量,其数值取决于矩阵sa对应帧中非0频点的最大值。

在整体搬移后,剩余的频谱信息将根据混叠情况进行局部搬移。下混信号时频空间有限,不能保证所有混叠区域的频点均可被搬移。因此,为扩大局部搬移的可操作空间,局部搬移可在前后x帧内进行。x取值越大实时性越差,可进行局部搬移的空间越多,音质越好;反之,x取值越小,可进行局部搬移的空间越小,音质会降低。综合考虑实时性与解码质量,一般默认x=3。

局部搬移根据调度信息sch进行,sch计算如下:

其中,old′是实际每个频点的真实能量比。old是saoc框架中每个子带内所有频点共用的能量比参数,计算见公式8。sch(j,k)是根据old误差所计算的调度参数,其数值越大表示第j帧中第k个子带被搬移的优先级越高。按照该优先级,将混叠区域的频点逐个搬移至非混叠区域,直至没有足够的空间进行局部搬移。

步骤a5:将每个对象搬移后的时频矩阵按saoc框架进行能量比参数提取与下混;

本实施例中,将每个对象搬移后的时频矩阵按照saoc框架进行后续处理,下混指将所有对象的时频数据进行矩阵相加,得到一个和矩阵;其中,对象能量比参数的计算公式如下所示:

其中,p(i,j,k)代表第i个对象在第j帧的第k个子带的能量,pmax(:,j,k)代表所有对象在第j帧的第k个子带的能量最大值。子带的划分方式按照saoc框架进行划分。

步骤a6:将步骤a5中的下混信号进行编码,获得下混信号码流;并量化能量比参数及搬移记录的标志,获得边信息码流(包含量化后的能量比参数与搬移记录标志);

本实施例中,能量比参数量化可通过查表法实现,具体的量化方法参照saoc框架进行。

搬移记录的标志中,整体搬移标志表示被搬移子带原始所在的子带序号。子带划分为28个,故整体搬移标志取值范围为1~28,可用5位进行量化。

搬移记录的标志中,局部搬移标志表示被搬移频点原始所在的帧序号和频点序号。为保证搬移空间充足,频点搬移可在前后x帧进行,因此局部搬移标志中需要记录被搬移频点的原始帧号。帧序号取值范围1~3(当x=3时)。mdct的变换长度为2048点时,得到的频点为1024点,因此频点序号取值范围1~1024。帧序号和频点序号两部分合计需要13位进行量化。

本实施例中,下混信号为解码端进行对象信号重建的基础,其采用aac128k进行编码;边信息采用无损方式编码。

应注意的是,对最终下混信号采用aac128k编码仅为举例说明本发明的具体实施步骤,并不用作限定本发明。

步骤a7:步骤a6得到的码流合成为输出码流,传输到解码端。

合成输出码流指将最终下混信号码流与边信息码流进行码流合并,并添加标志位用于标识解析。最终下混信号码流指经aac编码后的输出码流,边信息码流指量化后的能量比参数与搬移记录标志。参见图3,本发明还提出了一种基于频谱搬移的音频对象解码方法,具体实施示例包含以下步骤:

步骤b1:解析接收到的码流,得到边信息码流与最终下混信号码流;

本实施例中,解析码流指根据合成输出码流的方法进行反推,得到最终下混信号码流与边信息码流。

步骤b2:下混信号码流经过aac解码得到下混信号,并经过时频变换得到下混信号的时频矩阵;

本实施例中,最终下混信号码流是经过aac编码压缩后得到的数据流,在经过aac解码后可得到传输前的最终下混信号。

步骤b3:边信息码流经过去量化后得到能量比参数及搬移记录的标志;

步骤b4:按照saoc框架,根据能量比参数从下混信号中分离出每个对象的时频数据;

步骤b5:根据搬移记录的标志,将每个对象的时频数据进行反向搬移,恢复至原本的时频位置;

步骤b6:利用时频反变换,将频域的音频对象信号转换到时域。

本实施例中,反向搬移后恢复的对象信号仍然是频域信号,需要进行时频反变换将其转换到时域内才可进行后续的空间音频渲染、个性化交互、播放等功能。所以,解码方法中的反变换是将对象频域信号进行去窗,改进离散余弦逆变换操作得到时域联系信号。

与现有音频对象编码方法相比,本发明具有的优势及特点是:

提出了一种包含全局搬移和局部搬移的频谱策略来减小频率混叠失真。在此基础上,提出了一种调度策略,根据时频点的混叠程度来判断哪些子带或频点需要搬移。搬移时分整体搬移和局部搬移两种策略,整体搬移可以大大降低需要记录的搬移信息。因此,本发明可以保证在中低码率下,解码得到高质量的音频对象。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜