一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

高效DRC配置文件传输的制作方法

2021-08-13 19:22:00 来源:中国专利 TAG:申请 高效 专利申请 发明 本文
高效DRC配置文件传输的制作方法

本申请是申请号为201580053702.9、申请日为2015年9月29日、发明名称为“高效drc配置文件传输”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2014年10月1日提交的美国临时专利申请no.62/058,228的优先权,该申请由此通过引用而全文并入。

本文涉及音频信号处理。特别地,本文涉及一种用于以带宽高效的方式传输动态范围控制(drc)配置文件(profile)的方法和对应系统。



背景技术:

媒体消费者设备的日益普及为用于在这些设备上回放的媒体内容的创作者和分发者以及这些设备的设计者和制造者创建了新的机会和挑战。许多消费者设备能够回放范围广泛的媒体内容类型和格式,包括通常与用于hdtv、blu-ray(蓝光)或dvd的高质量、宽带宽和宽动态范围音频内容相关联的那些。媒体处理设备可以用于在它们自己的内部声学换能器上或在外部换能器(比如耳机或高质量家庭影院系统)上回放这种类型的音频内容;然而,所有这些回放系统和环境由于环境中的噪声水平变化或者由于回放系统不失真地再现所需声压水平的能力有限而对音频信号的动态范围提出了明显不同的要求。根据环境限制动态范围是在范围广泛的具有不同渲染能力和收听环境的不同渲染设备上(即,在范围广泛的渲染模式上)提供高质量和高可懂度的方法。

本文解决了如下技术问题:为媒体内容的创作者和分发者提供使得能够在范围广泛的具有不同渲染能力的不同渲染设备上以高质量和高可懂度再现音频信号的带宽高效的手段。



技术实现要素:

根据一方面,描述了一种用于生成编码音频信号的方法。编码音频信号包括帧序列。编码音频信号指示用于对应的多个不同渲染模式的多个不同的动态范围控制(drc)配置文件。所述方法包括将所述多个drc配置文件中的不同drc配置文件子集插入到帧序列的不同帧中,以使帧序列的两个或更多个帧共同包括所述多个drc配置文件。

根据进一步的方面,描述了一种用于对编码音频信号进行解码的方法。编码音频信号包括帧序列。此外,编码音频信号指示用于对应的多个不同渲染模式的多个不同的动态范围控制(drc)配置文件。多个drc配置文件中的不同drc配置文件子集被包括在所述帧序列的不同帧中,使得所述帧序列中的两个或更多个帧共同包括所述多个drc配置文件。该方法包括从多个不同的渲染模式确定第一渲染模式,并且从帧序列的当前帧内所包括的drc配置文件子集确定一个或多个drc配置文件。此外,该方法包括确定所述一个或多个drc配置文件中的至少一个是否适用于第一渲染模式。另外,该方法包括所述一个或多个drc配置文件都不适用于第一渲染模式,则选择默认drc配置文件作为当前drc配置文件;其中,默认drc配置文件的定义数据在用于对编码音频信号进行解码的解码器处是已知的。此外,该方法包括使用当前drc配置文件对当前帧进行解码。

根据进一步的方面,描述了一种包括编码音频信号的位流。编码音频信号包括帧序列。编码音频信号指示用于对应的多个不同渲染模式的多个不同的动态范围控制(drc)配置文件。多个drc配置文件中的不同drc配置文件子集被包括在帧序列的不同帧中,以使帧序列中的两个或更多个帧共同包括所述多个drc配置文件。

根据另一方面,描述了一种用于生成编码音频信号的编码器。编码音频信号包括帧序列。编码音频信号指示用于对应的多个不同渲染模式的多个不同的动态范围控制(drc)配置文件。编码器被配置为将所述多个drc配置文件中的不同drc配置文件子集插入到帧序列的不同帧中,以使帧序列中的两个或更多个帧共同包括所述多个drc配置文件。

根据进一步的方面,描述了一种用于对编码音频信号进行解码的解码器。编码音频信号包括帧序列。编码音频信号指示用于对应的多个不同渲染模式的多个不同的动态范围控制(drc)配置文件。所述多个drc配置文件中的不同drc配置文件子集被包括在帧序列的不同帧中,以使帧序列的两个或更多个帧共同包括所述多个drc配置文件。所述解码器被配置为:从所述多个不同的渲染模式确定第一渲染模式;从帧序列的当前帧内所包括的drc配置文件子集确定一个或多个drc配置文件;确定所述一个或多个drc配置文件中的至少一个是否适用于第一渲染模式;如果所述一个或多个drc配置文件都不适用于第一渲染模式,则选择默认drc配置文件作为当前drc配置文件;其中,默认drc配置文件的定义数据在解码器处是已知的;并且使用当前drc配置文件对当前帧进行解码。

根据进一步的方面,描述了一种软件程序。所述软件程序可以适于在处理器上执行并且适于当在处理器上实施时执行本文中所概述的方法步骤。

根据另一方面,描述了一种存储介质。所述存储介质可以包括软件程序,该软件程序适于在处理器上执行并且适于当在处理器上实施时执行本文中所概述的方法步骤。

根据进一步的方面,描述了一种计算机程序产品。所述计算机程序产品可以包括用于当在计算机上被执行时执行本文中所概述的方法步骤的可执行指令。

应注意,如本专利申请中所概述的包括其优选实施例的方法和系统可以单独使用或者与本文中所公开的其他方法和系统组合使用。此外,本专利申请中所概述的方法和系统的所有方面都可以任意组合。特别地,权利要求的特征可以以任意的方式相互组合。

附图说明

下面以示例性方式参照附图来对本发明进行说明,其中

图1和图2分别例示说明示例音频解码器和示例音频编码器;

图3和图4例示说明示例动态范围压缩曲线;

图5例示说明示例帧序列;以及

图6示出用于选择drc配置文件的示例方法的流程图。

具体实施方式

如上面所指示的,本文件解决了使得音频内容的设计者和/或分发者能够针对不同类型的渲染模式控制音频内容的质量和可懂度的技术问题。示例渲染模式是家庭影院渲染模式,在家庭影院渲染模式中,在安静的环境中使用通常允许非常宽的动态范围的换能器来回放音频内容。另一个示例渲染模式是平板模式,在平板模式中,使用例如电视机的换能器来回放音频内容,这些换能器通常允许与家庭影院相比缩小的动态范围。进一步的示例渲染模式是便携式扬声器模式,在便携式扬声器模式中,使用便携式电子设备(比如智能电话)的扩音器来回放音频内容。该渲染模式的动态范围与以上提及的渲染模式相比通常小,并且环境往往是有噪声的。另一个示例渲染模式是便携式耳机模式,在便携式耳机模式中,使用结合便携式电子设备的耳机来回放音频内容。动态范围是受限的,但是通常高于便携式电子设备的扩音器提供的动态范围。

为了允许不同渲染模式有高质量和高可懂度,用于不同渲染模式的不同drc(动态范围控制)配置文件可以连同音频内容一起被提供。音频内容可以在帧序列中被传输。帧序列可以包括i(即,独立)帧,i帧可以独立于先前的或后续的帧被解码。此外,帧序列可以包括通常表现出关于前一帧和/或后一帧的相关性的其他类型的帧(例如,p帧和/或b帧)。帧序列中的至少一些帧可以包括用于多个不同的渲染模式的多个不同的drc配置文件。具体地说,帧序列的i帧可以包括所述多个drc配置文件。

通过将多个不同的drc配置文件插入到音频帧序列中,使得音频解码器能够为特定渲染模式选择适当的drc配置文件。结果,可以确保被渲染的音频信号具有高质量(尤其是没有由换能器引入的裁剪或失真)和高可懂度。

在下面,描述动态范围控制的各个方面。在没有定制的动态范围控制的情况下,输入音频信息(例如,pcm采样、qmf矩阵中的时间-频率采样等)通常在回放设备处以不适合于回放设备的特定回放环境(即,包括设备的物理和/或机械回放限制)的响度水平被再现,这是因为回放设备的特定回放环境可能不同于在编码设备处已经针对其对编码音频内容进行编码的目标回放环境。

如本文中所描述的技术可以用于支持针对各种回放环境中的任何回放环境被定制的各种音频内容的动态范围控制,同时保持音频内容的感知质量并且保持艺术家使该内容适应不同收听环境的意图。

动态范围控制(drc)是指随时间变化的、与水平相关的音频处理操作,该音频处理操作改变(例如,压缩、削切(cut)、扩展、提升(boost))信号以便将音频内容中的响度水平的输入动态范围转换为不同于输入动态范围的输出动态范围。例如,在动态范围控制场景中,柔和的声音可以被映射(例如,被提升等)到更高的响度水平,响亮的声音可以被映射(例如,被削切等)到更低的响度水平。结果,在响度域中,响度水平的输出范围在这个例子中变为小于响度水平的输入范围。在一些实施例中,然而,动态范围控制可以是可逆的,使得原始范围被恢复。例如,可以执行扩展操作来恢复原始范围,只要输出动态范围中的从原始响度水平映射的映射响度水平达到或低于限幅水平,每个独特的原始响度水平被映射到独特的输出响度水平,等等。

如本文中所描述的drc技术可以用于在某些回放环境或情况下提供更好的收听体验。例如,有噪声的环境中的柔和的声音可能被使该柔和声音不可听的噪声掩蔽。相反,响亮的声音在一些情况下可能是不期望的,例如,打扰邻居(例如,在“深夜”收听模式内)。通常具有小形状因子的扩音器的许多设备不能再现高输出水平的声音,或者不能再现没有可感知的失真的声音。在一些情况下,较低信号电平可能被再现得低于人类听觉阈值。drc技术可以基于通过动态范围压缩曲线查找的drc增益(例如,缩放音频振幅的缩放因子、提升比率、削切比率等)来执行输入响度水平到输出响度水平的映射。

动态范围压缩曲线是指如下功能(例如,查找表、曲线、多段分段线等):将从各个音频数据帧确定的各个输入响度水平(例如,除对话之外的声音的输入响度水平,等等)映射到对应的输出响度水平,结果映射到各个增益或用于动态范围控制的增益,以便将输入响度水平转化为对应的输出响度水平。各个增益中的每一个指示将应用于信号的用于将对应的单个输入响度水平映射到预期的输出响度水平的增益量。应用各个增益之后的输出响度水平表示在特定回放环境中各个音频数据帧中的音频内容的目标响度水平。

除了指定增益和响度水平之间的映射,动态范围压缩曲线还可以包括,或者还可以设有,应用特定增益中的特定释放时间(releasetime)和增高时间(attacktime)。增高是指连续时间采样之间的信号能量(或响度)的增大,而释放是指连续时间采样之间的能量(或响度)的降低。增高时间(例如,10毫秒、20毫秒等)是指当对应信号处于增高模式时使drc增益平滑所用的时间常数。释放时间(例如,80毫秒、100毫秒等)是指当对应信号处于释放模式时使drc增益平滑所用的时间常数。在一些实施例中,附加地、可选地或可替代地,时间常数用于在确定drc增益之前使信号能量(或响度)平滑。

不同的动态范围压缩曲线可以对应于不同的回放环境(即,不同的渲染模式)。例如,用于平板tv的回放环境的动态范围压缩曲线可以不同于用于便携式设备的回放环境的动态范围压缩曲线。回放设备可以具有两种或更多种回放环境。例如,用于具有扬声器的便携式设备的第一回放环境的第一动态范围压缩曲线可以不同于用于具有耳麦的相同便携式设备的第二回放环境的第二动态范围压缩曲线。

图1示出了音频解码器100的示例组件的框图。音频解码器100包括数据提取器104、动态范围控制器106以及音频渲染器108。数据提取器104被配置为接收编码输入信号102。如本文中所描述的编码输入信号102可以是包含被编码(例如,压缩等)的输入音频数据帧(尤其是音频帧序列)并且可能还包含元数据的位流。该位流可以是ac-4位流。数据提取器104被配置为从编码输入信号102提取/解码输入音频数据帧和元数据。每个输入音频数据帧包括多个编码音频数据块,每个编码音频数据块表示多个音频采样。每个帧表示包括一定数量的音频采样的(例如,恒定)时间间隔。帧大小可以随着采样速率和编码数据速率而变化。音频采样是表示一个、两个或更多个(音频)频带或频率范围内的量化音频数据元素(例如,输入pcm采样、qmf矩阵中的输入时间-频率采样等)。输入音频数据帧中的量化音频数据元素可以表示数字(量化)域中的声压波。量化音频数据元素可以涵盖达到或低于最大可能值(例如,限幅水平、最大响度水平等)的有限范围的响度水平。

元数据可以被音频解码器100用来对输入音频数据帧进行处理。元数据可以包括与解码器100将执行的一个或多个操作相关的各种操作参数、一个或多个动态范围压缩曲线(即,一个或多个drc配置文件)、与输入音频数据帧中所表示的对话响度水平相关的规范化参数等。对话响度水平可以是指整个节目(例如,电影、tv节目、无线电广播等)、节目的一部分、节目的对话等中的对话响度、节目响度、平均对话响度等的(例如,心理声学、感知等)水平。

解码器100或一些或全部模块(例如,数据提取器104、动态范围控制器106等)的操作和功能可以响应于从编码输入信号102提取的元数据而被改动。例如,元数据——包括但不限于动态范围压缩曲线、对话响度水平等——可以被解码器100用来生成数字域中的音频数据元素(例如,输出pcm采样、qmf矩阵中的输出时间-频率采样等)。输出数据元素然后可以被用来驱动音频通道或扬声器以在特定回放环境中进行回放期间实现指定响度或参考再现水平。

动态范围控制器106可以被配置为接收输入音频数据帧中的音频数据元素中的一些或全部以及元数据,至少部分基于从编码音频信号102提取的元数据对输入音频数据帧中的音频数据元素执行音频处理操作(例如,动态范围控制操作、增益平滑操作、增益限制操作等),等等。

特定地,动态范围控制器106可以包括选择器110、响度计算器112和/或drc增益单元114。选择器110可以被配置为确定与解码器100处的特定回放环境相关的扬声器配置(例如,家庭影院模式、平板模式、具有扬声器模式的便携式设备、具有耳机模式的便携式设备、5.1扬声器配置模式、7.1扬声器配置模式等)。扬声器配置也可以被称为渲染模式。此外,选择器110可以被配置为从从编码输入信号102的元数据提取的动态范围压缩曲线(即,从多个drc配置文件)中选择特定的动态范围压缩曲线(即,drc配置文件)。

响度计算器112可以被配置为计算输入音频数据帧中的音频数据元素所表示的一种或多种类型的响度水平。响度水平类型的例子包括但不限于以下中的任何一个:各个时间间隔上的各个通道中的各个频带上的各个响度水平、各个通道中的宽(或广)频率范围上的宽带(或广带)响度水平、从音频数据块或帧确定的或在音频数据块或帧上平滑的响度水平、从多于一个的音频数据块或帧确定的或在多于一个的音频数据块或帧上平滑的响度水平、在一个或多个时间间隔上平滑的响度水平等。这些响度水平中的零个、一个或多个可以出于解码器100的动态范围控制的目的而被改变。

为了确定响度水平,响度计算器112可以确定输入音频数据帧中的音频数据元素所表示的一个或多个时间相关的物理声波性质,比如特定音频频率处的空间和/或局部压力水平等。响度计算器112可以使用该一个或多个时变的物理波性质基于对人类响度感知进行建模的一个或多个心理声学函数来推导一种或多种类型的响度水平。心理声学函数可以是基于人类听觉系统的模型构造的非线性函数,该函数将特定音频频率处的特定空间压力水平转换为/映射到用于这些特定音频频率的特定响度。

多个(音频)频率或多个频带上的(例如,宽带、广带等)响度水平可以通过在所述多个(音频)频率或多个频带上的特定响度水平的整合而得出。可以通过使用在解码器100中作为音频处理操作的一部分实现的一个或多个平滑滤波器来获得一个或多个时间间隔(例如,长于音频数据块或帧中的音频数据元素所表示的时间间隔等)上的经时间平均的、平滑的、等等的响度水平。itu-rbs.1770中指定了用于确定(宽带)响度水平的另一种示例方法。itu-rbs.1770中指定的方法对时域输入音频信号应用时域滤波,然后计算输入音频信号的每个通道上的rms(均方根)水平,这是在在通道上进行整合并且对所得的响度水平进行门控之前进行的。

可以对每一具有一定(例如,256个等)采样的音频数据块计算对于不同频带的特定响度水平。在将特定响度水平整合为宽带(或广带)响度水平中,可以使用预滤波器来将频率加权(例如,类似于iecb-加权等)应用于特定响度水平。可以执行两个或更多个通道(例如,左前、右前、中心、左环绕、右环绕等)上的宽响度水平的求和以提供所述两个或更多个通道的总体响度水平。

总体响度水平可以是指扬声器配置的单个通道(例如,中心等)中的宽带(广带)响度水平。总体响度水平可以是指多个通道中的宽带(或广带)响度水平。所述多个通道可以是(即,用于渲染模式的)扬声器配置中的所有通道。附加地、可选地或可替代地,所述多个通道可以包括扬声器配置中的通道子集(例如,包括左前、右前和低频效果(lfe)的通道子集;包括左环绕和右环绕的通道子集;以及包括中心的通道子集等)。

(例如,宽带、广带、总体、特定等)响度水平可以用作从所选择的动态范围压缩曲线查找对应的(例如,静态的、预先平滑的、预先限制的、等等的)drc增益的输入。可以首先相对于得自从编码音频信号102提取的元数据的对话响度水平和/或相对于渲染模式的输出参考水平对将用作查找drc增益的输入的响度水平进行调整或规范化。在编码音频信号102中的音频内容的一部分中所表示的特定空间压力水平被转换为或映射到编码音频信号102中的音频内容的该部分的特定响度水平之前,可以在非响度域(例如,spl域等)中对编码音频信号102中的音频内容的该部分执行与调整对话响度水平/输出参考水平相关的调整和规范化。

drc增益单元114可以被配置有drc算法,该drc算法生成增益(例如,用于动态范围控制、用于增益限制、用于增益平滑等的增益),并且将增益应用于输入音频数据帧中的音频数据元素所表示的一种或多种类型的响度水平以实现特定回放环境的目标响度水平。如本文中所描述的增益(例如,drc增益等)的应用可以在响度域中发生。举例来说,增益可以基于响度计算(其可以是在sone,或仅例如未转换的针对对话响度水平被补偿的spl值中)来生成,被平滑并且直接应用于输入信号。如本文中所描述的技术可以将增益应用于响度域中的信号,然后将该信号从响度域转换回(线性)spl域,并且通过在响度域中在增益被应用于信号之前和之后对信号进行评估来计算将应用于信号的对应增益。比率(或当用对数db表示来表示时的差值)然后确定用于信号的对应增益。

drc算法可以用多个drc参数进行操作。drc参数包括对话响度水平,该对话响度水平已经被(如在图2的上下文下描述的)上游编码器150计算并且被嵌入到编码音频信号102中,并且可以由解码器100从编码音频信号102中的元数据获得。来自上游编码器150的对话响度水平指示平均对话响度水平(例如,每个节目的、相对于全标度的1khz正弦波的能量的、相对于参考矩形波的能量的、等等)。从编码音频信号102提取的对话响度水平可以用于减小节目间的响度水平差。在解码器100处在相同的特定回放环境中,参考对话响度水平可以在不同节目之间被设置为相同的值。基于来自元数据的对话响度水平,drc增益单元114可以将对话响度相关的增益应用于节目中的每个音频数据块,以使在节目的多个音频数据块上被平均的输出对话响度水平(或输出参考水平)被提高/降低到节目的参考对话响度水平(例如,预先配置的、系统默认的、用户可配置的、配置文件相关的、等等的)。对话响度水平还可以用于对drc算法进行校准,尤其是,drc算法的零带可以被调整为对话响度水平。可替代地,期望的输出参考水平可以用于在drc算法被应用于已经应用增益的信号时对drc算法进行校准,以使对话响度水平变为与期望的输出参考水平相等。如果语音门控已经被用来确定对话规范(dialnorm)参数,则对话响度水平可以对应于所谓的对话规范参数。在一些实施例中,对话响度水平对应于不是通过使用语音门控、而是通过基于响度水平阈值的门控确定的对话规范参数。

drc增益可以用于通过根据所选的动态范围压缩曲线提升或削切柔和的和/或响亮的声音中的信号部分来解决节目内的响度水平差。这些drc增益中的一个或多个可以通过drc算法基于所选的动态范围压缩曲线以及从一个或多个对应音频数据块、音频数据帧等的确定的(例如,宽带、广带、总体、特定的、等等)响度水平来计算/确定。

用于通过查找所选的动态范围压缩曲线来确定(例如,静态的、预先平滑的、预先增益限制的、等等)drc增益的响度水平可以按短间隔(例如,大约5.3毫秒等)被计算。人类听觉系统的整合时间(例如,大约200毫秒等)可以长得多。可以用考虑了人类听觉系统的长整合时间的时间常数来使从所选的动态范围压缩曲线获得的drc增益平滑。为了实现响度水平的快速变化(增大或降低)速率,可以使用短时间常数来使响度水平在与短时间常数相对应的短时间间隔内变化。相反,为了实现响度水平的缓慢变化(增大或降低)速率,可以使用长时间常数来使响度水平在与长时间常数相对应的长时间间隔内改变。

人类听觉系统可以以不同的整合时间对增大的响度水平和降低的响度水平做出反应。可以根据响度水平是将增大、还是将降低来使用不同的时间常数以使从所选的动态范围压缩曲线查找的静态drc增益平滑。例如,与人类视觉系统的特性相对应地,增高(响度水平增大)可以用相对短的时间常数(例如,增高时间等)来平滑,而释放(响度水平降低)可以用相对长的时间常数(例如,释放时间等)来平滑。

用于音频内容的一部分(例如,一个或多个音频数据块、音频数据帧等)的drc增益可以使用从音频内容的该部分确定的响度水平被计算得到。可以首先相对于(例如,关于、等等)从编码音频信号102提取的元数据中的(例如,音频内容是其一部分的节目中的、等等的)对话响度水平对将用于在所选的动态范围压缩曲线中查找的响度水平进行调整。

可以针对解码器100处的特定回放环境指定或建立参考对话响度水平/输出参考水平(例如,在“线”模式中为-31dbfs,在“rf”模式中为-20dbfs,等等)。附加地、可替代地或可选地,在一些实施例中,用户可以被给予对于在解码器100处设置或改变参考对话响度水平的控制。

drc增益单元114可以被配置为确定如下这样的对话响度相关增益,该对话响度相关增益用于音频内容,以使得从输入对话响度水平变为作为输出对话响度水平的参考对话响度水平。

音频渲染器108可以被配置为在将基于drc、增益限制、增益平滑等确定的增益应用于从编码音频信号102提取的输入音频数据之后针对特定扬声器配置生成(例如,多通道的、等等)通道特定音频数据116。通道特定音频数据116可以用于驱动扬声器配置中所表示的扬声器、耳机等。

附加地和/或可选地,解码器100可以被配置为执行与输入音频信号相关的处理、渲染、下混、重采样等有关的一个或多个其他的操作。

如本文中所描述的技术可以用于与各种不同的环绕声配置(例如,2.0、3.0、4.0、4.1、4.1、5.1、6.1、7.1、7.1、10.2、10-60扬声器配置、60 扬声器配置、对象信号或对象信号的组合等)以及各种不同的渲染环境配置(例如,影院、公园、歌剧院、音乐厅、酒吧、家里、礼堂等)相对应的各种扬声器配置。

图2例示说明了示例编码器150。编码器150可以包括音频内容接口152、对话响度分析器154、drc参考资料库156以及音频信号编码器158。编码器150可以是广播系统、基于互联网的内容服务器、空中网络运营商系统、电影制作系统等的一部分。

音频内容接口152可以被配置为接收音频内容160和音频内容控制输入162,用于至少基于音频内容160和音频内容控制输入162中的一些或全部来生成编码音频信号102。例如,音频内容接口152可以用于从内容创作者、内容提供者等接收音频内容160和音频内容控制输入162。

音频内容160可以构成仅包括音频、包括视听等的总媒体数据的一些或全部。音频内容160可以包括节目的部分、节目、若干节目、一个或多个商业广告等的一个或多个。

对话响度分析器154可以被配置为确定/建立音频内容152的一个或多个部分(例如,一个或多个节目、一个或多个商业广告等)的一个或多个对话响度水平。音频内容可以用一组或多组音轨表示。音频内容的对话音频内容可以在单独的音轨中,和/或音频内容的对话音频内容的至少一部分可以在包括非对话音频内容的音轨中。

音频内容控制输入162可以包括以下中的一些或全部:用户控制输入、编码器150外部的系统/设备提供的控制输入、来自内容创作者的控制输入、来自内容提供者的控制输入等。例如,用户(比如混音工程师等)可以提供/指定一个或多个动态范围压缩曲线标识符;这些标识符可以用于从数据资料库(比如drc参考资料库(156)等)检索最适合音频内容160的一个或多个动态范围压缩曲线。

drc参考资料库156可以被配置为存储drc参考参数集等。drc参考参数集可以包括一个或多个动态范围压缩曲线的定义数据等。编码器150可以(例如,并发地)将多于一个的动态范围压缩曲线编码到编码音频信号102中。动态范围压缩曲线中的零个、一个或多个可以是基于标准的、专有的、定制的、解码器可修改的、等等。举例来说,图3和图4的动态范围压缩曲线可以(例如,并发地)被编码到编码音频信号102中。

音频信号编码器158可以被配置为:从音频内容接口152接收音频内容,从对话响度分析器154接收对话响度水平,从drc参考资料库156检索一个或多个drc参考参数集(即,drc配置文件),将音频内容格式化为音频数据块/帧,将对话响度水平、drc参考参数集等格式化为元数据(例如,元数据容器、元数据字段、元数据结构等),并且将音频数据块/帧和元数据编码为编码音频信号102。

如本文中所描述的将被编码为编码音频信号102的音频内容可以以各种方式(比如无线地、经由有线连接、通过文件、经由互联网下载等)中的一种或多种、以各种源音频格式中的一种或多种接收。

如本文中所描述的编码音频信号102可以是(例如,用于音频广播、音频节目、视听节目、视听广播等的)整个媒体数据位流的一部分。媒体数据位流可以从服务器、计算机、媒体存储设备、媒体数据库、媒体文件等访问。媒体数据位流可以通过一个或多个无线或有线网络链路被广播、发送或接收。媒体数据位流还可以通过中间介质(比如网络连接、usb连接、广域网、局域网、无线连接、光学连接、总线、纵横连接、串行连接等中的一个或多个)被传送。

(例如,图1、图2)所描述的组件中的任何一个可以实现为一个或多个过程和/或一个或多个ic电路(例如,asic、fpga等),可以用硬件、软件或硬件和软件的组合实现。

图3和图4例示说明了可以被解码器100中的drc增益单元104用来从输入响度水平推导drc增益的示例动态范围压缩曲线。如所例示说明的,动态范围压缩曲线可以以节目中的参考响度水平(例如,输出参考水平)为中心,以便提供适合于特定回放环境的总增益。下表中示出了动态范围压缩曲线的示例定义数据(例如,在编码音频信号102的元数据中的定义数据)(例如,包括但不限于以下中的任何一个:提升比率、削切比率、增高时间、释放时间等)。对于不同的回放环境(例如,解码器100处),不同的配置文件(例如,标准影片(filmstandard)、轻松影片(filmlight)、标准音乐(musicstandard)、轻音乐(filmlight)、语音等)可以是不同的:

表1

依照以dbspl或dbfs计的响度水平以及与dbspl相关的以db计的增益描述的一个或多个压缩曲线可以被接收,而drc增益计算是用与dbspl响度水平具有非线性关系的不同响度表示(例如,sone)执行的。drc增益计算中所用的压缩曲线然后可以被转换以用不同的响度表示(例如,sone)来描述。

图5例示说明了包括帧序列(被编号为n 1直到n 30,其中n为整数)的示例编码音频信号102。在例示说明的例子中,每第5帧是i帧。在例示说明的例子中,i帧(n 1)包括多个drc配置文件(其被标识为用于家庭影院、平板、便携式hp(耳机)和便携式sp(扬声器)的avr(音频/视频接收器))。每个drc配置文件包括如图3和图4所示的动态范围压缩曲线。

所述多个drc配置文件可以被重复地插入帧序列的i帧中。这使得解码器100可以在编码音频信号102启动时、在调谐到运行音频节目中和/或随后拼接点之后时确定适合于编码音频信号102和当前渲染模式的drc配置文件。另一方面,drc配置文件的全集的重复传输导致位流开销相对较高。鉴于此,提出了在编码音频信号102的i帧内传输变化的drc配置文件子集。

图5例示说明了用于将drc配置文件插入在帧序列内的例子。在例示说明的例子中,只有drc配置文件的全集中的单个drc配置文件被插入到i帧中。插入到i帧中的drc配置文件在i帧之间变化,并且结果,在n个i帧(在例示说明的例子中,n=4)之后,解码器100已经接收到n个drc配置文件的全集。通过这样做,可以降低用于传输drc配置文件的的全集的数据速率,同时确保解码器100在合理的时间量内接收到drc配置文件的全集。

图6a和图6b示出了用于确定用于对编码音频信号102的帧进行解码的drc配置文件的示例方法600的流程图。方法600可以由解码器100(尤其是由选择器110)执行。当开始接收编码音频信号102时,可以对解码器100所用的drc配置文件进行初始化。用于对编码音频信号102的当前帧进行解码的drc配置文件可以被称为当前drc配置文件。因此,当启动时,可以对当前drc配置文件进行初始化。特别地,默认drc配置文件(其在解码器100处是可用的)可以被设置为用于对当前帧进行渲染的当前drc配置文件(方法步骤601)。因此,变量“profile”可以被设置为默认drc配置文件(profile=defaultdrcprofile)。此外,解码器100可以跟踪先前使用的配置文件。先前使用的配置文件可以被设置为未定义的(prev_profile=undefined)。

方法600可以进一步包括从编码音频信号102取得将被解码的新帧(即,当前帧)的步骤602。在步骤603中,验证新帧是否是可以包括drc配置文件的i帧。如果新帧不是i帧,则方法600继续进行步骤604,并且使用当前drc配置文件对新帧进行处理。此外,在方法步骤605中,将先前使用的配置文件设置为当前drc配置文件(prev_profile=profile)。

如果新帧是i帧,则可以在方法步骤606中检查i帧是否包括drc数据。举例来说,i帧的元数据可以包括指示i帧是否包括drc数据的标志。如果drc数据不存在,则方法300可以继续进行步骤604、605。否则,该方法可以继续进行方法步骤607。

在方法步骤607中,可以验证新帧是否是将被解码的编码音频信号102的第一帧。从图6a和图6b的流程图可以看出,这可以通过检查prev_profile变量来进行验证。如果prev_profile变量是未定义的,则新帧是将被解码的第一帧。如果新帧是将被解码的第一帧,则解码器100可以使用除默认drc配置文件之外的预定义drc配置文件。为此,新帧的元数据可以包括用于这样的预定义drc配置文件的标识符(id)。这样的预定义drc配置文件可以被存储在解码器100处的数据库内。预定义drc配置文件的使用可以提供用于向解码器100发信号通知待使用drc配置文件的位率高效的手段,因为只有预定义配置文件的id需要被传输(方法步骤608)。使用id发信号通知的预定义drc配置文件也可以被称为隐式(implicit)drc配置文件。

应注意,在一些情况下,可能有益的是仅使用除默认drc配置文件之外的一个预定义drc配置文件。在此类情况下,解码器100可以被配置为将profile变量设置为预定义(即,隐式)drc配置文件,而不接收新帧的元数据内的任何id。

方法600可以进一步包括验证新帧的元数据是否包括一个或多个显式(explicit)drc配置文件(步骤609)。显式drc配置文件可以包括用于标识显式drc配置文件的id。此外,显式drc配置文件通常包括如图3和图4所示的动态范围压缩曲线的定义数据。动态范围压缩曲线可以被定义为分段线性函数。此外,显式drc配置文件可以指示显式drc配置文件适用的输出参考水平(orl)的范围。举例来说,默认drc配置文件和/或预定义(隐式)drc配置文件可以适用于从-31dbfs直到0dbfs的范围内的输出参考水平。

渲染设备的orl可以指示渲染设备的动态范围能力。通常,动态范围能力随着orl增大而降低。在orl高的情况下,应使用压缩程度高的压缩曲线,以便在不剪裁的情况下以可懂的方式来渲染音频信号。另一方面,在orl低的情况下,压缩可被减小以便以高动态范围来渲染音频信号。由于渲染设备的动态范围能力高,音频信号的可懂度仍可以得到保证。

如果新帧的元数据包括至少一个显式drc配置文件,则读取第一drc配置文件的配置文件数据(步骤610)。此外,验证第一drc配置文件的orl的范围是否适用于当前使用的渲染设备(步骤611)。如果情况并非如此,则方法600继续在新帧的元数据内查找另一个显式drc配置文件。另一方面,如果显式drc配置文件适用于渲染设备,则可以将该显式drc配置文件设置为将用于对新帧进行处理的当前drc配置文件(步骤614)。

方法600可以进一步包括验证耳机渲染模式是否被使用以及显式drc配置文件是否适用于耳机渲染模式(步骤612)。另外,方法600可以包括验证显式drc配置文件与先前使用的配置文件相比是否是更新的配置文件(步骤613)。为此,可以将显式drc配置文件的id与当前使用的配置文件的id进行比较。通过这样做,可以确保解码器100总是使用最近的drc配置文件。

使用方法600,可以确保即使解码器100尚未接收到用于当前渲染模式(即,用于当前渲染设备)的drc配置文件,解码器100也总能识别用于对编码音频信号102的帧进行渲染的drc配置文件。此外,确保解码器100一接收到对应的drc配置文件,就应用用于当前渲染模式的drc配置文件。

因此,描述了用于对编码音频信号102进行解码的方法600。编码音频信号102包括帧序列。此外,编码音频信号102指示用于对应的多个不同渲染模式的多个不同的动态范围控制(drc)配置文件。针对不同渲染模式(或不同再现环境)的例子是用在家庭影院渲染模式中的第一drc配置文件;用在平板渲染模式中的第二drc配置文件;用在便携式设备扩音器渲染模式中的第三drc配置文件;和/或用在耳机渲染模式中的第四drc配置文件。drc配置文件定义了特定的drc行为。drc行为可以用压缩曲线(和时间常数)和/或用drc增益来描述。drc增益可以是可应用于编码音频信号102以部署drc的时间等距增益。压缩曲线可以伴随有时间常数,它们共同配置了drc算法。drc通常降低响亮的声音的音量,并且放大安静的声音,从而压缩音频信号的动态范围以用于改进不理想的再现环境中的体验。

帧序列通常包括形成音频信号的多个连续的帧。音频节目(例如,广播tv或无线电节目)可以包括在拼接点处连结的多个音频信号。举例来说,主要音频节目可以被广告时间以重复的方式中断。帧序列可以对应于整个音频节目。可替代地,帧序列可以对应于形成整个音频节目的多个音频信号中的一个。

所述多个drc配置文件中的不同drc配置文件子集可以被包括在帧序列的不同帧内,以使帧序列的两个或更多个帧共同(jointly)包括所述多个drc配置文件。如上面所指示的,drc配置文件在帧序列的多个帧上的分布导致用于用信号通知所述多个drc配置文件的位流开销降低。

方法600可以包括从多个不同渲染模式确定第一渲染模式。特别地,可以确定哪个渲染模式被用于对编码音频信号102进行渲染。此外,方法600可以包括从帧序列的当前帧内所包括的多个drc配置文件确定609、610一个或多个drc配置文件。换句话说,可以确定当前帧内所包括的drc配置文件子集中的一个或多个drc配置文件。另外,可以确定611该一个或多个drc配置文件中的至少一个是否适用于第一渲染模式。确定611该一个或多个drc配置文件中的至少一个是否适用于第一渲染模式可以包括:确定用于第一渲染模式的第一输出参考水平,确定该一个或多个drc配置文件中的drc配置文件适用的输出参考水平的范围,并且确定第一输出参考水平是否落在输出参考水平范围内。

方法600可以进一步包括:如果该一个或多个drc配置文件都不适用于第一渲染模式,则选择604默认drc配置文件作为当前drc配置文件。默认drc配置文件的定义数据在用于对编码音频信号102进行解码的解码器100处通常是已知的。另外,方法600可以包括使用当前drc配置文件对当前帧进行解码(和/或渲染)。因此,可以确保即使解码器100尚未接收到特定于编码音频信号102的drc配置文件,解码器100也能使用drc配置文件(以及动态范围压缩曲线)。

可替代地或附加地,方法600可以包括:如果该一个或多个drc配置文件中的第一drc配置文件被确定为适用于第一渲染模式,则选择604该第一drc配置文件作为当前drc配置文件。其结果是,解码器100被配置为解码器100一接收到第一drc配置文件,就使用对于编码音频信号102和对于第一渲染模式最优的第一drc配置文件。

方法600可以进一步包括确定603、606帧序列的当前帧是否包括该多个drc配置文件中的一个或多个drc配置文件,即,当前帧是否包括drc配置文件子集。如在图5的上下文中所概述的,drc配置文件子集通常被包括在帧序列的i帧内。因此,确定603、606当前帧是否包括该多个drc配置文件中的一个或多个drc配置文件或当前帧是否包括drc配置文件子集可以包括确定603当前帧是否是i帧。如上面所指示的,i帧可以是可独立于帧序列中的任何其他帧被解码的帧。这可能是由于这样的i帧中所包括的数据以与来自前面的帧或后续的帧的数据无关的方式被传输这一事实而导致的。特别地,i帧内所包括的数据的编码相对于前一帧或后一帧内所包括的数据来说是没有区别的。

此外,确定603、606当前帧是否包括所述多个drc配置文件中的一个或多个drc配置文件或当前帧是否包括drc配置文件子集可以包括验证606当前帧内所包括的drc配置文件标志。编码音频信号的位流内的drc配置文件提供了用于识别携带drc配置文件的帧的带宽和计算高效的手段。

方法600可以进一步包括确定当前帧是否指示多个隐式drc配置文件中的一个隐式drc配置文件。隐式drc配置文件可以包括可以用于转码为e-ac-3的预定义老式压缩曲线和时间常数。如上面所指示的,隐式drc配置文件的定义数据在用于对输入音频信号102进行解码的解码器100处可以是已知的。与默认drc配置文件相反,隐式drc配置文件可以是特定于(如例如表1中指定的)不同类型的音频信号的。帧序列的当前帧可以指示特定的隐式drc配置文件(例如,通过使用标识符,id)。这可以提供用于用信号通知适合于编码音频信号102的drc配置文件的带宽高效的手段。如果确定当前帧指示隐式drc配置文件,则可以选择608隐式drc配置文件作为当前drc配置文件。

当前帧的解码可以包括使帧序列的水平等于第一渲染模式的第一输出参考水平。此外,当前帧的解码可以包括使用当前drc配置文件内指定的动态范围压缩曲线来改动当前帧的响度水平。响度水平的改动可以如在图1的上下文中概述的那样执行。

根据帧序列中的帧数,当前drc配置文件可以对应于默认drc配置文件(其通常独立于输入音频信号102)、对应于隐式drc配置文件(其可以被以有限的方式改动以适应输入音频信号102)或对应于第一显式drc配置文件(其可能已经被设计用于输入音频信号102和/或第一渲染模式)。

通常,只有帧子集包括drc配置文件。一旦当前drc配置文件已经被选择,就可以保持当前drc配置文件用于对帧序列的不包括任何drc配置文件的帧进行解码。此外,即使当接收到具有drc配置文件的帧时,也可以保持当前drc配置文件,只要没有比当前drc配置文件更新的和/或与编码音频信号102相关性更高的drc配置文件被接收到(其中,所选的第一显式drc配置文件具有比所选的隐式drc配置文件更高的相关性,该隐式drc配置文件具有比默认drc配置文件更高的相关性)即可。通过这样做,可以确保所用drc配置文件的连续性和最优性。

与用于对编码音频信号102进行解码的方法600互补地,描述了用于生成编码音频信号102或对编码音频信号102进行编码的方法。编码音频信号102包括帧序列。此外,编码音频信号102指示用于对应的多个不同渲染模式的多个不同的动态范围控制(drc)配置文件。所述方法可以包括将所述多个drc配置文件中的不同drc配置文件子集插入到帧序列的不同帧中,以使帧序列的两个或更多个帧共同包括所述多个drc配置文件。换句话说,具有少于drc配置文件总数的drc配置文件的drc配置文件子集可以连同帧序列的不同帧一起被提供。通过这样做,可以减少编码音频信号102的开销,同时将drc配置文件的全集提供给对应的解码器100。换句话说,该方法的优点是,编码器150传输drc的数据的自由度提高。该自由度可以用于降低位率。

帧序列可以包括i帧子序列(例如,帧序列的每第x帧可以是i帧)。不同drc配置文件子集可以被插入到i帧子序列的不同的(例如,连续的)i帧中。为了进一步减小带宽,可以跳过i帧,即,i帧中的一些可以不包括任何drc配置文件数据。

(例如,每个)drc配置文件子集可以仅包括一个drc配置文件。特别地,多个drc配置文件可以包括n个drc配置文件,其中n是整数,n>1。n个drc配置文件可以被插入到帧序列中的n个不同帧中。通过这样做,可以使传输drc配置文件所需的位率最小。

所述方法可以进一步包括将多个drc配置文件全都插入到帧序列的第一帧(例如,音频信号的帧序列的第一帧)中。其结果是,可以直接用正确的显式drc配置文件来开始编码音频信号102的渲染。如上面所指示的,音频节目可以细分为多个子音频节目,例如,被广告时间中断的主要音频节目。可能有益的是将多个drc配置文件全都插入到每个子音频节目的第一帧中。换句话说,可能有益的是直接在包括多个子音频节目的音频节目的一个或多个拼接点之后插入全部多个drc配置文件。

多个drc配置文件中的不同drc配置文件子集可以被插入到帧序列的不同帧中,以使帧序列中的m个直接相连的帧的每个子序列共同构成所述多个drc配置文件,其中m是整数,m>1。换句话说,多个drc配置文件可以在m个帧的块内重复传输。其结果是,解码器100在获得用于编码音频信号102的最优显式drc配置文件之前必须等待最多m个帧。

所述方法可以进一步包括将标志插入到帧序列的帧中,其中,该标志指示该帧是否包括drc配置文件。提供此类标志使得对应的解码器100能够高效地识别包括drc配置文件数据的帧。

多个drc配置文件的drc配置文件可以是包括(即,携带)用于定义动态范围压缩曲线的定义数据的显式drc配置文件。如本文件中所概述的,动态范围压缩曲线提供了输入响度和输出响度之间的映射和/或将应用于音频信号的增益。具体地说,定义数据可以包括以下中的一个或多个:提升增益,其用于提升输入响度;提升增益范围,其指示提升增益适用的输入响度的范围;零带范围,其指示增益0db适用的输入响度的范围;削切增益,其用于使输入响度衰减;削切增益范围,其指示削切增益适用的输入响度的范围;提升增益比率,其指示零增益和提升增益之间的转变;和/或削切增益比率,其指示零增益和削切增益之间的转变。

所述方法可以进一步包括插入隐式drc配置文件的指示(例如,标识符,id),其中,隐式drc配置文件的定义数据通常对于编码音频信号102的解码器100是已知的。隐式drc配置文件的指示可以提供用于用信号通知被(以有限的方式)改动以适应编码音频信号102的drc配置文件的带宽高效的手段。

如上面所概述的,帧序列的帧通常包括音频数据和元数据。drc配置文件子集通常被作为元数据插入。

drc配置文件可以包括用于定义drc配置文件适用的输出参考水平的范围的定义数据。输出参考水平通常指示渲染模式的动态范围。特别地,渲染模式的动态范围可以随着输出参考水平增大而缩小,反之亦然。此外,drc配置文件的动态范围压缩曲线的最大提升增益和最大削切增益可以随着输出参考水平增大而增大,反之亦然。因此,输出参考水平提供了用于对于特定渲染模式选择适当的drc配置文件(具有适当的动态范围压缩曲线)的高效手段。

所述方法可以进一步包括生成包括编码音频信号102的位流。该位流可以是ac4位流,即,该位流可以与ac4位流格式兼容。

所述方法可以进一步包括将用于编码音频信号102的显式drc增益插入到帧序列的帧中。特别地,适用于帧序列的特定帧的drc增益可以被插入到该特定帧中。因此,帧序列的每个帧可以包括drc数据分量,该drc数据分量包括将应用于相应帧的一个或多个显式drc增益。特别地,每个帧可以包括用于不同渲染模式的不同显式drc增益。为此,可以在编码器150内应用用于不同渲染模式的drc算法,并且可以在编码器150处确定用于不同渲染模式的不同drc增益。然后可以将不同drc增益显式地插入在帧序列内。其结果是,对应的解码器100直接应用显式drc增益,而不执行使用动态范围压缩曲线的drc算法。

因此,帧序列可以包括或可以指示用于用信号通知用于多个对应的渲染模式的动态范围压缩曲线的多个显式drc配置文件。所述多个drc配置文件可以被插入到帧序列的帧中的一些(不是全部)(例如,i帧)中。此外,帧序列可以包括或可以指示用于对应的一个或多个渲染模式的一个或多个drc配置文件,其中,所述一个或多个drc配置文件指示用于一个或多个渲染模式的显式drc增益被插入到帧序列的帧中。举例来说,用于用信号通知显式drc增益的该一个或多个drc配置文件可以包括指示显式drc增益是否包括在帧序列的帧中的标志。drc增益可以被插入到帧序列的每个帧中。特别地,每个帧可以包括将被用于对该帧进行解码的一个或多个drc增益。

所述方法可以包括将用于显式drc增益的drc配置文件插入到帧序列中的帧子集中。举例来说,其drc增益被传输的drc配置文件可以指示用于显式增益的drc配置数据。具体地说,其drc增益被传输的drc配置文件可以包括在所有的所述drc配置文件子集中。drc配置数据(例如,标志)可以指示帧序列包括用于特定渲染模式的显式drc增益。通过这样做,解码器100被通知以下事实:对于特定渲染模式,显式drc增益将从帧序列的帧直接推导得到。

因此,所述方法可以进一步包括针对特定渲染模式确定用于编码音频信号102的显式drc增益。另外,所述方法可以包括将显式drc增益插入到帧序列的帧中。显式drc增益可以被插入到帧序列中的显式drc增益适用的帧中。此外,帧序列中的帧可以包括在特定渲染模式内对帧进行解码所需的一个或多个显式drc增益。

所述方法可以进一步包括将指示用于特定渲染模式的drc配置数据的drc配置文件插入到帧序列中的帧子集(例如,i帧)中。drc配置数据(包括例如标志)可以指示以下事实:对于特定渲染模式,显式drc增益被包括在帧序列的帧中。因此,解码器100可以高效地确定是否使用来自多个drc配置文件的压缩曲线以用于用信号通知动态范围压缩曲线或者是否使用显式drc增益。

用于用信号通知动态范围压缩曲线的drc配置文件以及指向显式drc配置文件的一个或多个drc配置文件可以被包括在帧序列的i帧的专用语法元素(其被称为例如drc配置文件语法元素)内。

本文件中所描述的方法和系统可以实现为软件、固件和/或硬件。某些组件可以例如实现为在数字信号处理器或微处理器上运行的软件。其他组件可以例如实现为硬件和/或专用集成电路。在所描述的方法和系统中遇到的信号可以存储在比如随机存取存储器或光学存储介质的介质上。它们可以经由网络(比如无线电网络、卫星网络、无线网络或有线网络(例如,互联网))传送。使用本文件中所描述的方法和系统的典型设备是用于存储和/或渲染音频信号的便携式电子设备或其他消费者设备。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜