一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多媒体的量化处理方法、装置及编码、解码设备与流程

2022-07-10 09:46:11 来源:中国专利 TAG:

1.本技术涉及计算机
技术领域
,尤其涉及多媒体编码
技术领域
,具体涉及一种多媒体的量化处理方法、一种多媒体的量化处理装置、一种编码设备、一种解码设备。
背景技术
:2.量化是多媒体数据(例如视频、音频、图像等)编码技术的核心过程,依赖性标量量化(dependentquantization,dq)是多媒体数据编码技术中采用的一种量化方式,依赖性标量量化是指将量化过程与量化状态的转换过程相结合的量化技术。目前,依赖性标量量化通常采用人工设计的状态机,状态机一旦设计完成,状态机中量化器(quantizer)的数量和量化状态的数量往往是固定不变的;当量化器的数量改变或者量化状态的数量改变时,需要重新设计状态机;在量化器的数量较多或者量化状态的数量较多的情况下,状态机往往比较复杂,仅凭人工无法完成状态机的设计。因此,如何降低状态机的设计成本以及如何设计支持任意数量的量化状态的状态机成为当前研究的热点问题。技术实现要素:3.本技术实施例提供了一种多媒体的量化处理方法、装置及编码、解码设备,可以训练得到支持任意数量的量化状态之间自动转换的状态预测器,有效降低状态预测器的设计成本。4.第一方面,本技术实施例提供一种多媒体的量化处理方法,该多媒体的量化处理方法包括:5.获取状态预测器的输入数据;其中,输入数据包括源数值xi对应的历史量化值序列和历史量化状态序列;源数值xi是源序列x中的第i个源数值,i为正整数;源序列x是对多媒体数据进行采样得到的;历史量化值序列中包含yi-(m-1)、yi-(m-2)至yi共m个按序排列的量化值,量化值yi是在量化状态si-1下对源数值xi进行键值计算得到的;量化值yi之前的m-1个量化值是对源序列x中位于源数值xi之前的m-1个源数值依次进行键值计算得到的,m为正整数;历史量化状态序列包含si-n、si-(n-1)至si-1共n个按序排列的量化状态,量化状态si-1之前的n-1个量化状态是指对m-1个源数值进行键值计算时对应的量化状态,n为正整数;6.获取状态预测器的映射函数,映射函数用于表示n个量化状态与j个动作之间的映射关系;n、j均为正整数,n的取值由输入数据中的m和n确定;j个动作中的任一个动作用于表示从n个量化状态中选取一个量化状态作为源序列x中的源数值xi 1对应的量化状态的操作;7.基于映射函数对输入数据进行预测处理,得到源数值xi 1对应的量化状态si;8.根据源数值xi 1和量化状态si更新映射函数,以训练状态预测器。9.本技术实施例中,可以基于状态预测器的映射函数对输入数据(包括源数值xi对应的历史量化值序列和源数值xi对应的历史量化状态序列)进行自动预测处理,得到源数值xi 1对应的量化状态si,从而可以根据源数值xi 1和量化状态si更新映射函数,以训练状态预测器,i为正整数;其中,历史量化值序列包括yi-(m-1)、yi-(m-2)至yi共m个按序排列的量化值,量化值yi是在量化状态si-1下对源数值xi进行键值计算得到的,量化值yi之前的m-1个量化值是对源序列x中位于源数值xi之前的m-1个源数值依次进行键值计算得到的,m为正整数;历史量化状态序列包含si-n、si-(n-1)至si-1共n个按序排列的量化状态,量化状态si-1之前的n-1个量化状态是指对m-1个源数值进行键值计算时对应的状态,n为正整数;此外,映射函数中的j个动作中的任一个动作用于表示从n个量化状态中选取一个量化状态作为源序列x中的源数值xi 1对应的量化状态的操作,即量化状态si是在状态预测过程中基于输入数据从n个量化状态中自动选取的一个量化状态。由此可见,本技术实施例训练得到的状态预测器能够支持多个量化状态,并且多个量化状态之间能够自动预测转换,有效降低了状态预测器的设计成本。10.第二方面,本技术实施例提供一种多媒体的量化处理方法,该多媒体的量化处理方法由编码设备执行,编码设备中设有状态预测器,状态预测器采用上述第一方面所述的多媒体的量化处理方法训练得到;该多媒体的量化处理方法包括:11.获取第一源序列,第一源序列是对待量化的第一多媒体数据进行采样得到的,第一源序列包括按序排列的多个源数值;12.从第一源序列中选取源数值zi,源数值zi是第一源序列中的第i个源数值,i为正整数;13.在量化状态wi-1下对源数值zi进行量化处理得到量化值gi及预测的量化状态wi;14.依次从第一源序列中选取位于源数值zi之后的各个源数值进行量化处理,直至第一源序列中的源数值均完成量化处理为止;15.根据第一源序列中所有源数值的量化值,生成第一量化值序列;16.其中,量化处理的过程包括:在量化状态wi-1下对源数值zi进行键值计算得到量化值gi;以及调用状态预测器预测得到源数值zi 1对应的量化状态wi。17.本技术实施例中,当获取到第一源序列之后,可以对第一源序列中的每个源数值进行量化处理;以第一源序列中的源数值zi为例,对源数值zi的量化过程可以包括:在量化状态wi-1下对源数值zi进行键值计算得到量化值gi,以及调用状态预测器预测得到源数值zi 1对应的量化状态wi;其中,源数值zi是第一源序列中的第i个源数值,i为正整数,第一源序列是对待量化的第一多媒体数据进行采样得到的;从而对第一源序列中的每个源数值进行量化处理后,可以根据第一源序列中所有源数值的量化值生成第一量化值序列。状态预测器支持任意数量的量化状态之间的自动转换,可以提升对第一源序列的量化性能,从而有效提升对第一多媒体数据进行编码时的编码性能。18.第三方面,本技术实施例提供一种多媒体的量化处理方法,该多媒体的量化处理方法由编码设备执行,编码设备中设有状态预测器,状态预测器采用上述第一方面所述的多媒体的量化处理方法训练得到;该多媒体的量化处理方法包括:19.获取第一源序列对应的第一量化值序列,第一源序列是对待量化的第一多媒体数据进行采样得到的,第一源序列包括按序排列的多个源数值;第一量化值序列包括对第一源序列中的多个源数值分别进行量化处理得到的多个量化值;20.从第一量化值序列中选取量化值gi,量化值gi是第一量化值序列中的第i个量化值,量化值gi是对第一源序列中的源数值zi进行键值计算得到的,源数值zi是第一源序列中的第i个源数值,i为正整数;21.对量化值gi进行反量化处理得到重构数值z′i;22.依次从第一量化值序列中选取位于量化值gi之后的各个量化值进行反量化处理,直至第一量化值序列的所有量化值均完成反量化处理为止;23.根据反量化处理得到的所有重构数值,生成第一重构序列;24.其中,反量化处理过程包括:基于量化值gi调用状态预测器预测得到量化状态wi;根据量化状态wi对量化值gi进行重构处理,得到量化值gi对应的重构数值z′i。25.本技术实施中,当获取到第一源序列对应的第一量化值序列之后,可以对第一量化值序列中的每个量化值进行反量化处理,以第一量化值序列中的量化值gi为例,对量化值gi的反量化过程可以包括:基于量化值gi调用状态预测器预测得到量化状态wi,以及根据量化状态wi对量化值gi进行重构处理,得到量化值gi对应的重构数值z′i;其中,量化值gi是第一量化值序列中的第i个量化值,量化值gi是对第一源序列中的源数值zi进行键值计算得到的,源数值zi是第一源序列中的第i个源数值,i为正整数;从而对第一量化值序列中的每个量化值进行反量化处理后,可以根据所有反量化处理得到的重构数值生成第一重构序列。状态预测器支持任意数量的量化状态之间的自动转换,可以提升解码过程中对第一量化值序列的反量化性能,从而有效提升解码性能。26.第四方面,本技术实施例提供一种多媒体的量化处理装置,该多媒体的量化处理装置包括:27.获取单元,用于获取状态预测器的输入数据;其中,输入数据包括源数值xi对应的历史量化值序列和历史量化状态序列;源数值xi是源序列x中的第i个源数值,i为正整数;源序列x是对多媒体数据进行采样得到的;历史量化值序列中包含yi-(m-1)、yi-(m-2)至yi共m个按序排列的量化值,量化值yi是在量化状态si-1下对源数值xi进行键值计算得到的;量化值yi之前的m-1个量化值是对源序列x中位于源数值xi之前的m-1个源数值依次进行键值计算得到的,m为正整数;历史量化状态序列包含si-n、si-(n-1)至si-1共n个按序排列的量化状态,量化状态si-1之前的n-1个量化状态是指对m-1个源数值进行键值计算时对应的量化状态,n为正整数;28.获取单元,还用于获取状态预测器的映射函数,映射函数用于表示n个量化状态与j个动作之间的映射关系;n、j均为正整数,n的取值由输入数据中的m和n确定;j个动作中的任一个动作用于表示从n个量化状态中选取一个量化状态作为源序列x中的源数值xi 1对应的量化状态的操作;29.处理单元,用于基于映射函数对输入数据进行预测处理,得到源数值xi 1对应的量化状态si;30.处理单元,还用于根据源数值xi 1和量化状态si更新映射函数,以训练状态预测器。31.在一种实现方式中,映射函数采用映射表表示;映射表包含n行j列,映射表的第p行表示n个量化状态中的任一个,p为正整数且p≤n;映射表的第j列表示j个动作中的任一个,j为正整数且j≤j;第p行与第j列相交的表格项包括在第p行的量化状态下执行第j列的动作aij时能够获得的奖励值vjp;处理单元,具体用于:32.基于输入数据确定映射表;33.按照预测算法从映射表中选择量化状态si。34.在一种实现方式中,预测算法包括贪婪算法;处理单元,具体用于:35.按照第一贪婪概率从映射表中随机选择目标动作;或者,按照第二贪婪概率从映射表中选择最大奖励值对应的目标动作;36.将目标动作对应的量化状态确定为量化状态si;37.其中,第一贪婪概率的取值范围为[0,1],第二贪婪概率的取值范围为[0,1],并且第一贪婪概率与第二贪婪概率之和为1。[0038]在一种实现方式中,处理单元,具体用于:[0039]在量化状态si下对源数值xi 1进行量化处理,得到量化值yi 1;[0040]基于映射函数对输入数据进行预测处理,得到源数值xi 2对应的量化状态si 1;[0041]根据量化值yi 1和量化状态si 1,重构得到源数值xi 1对应的重构数值x′i 1;[0042]基于源数值xi 1获取目标源序列,基于重构数值x′i 1获取目标重构序列以及基于量化值yi 1获取目标量化值序列;其中,目标源序列包括x1、x2到xi 1共i 1个按序排列的源数值,目标重构序列包括x′1、x′2到x′i 1共i 1个按序排列的重构数值,目标量化值序列包括y1、y2到yi 1共i 1个按序排列的量化值;[0043]根据目标源序列、目标重构序列及目标量化值序列,确定奖励函数;[0044]根据奖励函数对映射函数进行更新。[0045]在一种实现方式中,处理单元,具体用于:[0046]计算目标源序列与目标重构序列之间的编码失真值;以及,[0047]计算目标量化值序列的编码比特消耗值;[0048]根据编码失真值和编码比特消耗值确定奖励函数。[0049]在一种实现方式中,处理单元,还用于:[0050]获取n个量化状态中的每个量化状态对应的量化位置;[0051]计算各个量化位置的率失真损失;[0052]若量化值yi的量化位置的率失真损失为各个量化位置的率失真损失中的最小值,则将奖励函数赋值为第一数值;[0053]若量化值yi的量化位置的率失真损失不是各个量化位置的率失真损失中的最小值,则将奖励函数赋值为第二数值。[0054]在一种实现方式中,处理单元,还用于:获取历史量化值序列的替代序列,并根据替代序列对输入数据进行替代;[0055]处理单元,具体用于:基于映射函数对替代后的输入数据进行预测处理,得到源数值xi 1对应的量化状态si。[0056]在一种实现方式中,处理单元,具体用于:[0057]若量化值yi是奇数,则确定量化值yi的奇偶性替代值为第三数值;[0058]若量化值yi是偶数,则确定量化值yi的奇偶性替代值为第四数值;[0059]根据历史量化值序列中的各个量化值的奇偶性替代值,生成替代序列;[0060]采用替代序列对输入数据中的历史量化值序列进行替代。[0061]在一种实现方式中,当n的取值为1且m》1时,获取单元,具体用于:[0062]获取历史量化值序列和历史量化状态序列;[0063]将历史量化值序列包含的m个量化值中的每个量化值与历史量化状态序列中的量化状态si-1进行组合,得到m个输入组合,每个输入组合由量化状态si-1和历史量化值序列中的一个量化值构成;[0064]对m个输入组合进行堆叠形成输入矩阵。[0065]在一种实现方式中,当m=n时,获取单元,具体用于:[0066]获取历史量化值序列和历史量化状态序列;[0067]将历史量化值序列包含的m个量化值中的每个量化值与历史量化状态序列包含的m个量化状态中的每个量化状态进行按序组合,得到m个输入组合,每个输入组合由历史量化值序列中的一个量化值和历史量化状态序列中的一个量化状态构成;[0068]对m个输入组合进行堆叠形成输入矩阵。[0069]第五方面,本技术实施例提供一种编码设备,该编码设备包括:[0070]计算键值模块,计算键值模块包括键值生成器,键值生成器用于对源数值进行键值计算得到量化值;[0071]状态预测模块,状态预测模块包括状态预测器,状态预测器采用上述第一方面所述的多媒体的量化处理方法进行训练得到。[0072]第六方面,本技术实施例提供一种解码设备,该解码设备包括:[0073]状态预测模块,状态预测模块包括状态预测器,状态预测器采用上述第一方面所述的多媒体的量化处理方法进行训练得到;[0074]重构输入模块,重构输入模块包括输入重构器,输入重构器用于对量化值进行重构处理得到重构数值。[0075]第七方面,本技术实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述第一方面所述的多媒体的量化处理方法。[0076]第八方面,本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的多媒体的量化处理方法。附图说明[0077]为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0078]图1示出了本技术一个示例性实施例提供的一种量化器的量化规则的示意图;[0079]图2示出了本技术一个示例性实施例提供的一种状态预测器的量化状态转换过程的示意图;[0080]图3示出了本技术一个示例性实施例提供的一种多媒体的量化处理方法的流程示意图;[0081]图4示出了本技术另一个示例性实施例提供的一种多媒体的量化处理方法的流程示意图;[0082]图5示出了本技术另一个示例性实施例提供的一种多媒体的量化处理方法的流程示意图;[0083]图6示出了本技术另一个示例性实施例提供的一种多媒体的量化处理方法的流程示意图;[0084]图7示出了本技术一个示例性实施例提供的一种智能体的结构示意图;[0085]图8示出了本技术一个示例性实施例提供的一种智能体的训练过程的流程示意图;[0086]图9示出了本技术一个示例性实施例提供的一种编码设备的结构示意图;[0087]图10示出了本技术一个示例性实施例提供的一种编码设备的量化过程的流程示意图;[0088]图11示出了本技术一个示例性实施例提供的一种解码设备的结构示意图;[0089]图12示出了本技术一个示例性实施例提供的一种解码设备的反量化过程的流程示意图;[0090]图13示出了本技术一个示例性实施例提供的一种多媒体的量化处理装置的结构示意图。具体实施方式[0091]下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。[0092]本技术实施例提出一种多媒体的量化处理方案,该多媒体的量化处理方案涉及人工智能的机器学习等技术,具体涉及机器学习中的强化学习等技术。其中:[0093]人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。[0094]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。[0095]机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。[0096]强化学习(reinforcementlearning,rl),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。所谓智能体是指能自主活动的软件或者硬件实体,智能体是人工智能领域中一个很重要的概念,任何独立的能够思想并可以同环境交互的实体都可以抽象为智能体;例如智能体可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载、智能电视等智能终端;智能体还可以是服务器,例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器等。[0097]多媒体数据(例如可以是视频、音频、图像等等)中往往存在大量的冗余信息,因此在对多媒体数据进行存储或传输之前,往往需要对多媒体数据进行编码,去除多媒体数据在空间、时间等维度上的冗余信息,以节省存储空间、提升多媒体数据的传输效率。量化是多媒体数据编码技术的核心过程,也是多媒体数据生产技术的核心过程,提高量化效率能够为多媒体数据的编码任务带来较大的性能增益。所谓量化可以是指采用键值生成器(keygenerator)分别对源序列中的每个源数值进行键值计算,得到源序列中的每个源数值的量化值(或称为键值)的过程,源序列中的每个源数值的量化值共同组成源序列对应的量化值序列,源序列可以是对多媒体数据进行采样得到的。与量化过程对应的是反量化过程,所谓反量化可以是指采用输入重构器(inputreconstructor)分别对量化值序列中的每个量化值进行重构处理,得到每个量化值对应的重构数值的过程,量化值序列中的每个量化值对应的重构数值共同组成量化值序列对应的重构序列,根据重构序列可以还原出多媒体数据。一般来说,量化过程往往由编码设备实现,编码设备可以对多媒体数据进行采样,得到源序列;然后,编码设备可以对源序列中的每个源数值进行量化处理,得到源序列对应的量化值序列;进一步地,编码设备可以将量化值序列进一步压缩得到多媒体数据的数据包后发送至解码设备。反量化过程往往由解码设备实现,解码设备接收到编码设备发送的多媒体数据的数据包之后,可以对多媒体数据的数据包进行解压缩,得到量化值序列;然后,解码设备对量化值序列中的每个量化值进行反量化处理,得到量化值序列对应的重构序列;进一步地,解码设备可以根据重构序列还原出多媒体数据。[0098]下面以视频点播场景和视频会话场景为例,对量化过程和反量化过程的具体应用场景进行介绍:[0099]在视频点播场景中,解码设备可以是运行有视频点播应用程序的智能终端,编码设备可以是向视频点播应用程序提供视频点播服务的服务器,多媒体数据可以是点播视频。当智能终端向服务器发起视频点播请求时,服务器可以获取智能终端所请求的点播视频,并从点播视频中采样得到源序列;然后,服务器可以对源序列中的每个源数值进行量化处理,得到量化值序列;进一步地,服务器可以将量化值序列进一步压缩得到点播视频的数据包之后发送至智能终端。智能终端接收到点播视频的数据包后,可以对点播视频的数据包进行解压缩,得到量化值序列;然后,智能终端可以对量化值序列中的每个量化值进行反量化处理,得到量化值序列对应的重构序列;进一步地,智能终端可以根据重构序列还原并播放点播视频。[0100]在视频会话场景中,第一智能终端和第二智能终端是参与视频会话的两个智能终端,以第一智能终端向第二智能终端发起视频会话为例,第一智能终端可以是编码设备,第二智能终端可以是解码设备,多媒体数据可以是会话视频。第一智能终端设备采集会话视频,并从会话视频中采样得到源序列;然后,第一智能终端可以对源序列中的每个源数值进行量化处理,得到量化值序列;进一步地,第一智能终端将量化值序列进一步压缩得到会话视频的数据包之后发送至第二智能终端。第二智能终端接收到会话视频的数据包后,可以对会话视频的数据包进行解压缩,得到量化值序列;然后,第二智能终端可以对量化值序列中的每个量化值进行反量化处理,得到量化值序列对应的重构序列;进一步地,第二智能终端可以根据重构序列还原并播放会话视频,从而第一智能终端与第二智能终端实现了视频会话。[0101]本技术实施例涉及的量化方式具体可以是指依赖性标量量化(dependentquantization,dq)。所谓依赖性标量量化可以是指将量化过程、反量化过程与量化状态的转换过程相结合的量化方式。依赖性标量量化的过程中往往涉及键值生成器、输入重构器以及状态预测器。其中:[0102]键值生成器可以用于对源数值进行键值计算,得到源数值的量化值;在一种实现方式中,键值生成器可以由多个量化器构成,一个量化器可以关联一个或多个量化状态,即当源数值对应的量化状态确定后,可以采用该量化状态关联的量化器对源数值进行键值计算。输入重构器可以用于对量化值进行重构处理,得到量化值对应的重构数值;输入重构器对量化值进行重构处理的方式具体可以为:输入重构器确定量化值对应的量化位置,并根据量化值对应的量化位置和量化步长计算得到重构数值,例如,重构数值可以是量化值对应的量化位置与量化步长之间的乘积;在一种实现方式中,输入重构器可以由多个量化器构成,一个量化器可以关联一个或多个量化状态,即当量化值对应的量化状态确定后,可以采用该量化状态关联的量化器对量化值进行重构处理。状态预测器可以用于实现多个量化状态之间的预测转换。所谓量化状态可以是指键值生成器在对源数值进行键值计算时所处于的状态,或者可以是指输入重构器在对量化值进行重构处理时所处于的状态。[0103]下面以包含两个量化器(分别是量化器q0和量化器q1)和四个量化状态(分别是量化状态a、量化状态b、量化状态c和量化状态d)的依赖性标量量化过程为例,对依赖性标量量化过程的原理进行介绍。其中,量化器q0与量化状态a、量化状态b相关联,量化器q1与量化状态c、量化状态d相关联。[0104]依赖性标量量化过程的原理如下:[0105]图1示出了本技术一个示例性实施例提供的一种量化器的量化规则的示意图,如图1所示,圆圈或圆点上方的字母表示量化状态,圆圈或圆点下方的数值表示量化值;第一行的黑色圆点或黑色圆圈对应于量化器q0,第二行的灰色圆点或灰色圆圈对应于量化器q1;横坐标中的数值(例如-9、-8、0、8、9等)代表量化位置,“△”代表量化步长,任一个量化位置与量化步长的乘积表示该量化位置对应的重构数值,即任一个量化位置与量化步长的乘积表示位于该量化位置的量化值对应的重构数值;例如量化状态a下的量化值“‑4”对应的量化位置为“‑8”,那么该量化位置对应的重构数值为“‑8△”。[0106]图2示出了本技术一个示例性实施例提供的一种量化状态转换过程的示意图,图2中所示各个箭头指示量化状态的转移方向,箭头的起点指示第一量化状态,箭头的终点指示第二量化状态,也就是说由量化状态的转换过程是由第一量化状态转换至第二量化状态;第二量化状态是第一量化状态的下一个量化状态,第一量化状态是第二量化状态的上一个量化状态,即第二量化状态的出现时刻晚于第一量化状态的出现时刻。需要说明的是,第一量化状态和第二量化状态可以是同一个量化状态,第一量化状态和第二量化状态也可以是不同的量化状态,例如,第一量化状态是量化状态a,经量化状态转换后,第二量化状态依然是量化状态a;或者,第一量化状态是量化状态a,经量化状态转换后,第二量化状态是量化状态b。在图2所示的量化状态转化过程中,第二量化状态可以是根据第一量化状态和第一量化状态下的量化值的奇偶性确定得到的,“(k&1)==1”表示量化值为奇数,“(k&1)==0”表示量化值为偶数。图2所示的量化状态转换过程可参见表1,如表1所示,以第一量化状态是量化状态a为例,若量化状态a下的量化值是偶数,即“(k&1)==0”,则可以确定出第二量化状态仍然为量化状态a;若量化状态a下的量化值为奇数,即“(k&1)==1”,则可以确定出第二量化状态为量化状态c。[0107]表1[0108][0109][0110](1)依赖性标量量化的编码阶段(即量化阶段)[0111]源序列x中包括x1,x2,…,xi,…,xs共s个源数值,s为正整数,对于源序列x中的源数值xi,可以根据源数值xi对应的量化状态si-1确定对源数值xi进行键值计算时所采用的量化器,从而可以根据确定的量化器对源数值xi进行键值计算,得到源数值xi的量化值yi;进一步地,状态预测器可以根据量化值yi的奇偶性以及源数值xi对应的量化状态si-1预测得到源数值xi 1对应的量化状态si,从而可以根据源数值xi 1对应的量化状态si确定对源数值xi 1进行键值计算时所采用的量化器,并根据确定的量化器对源数值xi 1进行键值计算,得到源数值xi 1的量化值yi 1。以此类推,可以对源序列x中的每一个源数值x1,x2,…,xi,…,xs均采用相同的量化方式进行处理,得到源序列x对应的量化值序列y,量化值序列y包括y1,y2,…,yi,…,ys共s个量化值。[0112](2)依赖性标量量化的解码阶段(即反量化阶段)[0113]量化值序列y包括y1,y2,…,yi,…,ys共s个量化值,s为正整数,对于量化值序列y中的量化值yi,状态预测器可以根据量化值yi的奇偶性以及源数值xi对应的量化状态si-1预测得到源数值xi 1对应的量化状态si,从而可以根据量化状态si确定对量化值yi进行重构处理的量化器,并根据确定得到的量化器确定量化值yi对应的量化位置,再根据量化值yi对应的量化位置和量化步长,重构得到量化值yi对应的重构数值x′i。以此类推,可以对量化值序列y中的每一个量化值y1,y2,…,yi,…,ys均采用相同的反量化方式进行处理,得到量化值序列y对应的重构序列x′,重构序列x′包括x′1,x′2,…,x′i…,x′s共s个重构数值。[0114]量化值序列y中的各个量化值的排列顺序可以用量化路径表示,量化器可以对量化值序列y中的各个量化值进行多次随机排序,得到多条量化路径;量化器可以计算每一条量化路径下的量化值序列的率失真损失(rate-distortion,rd),并根据计算得到的多个率失真损失确定出多条量化路径中的最佳量化路径,从而最佳量化路径下各个量化值的排列顺序即是量化值序列y中的各个量化值的最佳排列顺序。其中,最佳量化路径对应的率失真损失是多个率失真损失中的最小率失真损失;从多条量化路径中确定出最佳量化路径的过程可以采用维特比(viterbi)算法实现。[0115]基于上述描述,本技术实施例提供进一步地依赖性标量量化方案(即多媒体的量化处理方案),该多媒体的量化处理方案采用强化学习中的动作选择算法对状态预测器进行训练。其中,动作选择算法具体可以是q-learning算法,q-learning算法是一种离线策略(off-policy)的强化学习算法,能够为任何给定的有限马尔科夫决策过程(markovdecisionprocess,mpd)找到一个最优的动作选择策略,动作选择策略是智能体在选择动作时遵循的规则,q-learning算法使用动作值映射函数(action-valuemappingfunction)作为动作选择策略;对于给定的输入数据,智能体可以确定出一个动作映射函数(即映射函数),动作值映射函数可以提供多个动作,并为每个动作分配一个奖励值(或者称为q值),从而可以产生多个不同的奖励值;通过体验不同的量化状态并尝试处于不同量化状态下的各个动作,智能体可以不断学习以优化映射函数,以达到对状态预测器的训练效果。在本技术实施例提供的多媒体的量化处理方案中,基于状态预测器的映射函数对输入数据(包括源数值xi对应的历史量化值序列和源数值xi对应的历史量化状态序列)进行自动预测处理的过程便是一个有限马尔科夫决策过程;基于状态预测器的映射函数对输入数据预测得到源数值xi 1对应的量化状态si的过程便是寻找最优的动作选择策略的过程;从而可以根据源数值xi 1和量化状态si更新映射函数,以训练状态预测器,使得训练得到的状态预测器能够支持任意数量的量化状态,并且通过训练得到的状态预测器能够实现任意数量的量化状态之间的自动预测、自动转换,有效降低了状态预测器的设计成本。[0116]需要说明的是,任意数量的量化状态具体可以是指h=2β个量化状态,β为大于或等于2的整数,则h为大于或等于4的整数。智能体可以是指用于对状态预测器进行训练的设备,例如当智能终端对状态预测器进行训练时,智能体可以是智能终端;当服务器对状态预测器进行训练时,智能体可以是服务器,本技术实施例对此不作限定。状态预测器的训练过程具体可以参见图3至图4所示实施例的描述,训练后的状态预测器参与的量化过程可以参见图5所示实施例的描述,训练后的状态预测器参与的反量化过程可以参见图6所示实施例的描述。[0117]请参见图3,图3示出了本技术一个示例性实施例提供的一种多媒体的量化处理方法的流程示意图,该多媒体的量化处理方法可以由智能体执行,智能体可以是智能终端或服务器,该多媒体的量化处理方法可以包括以下步骤s301至步骤s304:[0118]s301,获取状态预测器的输入数据。[0119]输入数据可以包括源数值xi对应的历史量化值序列和源数值xi对应的历史量化状态序列,获取状态预测器的输入数据可以包括:获取多媒体数据,并对多媒体数据进行采样处理,得到源序列x,源序列x中可以包括多个按序排列的源数值,源数值xi是源序列x中的第i个源数值,i为正整数;获取源数值xi对应的历史量化值序列和源数值xi对应的历史量化状态序列。历史量化值序列中包含yi-(m-1)、yi-(m-2)至yi共m个按序排列的量化值,量化值yi是在量化状态si-1下对源数值xi进行键值计算得到的;量化值yi之前的m-1个量化值是对源序列x中位于源数值xi之前的m-1个源数值依次进行键值计算得到的,m为正整数;历史量化状态序列包含si-n、si-(n-1)至si-1共n个按序排列的量化状态,量化状态si-1之前的n-1个量化状态是指对m-1个源数值进行键值计算时对应的状态,n为正整数。[0120]输入数据可以用输入矩阵进行表示。在一种实现方式中,当n的取值为1且m》1时,历史量化状态序列中包含一个量化状态si-1;可以将历史量化值序列包含的m个量化值中的每个量化值与历史量化状态序列中的量化状态si-1进行组合,得到m个输入组合,每个输入组合由量化状态si-1和历史量化值序列中的一个量化值构成;对m个输入组合进行堆叠形成m行2列的输入矩阵;当n的取值为1且m》1时的输入矩阵可参见表2,表2示出了一种输入矩阵的示意。[0121]表2[0122]yi-(m-1)si-1yi-(m-2)si-1……yisi-1[0123]在另一种实现方式中,当m=n时,可以将历史量化值序列包含的m个量化值中的每个量化值与历史量化状态序列包含的m个量化状态中的每个量化状态进行按序组合,得到m个输入组合,每个输入组合由历史量化值序列中的一个量化值和历史量化状态序列中的一个量化状态构成,每个输入组合可以表示为(yl,sl-1),l=i-(m-1),i-(m-2),…,i;对m个输入组合进行堆叠形成m行2列的输入矩阵;当m=n时的输入矩阵可参见表3,表3示出了另一种输入矩阵的示意。[0124]表2[0125]yi-(m-1)si-nyi-(m-2)si-(n-1)……yisi-1[0126]为了降低对状态预测器进行训练过程中的训练难度,可以使用历史量化值序列中的各个量化值的奇偶性替代值替代历史量化值序列中的各个量化值作为状态预测器的输入,从而对输入数据进行替代。具体地,若历史量化值序列中的量化值yi是奇数,则可以确定历史量化值序列中的量化值yi的奇偶性替代值为第三数值(例如可以是1),并将量化值yi的第三数值作为状态预测器的输入;若历史量化值序列中的量化值yi是偶数,则可以确定历史量化值序列中的量化值yi的奇偶性替代值为第四数值(例如可以是0),并将量化值yi的第四数值作为状态预测器的输入。从而,可以根据历史量化值序列中的各个量化值的奇偶性替代值,生成替代序列,并采用替代序列代替输入数据中的历史量化值序列,得到替代后的输入数据。通过这种方式可以降低训练难度,提升训练效率。[0127]s302,获取状态预测器的映射函数。[0128]映射函数f(aij,vij|yi-(m-1),...,yi,si-n,...,si-1)可以用于表示n个量化状态与j个动作之间的映射关系,n、j均为正整数,n的取值可以由输入数据中的m和n确定。具体地,输入数据可以包括历史量化值序列和历史量化状态序列,历史量化值序列中包含yi-(m-1)、yi-(m-2)至yi共m个按序排列的量化值,历史量化状态序列包含si-n、si-(n-1)至si-1共n个按序排列的量化状态;当m的取值为1时,n的取值为m×n,m×n表示历史量化值序列中的m个量化值与历史量化状态序列中的n个量化值之间的组合;当m的取值为2时,n的取值为m2×n2,m2×n2表示m的取值为1时的m×n个量化状态之间的组合;以此类推,当m的取值为u时,u为正整数,n的取值为mu×nu。j个动作中的任一个动作可以用于表示从n个量化状态中选取一个量化状态作为源序列x中的源数值xi 1对应的量化状态的操作。[0129]s303,基于映射函数对输入数据进行预测处理,得到源数值xi 1对应的量化状态si。[0130]为了降低对状态预测器进行训练过程中的训练难度,可以根据历史量化值序列中的各个量化值的奇偶性,获取历史量化值序列的替代序列,并根据替代序列对输入数据中的历史量化值序列进行替代。进一步地,基于映射函数对输入数据进行预测处理,得到源数值xi 1对应的量化状态si可以是指:基于映射函数对替代后的输入数据进行预测处理,得到源数值xi 1对应的量化状态si。[0131]映射函数可以采用映射表(或者称为q表(q-table))进行表示。具体地,映射表可以包含n行j列,映射表的第p行可以用于表示n个量化状态中的任一个量化状态,p为正整数且p≤n;映射表的第j列可以用于表示j个动作中的任一个动作,j为正整数且j≤j;映射表的第p行与第j列相交的表格项内包括在第p行的量化状态下执行第j列的动作aij时能够获得的奖励值vjp。基于映射函数对输入数据进行预测处理,得到源数值xi 1对应的量化状态si可以包括:基于输入数据确定映射表,并按照预测算法从映射表中选择量化状态si。[0132]s304,根据源数值xi 1和量化状态si更新映射函数,以训练状态预测器。[0133]基于映射函数对输入数据进行预测处理,得到源数值xi 1对应的量化状态si之后,可以根据源数值xi 1和量化状态si确定奖励函数,并根据奖励函数对映射函数进行更新,以训练状态预测器。[0134]本技术实施例中,可以基于状态预测器的映射函数对输入数据(包括源数值xi对应的历史量化值序列和源数值xi对应的历史量化状态序列)进行自动预测处理,得到源数值xi 1对应的量化状态si,从而可以根据源数值xi 1和量化状态si更新映射函数,以训练状态预测器;训练得到的状态预测器能够支持多个量化状态,并且多个量化状态之间能够自动预测转换,有效降低了状态预测器的设计成本。此外,本技术实施例使用历史量化值序列中的各个量化值的奇偶性替代状态预测器的输入数据,将输入的量化值替代为较为简单的数值。可以有效降低训练难度,提升训练效率。[0135]请参见图4,图4示出了本技术另一个示例性实施例提供的一种多媒体的量化处理方法的流程示意图,该多媒体的量化处理方法可以由智能体执行,智能体可以是智能终端或服务器,该多媒体的量化处理方法可以包括以下步骤s401至步骤s406:[0136]s401,获取状态预测器的输入数据。[0137]s402,获取状态预测器的映射函数。[0138]本技术实施例中步骤s401的执行过程与图3所示实施例中步骤s301的执行过程相同,步骤s402的执行过程与图3所示实施例中步骤s302的执行过程相同,具体执行过程可参见图3所示实施例的描述,在此不再赘述。[0139]s403,基于输入数据确定映射表。[0140]映射函数可以采用映射表(或者称为q表(q-table))进行表示。具体地,源数值xi对应的映射表qt-1可以包含n行j列,映射表的第p行可以用于表示n个量化状态中的任一个量化状态,p为正整数且p≤n;映射表的第j列可以用于表示j个动作中的任一个动作,j为正整数且j≤j;映射表的第p行与第j列相交的表格项内包括在第p行的量化状态下执行第j列的动作aij时能够获得的奖励值vjp。表4示出了本技术一个示例性实施例提供的一种映射表的示意,如表4所示,n个量化状态分别用s1,s2,…,sp,…,sn进行表示。[0141]表4[0142][0143]s404,按照预测算法从映射表中选择源数值xi 1对应的量化状态si。[0144]预测算法可以包括贪婪算法(∈-greedy算法)。具体地,按照预测算法从映射表中选择源数值xi 1对应的量化状态si的具体实现方式可以包括:按照第一贪婪概率从映射表中随机选择目标动作;或者,按照第二贪婪概率从映射表中选择最大奖励值对应的目标动作;将目标动作对应的量化状态确定为量化状态si。通过选择最大奖励值对应的目标动作,能够达到最佳量化性能。其中,第一贪婪概率的取值范围为[0,1],第二贪婪概率的取值范围为[0,1],并且,第一贪婪概率与第二贪婪概率之和为1;例如,第一贪婪概率可以为∈,∈的取值范围为[0,1],第二贪婪概率可以为1-∈,1-∈的取值范围为[0,1]。[0145]s405,根据源数值xi 1和量化状态si确定奖励函数。[0146]根据源数值xi 1和量化状态si确定奖励函数的具体实施方式可以包括:在量化状态si下对源数值xi 1进行量化处理,得到量化值yi 1;基于映射函数对输入数据进行预测处理,得到源数值xi 2对应的量化状态si 1;根据量化值yi 1和量化状态si 1,重构得到源数值xi 1对应的重构数值x′i 1;基于源数值xi 1获取目标源序列,基于重构数值x′i 1获取目标重构序列以及基于量化值yi 1获取目标量化值序列;根据目标源序列、目标重构序列及目标量化值序列,确定奖励函数。其中,目标源序列包括x1、x2到xi 1共i 1个按序排列的源数值,目标重构序列包括x′1、x′2到x′i 1共i 1个按序排列的重构数值,目标量化值序列包括y1、y2到yi 1共i 1个按序排列的量化值。其中,根据目标源序列、目标重构序列及目标量化值序列,确定奖励函数的具体实施方式可以包括以下子步骤s41至子步骤s43:[0147]s41,计算目标源序列与目标重构序列之间的编码失真值。[0148]目标源序列x1,x2,…,xi 1与目标重构序列x′1,x′2,…,x′i 1之间的编码失真值可以采用lk(lk-norm)范式的平均值进行计算,目标源序列与目标重构序列之间的编码失真值的计算过程可参见下述公式1:[0149][0150]如上述公式1所示,di 1表示目标源序列与目标重构序列之间的编码失真值;xr表示目标源序列x1,x2,…,xi 1中的第r个源数值,r的取值范围为[1,i 1];x′r表示目标重构序列x′1,x′2,…,x′i 1中的第r个重构数值,r的取值范围为[1,i 1];||xr-x′r||k表示目标源序列与目标重构序列之间的lk范数,k为正整数;表示目标源序列与目标重构序列之间的lk范数的平均值。[0151]s42,计算目标量化值序列的编码比特消耗值。[0152]目标量化值序列包括y1,y2,…,yi 1的编码比特消耗值可以使用熵编码的方式进行计算,目标量化值序列的编码比特消耗值的计算过程可参见下述公式2:[0153][0154]如上述公式2所示,ri 1表示目标量化值序列的编码比特消耗值;yr表示目标量化值序列y1,y2,…,yi 1中的第r个量化值,r的取值范围为[1,i 1];p(yr)表示量化值yr在目标量化值序列y1,y2,…,yi 1中出现的概率。[0155]s43,根据编码失真值和编码比特消耗值确定奖励函数。[0156]根据编码失真值和编码比特消耗值确定奖励函数的计算过程可参见下述公[0157]式3:[0158][0159]如上述公式3所示,表示从映射表中选择的目标动作;yi表示历史量化值序列yi-(m-1),...,yi;si-1表示历史量化状态序列si-n,...,si-1;表示源数值xi对应的奖励函数;di 1表示目标源序列与目标重构序列之间的编码失真值;ri 1表示目标量化值序列的编码比特消耗值;λ表示奖励参数,λ的取值范围为[0,1]。[0160]由于编码失真值di 1和编码比特消耗值ri 1与源数值xi紧密相关,可能会造成源数值xi的大小对奖励函数的影响过大,从而影响到对映射函数的更新过程。为此,可以获取量化值yi的所有量化状态对应的量化位置,并计算量化值yi的所有量化状态对应的量化位置中各个量化位置的率失真损失;量化值yi的所有量化状态是指映射函数包含的n个量化状态(例如,可以是指图2所示的量化状态a、量化状态b、量化状态c和量化状态d);若量化值yi的量化位置的率失真损失为各个量化位置的率失真损失中的最小值,则将奖励函数赋值为第一数值(例如可以是1);若量化值yi的量化位置的率失真损失不是各个量化位置的率失真损失中的最小值,则将奖励函数赋值为第二数值(例如可以是0)。通过这种方式,能够有效解决源数值xi的大小对奖励函数造成的影响。[0161]s406,根据奖励函数对映射函数进行更新,以训练状态预测器。[0162]根据奖励函数对映射函数进行更新可以是指:根据源数值xi对应的奖励函数对源数值xi对应的映射表qt-1进行更新,得到源数值xi 1对应的映射表qt。根据奖励函数对映射函数进行更新的计算过程可以参见下述公式4:[0163][0164]如上述公式4,表示从映射表中选择的目标动作;yi表示历史量化值序列yi-(m-1),...,yi;si-1表示历史量化状态序列si-n,...,si-1;表示源数值xi 1对应的映射表qt;表示源数值xi对应的映射表qt-1;表示源数值xi对应的奖励函数;yi 1表示源数值xi 1对应的历史量化值序列yi-(m-1),...,yi,yi 1;si表示源数值xi 1对应的历史量化状态序列si-n,...,si-1,si;maxjqt-1(a(i 1)j,yi 1,si)表示将源数值xi 1对应的历史量化值序列yi 1和源数值xi 1对应的历史量化状态序列si输入映射表qt-1后对j个动作的奖励值进行计算后得到的最大奖励值;超参数α表示学习率(learningrate),学习率可以影响训练过程中的收敛速度,α越大,收敛速度越快,α越小,收敛速度越慢,α为大于0的实数;超参数γ表示折扣因子(discountrate),γ的取值范围为[0,1],折扣因子决定了对长期回报和短期回报的权重,折扣因子越小,maxjqt-1(a(i 1)j,yi 1,si)对映射表qt-1更新时的影响因素越小,对长期回报的权重越小。[0165]需要说明的是,本技术实施例中对状态预测器的训练过程是针对源数值xi而言的,也就是说,本技术实施例重点描述了对状态预测器的一次训练过程,在实际训练过程中,需要针对源序列x中的每一个源数值进行一次训练,或者还可以针对多个源序列中的各个源数值进行迭代训练,使得状态预测器的训练过程更加稳定,提升状态预测器的训练效果。[0166]本技术实施例中,可以基于状态预测器的映射函数对输入数据(包括源数值xi对应的历史量化值序列和源数值xi对应的历史量化状态序列)进行自动预测处理,得到源数值xi 1对应的量化状态si,从而可以根据源数值xi 1和量化状态si更新映射函数,以训练状态预测器;训练得到的状态预测器能够支持多个量化状态,并且多个量化状态之间能够自动预测转换,有效降低了状态预测器的设计成本。此外,选择映射表中的最大奖励值对应的目标动作,从而将目标动作对应的量化状态确定为量化状态si,通过选择最大奖励值对应的目标动作,能够达到最佳量化性能。另外,通过判断量化值的量化位置的率失真损失是否为量化值的所有量化状态对应的量化位置的最小率失真损失,可以为奖励函数赋予不同的数值,能够有效解决源数值xi的大小对奖励函数造成的影响,提升训练准确率。[0167]请参见图5,图5示出了本技术另一个示例性实施例提供的一种多媒体的量化处理方法的流程示意图,该多媒体的量化处理方法可以由编码设备执行,编码设备中设有状态预测器,状态预测器可以采用图3和图4所示实施例训练得到;编码设备可以是智能终端或服务器;该多媒体的量化处理方法可以包括以下步骤s501至步骤s505:[0168]s501,获取第一源序列。[0169]第一源序列是对待量化的第一多媒体数据进行采样得到的,第一源序列可以包括按序排列的多个源数值。[0170]s502,从第一源序列中选取源数值zi。[0171]源数值zi是第一源序列中的第i个源数值,i为正整数。[0172]s503,在量化状态wi-1下对源数值zi进行量化处理得到量化值gi及预测的量化状态wi。[0173]在量化状态wi-1下对所源数值zi进行量化处理得到量化值gi及预测的量化状态wi可以包括:在量化状态wi-1下对源数值zi进行键值计算得到量化值gi;以及调用状态预测器预测得到源数值zi 1对应的量化状态wi。[0174]状态预测器预测得到源数值zi 1对应的量化状态wi的过程可以包括:获取第一输入数据,第一输入数据可以包括源数值zi对应的历史量化值序列和源数值zi对应的历史量化值状态;获取状态预测器的第一映射函数,该第一映射函数与源数值zi对应;基于第一映射函数对第一输入数据进行预测处理,得到源数值zi 1对应的量化状态wi。上述过程与图3、图4所示实施例中预测源数值xi 1对应的量化状态si的过程具有相同的执行逻辑,可参见图3、图4所示实施例的描述,在此不再赘述。[0175]s504,依次从第一源序列中选取位于源数值zi之后的各个源数值进行量化处理,直至第一源序列中的所有源数值均完成量化处理为止。[0176]需要说明的是,对第一源序列中的每个源数值的量化处理过程与对第一源序列z中的源数值zi的量化处理过程相同。[0177]s505,根据第一源序列中所有源数值的量化值,生成第一量化值序列。[0178]本技术实施例中,当获取到第一源序列之后,可以对第一源序列中的每个源数值进行量化处理;以第一源序列中的源数值zi为例,对源数值zi的量化过程可以包括:在量化状态wi-1下对源数值zi进行键值计算得到量化值gi,以及调用状态预测器预测得到源数值zi 1对应的量化状态wi;其中,源数值zi是第一源序列中的第i个源数值,i为正整数,第一源序列对待量化的第一多媒体数据进行采样得到的;从而对第一源序列中的每个源数值进行量化处理后,可以根据第一源序列中所有源数值的量化值生成第一量化值序列。状态预测器支持任意数量的量化状态之间的自动转换,可以提升对第一源序列的量化性能,从而有效提升对第一多媒体数据进行编码时的编码性能。[0179]请参见图6,图6示出了本技术另一个示例性实施例提供的一种多媒体的量化处理方法的流程示意图,该多媒体的量化处理方法可以由解码设备执行,解码设备中设有状态预测器,状态预测器可以采用图3和图4所示实施例训练得到;编码设备可以是智能终端或服务器;该多媒体的量化处理方法可以包括以下步骤s601至步骤s605:[0180]s601,获取第一源序列对应的第一量化值序列。[0181]第一源序列是对待量化的第一多媒体数据进行采样得到的,第一源序列可以包括按序排列的多个源数值。第一量化值序列包括对第一源序列中的多个源数值分别进行量化处理得到的多个量化值;对第一源序列中的每个源数值进行量化处理的过程可以参见图5所示实施例的描述。[0182]s602,从第一量化值序列中选取量化值gi。[0183]量化值gi是第一量化值序列中的第i个量化值,量化值gi是对第一源序列中的源数值zi进行键值计算得到的,i为正整数。[0184]s603,对量化值gi进行反量化处理得到重构数值z′i。[0185]对量化值gi进行反量化处理得到重构数值z′i的过程可以包括:基于量化值gi调用状态预测器预测得到量化状态wi;以及根据量化状态wi对量化值gi进行重构处理,得到量化值gi对应的重构数值z′i。[0186]基于量化值gi调用状态预测器预测得到量化状态wi的过程可以包括:获取第一输入数据,第一输入数据可以包括源数值zi对应的历史量化值序列和源数值zi对应的历史量化值状态;获取状态预测器的第一映射函数,该第一映射函数与源数值zi对应;基于第一映射函数对第一输入数据进行预测处理,得到源数值zi 1对应的量化状态wi。上述过程与图3、图4所示实施例中预测源数值xi 1对应的量化状态si的过程具有相同的执行逻辑,可参见图3、图4所示实施例的描述,在此不再赘述。[0187]s604,依次从第一量化值序列中选取位于量化值gi之后的各个量化值进行反量化处理,直至第一量化值序列的所有量化值均完成反量化处理为止。[0188]需要说明的是,对第一量化值序列中的每个量化值进行反量化处理的过程与对量化值gi进行反量化处理的过程相同。[0189]s605,根据反量化处理得到的所有重构数值,生成第一重构序列。[0190]本技术实施中,当获取到第一源序列对应的第一量化值序列之后,可以对第一量化值序列中的每个量化值进行反量化处理,以第一量化值序列中的量化值gi为例,对量化值gi的反量化过程可以包括:基于量化值gi调用状态预测器预测得到量化状态wi,以及根据量化状态wi对量化值gi进行重构处理,得到量化值gi对应的重构数值z′i;其中,量化值gi是第一量化值序列中的第i个量化值,量化值gi是对第一源序列中的源数值zi进行键值计算得到的,i为正整数;从而对第一量化值序列中的每个量化值进行反量化处理后,可以根据所有反量化处理得到的重构数值生成第一重构序列。状态预测器支持任意数量的量化状态之间的自动转换,可以提升解码过程中对第一量化值序列的反量化性能,从而有效提升解码性能。[0191]请参见图7,图7示出了本技术一个示例性实施例提供的一种智能体的结构示意图,如图7所示,智能体70可以包括以下七个模块:计算键值(computekey)模块701、状态预测(stateprediction)模块702,重构输入(recoverinput)模块703、计算失真(computedistortion)模块704、计算码率(computerate)模块705、计算奖励(computereward)模块706以及更新状态预测模块(updatestatepredictormodule)707。智能体70可以是智能终端或服务器等等,智能体70用于对状态预测器进行训练,智能体70对状态预测器进行训练的过程可参见图8所示实施例的描述。[0192]请参见图8,图8示出了本技术一个示例性实施例提供的一种智能体的训练过程的流程示意图,如图8所示,计算键值模块701中可以包括键值生成器,重构输入模块703中可以包括输入重构器,状态预测模块702可以包括状态预测器(statepredictor)。如图8所示,七个模块共同参与的训练过程如下:[0193](1)计算键值模块701可以调用键值生成器对源数值xi进行键值计算,得到源数值xi的量化值yi。在一种实现方式中,键值生成器可以由多个量化器组成,计算键值模块701可以根据源数值xi对应的量化状态si-1,确定对源数值xi进行键值计算时采用的量化器,并根据确定的量化器对源数值xi进行键值计算,得到源数值xi的量化值yi。其中,源数值xi是源序列x中的第i个源数值;源序列x是对多媒体数据进行采样得到的,源序列x中包含多个按序排列的源数值,源序列x是计算键值模块701的输入序列。[0194]计算键值模块701还可以在量化状态si下对源数值xi 1进行量化处理,得到量化值yi 1;即计算键值模块701可以调用键值生成器对源数值xi 1进行键值计算,得到源数值xi 1的量化值yi 1。[0195](2)状态预测模块702可以获取状态预测器的输入数据和状态预测器的映射函数,并基于映射函数对输入数据进行预测处理,得到源数值xi 1对应的量化状态si。其中,输入数据可以包括源数值xi对应的历史量化值序列和源数值xi对应的历史量化状态序列;历史量化值序列中包含yi-(m-1)、yi-(m-2)至yi共m个按序排列的量化值,量化值yi是在量化状态si-1下对源数值xi进行键值计算得到的;量化值yi之前的m-1个量化值是对源序列x中位于源数值xi之前的m-1个源数值依次进行键值计算得到的,m为正整数;历史量化状态序列包含si-n、si-(n-1)至si-1共n个按序排列的量化状态,量化状态si-1之前的n-1个量化状态是指对m-1个源数值进行键值计算时对应的状态,n为正整数。映射函数以用于表示n个量化状态与j个动作之间的映射关系,n、j均为正整数,n的取值可以由输入数据中的m和n确定;j个动作中的任一个动作用于表示从n个量化状态中选取一个量化状态作为源序列x中的源数值xi 1对应的量化状态的操作。[0196]状态预测模块702还可以基于映射函数对输入数据进行预测处理,得到源数值xi 2对应的量化状态si 1。[0197](3)重构输入模块703可以调用输入重构器对量化值yi进行重构处理,得到源数值xi的重构数值x′i。在一种实现方式中,输入重构器可以由多个量化器组成,重构输入模块703可以根据源数值xi 1对应的量化状态si(即量化值yi对应的量化状态si),确定对量化值yi进行重构处理的量化器,并根据确定得到的量化器对量化值yi进行重构处理,得到源数值xi的重构数值x′i。[0198]重构输入模块703还可以根据量化值yi 1和量化状态si 1,重构得到源数值xi 1对应的重构数值x′i 1。即重构输入模块703可以调用输入重构器对量化值yi 1进行重构处理,得到源数值xi 1的重构数值x′i 1。[0199](4)计算失真模块704可以基于源数值xi 1获取目标源序列,基于重构数值x′i 1获取目标重构序列,并计算目标源序列与目标重构序列之间的编码失真值di 1。其中,目标源序列包括x1、x2到xi 1共i 1个按序排列的源数值,目标重构序列包括x′1、x′2到x′i 1共i 1个按序排列的重构数值。[0200](5)计算码率模块705可以基于量化值yi 1获取目标量化值序列,并计算目标量化值序列的编码比特消耗值ri 1。其中,目标量化值序列包括y1、y2到yi 1共i 1个按序排列的量化值。[0201](6)计算奖励模块706可以根据编码失真值di 1和编码比特消耗值ri 1计算奖励函数[0202](7)更新状态预测模块707可以根据奖励函数对状态预测器的映射函数进行更新,以训练状态预测器。从而状态预测模块702可以根据更新后的映射函数对源序列x中的源数值xi 1进行预测处理。[0203]需要说明的是,本技术实施例中的训练过程是针对源数值xi而言的,也就是说,本技术实施例重点描述了一次训练过程,在实际训练过程中,需要针对源序列x中的每一个源数值进行一次训练,或者还可以针对多个源序列中的各个源数值进行训练,使得训练过程更加稳定,提升训练效果。本技术实施例中各个模块的详细训练过程可参见上述图3、图4所示实施例的描述。[0204]本技术实施例中,可以基于状态预测器的映射函数对输入数据(包括源数值xi对应的历史量化值序列和源数值xi对应的历史量化状态序列)进行自动预测处理,得到源数值xi 1对应的量化状态si,从而可以根据源数值xi 1和量化状态si更新映射函数,以训练状态预测器,i为正整数;其中,历史量化值序列包括yi-(m-1)、yi-(m-2)至yi共m个按序排列的量化值,量化值yi是在量化状态si-1下对源数值xi进行键值计算得到的,量化值yi之前的m-1个量化值是对源序列x中位于源数值xi之前的m-1个源数值依次进行键值计算得到的,m为正整数;历史量化状态序列包含si-n、si-(n-1)至si-1共n个按序排列的量化状态,量化状态si-1之前的n-1个量化状态是指对m-1个源数值进行键值计算时对应的状态,n为正整数;此外,映射函数中的j个动作中的任一个动作用于表示从n个量化状态中选取一个量化状态作为源序列x中的源数值xi 1对应的量化状态的操作,即量化状态si是在状态预测过程中基于输入数据从n个量化状态中自动选取的一个量化状态。由此可见,本技术实施例训练得到的状态预测器能够支持多个量化状态,并且多个量化状态之间能够自动预测转换,有效降低了状态预测器的设计成本。[0205]请参见图9,图9示出了本技术一个示例性实施例提供的一种编码设备的结构示意图,如图9所示,编码设备90可以包括计算键值模块901和状态预测模块902。编码设备90可以是智能终端或服务器,编码设备90可以用于对源数值进行量化处理,编码设备90对源数值进行量化处理的过程可参见图10所示实施例的描述。[0206]请参见图10,图10示出了本技术一个示例性实施例提供的一种编码设备的量化过程的流程示意图,如图10所示,计算键值模块901中可以包括键值生成器,状态预测模块902可以包括状态预测器,状态预测模块902中的状态预测器是采用图3、图4所示实施例中的多媒体的量化处理方法训练得到的。如图10所示,计算键值模块901和状态预测模块902共同参与的量化过程如下:[0207](1)计算键值模块901可以调用键值生成器对源数值zi进行键值计算,得到源数值zi的量化值gi。在一种实现方式中,键值生成器可以由多个量化器组成,计算键值模块801可以根据源数值zi的量化状态wi-1确定源数值zi进行键值计算的量化器,并根据确定得到的量化器对源数值zi进行键值计算,得到源数值zi的量化值gi。其中,源数值zi是第一源序列中的第i个源数值,i为正整数;第一源序列是对待量化的第一多媒体数据进行采样得到的,第一源序列可以包括按序排列的多个源数值。[0208](2)状态预测模块902可以调用状态预测器预测得到源数值zi 1对应的量化状态wi。状态预测模块802调用状态预测器预测得到源数值zi 1对应的量化状态wi的过程可以包括:获取第一输入数据,第一输入数据可以包括源数值zi对应的历史量化值序列和源数值zi对应的历史量化值状态;获取状态预测器的第一映射函数,该第一映射函数与源数值zi对应;基于第一映射函数对第一输入数据进行预测处理,得到源数值zi 1对应的量化状态wi。[0209](3)计算键值模块901和状态预测模块902依次从第一源序列中选取位于源数值zi之后的各个源数值进行量化处理,直至第一源序列中的所有源数值均完成量化处理为止,并根据第一源序列中所有源数值的量化值,生成第一量化值序列。需要说明的是,对第一源序列中的每个源数值的量化处理过程与对第一源序列z中的源数值zi的量化处理过程相同。本技术实施例中各个模块的详细量化过程可参见上述图5所示实施例的描述。[0210]本技术实施例中,当获取到第一源序列之后,可以对第一源序列中的每个源数值进行量化处理;以第一源序列中的源数值zi为例,对源数值zi的量化过程可以包括:在量化状态wi-1下对源数值zi进行键值计算得到量化值gi,以及调用状态预测器预测得到源数值zi 1对应的量化状态wi;其中,源数值zi是第一源序列中的第i个源数值,i为正整数,第一源序列是对待量化的第一多媒体数据进行采样得到的;从而对第一源序列中的每个源数值进行量化处理后,可以根据第一源序列中所有源数值的量化值生成第一量化值序列。状态预测器支持任意数量的量化状态之间的自动转换,可以提升对第一源序列的量化性能,从而有效提升对第一多媒体数据进行编码时的编码性能。[0211]请参见图11,图11示出了本技术一个示例性实施例提供的一种解码设备的结构示意图,如图11所示,解码设备110包括状态预测模块1101、重构输入模块1102。解码设备110可以是智能终端或服务器,解码设备110可以用于对量化值进行反量化处理,解码设备110对量化值进行反量化处理的过程可参见图12所示实施例的描述。[0212]请参见图12,图12示出了本技术一个示例性实施例提供的一种解码设备的反量化过程的流程示意图,如图12所示,重构输入模块1102可以包括输入重构器;状态预测模块1101可以包括状态预测器,状态预测模块1101中的状态预测器是采用图3、图4所示实施例中的多媒体的量化处理方法训练得到的。如图12所示,状态预测模块1101、重构输入模块1102共同参与的反量化过程如下:[0213](1)状态预测模块1101可以基于量化值gi调用状态预测器预测得到量化状态wi。其中,量化值gi是第一量化值序列中的第i个量化值,量化值gi是对第一源序列中的源数值zi进行键值计算得到的,i为正整数;第一源序列是对待量化的第一多媒体数据进行采样得到的,第一源序列可以包括按序排列的多个源数值。第一量化值序列包括对第一源序列中的多个源数值分别进行量化处理得到的多个量化值。[0214]状态预测模块1101基于量化值gi调用状态预测器预测得到量化状态wi的过程可以为:获取第一输入数据,第一输入数据可以包括源数值zi对应的历史量化值序列和源数值zi对应的历史量化值状态;获取状态预测器的第一映射函数,该第一映射函数与源数值zi对应;基于第一映射函数对第一输入数据进行预测处理,得到源数值zi 1对应的量化状态wi。[0215](2)重构输入模块1102可以调用输入重构器对量化值gi进行重构处理,得到源数值zi的重构数值z′i。在一种实现方式中,输入重构器可以由多个量化器组成,重构输入模块1102可以根据源数值zi 1对应的量化状态wi(即量化值gi对应的量化状态wi),确定对量化值gi进行重构处理的量化器,并根据确定得到的量化器对量化值gi进行重构处理,得到源数值zi的重构数值z′i。[0216](3)状态预测模块1101和重构输入模块1102依次从第一量化值序列中选取位于量化值gi之后的各个量化值进行反量化处理,直至第一量化值序列的所有量化值均完成反量化处理为止,并根据反量化处理得到的所有重构数值,生成第一重构序列。需要说明的是,对第一量化值序列中的每个量化值进行反量化处理的过程与对量化值gi进行反量化处理的过程相同。本技术实施例中各个模块的详细训练过程可参见上述图6所示实施例的描述。[0217]本技术实施例中,当获取到第一源序列对应的第一量化值序列之后,可以对第一量化值序列中的每个量化值进行反量化处理,以第一量化值序列中的量化值gi为例,对量化值gi的反量化过程可以包括:基于量化值gi调用状态预测器预测得到量化状态wi,以及根据量化状态wi对量化值gi进行重构处理,得到量化值gi对应的重构数值z′i;其中,量化值gi是第一量化值序列中的第i个量化值,量化值gi是对第一源序列中的源数值zi进行键值计算得到的,源数值zi是第一源序列中的第i个源数值,i为正整数;从而对第一量化值序列中的每个量化值进行反量化处理后,可以根据所有反量化处理得到的重构数值生成第一重构序列。状态预测器支持任意数量的量化状态之间的自动转换,可以提升解码过程中对第一量化值序列的反量化性能,从而有效提升解码性能。[0218]请参见图13,图13示出了本技术一个示例性实施例提供的一种多媒体的量化处理装置的结构示意图。多媒体的量化处理装置130可以设置于智能体中,该多媒体的量化处理装置130可以用于执行图3、图4所示的方法实施例中的相应步骤,该多媒体的量化处理装置130可以包括如下单元:[0219]获取单元1301,用于获取状态预测器的输入数据;其中,输入数据包括源数值xi对应的历史量化值序列和历史量化状态序列;源数值xi是源序列x中的第i个源数值,i为正整数;源序列x是对多媒体数据进行采样得到的;历史量化值序列中包含yi-(m-1)、yi-(m-2)至yi共m个按序排列的量化值,量化值yi是在量化状态si-1下对源数值xi进行键值计算得到的;量化值yi之前的m-1个量化值是对源序列x中位于源数值xi之前的m-1个源数值依次进行键值计算得到的,m为正整数;历史量化状态序列包含si-n、si-(n-1)至si-1共n个按序排列的量化状态,量化状态si-1之前的n-1个量化状态是指对m-1个源数值进行键值计算时对应的量化状态,n为正整数;[0220]获取单元1301,还用于获取状态预测器的映射函数,映射函数用于表示n个量化状态与j个动作之间的映射关系;n、j均为正整数,n的取值由输入数据中的m和n确定;j个动作中的任一个动作用于表示从n个量化状态中选取一个量化状态作为源序列x中的源数值xi 1对应的量化状态的操作;[0221]处理单元1302,用于基于映射函数对输入数据进行预测处理,得到源数值xi 1对应的量化状态si;[0222]处理单元1302,还用于根据源数值xi 1和量化状态si更新映射函数,以训练状态预测器。[0223]在一种实现方式中,映射函数采用映射表表示;映射表包含n行j列,映射表的第p行表示n个量化状态中的任一个,p为正整数且p≤n;映射表的第j列表示j个动作中的任一个,j为正整数且j≤j;第p行与第j列相交的表格项包括在第p行的量化状态下执行第j列的动作aij时能够获得的奖励值vjp;处理单元1302,具体用于:[0224]基于输入数据确定映射表;[0225]按照预测算法从映射表中选择量化状态si。[0226]在一种实现方式中,预测算法包括贪婪算法;处理单元1302,具体用于:[0227]按照第一贪婪概率从映射表中随机选择目标动作;或者,按照第二贪婪概率从映射表中选择最大奖励值对应的目标动作;[0228]将目标动作对应的量化状态确定为量化状态si;[0229]其中,第一贪婪概率的取值范围为[0,1],第二贪婪概率的取值范围为[0,1],并且第一贪婪概率与第二贪婪概率之和为1。[0230]在一种实现方式中,处理单元1302,具体用于:[0231]在量化状态si下对源数值xi 1进行量化处理,得到量化值yi 1;[0232]基于映射函数对输入数据进行预测处理,得到源数值xi 2对应的量化状态si 1;[0233]根据量化值yi 1和量化状态si 1,重构得到源数值xi 1对应的重构数值x′i 1;[0234]基于源数值xi 1获取目标源序列,基于重构数值x′i 1获取目标重构序列以及基于量化值yi 1获取目标量化值序列;其中,目标源序列包括x1、x2到xi 1共i 1个按序排列的源数值,目标重构序列包括x′1、x′2到x′i 1共i 1个按序排列的重构数值,目标量化值序列包括y1、y2到yi 1共i 1个按序排列的量化值;[0235]根据目标源序列、目标重构序列及目标量化值序列,确定奖励函数;[0236]根据奖励函数对映射函数进行更新。[0237]在一种实现方式中,处理单元1302,具体用于:[0238]计算目标源序列与目标重构序列之间的编码失真值;以及,[0239]计算目标量化值序列的编码比特消耗值;[0240]根据编码失真值和编码比特消耗值确定奖励函数。[0241]在一种实现方式中,处理单元1302,还用于:[0242]获取n个量化状态中的每个量化状态对应的量化位置;[0243]计算各个量化位置的率失真损失;[0244]若量化值yi的量化位置的率失真损失为各个量化位置的率失真损失中的最小值,则将奖励函数赋值为第一数值;[0245]若量化值yi的量化位置的率失真损失不是各个量化位置的率失真损失中的最小值,则将奖励函数赋值为第二数值。[0246]在一种实现方式中,处理单元1302,还用于:获取历史量化值序列的替代序列,并根据替代序列对输入数据进行替代;[0247]处理单元1302,具体用于:基于映射函数对替代后的输入数据进行预测处理,得到源数值xi 1对应的量化状态si。[0248]在一种实现方式中,处理单元1302,具体用于:[0249]若量化值yi是奇数,则确定量化值yi的奇偶性替代值为第三数值;[0250]若量化值yi是偶数,则确定量化值yi的奇偶性替代值为第四数值;[0251]根据历史量化值序列中的各个量化值的奇偶性替代值,生成替代序列;[0252]采用替代序列对输入数据中的历史量化值序列进行替代。[0253]在一种实现方式中,当n的取值为1且m》1时,获取单元1301,具体用于:[0254]获取历史量化值序列和历史量化状态序列;[0255]将历史量化值序列包含的m个量化值中的每个量化值与历史量化状态序列中的量化状态si-1进行组合,得到m个输入组合,每个输入组合由量化状态si-1和历史量化值序列中的一个量化值构成;[0256]对m个输入组合进行堆叠形成输入矩阵。[0257]在一种实现方式中,当m=n时,获取单元1301,具体用于:[0258]获取历史量化值序列和历史量化状态序列;[0259]将历史量化值序列包含的m个量化值中的每个量化值与历史量化状态序列包含的m个量化状态中的每个量化状态进行按序组合,得到m个输入组合,每个输入组合由历史量化值序列中的一个量化值和历史量化状态序列中的一个量化状态构成;[0260]对m个输入组合进行堆叠形成输入矩阵。[0261]根据本技术的一个实施例,图13所示的多媒体的量化处理装置130中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本技术的其它实施例中,该多媒体的量化处理装置130也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本技术的另一个实施例,可以通过在包括例如中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的通用计算设备上运行能够执行如图3、图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图13中所示的多媒体的量化处理装置130,以及来实现本技术实施例的多媒体的量化处理方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。[0262]本技术实施例中,可以基于状态预测器的映射函数对输入数据(包括源数值xi对应的历史量化值序列和源数值xi对应的历史量化状态序列)进行自动预测处理,得到源数值xi 1对应的量化状态si,从而可以根据源数值xi 1和量化状态si更新映射函数,以训练状态预测器,i为正整数;其中,历史量化值序列包括yi-(m-1)、yi-(m-2)至yi共m个按序排列的量化值,量化值yi是在量化状态si-1下对源数值xi进行键值计算得到的,量化值yi之前的m-1个量化值是对源序列x中位于源数值xi之前的m-1个源数值依次进行键值计算得到的,m为正整数;历史量化状态序列包含si-n、si-(n-1)至si-1共n个按序排列的量化状态,量化状态si-1之前的n-1个量化状态是指对m-1个源数值进行键值计算时对应的状态,n为正整数;此外,映射函数中的j个动作中的任一个动作用于表示从n个量化状态中选取一个量化状态作为源序列x中的源数值xi 1对应的量化状态的操作,即量化状态si是在状态预测过程中基于输入数据从n个量化状态中自动选取的一个量化状态。由此可见,本技术实施例训练得到的状态预测器能够支持多个量化状态,并且多个量化状态之间能够自动预测转换,有效降低了状态预测器的设计成本。[0263]本技术实施例还提供了一种计算机可读存储介质(memory),该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备(例如可以是智能体)的处理器读取并执行时,使得计算机设备执行上述的多媒体的量化处理方法。上述计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;上述计算机可读存储介质还可以包括但不限于快闪存储器(flashmemory),硬盘(harddiskdrive,hdd),固态硬盘(solid-statedrive,ssd)。[0264]根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选方式中提供的多媒体的量化处理方法。[0265]以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献