预测模型的训练方法和装置及率失真代价计算方法和装置与流程

2022-03-23 08:59:02 来源：中国专利 TAG：

1.本公开涉及视频编解码领域，尤其涉及一种预测模型的训练方法和装置及率失真代价计算方法和装置。

背景技术：

2.视频编码标准中使用率失真优化方法对视频进行编码。对于率失真代价计算，相关技术中，使用基于视频多方法评估融合(video multimethod assessment fusion，vmaf)的方法，或者是使用卷积神经网络预测
△
v的方法，但是，这些方法会使得计算时间过长，或使得计算复杂度较高。

技术实现要素：

3.本公开提供一种预测模型的训练方法和装置及率失真代价计算方法和装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。本公开的技术方案如下：
4.根据本公开实施例的第一方面，提供一种预测模型的训练方法，包括：获取训练数据集，其中，所述训练数据集包括至少一个视频中的每一编码树单元ctu的特征信息和每一ctu的第一相关系数与第二相关系数的真实比值，所述第一相关系数表征ctu级别的第一客观评价指标与第二客观评价指标之间的相关性，所述第二相关系数表征帧级别的第一客观评价指标与第二客观评价指标之间的相关性；将所述每一ctu的特征信息输入预测模型，得到所述每一ctu的第一相关系数与第二相关系数的预测比值；根据所述每一ctu的第一相关系数与第二相关系数的真实比值和预测比值，确定所述预测模型的损失值；通过根据所述损失值调整所述预测模型的参数，对所述预测模型进行训练。
5.可选地，所述至少一个视频中的每一视频的每一ctu的第一相关系数，通过下述步骤获取：获取所述每一视频的恒定速率因子crf列表；根据crf列表，对所述每一ctu进行编码，得到所述每一ctu的第一相关系数。
6.可选地，所述获取所述每一视频的恒定速率因子crf列表，包括：获取所述每一视频的初始crf列表，其中，所述初始crf列表包括至少一个crf，所述至少一个crf以数值从小到大的顺序依次排列；在所述初始crf列表中确定初始基准crf；根据所述初始基准crf，在所述初始crf列表中确定第一子集，其中，所述第一子集包括所述初始基准crf以及所述初始基准crf之后的预设个数的crf；从所述第一子集中确定基准crf；根据所述基准crf，获取所述crf列表。
7.可选地，所述从所述第一子集中确定基准crf，包括：以所述第一子集中的crf的排布顺序，顺次使用所述第一子集中的crf进行编码得到所述每一视频中的每一帧的第一客观评价指标；将满足预定条件时使用的crf作为基准crf，其中，当超过预设数量的帧的第一客观评价指标处于第一预设数值区间时，确定所述预定条件被满足；若使用所述第一子集中的crf进行编码得到所述每一视频中的每一帧的第一客观评价指标均不满足所述预定条件，则将所述第一子集中的最后一个crf作为基准crf。
8.可选地，所述根据所述基准crf，获取所述crf列表，包括：在所述初始crf列表中，获取第二预设数值区间内的所有crf，其中，所述第二预设数值区间根据所述基准crf和第一预设值的差值以及所述基准crf和第二预设值的和值确定；根据所述第二预设数值区间内的所有crf，得到所述每一视频的crf列表，其中，所述crf列表包括所述基准crf和至少一个常规crf。
9.可选地，所述根据crf列表，对所述每一ctu进行编码，得到所述每一ctu的第一相关系数，包括：根据所述基准crf，对所述每一ctu进行编码，得到所述每一ctu的基准第一客观评价指标和基准第二客观评价指标；根据所述至少一个常规crf，对所述每一ctu进行编码，得到所述每一ctu的至少一个常规第一客观评价指标和至少一个常规第二客观评价指标；根据所述基准第一客观评价指标、所述基准第二客观评价指标、所述至少一个常规第一客观评价指标和所述至少一个常规第二客观评价指标，通过最小二乘法得到所述每一ctu的第一相关系数。
10.可选地，所述至少一个视频中的每一视频的每一帧的第二相关系数，通过下述步骤获取：根据每一ctu的第一相关系数与第三预设值的大小关系，确定第一类ctu和第二类ctu，其中，第一类ctu的第一相关系数小于或者等于所述第三预设值，第二类ctu的第一相关系数大于所述第三预设值；根据所述第二类ctu的第一相关系数，得到所述每一帧的第二相关系数。
11.根据本公开实施例的第二方面，提供一种率失真代价计算方法，包括：获取预编码帧的每一ctu的特征信息；将所述预编码帧的每一ctu的特征信息输入本公开的预测模型的训练方法训练好的预测模型中，得到预编码帧的每一ctu的第一相关系数与第二相关系数的预测比值；根据预测比值计算每一ctu的率失真代价。
12.根据本公开实施例的第三方面，提供一种预测模型的训练装置，包括：获取单元，被配置为：获取训练数据集，其中，所述训练数据集包括至少一个视频中的每一编码树单元ctu的特征信息和每一ctu的第一相关系数与第二相关系数的真实比值，所述第一相关系数表征ctu级别的第一客观评价指标与第二客观评价指标之间的相关性，所述第二相关系数表征帧级别的第一客观评价指标与第二客观评价指标之间的相关性；预测单元，被配置为：将所述每一ctu的特征信息输入预测模型，得到所述每一ctu的第一相关系数与第二相关系数的预测比值；损失确定单元，被配置为：根据所述每一ctu的第一相关系数与第二相关系数的真实比值和预测比值，确定所述预测模型的损失值；调整单元，被配置为：通过根据所述损失值调整所述预测模型的参数，对所述预测模型进行训练。
13.可选地，获取单元被配置为：获取所述每一视频的恒定速率因子crf列表；根据crf列表，对所述每一ctu进行编码，得到所述每一ctu的第一相关系数。
14.可选地，获取单元被配置为：获取所述每一视频的初始crf列表，其中，所述初始crf列表包括至少一个crf，所述至少一个crf以数值从小到大的顺序依次排列；在所述初始crf列表中确定初始基准crf；根据所述初始基准crf，在所述初始crf列表中确定第一子集，其中，所述第一子集包括所述初始基准crf以及所述初始基准crf之后的预设个数的crf；从所述第一子集中确定基准crf；根据所述基准crf，获取所述crf列表。
15.可选地，获取单元被配置为：以所述第一子集中的crf的排布顺序，顺次使用所述第一子集中的crf进行编码得到所述每一视频中的每一帧的第一客观评价指标；将满足预
定条件时使用的crf作为基准crf，其中，当超过预设数量的帧的第一客观评价指标处于第一预设数值区间时，确定所述预定条件被满足；若使用所述第一子集中的crf进行编码得到所述每一视频中的每一帧的第一客观评价指标均不满足所述预定条件，则将所述第一子集中的最后一个crf作为基准crf。
16.可选地，获取单元被配置为：在所述初始crf列表中，获取第二预设数值区间内的所有crf，其中，所述第二预设数值区间根据所述基准crf和第一预设值的差值以及所述基准crf和第二预设值的和值确定；根据所述第二预设数值区间内的所有crf，得到所述每一视频的crf列表，其中，所述crf列表包括所述基准crf和至少一个常规crf。
17.可选地，获取单元被配置为：根据所述基准crf，对所述每一ctu进行编码，得到所述每一ctu的基准第一客观评价指标和基准第二客观评价指标；根据所述至少一个常规crf，对所述每一ctu进行编码，得到所述每一ctu的至少一个常规第一客观评价指标和至少一个常规第二客观评价指标；根据所述基准第一客观评价指标、所述基准第二客观评价指标、所述至少一个常规第一客观评价指标和所述至少一个常规第二客观评价指标，通过最小二乘法得到所述每一ctu的第一相关系数。
18.可选地，获取单元被配置为：根据每一ctu的第一相关系数与第三预设值的大小关系，确定第一类ctu和第二类ctu，其中，第一类ctu的第一相关系数小于或者等于所述第三预设值，第二类ctu的第一相关系数大于所述第三预设值；根据所述第二类ctu的第一相关系数，得到所述每一帧的第二相关系数。
19.根据本公开实施例的第四方面，提供一种率失真代价计算装置，包括：获取单元，被配置为：获取预编码帧的每一ctu的特征信息；预测单元，被配置为：将所述预编码帧的每一ctu的特征信息输入本公开的预测模型的训练方法训练好的预测模型中，得到预编码帧的每一ctu的第一相关系数与第二相关系数的预测比值；计算单元，被配置为：根据预测比值计算每一ctu的率失真代价。
20.根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的预测模型的训练方法或率失真代价计算方法。
21.根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中存储的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的预测模型的训练方法或率失真代价计算方法。
22.根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的预测模型的训练方法或率失真代价计算方法。
23.本公开的实施例提供的技术方案至少带来以下有益效果：
24.根据本公开的预测模型的训练方法和装置及率失真代价计算方法和装置，通过以第一相关系数与第二相关系数的比值为目标训练预测模型，并将预测比值应用到了率失真代价的计算过程中，使得不用多次替换ctu计算vmaf也可以得到相关系数的比值，降低了计算时间复杂度，使得计算时间缩短。
25.另外，根据本公开的预测模型的训练方法和装置及率失真代价计算方法和装置，
将预测比值应用到了率失真代价的计算过程中，在编码时间复杂度增加不超过20％的同时能够降低bd-rate-vmaf的值，获得编码收益。
26.另外，根据本公开的预测模型的训练方法和装置及率失真代价计算方法和装置，可采用离线训练的方式进行预测模型的训练，避免了需要对每个网络都需要进行重新训练的过程。
27.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
28.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
29.图1是根据一示例性实施例示出的一种预测模型的训练方法的流程图。
30.图2是根据一示例性实施例示出的一种预测模型的结构示意图。
31.图3是根据一示例性实施例示出的一种率失真代价计算方法的流程图。
32.图4是根据一示例性实施例示出的一种预测模型的训练装置的框图。
33.图5是根据一示例性实施例示出的一种率失真代价计算装置的框图。
34.图6是根据一示例性实施例的电子设备600的框图。
具体实施方式
35.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
36.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
37.在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况：(1)包括a；(2)包括b；(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。
38.视频编码标准中使用率失真优化技术对视频进行编码。率失真优化技术需要对失真进行度量，目前广泛应用的计算方式为基于误差平方和(sum of square error，sse)进行计算。但是以sse对失真进行度量和主观质量相差较大。vmaf是目前主流的客观视频质量评估算法。但是由于vmaf只能整帧进行计算，无法对每个编码树单元(coding tree unit，ctu)进行计算，难以应用到视频编码的率失真优化当中。现有的基于vmaf的计算率失真代价的方法都需要对每一帧进行多次vmaf计算，时间复杂度很高，不能进行实时编码。
39.基于此，一相关技术中首先使用分块的局部拟合的方法研究了vmaf和sse的相关
性，通过逐块计算得到每个ctu的δvmaf和δsse的相关系数，再将相关系数进行处理离线应用到编码流程中。
40.首先对视频采用多个不同的量化参数(quantization parameter，qp)进行编码，将qp＝25作为基准qp，基准qp的预编码结果为基准重建，其余qp的预编码结果为常规重建。该方法则通过建立vmaf失真和sse的关系进行率失真代价计算。
41.例如，可通过下式(1)和(2)可以建立起基准/常规重建的v(vb/vr)的偏差(δv)与sse的近似线性关系：
42.v＝100-vmaf
ꢀꢀꢀ
(1)
[0043]vr
＝vb δv，δv≈ki*sse
i，r
ꢀꢀꢀ
(2)
[0044]
其中，v为vmaf失真，vmaf为vmaf分数，vr为常规重建的vmaf失真，vb为基准重建的vmaf失真，δv为vr和vb的偏差，ki为相关系数。
[0045]
相关系数建立了帧级感知失真和块级传统失真之间的联系，会在后续被用于率失真优化。通过假设δv由各编码块独立产生，各编码块的相关系数可以用下面的替换方法得到：推导第i个块的相关系数时，只有基准重建的对应块被常规重建中的同位置块替换，产生一个临时帧。此时，vr就是该临时帧的v，进而根据vb和sse得到对应的相关系数。通过对同一位置ctu的多次替换计算每个ctu的δvmaf和δsse，使用最小二乘法进行线性拟合，求出二者的相关系数(比值)。将拟合出的相关系数应用到率失真优化过程中，首先对拟合的相关系数进行数据处理，将相关系数为负数和0的值去除掉，并通过清洗后的相关系数计算出帧级别的λ和ctu级别的k，进行率失真代价的计算。
[0046]
但是，这种方法会在编码时，需要多次编码，每一次编码后都需要对每一帧的每个ctu进行替换，再逐次计算替换后的vmaf，再进行相关系数拟合，再应用到编码器中编码。对于分辨率为720x1280的序列，每帧需要计算220x4次vamf，时间过长，很难应用到实际的视频编码传输中。
[0047]
另一相关技术中使用在线训练卷积神经网络cnn来学习vmaf特性。由于sse在编码过程中可得到，因此cnn的主要任务是输出每个块的δv，δv的真实值由关键帧的基准重建和相邻qp点的单个基准重建通过块替换方法得到。cnn的输入是未编码的关键帧的编码块，为了快速收敛，cnn是由三个卷积层组成的简单网络。通过这种在线训练方式，后续帧的
△
v和相关系数可以由该cnn导出并用于率失真代价计算。但是，这种方法的时间复杂度较高。
[0048]
为了解决上述相关技术中存在的问题，本公开提出一种预测模型的训练方法和装置及率失真代价计算方法和装置，通过以第一相关系数与第二相关系数的比值为目标训练预测模型，并将预测比值应用到了率失真代价的计算过程中，使得不用多次替换ctu计算vmaf也可以得到相关系数的比值，降低了计算时间复杂度，使得计算时间缩短。
[0049]
下面，将参照图1至图6详细描述根据本公开的预测模型的训练方法和装置及率失真代价计算方法和装置。
[0050]
图1是根据一示例性实施例示出的一种预测模型的训练方法的流程图。参照图1，在步骤101，可获取训练数据集，其中，训练数据集包括至少一个视频中的每一编码树单元ctu的特征信息和每一ctu的第一相关系数与第二相关系数的真实比值，第一相关系数表征ctu级别的第一客观评价指标与第二客观评价指标之间的相关性，第二相关系数表征帧级别的第一客观评价指标与第二客观评价指标之间的相关性。
[0051]
根据本公开的示例性实施例，第一客观评价指标可以是vmaf，第二客观评价指标可以是sse。
[0052]
根据本公开的示例性实施例，特征信息可以是y分量的像素值、方差、边缘信息、梯度信息和运动信息中的任一种。
[0053]
根据本公开的示例性实施例，至少一个视频中的每一视频的每一ctu的第一相关系数，可通过下述步骤获取：首先可获取每一视频的恒定速率因子(constant rate factor，crf)列表。然后可根据crf列表，对每一ctu进行编码，得到每一ctu的第一相关系数。
[0054]
根据本公开的示例性实施例，对于获取每一视频的恒定速率因子crf列表，首先可获取每一视频的初始crf列表，其中，初始crf列表包括至少一个crf，至少一个crf以数值从小到大的顺序依次排列。然后可在初始crf列表中确定初始基准crf。接下来可根据初始基准crf，在初始crf列表中确定第一子集，其中，第一子集包括初始基准crf以及初始基准crf之后的预设个数的crf。接着可从第一子集中确定基准crf。最后可根据基准crf，获取crf列表。
[0055]
根据本公开的示例性实施例，对于从第一子集中确定基准crf，首先可，以第一子集中的crf的排布顺序，顺次使用第一子集中的crf进行编码得到每一视频中的每一帧的第一客观评价指标。然后可将满足预定条件时使用的crf作为基准crf，其中，当超过预设数量的帧的第一客观评价指标处于第一预设数值区间时，确定预定条件被满足。需要说明的是，当存在多个满足预定条件的crf时，将第一个满足预定条件的crf作为基准crf。这里，若使用第一子集中的crf进行编码得到每一视频中的每一帧的第一客观评价指标均不满足预定条件，则将第一子集中的最后一个crf作为基准crf。
[0056]
根据本公开的示例性实施例，对于根据基准crf，获取crf列表，首先可在初始crf列表中，获取第二预设数值区间内的所有crf，其中，第二预设数值区间根据基准crf和第一预设值的差值以及基准crf和第二预设值的和值确定。然后可根据第二预设数值区间内的所有crf，得到每一视频的crf列表，其中，crf列表包括基准crf和至少一个常规crf。
[0057]
例如，对于确定任一视频的crf列表，首先可获取任一视频的初始crf列表{17,19,21,23,25,27,29,31,33,35}。然后可在初始crf列表中确定初始基准crf＝25。接下来可根据初始基准crf，在初始crf列表中确定第一子集{25,27,29}。然后可顺次使用第一子集中的crf进行编码得到任一视频中的每一帧的vmaf，设定当超过90％的帧的vmaf处于[85，99]时，确定预定条件被满足。接下来可将满足预定条件时使用的crf作为基准crf。这里，当存在多个满足预定条件的crf时，将第一个满足预定条件的crf作为基准crf，若使用第一子集中的crf进行编码得到任一视频中的每一帧的vmaf均不满足预定条件，则将第一子集中的最后一个crf即crf＝29作为基准crf。然后可在初始crf列表中，获取[29-6，29 6]内的所有crf。最后可根据[29-6，29 6]内的所有crf，得到crf列表{23,25,27,29,31,33,35}。
[0058]
根据本公开的示例性实施例，可在不超过第一预设数量的帧的第一客观评价指标处于第三预设数值区间，确定预定条件被满足，其中，第一预设数量可以是10％的帧，第三预设数值区间可以为(99，100]。
[0059]
根据本公开的示例性实施例，首先可根据基准crf，对每一ctu进行编码，得到每一ctu的基准第一客观评价指标和基准第二客观评价指标。然后可根据至少一个常规crf，对
每一ctu进行编码，得到每一ctu的至少一个常规第一客观评价指标和至少一个常规第二客观评价指标。最后可根据基准第一客观评价指标、基准第二客观评价指标、至少一个常规第一客观评价指标和至少一个常规第二客观评价指标，通过最小二乘法得到每一ctu的第一相关系数。
[0060]
例如，首先可根据基准crf，对每一ctu进行编码，得到每一ctu的基准vmaf和基准sse。然后可根据至少一个常规crf，对每一ctu进行编码，得到每一ctu的至少一个常规vmaf和至少一个常规sse。最后可根据基准vmaf、基准sse、至少一个常规vmaf和至少一个常规sse，通过最小二乘法得到每一ctu的第一相关系数。
[0061]
根据本公开的示例性实施例，可计算基准vmaf和至少一个常规vmaf中的每一常规vmaf之间的δvmaf，以及，基准sse和至少一个常规sse中的每一常规sse之间的δsse。
[0062]
例如，通过最小二乘法得到每一ctu的第一相关系数可被表示为下式(3)和(4)：
[0063][0064][0065]
其中，为第i个ctu的第一相关系数。
[0066]
根据本公开的示例性实施例，至少一个视频中的每一视频的每一帧的第二相关系数，通过下述步骤获取：首先可根据每一ctu的第一相关系数与第三预设值的大小关系，确定第一类ctu和第二类ctu，其中，第一类ctu的第一相关系数小于或者等于第三预设值，第二类ctu的第一相关系数大于第三预设值。然后可根据第二类ctu的第一相关系数，得到每一帧的第二相关系数。
[0067]
根据本公开的示例性实施例，可将第三预设值设置为0。例如，可设置第一类ctu的第一相关系数小于或者等于0，第二类ctu的第一相关系数大于0。
[0068]
根据本公开的示例性实施例，可根据第二类ctu的第一相关系数和第二类ctu的个数，得到第二相关系数。
[0069]
例如，可通过下式(5)和(6)得到每一帧的第二相关系数：
[0070][0071][0072]
其中，k为任一帧的第二相关系数，为任一帧的第i个ctu的第一相关系数，e代表任一帧的第二类ctu的集合，|e|为任一帧的第二类ctu的个数。
[0073]
回到图1，在步骤102，可将每一ctu的特征信息输入预测模型，得到每一ctu的第一相关系数与第二相关系数的预测比值。
[0074]
图2是根据一示例性实施例示出的一种预测模型的结构示意图。参考图2，预测模型可以是cnn，图2所示的结构中，从左至右的方格分别为输入层、卷积层1(5*5卷积核)、池化层1(2*2)、卷积层2(3*3卷积核)、池化层2(2*2)、卷积层3(3*3卷积核)、池化层3(2*2)、卷积层4、池化层4(2*2)、全连接层。
[0075]
在步骤103，可根据每一ctu的第一相关系数与第二相关系数的真实比值和预测比值，确定预测模型的损失值。
[0076]
根据本公开的示例性实施例，损失值可通过，但不限于，均方误差(mean-squared loss，mse loss)来确定。
[0077]
在步骤104，可通过根据损失值调整预测模型的参数，对预测模型进行训练。需要说明的是，预测模型可采用离线训练的方式进行训练。
[0078]
图3是根据一示例性实施例示出的一种率失真代价计算方法的流程图。参照图3，在步骤301，可获取预编码帧的每一ctu的特征信息。
[0079]
根据本公开的示例性实施例，特征信息可以是y分量的像素值、方差、边缘信息、梯度信息和运动信息中的任一种。
[0080]
在步骤302，可将预编码帧的每一ctu的特征信息输入本公开的示例性实施例中的预测模型的训练方法训练好的预测模型中，得到预编码帧的每一ctu的第一相关系数与第二相关系数的预测比值。
[0081]
在步骤303，可根据预测比值计算每一ctu的率失真代价。
[0082]
根据本公开的示例性实施例，可根据比值、每一ctu的sse、编码参数和每一ctu的码率，计算率失真代价。
[0083]
例如，预编码帧的第i个ctu的率失真代价的计算公式为下式(7)：
[0084][0085]
其中，rdcost为率失真代价，为第i个ctu的比值，ssei为第i个ctu的sse，为编码参数，ri为第i个ctu的码率。
[0086]
根据本公开的示例性实施例，可设置模型的输出是第一相关系数预测值，具体来说，首先可获取训练数据集，其中，训练数据集包括至少一个视频中的每一ctu的特征信息和每一ctu的第一相关系数真实值。然后可将每一ctu的特征信息输入预测模型，得到每一ctu的第一相关系数预测值。接下来可根据每一ctu的第一相关系数真实值和第一相关系数预测值，确定预测模型的损失值。最后可通过根据损失值调整预测模型的参数，对预测模型进行训练。
[0087]
进而，首先可获取预编码帧的每一ctu的特征信息。然后可将预编码帧的每一ctu的特征信息输入本公开的示例性实施例的预测模型的训练方法训练好的预测模型中，得到预编码帧的每一ctu的第一相关系数预测值。接下来可根据每一ctu的第一相关系数预测值与第三预设值的大小关系，确定第一类ctu和第二类ctu，其中，第一类ctu的第一相关系数预测值小于或者等于第三预设值，第二类ctu的第一相关系数预测值大于第三预设值。然后可根据第二类ctu的第一相关系数预测值，得到每一帧的第二相关系数。接着可得到第一相关系数预测值与第二相关系数的比值。最后可基于预编码帧的每一ctu的比值，得到每一ctu的率失真代价。
[0088]
图4是根据一示例性实施例示出的一种预测模型的训练装置的框图。参考图4，预测模型的训练装置400包括获取单元401、预测单元402、损失确定单元403和调整单元404。
[0089]
获取单元401可获取训练数据集，其中，训练数据集包括至少一个视频中的每一编码树单元ctu的特征信息和每一ctu的第一相关系数与第二相关系数的真实比值，第一相关系数表征ctu级别的第一客观评价指标与第二客观评价指标之间的相关性，第二相关系数表征帧级别的第一客观评价指标与第二客观评价指标之间的相关性。
[0090]
根据本公开的示例性实施例，第一客观评价指标可以是vmaf，第二客观评价指标
可以是sse。
[0091]
根据本公开的示例性实施例，特征信息可以是y分量的像素值、方差、边缘信息、梯度信息和运动信息中的任一种。
[0092]
根据本公开的示例性实施例，首先获取单元401可获取每一视频的恒定速率因子(constant rate factor，crf)列表。然后获取单元401可根据crf列表，对每一ctu进行编码，得到每一ctu的第一相关系数。
[0093]
根据本公开的示例性实施例，首先获取单元401可获取每一视频的初始crf列表，其中，初始crf列表包括至少一个crf，至少一个crf以数值从小到大的顺序依次排列。然后获取单元401可在初始crf列表中确定初始基准crf。接下来获取单元401可根据初始基准crf，在初始crf列表中确定第一子集，其中，第一子集包括初始基准crf以及初始基准crf之后的预设个数的crf。接着获取单元401可从第一子集中确定基准crf。最后获取单元401可根据基准crf，获取crf列表。
[0094]
根据本公开的示例性实施例，首先获取单元401以第一子集中的crf的排布顺序，顺次使用第一子集中的crf进行编码得到每一视频中的每一帧的第一客观评价指标。然后获取单元401可将满足预定条件时使用的crf作为基准crf，其中，当超过预设数量的帧的第一客观评价指标处于第一预设数值区间时，确定预定条件被满足。需要说明的是，当存在多个满足预定条件的crf时，将第一个满足预定条件的crf作为基准crf。这里，若使用第一子集中的crf进行编码得到每一视频中的每一帧的第一客观评价指标均不满足预定条件，则将第一子集中的最后一个crf作为基准crf。
[0095]
根据本公开的示例性实施例，首先获取单元401可在初始crf列表中，获取第二预设数值区间内的所有crf，其中，第二预设数值区间根据基准crf和第一预设值的差值以及基准crf和第二预设值的和值确定。然后获取单元401可根据第二预设数值区间内的所有crf，得到每一视频的crf列表，其中，crf列表包括基准crf和至少一个常规crf。
[0096]
例如，对于确定任一视频的crf列表，首先获取单元401可获取任一视频的初始crf列表{17,19,21,23,25,27,29,31,33,35}。然后获取单元401可在初始crf列表中确定初始基准crf＝25。接下来获取单元401可根据初始基准crf，在初始crf列表中确定第一子集{25,27,29}。然后获取单元401可顺次使用第一子集中的crf进行编码得到任一视频中的每一帧的vmaf，设定当超过90％的帧的vmaf处于[85，99]时，确定预定条件被满足。接下来获取单元401可将满足预定条件时使用的crf作为基准crf。这里，当存在多个满足预定条件的crf时，获取单元401可将第一个满足预定条件的crf作为基准crf，若使用第一子集中的crf进行编码得到任一视频中的每一帧的vmaf均不满足预定条件，则获取单元401将第一子集中的最后一个crf即crf＝29作为基准crf。然后获取单元401可在初始crf列表中，获取[29-6，29 6]内的所有crf。最后获取单元401可根据[29-6，29 6]内的所有crf，得到crf列表{23,25,27,29,31,33,35}。
[0097]
根据本公开的示例性实施例，获取单元401可在不超过第一预设数量的帧的第一客观评价指标处于第三预设数值区间，确定预定条件被满足，其中，第一预设数量可以是10％的帧，第三预设数值区间可以为(99，100]。
[0098]
根据本公开的示例性实施例，首先获取单元401可根据基准crf，对每一ctu进行编码，得到每一ctu的基准第一客观评价指标和基准第二客观评价指标。然后获取单元401可
根据至少一个常规crf，对每一ctu进行编码，得到每一ctu的至少一个常规第一客观评价指标和至少一个常规第二客观评价指标。最后获取单元401可根据基准第一客观评价指标、基准第二客观评价指标、至少一个常规第一客观评价指标和至少一个常规第二客观评价指标，通过最小二乘法得到每一ctu的第一相关系数。
[0099]
例如，首先获取单元401可根据基准crf，对每一ctu进行编码，得到每一ctu的基准vmaf和基准sse。然后获取单元401可根据至少一个常规crf，对每一ctu进行编码，得到每一ctu的至少一个常规vmaf和至少一个常规sse。最后获取单元401可根据基准vmaf、基准sse、至少一个常规vmaf和至少一个常规sse，通过最小二乘法得到每一ctu的第一相关系数。
[0100]
根据本公开的示例性实施例，获取单元401可计算基准vmaf和至少一个常规vmaf中的每一常规vmaf之间的δvmaf，以及，基准sse和至少一个常规sse中的每一常规sse之间的δsse。
[0101]
例如，通过最小二乘法得到每一ctu的第一相关系数可被表示为上式(3)和(4)。
[0102]
根据本公开的示例性实施例，首先获取单元401可根据每一ctu的第一相关系数与第三预设值的大小关系，确定第一类ctu和第二类ctu，其中，第一类ctu的第一相关系数小于或者等于第三预设值，第二类ctu的第一相关系数大于第三预设值。然后获取单元401可根据第二类ctu的第一相关系数，得到每一帧的第二相关系数。
[0103]
根据本公开的示例性实施例，获取单元401可将第三预设值设置为0。例如，可设置第一类ctu的第一相关系数小于或者等于0，第二类ctu的第一相关系数大于0。
[0104]
根据本公开的示例性实施例，获取单元401可根据第二类ctu的第一相关系数和第二类ctu的个数，得到第二相关系数。
[0105]
例如，可通过上式(5)和(6)得到每一帧的第二相关系数。
[0106]
回到图4，预测单元402可将每一ctu的特征信息输入预测模型，得到每一ctu的第一相关系数与第二相关系数的预测比值。
[0107]
损失确定单元403可根据每一ctu的第一相关系数与第二相关系数的真实比值和预测比值，确定预测模型的损失值。
[0108]
根据本公开的示例性实施例，损失值可通过，但不限于，均方误差(mean-squared loss，mse loss)来确定。
[0109]
调整单元404可通过根据损失值调整预测模型的参数，对预测模型进行训练。
[0110]
图5是根据一示例性实施例示出的一种率失真代价计算装置的框图。参考图5，率失真代价计算装置500包括获取单元501、预测单元502和计算单元503。
[0111]
获取单元501可获取预编码帧的每一ctu的特征信息。
[0112]
根据本公开的示例性实施例，特征信息可以是y分量的像素值、方差、边缘信息、梯度信息和运动信息中的任一种。
[0113]
预测单元502可将预编码帧的每一ctu的特征信息输入本公开的示例性实施例中的预测模型的训练方法训练好的预测模型中，得到预编码帧的每一ctu的第一相关系数与第二相关系数的预测比值。
[0114]
计算单元503可根据预测比值计算每一ctu的率失真代价。
[0115]
根据本公开的示例性实施例，可根据比值、每一ctu的sse、编码参数和每一ctu的码率，计算率失真代价。
[0116]
例如，预编码帧的第i个ctu的率失真代价的计算公式为上式(7)。
[0117]
图6是根据一示例性实施例的电子设备600的框图。
[0118]
参照图6，电子设备600包括至少一个存储器601和至少一个处理器602，所述至少一个存储器601中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器602执行时，执行根据本公开的示例性实施例的预测模型的训练方法或率失真代价计算方法。
[0119]
作为示例，电子设备600可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备600并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备600还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。
[0120]
在电子设备600中，处理器602可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
[0121]
处理器602可运行存储在存储器601中的指令或代码，其中，存储器601还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。
[0122]
存储器601可与处理器602集成为一体，例如，将ram或闪存布置在集成电路微处理器等之内。此外，存储器601可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器601和处理器602可在操作上进行耦合，或者可例如通过i/o端口、网络连接等互相通信，使得处理器602能够读取存储在存储器中的文件。
[0123]
此外，电子设备600还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备600的所有组件可经由总线和/或网络而彼此连接。
[0124]
根据本公开的示例性实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中存储的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的预测模型的训练方法或率失真代价计算方法。这里的计算机可读存储介质的示例包括：只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd r、cd-rw、cd rw、dvd-rom、dvd-r、dvd r、dvd-rw、dvd rw、dvd-ram、bd-rom、bd-r、bd-r lth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如，多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通
过一个或多个处理器或计算机以分布式方式存储、访问和执行。
[0125]
根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的预测模型的训练方法或率失真代价计算方法。
[0126]
根据本公开的预测模型的训练方法和装置及率失真代价计算方法和装置，通过以第一相关系数与第二相关系数的比值为目标训练预测模型，并将预测比值应用到了率失真代价的计算过程中，使得不用多次替换ctu计算vmaf也可以得到相关系数的比值，降低了计算时间复杂度，使得计算时间缩短。
[0127]
另外，根据本公开的预测模型的训练方法和装置及率失真代价计算方法和装置，将预测比值应用到了率失真代价的计算过程中，在编码时间复杂度增加不超过20％的同时能够降低bd-rate-vmaf的值，获得编码收益。
[0128]
另外，根据本公开的预测模型的训练方法和装置及率失真代价计算方法和装置，可采用离线训练的方式进行预测模型的训练，避免了需要对每个网络都需要进行重新训练的过程。
[0129]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
[0130]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：管理物理上行链路控制信道资源组的制作方法

预测模型的训练方法和装置及率失真代价计算方法和装置与流程

相关文献

最热文献