媒体内容相似度的检测方法和装置与流程

2021-11-05 20:36:00 来源：中国专利 TAG：

1.本说明书一个或多个实施例涉及网络信息技术，尤其涉及媒体内容相似度的检测方法和装置。

背景技术：

2.随着网络技术的发展，各种媒体内容比如视频、音频、文本等在网络中被大量的传播。在很多应用场景下，需要检测两个媒体内容之间的相似度。比如，需要保护一个电影视频的版权，因此需要将在一个网站中传播的一段目标视频与该电影视频进行比较，检测出两者的相似度，从而判断该目标视频是否侵权。
3.目前，主要是基于采样的所有均匀帧检测两个媒体内容之间的相似度。此种方式，计算量大，降低了检测效率。

技术实现要素：

4.本说明书一个或多个实施例描述了媒体内容相似度的检测方法和装置，能够减少计算量，提高检测效率。
5.根据第一方面，提供了一种媒体内容相似度的检测方法，包括：
6.对目标媒体内容进行采样，得到基础帧数据；
7.根据所述基础帧数据，确定目标媒体内容中的各个关键帧；
8.确定参考媒体内容；
9.得到预先确定的参考媒体内容中的各个关键帧；
10.针对目标媒体内容的每一个关键帧，计算该关键帧与参考媒体内容中各个关键帧的各帧间相似度；
11.根据计算出的各帧间相似度，确定目标媒体内容与参考媒体内容的整体相似度。
12.其中，所述确定参考媒体内容包括：
13.得到所述目标媒体内容的至少两帧对应的至少两个特征向量；
14.从媒体内容数据库中获取与所述目标媒体内容的至少两个特征向量相似的特征向量的检索结果；
15.基于所述特征向量的检索结果，从媒体内容数据库中确定与所述目标媒体内容相似的参考媒体内容。
16.所述根据所述基础帧数据确定目标媒体内容中的各个关键帧，包括：
17.将每一个基础帧数据转换为预定大小的二维的小图；
18.按照各个基础帧数据的时序顺序，将转换出的各个小图依次进行拼接，得到二维拼接图；
19.将所述二维拼接图输入预先训练的分类网络中；
20.根据所述分类网络的输出，得到目标媒体内容中的各个关键帧的信息。
21.所述目标媒体内容中的各个关键帧的信息包括：第一关键帧置信度矩阵，该第一
关键帧置信度矩阵中的向量值为0或1，一个向量的向量值为0则表征该向量对应的时序位置上的帧不是关键帧，一个向量的向量值为1则表征该向量对应的时序位置上的帧是关键帧。
22.其中，所述分类网络的训练方法包括：
23.利用至少两个样本媒体内容执行至少两轮分类网络的训练，每一轮的训练包括：将由一个样本媒体内容的各基础帧拼接成的样本二维拼接图输入分类网络，使得该分类网络输出一个第二关键帧置信度矩阵；该第二关键帧置信度矩阵中的向量值为从0至1中的一个值，一个向量的值越大则表征该向量对应的时序位置上的帧为关键帧的置信度越高。
24.其中，所述分类网络的训练方法进一步包括：
25.将针对第一样本媒体内容和第二样本媒体内容得到的两个第二关键帧置信度矩阵均转换为各关键帧置信度向量；
26.将针对一个第二关键帧置信度矩阵得到的每一个关键帧置信度向量与针对另一个第二关键帧置信度矩阵得到的每一个关键帧置信度向量两两匹配相乘，得到第三关键帧置信度矩阵；
27.利用由深度学习检测模型输出的第一样本媒体内容和第二样本媒体内容之间的相似帧位置及所述第三关键帧置信度矩阵，调整所述分类网络的损失函数。
28.其中，在所述两两匹配相乘之后，并在得到第三关键帧置信度矩阵之前，进一步包括：对于所述两两匹配相乘后得到的初级矩阵，将该初级矩阵中每隔设定个数位置处的向量值置为1，得到所述第三关键帧置信度矩阵。
29.其中，所述深度学习检测模型的训练方法，包括：
30.计算所述第一样本媒体内容的每一帧的特征向量与所述第二样本媒体内容的每一帧的特征向量的相似度，得到相似度矩阵；
31.将所述第三关键帧置信度矩阵与所述相似度矩阵相乘，得到加权后的相似度矩阵；
32.将所述加权后的相似度矩阵输入深度学习检测模型中，以便对该深度学习检测模型进行训练。
33.其中，所述根据计算出的各帧间相似度确定目标媒体内容与参考媒体内容的整体相似度，包括：
34.将计算出的各帧间相似度输入预先训练的深度学习检测模型中，得到由该深度学习检测模型输出的目标媒体内容与参考媒体内容之间的相似帧位置，根据该相似帧位置确定目标媒体内容与参考媒体内容的整体相似度。
35.根据第二方面，提供了一种媒体内容相似度的检测装置，包括：
36.基础帧数据获取模块，配置为对目标媒体内容进行采样，得到基础帧数据；
37.参考媒体内容确定模块，配置为确定参考媒体内容；
38.关键帧确定模块，配置为根据所述基础帧数据，确定目标媒体内容中的各个关键帧；得到预先确定的参考媒体内容中的各个关键帧；
39.帧间相似度计算模块，配置为针对目标媒体内容的每一个关键帧，计算该关键帧与参考媒体内容中各个关键帧的各帧间相似度；
40.整体相似度计算模块，配置为根据计算出的各帧间相似度，确定目标媒体内容与
参考媒体内容的整体相似度。
41.根据第三方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现本说明书任一实施例所述的方法。
42.本说明书实施例提供的媒体内容相似度的检测方法及装置，利用了关键帧来计算两个媒体内容之间的相似度。因为关键帧是能够决定媒体内容含义的数据帧，因此保留了媒体内容中的关键信息，并且，因为关键帧不是采样后得到的密集的数据帧，去除了数据冗余，因此，大大减少了检测过程中所使用的数据帧的数量，减少了计算量及存储量，并降低了实现的复杂度，提高了检测效率。
附图说明
43.为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
44.图1是本说明书一个实施例中媒体内容相似度的检测方法的流程图。
45.图2是本说明书一个实施例中确定目标媒体内容中各第一关键帧位置的方法流程图。
46.图3是本说明书一个实施例中目标媒体内容的二维拼接图的示意图。
47.图4是本说明书一个实施例中关键帧置信度矩阵a1的示意图。
48.图5是本说明书一个实施例中分类网络和深度学习检测模型的联合训练方法的流程图。
49.图6是本说明书一个实施例中关键帧置信度矩阵c的示意图。
50.图7是本说明书一个实施例中表征目标媒体内容与参考媒体内容的匹配关键帧的矩阵d的示意图。
51.图8是本说明书一个实施例中媒体内容相似度的检测装置的结构示意图。
具体实施方式
52.如前所述，现有技术基于采样的所有均匀帧检测两个媒体内容之间的相似度。举例来说，比如，目标媒体内容为一段视频，现有技术中会对目标视频进行均匀采样，通常每隔1秒采样一次，视频长度为300秒，采样出300个均匀帧。同时对参考视频也进行均匀采样，比如也采样出300个均匀帧，之后，根据两个视频的所有均匀帧之间的相似程度，来确定目标视频与参考视频是否相似。
53.可以看出，当利用采样的所有均匀帧来检测时，因为每隔一个较短的时间，就需要采样一次，因此会采样到大量的数据帧，后续进行相似度计算时，是基于该大量的数据帧进行计算。而随着网络中媒体内容的海量增长(比如一个目标视频可能需要与1百万个参考视频分别进行相似度计算)，以及媒体内容时长的增长(比如一个目标视频时长过长，导致采样出的所有均匀帧有上百万帧数据)，此种利用所有均匀帧的方式，则会造成所使用的数据帧的数量过多，大大增加了实现的复杂度，降低了检测效率。
54.为了解决现有技术的问题，本说明书一个实施例中提出了一种媒体内容相似度的
检测方法。该方法的执行主体为媒体内容相似度的检测装置。可以理解，该方法也可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。参见图1，该方法包括：
55.步骤101：对目标媒体内容进行采样，得到基础帧数据。
56.步骤103：根据所述基础帧数据，确定目标媒体内容中的各个关键帧。
57.步骤105：确定参考媒体内容。
58.步骤107：得到预先确定的参考媒体内容中的各个关键帧。
59.步骤109：针对目标媒体内容的每一个关键帧，计算该关键帧与参考媒体内容中各个关键帧的各帧间相似度。
60.步骤111：根据计算出的各帧间相似度，确定目标媒体内容与参考媒体内容的整体相似度。
61.对于一个媒体内容，决定其内容含义的数据帧(比如角色或者物体运动或变化中的关键动作所处的那一帧，记为关键帧)并不是每隔一个较短的时间就出现一次，比如，一个电影视频，决定该视频内容的关键帧并不是每隔1秒就会出现一次，如在一个长达10秒的时间内，电影视频中的内容都是一个人物在看书的场景，那么，每隔1秒采样的所有均匀帧中就会存在大量冗余的数据帧，而对于该10秒的内容，实际上只需要采样并利用其中的1帧比如该10秒中的第1帧作为关键帧来进行后续的相似度检测计算即可。在上述图1所示过程中，正是利用了关键帧来计算两个媒体内容之间的相似度。因为关键帧是能够决定媒体内容含义的数据帧，因此保留了媒体内容中的关键信息，并且，因为关键帧不是采样后得到的密集的数据帧，因此，去除了数据冗余，大大减少了检测过程中所使用的数据帧的数量，降低了实现的复杂度，提高了检测效率。
62.下面针对图1中所示的每一个步骤分别进行说明。
63.首先对于步骤101：对目标媒体内容进行采样，得到基础帧数据。
64.在本说明书的各个实施例中，媒体内容可以是诸如视频、音频、文本、图片等在网络中传输的内容。
65.比如，在步骤101中，目标媒体内容为待上传区块链系统的一段视频，可以对该视频进行均匀采样，每隔1秒采样一次，获得均匀采样的100帧的基础帧数据。
66.接下来，在步骤103中，根据所述基础帧数据，确定目标媒体内容中的各个关键帧。
67.比如，一共100帧的基础帧数据，通过本步骤103的处理确定出其中的第1帧、第4帧、第6帧、第7帧、第11帧、第23帧等为关键帧。
68.在本说明书的一个实施例中，可以将各个基础帧数据所形成的一维的基础帧数据序列转换为二维的拼接图，并利用二维的拼接图来确定目标媒体内容中的哪一帧为关键帧。此种情况下，步骤103的具体实现过程可以参见图2所示，包括：
69.步骤201：将每一个基础帧数据转换为预定大小的二维的小图。
70.在步骤201中，比如可以将每一个基础帧转换为32*32像素或者64*64像素的二维的小图。
71.步骤203：按照各个基础帧数据的时序顺序，将转换出的各个小图依次进行拼接，得到二维拼接图。
72.步骤203中，可以拼接成n*n的拼接图。比如，参见图3，步骤101中得到了100个基础帧数据，那么，步骤203中，按照这100个基础帧数据的时序顺序，将该100个基础帧数据拼接
成10*10的二维拼接图，也就是说，二维拼接图中第一行的10个小图依次对应第1帧基础帧数据转换出的小图、第2帧基础帧数据转换出的小图
……
以此类推直至第10帧的基础帧数据转换出的小图，同理，二维拼接图中第二行的10个小图依次对应第11帧至第20帧的基础帧数据分别转换出的10个小图等。
73.步骤205：将二维拼接图输入预先训练的分类网络中。
74.步骤207：根据分类网络的输出，得到目标媒体内容中的各个关键帧的信息。
75.在本说明书一个实施例中，因为输入分类网络的是二维拼接图，因此，步骤207中，分类网络可以输出一个与二维拼接图的维数相同的二维矩阵，记为关键帧置信度矩阵a1，利用该矩阵a1中的向量来表征目标媒体内容中的各个关键帧。
76.在本步骤207中，关键帧置信度矩阵a1中每一个向量的向量值为0或者1，其中，0表示在对应时序位置处的帧不是目标媒体内容的关键帧，1表示在对应时序位置处的帧是目标媒体内容的关键帧。比如，参见图4，在关键帧置信度矩阵a1中，向量x
11
、x
14
、x
16
、x
17
、x
21
、x
33
等的向量值为1，其余为0，则说明在目标媒体内容中的对应时序位置上的帧即第1帧(对应向量x
11
)、第4帧(对应向量x
14
)、第6帧(对应向量x
16
)、第7帧(对应向量x
17
)、第11帧(对应向量x
21
)、第23帧(对应向量x
33
)等为关键帧。
77.步骤207中，可以通过设置关键帧置信度阈值比如为0.5，来将关键帧置信度矩阵a1中小于0.5的向量值即关键帧置信度值统一置为0，将关键帧置信度矩阵a1中不小于0.5的向量值即关键帧置信度值统一置为1。
78.因为在二维拼接图中，一个数据帧具有上下左右四种相邻关系，相对于一维的数据序列只具有左右两种相邻关系而言，二维拼接图的方式因为相邻关系更多，因此，在利用分类网络确定关键帧时，能够提供更多的计算信息，得到更为准确的关键帧。
79.上述图2所示流程中，通过使用二维拼接图以及分类网络，将对目标媒体内容的关键帧的识别问题改为了一个分类问题，此种方式能够提高计算效率。
80.上述图2中所使用的分类网络是预先训练出来的。参见图5，分类网络的训练过程可以包括：
81.步骤501：利用至少两个样本媒体内容执行至少两轮分类网络的训练，每一轮的训练包括：将由一个样本媒体内容的各基础帧拼接成的样本二维拼接图输入分类网络，使得该分类网络输出一个关键帧置信度矩阵b。
82.在将样本媒体内容的样本二维拼接图输入分类网络时，也会向分类网络输入样本媒体内容中每一帧是否为关键帧的信息。在训练阶段，该分类网络输出的关键帧置信度矩阵b中的向量值为从0至1中的一个值，一个向量的值越大则该向量对应的帧位置为关键帧的置信度越高。
83.这里，得到样本媒体内容的样本二维拼接图的方法可以参考上述步骤201至步骤203中的相关描述的方法原理。
84.执行完多轮步骤501中的处理，即利用多个样本媒体内容训练分类网络后，则完成了对分类网络的初步训练。
85.在将多个样本媒体内容输入分类网络后，则可以得到多个样本媒体内容对应的多个关键帧置信度矩阵b。比如针对样本媒体内容1得到了关键帧置信度矩阵b1，针对样本媒体内容2得到了关键帧置信度矩阵b2等。
86.为了进一步提高分类网络的训练效果，还可以采用端到端的联合训练方式，分类网络与后续使用的深度学习检测模型(该深度学习检测模型用于根据帧间相似度计算两个媒体内容的整体相似度)进行联合训练，并利用该深度学习检测模型得到的结果进一步调整分类网络中的参数。参见图5，该联合训练方式下，在执行完上述步骤501之后，进一步包括如下步骤：
87.步骤503：按照时序顺序，将针对样本媒体内容1和样本媒体内容2得到的两个关键帧置信度矩阵b1和b2均转换为一维的各关键帧置信度向量。
88.关键帧置信度矩阵b1和b2中的向量值均为从0至1中的一个值，一个向量的值越大则该向量对应的帧位置为关键帧的置信度越高。
89.因为两个作比较的媒体内容的长度通常不同，因此，得到的关键帧置信度矩阵的维度也通常不同，比如关键帧置信度矩阵b1为10*10的矩阵，而关键帧置信度矩阵b2为3*7的矩阵。因此，为了匹配对应两个样本媒体内容中的关键帧的位置，需要将两个关键帧置信度矩阵先转换为两个一维的关键帧置信度向量，从而能够将两个关键帧置信度向量进行步骤505中的两两匹配相乘。
90.步骤505：将针对关键帧置信度矩阵b1得到的每一个关键帧置信度向量与针对关键帧置信度矩阵b2得到的每一个关键帧置信度向量两两匹配相乘，得到关键帧置信度矩阵c。
91.比如，针对上述关键帧置信度矩阵b1，因为该矩阵为10*10的矩阵，因此包括100个关键帧置信度向量，针对上述关键帧置信度矩阵b2，因为其为3*7的矩阵，因此包括21个关键帧置信度向量，将这100个关键帧置信度向量中的每一个都与该21个关键帧置信度向量中的每一个进行两两匹配相乘。实现该两两匹配相乘的一种方式可以是：将关键帧置信度矩阵b1中的100个关键帧置信度向量体现为x轴上的数值，将关键帧置信度矩阵b2中的21个关键帧置信度向量体现为y轴上的数值，将两个坐标轴的数值对应的元素逐个相乘(element
‑
wise)，这样，可以对应得到100*21的矩阵。
92.在本说明书的一个实施例中，在本步骤505中，可以直接将两两匹配相乘后得到的初级矩阵作为关键帧置信度矩阵c。比如，关键帧置信度矩阵c可以参见图6所示(图6中只是示出了部分向量的向量值，可以理解，每一个向量都有其向量值，为从0至1中的一个值)。
93.在本说明书的另一个实施例中，在本步骤505中，也可以不将该初级矩阵作为关键帧置信度矩阵c。在得到两两相乘的结果形成的初级矩阵之后，在该初级矩阵中进行插值处理，将插值处理后得到的矩阵作为关键帧置信度矩阵c。这是因为，考虑到同为两个媒体内容中的关键帧的数量可能不足够多，如果后续对比相似度时使用的帧的数量太少，会导致计算依据的内容太少，无法满足准确性要求。因此，为了进一步提高分类网络、深度检测模型的训练效果，可以增加用于后续检测相似度的帧的位置，即进行上述插值处理。一种较佳的实现方式是增加均匀稀疏帧来参与在训练阶段中的后续检测处理。因此，在得到初级矩阵之后，可以将该初级矩阵中每隔设定个数位置处的向量值置为1，将此时得到的矩阵作为关键帧置信度矩阵c。比如，在该关键帧置信度矩阵c中，从第一个向量开始，每隔10个向量，无论其位置的当前值是多少，均强制置为1，这样，则保证了后续参与相似度检测的帧除了同为两个媒体内容的关键帧的帧之外，而且还包括每隔10秒选取出的一帧，丰富了参与后续检测的帧的数量。但是同时，由于不是使用所有均匀帧参与后续检测，因此，也提高了检
测效率。
94.可以得到，本步骤505中，关键帧置信度矩阵c(如为上述100*21的矩阵)每一个向量的向量值也为0至1中的一个数值，其表示了将两个样本媒体内容的每一帧两两匹配时，该两个帧同时为两个样本媒体内容中的关键帧的置信度。
95.步骤507：计算样本媒体内容1的每一帧的特征向量与样本媒体内容2的每一帧的特征向量的相似度，得到相似度矩阵。
96.本步骤507中，得到了样本媒体内容1中的每一帧内容相对于样本媒体内容2中每一帧内容的相似度。仍然以样本媒体内容1为100帧，样本媒体内容2为21帧为例，这里得到的相似度矩阵为100*21的矩阵。
97.步骤509：将关键帧置信度矩阵c与所述相似度矩阵相乘，得到加权后的相似度矩阵。
98.关键帧置信度矩阵c中各个向量值的大小，体现了样本媒体内容1中的每一帧与样本媒体内容2中每一帧同为关键帧的置信度大小(值为从0至1中的一个值)，相似度矩阵体现了样本媒体内容1中的每一帧与样本媒体内容2中每一帧的内容相似度大小(比如可以用亮度的大小来显示相似度，越亮就表示越相似，越暗则表示越不相似)，将该两个矩阵相乘，则可以更加显著地得到(通过加权实现)在同为关键帧的两个匹配帧的位置上两个样本媒体内容的相似度。
99.步骤511：将所述加权后的相似度矩阵输入深度学习检测模型中，以便对该深度学习检测模型进行训练。
100.这里，在将加权后的相似度矩阵输入深度学习检测模型中时，还会将该两个样本媒体内容之间的相似帧位置输入深度学习检测模型中，以便对该深度学习检测模型进行训练。
101.深度学习检测模型输出的是两个样本媒体内容之间的相似帧位置。比如，样本媒体内容1中的第1至3帧与样本媒体内容2中的第5至6帧为相似帧，其内容相似，为侵权片段等。
102.步骤513：利用深度学习检测模型输出的相似帧位置及关键帧置信度矩阵c，调整所述分类网络的损失函数。
103.至此，则描述了上述步骤103中确定目标媒体内容中的各个关键帧的相关处理。
104.接下来，在步骤105中，确定参考媒体内容。
105.目标媒体内容是待确定是否侵权的媒体内容，而参考媒体内容是用于比较的媒体内容。由于媒体数据库中存储了海量的媒体内容，因此需要从媒体数据库中确定存在被侵权风险的参考媒体内容。在本说明书一个实施例中，本步骤105的具体实现过程包括：
106.步骤1051：得到目标媒体内容的至少两帧对应的至少两个特征向量。
107.步骤1053：从媒体内容数据库中获取与所述目标媒体内容的至少两个特征向量相似的特征向量的检索结果。
108.本步骤1053中，在媒体内容数据库中包括每一个媒体内容的一个或多个特征向量，将其中与目标媒体内容的至少两个特征向量相匹配的前几个特征向量作为检索结果。
109.步骤1055：基于特征向量的检索结果，从媒体内容数据库中确定与所述目标媒体内容相似的参考媒体内容。
110.比如，可以从视频数据库中，分别获取与目标视频的多个特征向量中的各特征向量相匹配的前k个特征向量，再确定这前k个特征向量对应的m个参考视频，其中m小于或等于k，且m大于或等于1，当m＝k时，则表明这k个特征向量来自k个不同的参考视频，当m＝1时，则表明这k个特征向量来自同一个参考视频，或者也可以从视频数据库中，分别获取与目标视频的多个特征向量中的各特征向量最匹配的一个特征向量，再确定该最匹配的一个特征向量对应的参考视频。
111.接下来，在步骤107中得到预先确定的参考媒体内容中的各个关键帧。
112.本步骤107中，参考媒体内容中的各个关键帧可以由人工预先标记好，比如标记为一个关键帧置信度矩阵的形式。当然，参考媒体内容中的各个关键帧也可以是利用上述步骤201至步骤207中的方法，将参考媒体内容的各个基础帧形成的二维拼接图输入预先训练的分类网络中，得到由该分类网络输出的由关键帧置信度矩阵a2表征的关键帧的信息。该关键帧置信度矩阵a2中每一个向量的向量值为0或者1，其中，0表示在对应时序位置处的帧不是参考媒体内容的关键帧，1表示在对应时序位置处的帧是参考媒体内容的关键帧。
113.接下来，在步骤109中，针对目标媒体内容的每一个关键帧，计算该关键帧与参考媒体内容中各个关键帧的各帧间相似度。
114.可以利用上述步骤207的相关描述中得到的关键帧置信度矩阵a1(表征目标媒体内容中的关键帧的信息)与步骤107的相关描述中得到的关键帧置信度矩阵a2(表征参考媒体内容中的关键帧的信息)，来实现本步骤109的处理。
115.举例说明：
116.步骤109的一种实现方式包括：将关键帧置信度矩阵a1转换为一维的关键帧置信度向量1，比如表示为{1，0，0，1，0，1，1
…
}，共包括100个向量。将关键帧置信度矩阵a2转换为一维的关键帧置信度向量2，比如表示为{1，1，0，0，0，1，0
…
}，共包括50个向量。将该两个向量中的元素逐一对应相乘，可以得到100*50的矩阵d，在该矩阵d中向量值为1的向量对应的两个帧位置上，计算目标媒体内容与参考媒体内容的相似度。比如，矩阵d如图7所示(图7中只是示出了部分向量的向量值，可以理解，每一个向量都有其向量值，为0或1，向量x
11
的值为1，则计算目标媒体内容在第1帧上与参考媒体内容在第1帧上的帧间相似度，向量x
12
的值为1，则计算目标媒体内容在第1帧上与参考媒体内容在第2帧上的帧间相似度，向量x
13
、x
14
、x
15
的值均为0，则无需计算目标媒体内容在第1帧上与参考媒体内容在第3、4、5帧上的帧间相似度等，矩阵d中第二行的向量值均为0，则无需计算目标媒体内容在第2帧上与参考媒体内容的所有帧的帧间相似度，以此类推。
117.接下来，在步骤111，根据计算出的各个帧间相似度，确定目标媒体内容与参考媒体内容的整体相似度。
118.本步骤111中，将计算出的各个帧间相似度输入预先训练的深度学习检测模型中，得到由该深度学习检测模型输出的目标媒体内容与参考媒体内容之间的相似帧位置，根据该相似帧位置可以确定目标媒体内容与参考媒体内容的整体相似度。
119.在一个实现的例子中，比如可以将上述矩阵d(向量值为0或1)与步骤1011中得到的表征帧间相似度的矩阵e(比如用亮点表示两个帧的相似度)相乘，如果相乘后得到的加权相似度矩阵中，亮点形成的图案(比如多个连线)与目标媒体内容的关键帧置信度矩阵a1中各值为1的向量所形成的图案(比如多个连线)相似，并且出现的位置及斜率相似，则可以
确定目标媒体内容与参考媒体内容整体相似，目标媒体内容相对于参考媒体内容为侵权内容。
120.另外，在将该两个矩阵相乘后得到的加权相似度矩阵中，因为通过矩阵或者说二维图形的方式显示了目标媒体内容与参考媒体内容从整体上的相似度，因此，可以一次性确定出多个相似片段(如在位置及斜率上均相似的多个连线)，从而可以一次性确定多个侵权片段。
121.在本说明书实施例中，媒体内容相似度的检测方法和装置可以应用于区块链技术中，比如在经过媒体内容相似度的检测方法和装置之后，如果确定目标媒体内容与媒体库中的各个参考媒体内容的整体相似度不高，则认为目标媒体内容不属于侵权内容，这样就可以将目标媒体内容上传区块链系统，从而实现了区块链技术中的版权保护。
122.在本说明书的一个实施例中，还提出了一种媒体内容相似度的检测装置，参见图8，该装置800包括：
123.基础帧数据获取模块801，配置为对目标媒体内容进行采样，得到基础帧数据；
124.参考媒体内容确定模块802，配置为确定参考媒体内容；
125.关键帧确定模块803，配置为根据所述基础帧数据，确定目标媒体内容中的各个关键帧；得到预先确定的参考媒体内容中的各个关键帧；
126.帧间相似度计算模块804，配置为针对目标媒体内容的每一个关键帧，计算该关键帧与参考媒体内容中各个关键帧的各帧间相似度；
127.整体相似度计算模块805，配置为根据计算出的各帧间相似度，确定目标媒体内容与参考媒体内容的整体相似度。
128.在本说明书装置的一个实施例中，所述确定参考媒体内容802包括：
129.得到所述目标媒体内容的至少两帧对应的至少两个特征向量；
130.从媒体内容数据库中获取与所述目标媒体内容的至少两个特征向量相似的特征向量的检索结果；
131.基于所述特征向量的检索结果，从媒体内容数据库中确定与所述目标媒体内容相似的参考媒体内容。
132.在本说明书装置的一个实施例中，关键帧确定模块803被配置为执行：
133.将每一个基础帧数据转换为预定大小的二维的小图；
134.按照各个基础帧数据的时序顺序，将转换出的各个小图依次进行拼接，得到二维拼接图；
135.将所述二维拼接图输入预先训练的分类网络中；
136.根据所述分类网络的输出，得到目标媒体内容中的各个关键帧的信息。
137.在本说明书装置的一个实施例中，所述目标媒体内容中的各个关键帧的信息包括：第一关键帧置信度矩阵，该第一关键帧置信度矩阵中的向量值为0或1，一个向量的向量值为0则表征该向量对应的时序位置上的帧不是关键帧，一个向量的向量值为1则表征该向量对应的时序位置上的帧是关键帧。
138.在本说明书装置的一个实施例中，还包括分类网络训练模块，配置为执行：利用至少两个样本媒体内容执行至少两轮分类网络的训练，每一轮的训练包括：将由一个样本媒体内容的各基础帧拼接成的样本二维拼接图输入分类网络，使得该分类网络输出一个第二
关键帧置信度矩阵；该第二关键帧置信度矩阵中的向量值为从0至1中的一个值，一个向量的值越大则表征该向量对应的时序位置上的帧为关键帧的置信度越高。
139.在本说明书装置的一个实施例中，分类网络训练模块进一步配置为：将针对第一样本媒体内容和第二样本媒体内容得到的两个第二关键帧置信度矩阵均转换为关键帧置信度向量；将针对一个第二关键帧置信度矩阵得到的每一个关键帧置信度向量与针对另一个第二关键帧置信度矩阵得到的每一个关键帧置信度向量两两匹配相乘，得到第三关键帧置信度矩阵；利用由深度学习检测模型输出的第一样本媒体内容和第二样本媒体内容之间的相似帧位置及所述第三关键帧置信度矩阵，调整所述分类网络的损失函数。
140.在本说明书装置的一个实施例中，分类网络训练模块在执行所述两两匹配相乘之后，并在得到第三关键帧置信度矩阵之前，进一步执行：对于所述两两匹配相乘后得到的初级矩阵，将该初级矩阵中每隔设定个数位置处的向量值置为1，得到所述第三关键帧置信度矩阵。
141.在本说明书装置的一个实施例中，还包括深度学习检测模型训练模块，被配置为执行：
142.计算第一样本媒体内容的每一帧的特征向量与第二样本媒体内容的每一帧的特征向量的相似度，得到相似度矩阵；
143.将所述第三关键帧置信度矩阵与所述相似度矩阵相乘，得到加权后的相似度矩阵；
144.将所述加权后的相似度矩阵输入深度学习检测模型中，以便对该深度学习检测模型进行训练。
145.在本说明书装置的一个实施例中，整体相似度计算模块805配置为执行：将计算出的各个帧间相似度输入预先训练的深度学习检测模型中，得到由该深度学习检测模型输出的目标媒体内容与参考媒体内容之间的相似帧位置，根据该相似帧位置确定目标媒体内容与参考媒体内容的整体相似度。
146.本说明书一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行说明书中任一个实施例中的方法。
147.本说明书一个实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现执行说明书中任一个实施例中的方法。
148.可以理解的是，本说明书实施例示意的结构并不构成对本说明装置的具体限定。在说明书的另一些实施例中，装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
149.上述装置、系统内的各模块之间的信息交互、执行过程等内容，由于与本说明书方法实施例基于同一构思，具体内容可参见本说明书方法实施例中的叙述，此处不再赘述。
150.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
151.本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
152.以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：应用镜像文件的部署方法、装置、计算机设备和存储介质与流程

媒体内容相似度的检测方法和装置与流程

相关文献

最热文献