标识检测方法、装置、电子设备及存储介质与流程

2022-08-03 00:25:31 来源：中国专利 TAG：

1.本公开涉及视频处理技术领域，尤其涉及一种标识检测方法、装置、电子设备及存储介质。

背景技术：

2.在互联网上流传的视频常常带有各种各样的诸如图标、水印等的标识，例如，一些视频编辑工具软件有时也会给用户的视频自动加上各种工具类图标、水印等。而在对视频的后期编辑的需求中，经常会遇到希望避开标识位置、避免使用具有诸如台标的标识的视频等需求。
3.一般来说，视频中的图标具有如下复杂特点：标识种类繁多、样式多样；标识为图形、文字混合；标识附近的文字可变；标识透明或者半透明；标识位置在视频中发生移动等等。
4.然而，由于标识的复杂性，现有的检测方案很难对标识识别完全，容易出现漏检的情况。

技术实现要素：

5.本公开提供一种标识检测方法、装置、电子设备及存储介质，以至少解决相关技术中很难对标识识别完全而容易出现漏检的问题。本公开的技术方案如下：
6.根据本公开实施例的第一方面，提供一种标识检测方法，所述标识检测方法包括：获取待检测视频中的目标视频帧；识别所述目标视频帧中的第一区域和第一候选区域，其中，所述第一区域包含预设标识，所述第一候选区域包含除所述预设标识之外的标识内容；将所述第一候选区域中的与所述第一区域之间的距离小于预设值的第一候选区域确定为第二区域；将所述第一区域和所述第二区域确定为所述目标视频帧中的标识区域。
7.可选地，所述预设标识包括预设图形标识、预设文本标识中的至少一种，其中，确定所述第一区域的步骤包括：对所述目标视频帧进行图形标识检测和文本标识检测，得到包含所述预设图形标识的第二候选区域和/或包含所述预设文本标识的第二候选区域；对得到的第二候选区域进行融合，确定所述第一区域。
8.可选地，所述对得到的第二候选区域进行融合，确定所述第一区域，包括：合并重叠程度大于第一预设值的第二候选区域，得到新的所述第二候选区域；在任意两个所述第二候选区域的重叠程度小于或等于所述第一预设值时，将所述第二候选区域作为所述第一区域。
9.可选地，对得到的第二候选区域进行融合，得到所述第一区域的步骤包括：确定每两个第二候选区域之间的重叠程度，在重叠程度大于第一预设值时，将对应的两个第二候选区域合并，并将合并后的区域作为第一区域；在重叠程度小于或等于第一预设值时，将对应的两个第二候选区域分别作为第一区域。
10.可选地，所述除所述预设标识之外的标识内容包括文本，其中，确定所述第一候选
区域的步骤包括：对所述目标视频帧进行文本检测，得到包含文本的第一候选区域。
11.可选地，将所述第一候选区域中的与所述第一区域之间的距离小于预设值的第一候选区域确定为第二区域的步骤包括：扩大所述第一区域，得到扩大的第一区域；确定所述扩大的第一区域与所述第一候选区域之间的重叠程度，将重叠程度大于第二预设值的第一候选区域确定为第二区域。
12.可选地，将所述第一候选区域中的与所述第一区域之间的距离小于预设值的第一候选区域确定为第二区域的步骤包括：将满足预设距离条件的第一候选区域确定为第二区域，其中，所述预设距离条件包括：在所述目标视频帧的高度方向上与所述第一区域之间的距离小于第一预设距离；和/或，在所述目标视频帧的宽度方向上与所述第一区域之间的距离小于第二预设距离。
13.可选地，获取待检测视频中的目标视频帧的步骤包括：以预设时间间隔，从所述待检测视频中抽取视频帧作为所述目标视频帧，其中，所述标识检测方法还包括：针对当前目标视频帧与在所述当前目标视频帧之前和/或之后的相邻目标视频帧之间的中间视频帧，确定所述当前目标视频帧与中间视频帧在目标区域中的区域相似度，其中，所述目标区域为与所述当前目标视频帧对应的第一区域和第二区域；在中间视频帧满足预设条件时，将所述目标区域确定为所述中间视频帧中的标识区域，其中，所述预设条件为：中间视频帧中的相似区域的面积占所述目标区域的总面积的比例高于比例阈值，其中，所述相似区域是指所述区域相似度高于相似度阈值的区域。
14.根据本公开实施例的第二方面，提供一种标识检测装置，所述标识检测装置包括：获取单元，被配置为获取待检测视频中的目标视频帧；第一确定单元，被配置为识别所述目标视频帧中的第一区域和第一候选区域，其中，所述第一区域包含预设标识，所述第一候选区域包含除所述预设标识之外的标识内容；第二确定单元，被配置为将所述第一候选区域中的与所述第一区域之间的距离小于预设值的第一候选区域确定为第二区域；第三确定单元，被配置为将所述第一区域和所述第二区域确定为所述目标视频帧中的标识区域。
15.可选地，所述预设标识包括预设图形标识、预设文本标识中的至少一种，其中，所述第一确定单元还被配置为：对所述目标视频帧进行图形标识检测和文本标识检测，得到包含所述预设图形标识的第二候选区域和/或包含所述预设文本标识的第二候选区域；对得到的第二候选区域进行融合，确定所述第一区域。
16.可选地，所述第一确定单元还被配置为：合并重叠程度大于第一预设值的第二候选区域，得到新的所述第二候选区域；在任意两个所述第二候选区域的重叠程度小于或等于所述第一预设值时，将所述第二候选区域作为所述第一区域。
17.可选地，所述第一确定单元还被配置为：确定每两个第二候选区域之间的重叠程度，在重叠程度大于第一预设值时，将对应的两个第二候选区域合并，并将合并后的区域作为第一区域；在重叠程度小于或等于第一预设值时，将对应的两个第二候选区域分别作为第一区域。
18.可选地，所述除所述预设标识之外的标识内容包括文本，其中，所述第一确定单元还被配置为：对所述目标视频帧进行文本检测，得到包含文本的第一候选区域。
19.可选地，所述第二确定单元还被配置为：扩大所述第一区域，得到扩大的第一区域；确定所述扩大的第一区域与所述第一候选区域之间的重叠程度，将重叠程度大于第二
预设值的第一候选区域确定为第二区域。
20.可选地，所述第二确定单元还被配置为：将满足预设距离条件的第一候选区域确定为第二区域，其中，所述预设距离条件包括：在所述目标视频帧的高度方向上与所述第一区域之间的距离小于第一预设距离；和/或，在所述目标视频帧的宽度方向上与所述第一区域之间的距离小于第二预设距离。
21.可选地，所述获取单元还被配置为：以预设时间间隔，从所述待检测视频中抽取视频帧作为所述目标视频帧，其中，所述标识检测装置还包括第四确定单元，所述第四确定单元被配置为：针对当前目标视频帧与在所述当前目标视频帧之前和/或之后的相邻目标视频帧之间的中间视频帧，确定所述当前目标视频帧与中间视频帧之间在目标区域中的区域相似度，其中，所述目标区域为与所述当前目标视频帧对应的第一区域和第二区域；在中间视频帧满足预设条件时，将所述目标区域确定为所述中间视频帧中的标识区域，其中，所述预设条件为：中间视频帧中的相似区域的面积占所述目标区域的总面积的比例高于比例阈值，其中，所述相似区域是指所述区域相似度高于相似度阈值的区域。
22.根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器，其中，所述处理器可执行指令在被所述处理器运行时，促使所述处理器执行根据本公开所述的标识检测方法。
23.根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由处理器执行时，使得所述处理器能够执行根据本公开所述的标识检测方法。
24.根据本公开实施例的第五方面，提供一种计算机程序产品，其包括计算机指令，所述计算机指令被处理器执行时实现根据本公开所述的标识检测方法。
25.本公开的实施例提供的技术方案至少带来以下有益效果：
26.根据本公开的实施例的标识检测方法，可以通过分别确定包含预设标识的第一区域和包含除预设标识之外的标识内容的第一候选区域，并且从第一候选区域中筛选出与第一区域之间的距离小于预设值的第二区域，将第一区域和第二区域确定为从视频帧中检测出的标识，这解决了现有的检测方案很难对标识识别完全而容易出现漏检的问题，能够实现对视频中的标识的全面检测。
27.此外，根据本公开的实施例的标识检测方法，通过将第一区域和第二区域确定为从视频帧中检测出的标识，解决了无法检测在已知的标识数据集范围之外的图标类型的问题，可以检测出已知标识以及已知标识范围之外的其他标识，提高检测的全面性和准确性，避免漏检。
28.此外，根据本公开的实施例的标识检测方法，通过分别确定包含预设标识的第一区域和包含除预设标识之外的标识内容的第一候选区域，可以支持多种类型的标识的检测，能够处理图标类、文字类、自定义文字风格、自定义样式的标识。
29.此外，根据本公开的实施例的标识检测方法可以采用抽帧检测的方式，采用先抽取目标视频帧检测、进而对中间视频帧进行检测的这种“时域检测”方案，可以在保持高效检测的情况下，得到逐帧的检测结果，解决了相关技术中无法同时保障检测速度和检测效果的问题，实现效率和效果的平衡。
30.此外，根据本公开的实施例的标识检测方法所采用的检测算法较为灵活，在检测
过程中的各个子模块可以自由替换成其他替代方案。
31.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
32.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
33.图1是示出现有的图标检测方法的示意图。
34.图2a是示出视频中的标识的第一示例的示意图。
35.图2b是示出视频中的标识的第二示例的示意图。
36.图3是根据一示例性实施例示出的一种标识检测方法的流程图。
37.图4是根据一示例性实施例示出的一种标识检测方法的确定第一区域的步骤的流程图。
38.图5是根据一示例性实施例示出的一种标识检测方法的实施示例的框架示意图。
39.图6是根据一示例性实施例示出的一种标识检测装置的框图。
40.图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
41.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
42.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
43.在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况：(1)包括a；(2)包括b；(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。
44.需要说明的是，尽管下面以台标的应用场景为例进行了阐述，但是应理解的是，根据本公开的标识检测方法、装置、电子设备及存储介质的应用场景不限于此，其也可以应用于任何其他视频标识的应用场景中。
45.还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
46.如前文所述，在现有的检测方案中，通常仅可以对单张图像进行特定种类的标识(例如图标、水印)检测，然而，一方面，其无法灵活应对超出数据集范围之外的标识；另一方
面，将其简单的作用于视频的每一帧时间代价太高。
47.在现有的标识检测的一种方案中，可以通过训练卷积神经网络(convolutional neural network，cnn)实现对单张图片的台标检测。以图1所示的标识检测方法为例，可以采用yolo(you only look once)结构的网络。具体来说，该网络对于输入的图像能够返回出一系列的长方形坐标框，并且标明每一个框所在位置和对应的台标类别。在对视频进行处理的时候，通常会对视频进行抽帧采样，例如每隔10s采样一帧，再对采样的视频帧分别进行检测，实现对于视频的检测。
48.由于该方案处理速度不够快，而视频中往往包括大量的视频帧，使得若将该方案应用于视频中的所有视频帧，可能会导致检测速度非常慢，因此，这样的方案通常仅在视频审核任务中被采用。具体地，在审核的任务中，可能会对视频采样，针对采样的视频帧来检测标识，并且将采样的视频帧的检测结果作为整个视频的检测结果，再进行后续的处理。
49.此外，现有的标识检测模型和算法通常只能针对于特定的标识样式，神经网络会记录下特定的标识颜色、形状、图案信息并且在再次出现时检测到它。然而，诸如网络台标等的视频标识更新快、样式多，一旦出现样式更新很容易出现漏检问题。此外，在许多网络视频中，会在视频标识附近存在一些用户相关的文字，例如，如图2a和图2b所示的在视频标识下方的文字行，这些文字行例如可以是与用户id(如图2a所示)或者临时活动(如图2b所示)相关。此外，如上面所述，对每一个视频帧进行检测，算法时间代价较高，检测效率较低。
50.在现有的标识检测的另一种方案中，可以采用半人工的方式，通过审核、美术人员的手工标注标识区域来确定每一个视频帧中的标识位置，再通过局部模糊的方式，对手工标注的标识进行处理，例如使水印不可见等。目前，绝大多数在线台标修复工具和大部分视频网站的视频水印去除都通过这种方式来实现。
51.然而，这种方法的人力成本较高，依赖于人工逐帧处理，容易发生漏检，此外，对手工标注的标识直接添加局部模糊、打码的方式来处理，可能影响对视频的观看体验。
52.下面将参考附图描述根据本公开示例性实施例的标识检测方法、标识检测装置、电子设备、计算机可读存储介质及计算机程序产品，以解决上述问题中的至少一者。
53.图3是根据一示例性实施例示出的一种标识检测方法的流程图。根据本公开示例性实施例的标识检测方法的执行主体可以针对所获取到的待检测视频执行该标识检测方法，以确定待检测视频的视频帧中的标识区域。这里，作为示例，根据本公开示例性实施例的标识检测方法的执行主体可以是诸如个人计算机、平板装置、个人数字助理、智能手机、服务器或它们的任意组合，然而该标识检测方法的执行主体不限于此，其也可以是其他能够进行标识检测的任意类型的电子设备，本公开对该标识检测方法的执行主体不作特别限制。
54.如图3所示，根据本公开的一示例性实施例的标识检测方法可以包括以下步骤：
55.在步骤s10，获取待检测视频中的目标视频帧。
56.在该步骤中，待检测视频可以指的是任意类型的以电信号的方式捕捉、记录、处理、储存、传送与重现的动态影像，其可以是通过网络传播的视频，例如互联网视频平台上的视频；也可以是通过诸如无线电等的其他方式传播的视频，例如电视台播放的视频。
57.目标视频帧可以是待检测视频中的需要被检测的任意一个或多个视频帧，例如，其可以是待检测视频中的所有视频帧，也可以是待检测视频中的一部分视频帧。
58.作为示例，可以以预设时间间隔，从待检测视频中抽取视频帧作为目标视频帧。该示例可以应用于例如上面描述的视频审核应用场景。
59.在步骤s20，识别目标视频帧中的第一区域和第一候选区域。
60.这里，第一区域可以包含预设标识，第一候选区域可以包括除预设标识之外的标识内容。在本文中，标识可以指的是图形台标、文字台标、水印、徽标、商标中的至少一者，其可以是在视频中的一个或多个帧中出现的任意类型的图形或文字，例如可以是视频播放平台的logo、视频播放用户或视频制作者的身份标识等。此外，本文中所称的区域可以通过例如坐标框来表示。
61.在该步骤中，确定第一区域和第一候选区域的执行顺序可以是任意的，可以先确定第一区域，后确定第一候选区域，也可以先确定第一候选区域，后确定第一区域，也可以二者同时执行。
62.预设标识可以是已知的标识数据库中的标识，例如，可以是已知的台标、水印、徽标、商标等。
63.对于确定第一区域而言，作为示例，预设标识可以包括预设图形标识、预设文本标识中的至少一种。在该示例中，如图4所示，确定第一区域的步骤可以包括：
64.在步骤s21，对目标视频帧进行图形标识检测和文本标识检测，得到包含预设图形标识的第二候选区域和/或包含预设文本标识的第二候选区域。
65.在该步骤中，作为示例，可以利用预先训练的图形检测网络，对目标视频帧进行图形标识检测，得到包含预设图形标识的第二候选区域。
66.在该示例中，图形检测网络可以用于检测视频帧中的预设图形标识。图形检测网络例如可以是诸如图1所示的yolo结构的图形检测神经网络，以用于检测出数据库中的台标模板类别及其位置。
67.作为示例，图形检测网络可以基于已知的标识数据库中的预设图形标识的来训练，例如，可以基于已知的标识数据库建立训练样本集，训练样本集可以包括预设图形标识样本和指示预设图形标识样本的标签，如此，可以基于该训练样本集对图形检测网络进行训练，得到训练好的图形检测网络，以检测目标视频帧中是否存在预设图形标识。
68.在该步骤中，作为示例，可以利用预先训练的第一文本检测网络，对目标视频帧进行文本标识检测，得到包含预设文本标识的第二候选区域。
69.在该示例中，第一文本检测网络可以用于检测视频帧中的预设文本标识。第一文本检测网络例如可以是光学字符识别(optical character recognition，ocr)文字识别网络，以用于检测出视频画面中的文字并对其进行文字识别，其可以针对部分文字类型标识进行检测，例如可以是任意具有视频文字识别功能的应用等。作为示例，ocr文字识别网络例如可以采用用于文本分类的递归卷积神经网络算法。
70.作为示例，第一文本检测网络可以基于已知的标识数据库中的预设文本标识来训练，例如，可以基于已知的标识数据库建立训练样本集，训练样本集可以包括预设文本标识样本和指示预设文本标识样本的标签，如此，可以基于该训练样本集对第一文本检测网络进行训练，得到训练好的第一文本检测网络，以检测目标视频帧中是否存在预设文字标识。
71.需要说明的是，尽管上面给出了图形检测网络、第一文本检测网络及其训练方法的示例，但是其不限于此，也可以基于其他结构的神经网络来得到相应的网络。
72.此外，根据本公开的示例性实施例，基于神经网络来识别目标视频帧中的预设图形标识和预设文本标识，可以将人工智能模型应用于视频标识的识别中，这有利于提高视频帧识别的准确度和识别速度。然而，对目标视频帧进行图形标识检测和文本标识检测的方式不限于此，也可以其他相似功能的算法模块来实现。
73.还需要说明的是，图形标识检测和文本标识检测的执行顺序可以是任意的，可以先执行图形标识检测，后执行文本标识检测，也可以先执行文本标识检测，后执行图形标识检测，也可以同时执行二者。
74.在步骤s22，对得到的第二候选区域进行融合，确定第一区域。
75.在该步骤中，可以将包含预设图形标识的第二候选区域以及包含预设文本标识的第二候选区域作为整体进行融合，得到第一区域。
76.作为示例，对得到的第二候选区域进行融合，确定第一区域的步骤可以包括：合并重叠程度大于第一预设值的第二候选区域，得到新的第二候选区域；在任意两个第二候选区域的重叠程度小于或等于第一预设值时，将第二候选区域作为第一区域。
77.例如，可以确定每两个第二候选区域之间的重叠程度，在重叠程度大于第一预设值时，将对应的两个第二候选区域合并，并将合并后的区域作为新的所述第二候选区域。如此，可以根据区域之间的重叠程度对检测结果进行合理融合，以避免检测结果存在重复的区域而导致后续重复处理，浪费计算资源，确保检测速度较快。
78.具体来说，包含预设图形标识的第二候选区域以及包含预设文本标识的第二候选区域均需要作为检测出的标识，例如可以是需要从视频帧中被消除的位置。因此，可以首先将所有第二候选区域的坐标框合并成一个集合s，然后，针对集合s中的每两个第二候选区域的坐标框，计算重叠程度，例如计算交并比(intersection over union，iou)指标，即，两个坐标框的交集面积除以并集面积。
79.当iou值大于第一预设值σ时，则认为两个第二候选区域的位置是重叠的，取两者并集的范围，替换原本的两个第二候选区域的坐标，作为确定的第一区域。当iou值小于或等于第一预设值σ时，则认为两个第二候选区域的位置是不重叠的，保持原本的两个第二候选区域的坐标不变，分别作为确定的第一区域。
80.需要说明的是，这里给出了基于iou指标来表示重叠程度的示例，然而，其不限于此，也可以替换成其他重叠度计算指标。
81.还需要说明的是，上文描述了基于每两个第二候选区域之间的重叠程度来对第二候选区域进行融合，以得到第一区域，然而，本公开的示例性实施例不限于此，也可以通过其他方式进行融合来确定第一区域，例如可以去除每两个第二候选区域之间的重叠区域，将去重后的第二候选区域作为第一区域。
82.在上文中，结合图4描述了先确定第二候选区域、再对第二候选区域进行融合以确定第一区域的示例，如此，可以对包含预设图形标识的区域和包含预设文字标识的区域进行分别检测，然后将分别检测得到的结果进行融合，如此，一方面，可以考虑到图形检测和文字检测的差异性，而分别执行检测任务，提高检测结果的准确性；另一方面，也可以通过对分别检测的检测结果进行合理融合，以在提高检测结果的准确性的同时，避免两方面检测结果存在重复的区域而导致后续重复处理，浪费计算资源，确保检测速度较快，能够在可接受的时间内完成多种标识及其变体的识别和定位，以用于最终实现标识的消除。
83.然而，本公开的示例性实施例不限于图4所示的示例，也可以通过其他方式确定包含预设标识的第一区域，例如，可以不区分预设图形标识和预设文字标识，而直接检测包含预设标识的第一区域，例如也可以采用神经网络来实现。
84.在步骤s20，对于确定第一候选区域而言，作为示例，除所述预设标识之外的标识内容可以包括文本，在该示例中，确定第一候选区域的步骤可以包括：对目标视频帧进行文本检测，得到包含文本的第一候选区域。
85.作为示例，可以利用预先训练的第二文本检测网络，对目标视频帧进行文本检测，得到包含文本的第一候选区域，其中，第二文本检测网络用于检测视频帧中的文本。
86.在该示例中，第二文本检测网络可以用于检测视频帧中的文本。第二文本检测网络例如可以是任意的文字识别神经网络，以用于检测出视频帧中的文本，这里，第二文本检测网络可以检测出视频帧中的未包含在已知的标识数据库中的文本，此外，作为示例，第二文本检测网络还可以检测出上述第一文本检测网络所检测到的文本标识。
87.第二文本检测网络例如可以是采用dbnet的神经网络，以用于检测出视频画面中出现的类似文本的区域。作为示例，第二文本检测网络可以利用任意的文本训练样本集来训练，训练样本集可以包括文本样本和指示文本样本的标签，如此，可以基于该训练样本集对第二文本检测网络进行训练，得到训练好的第二文本检测网络，以检测目标视频帧中是否存在文本。
88.需要说明的是，尽管上面给出了第二文本检测网络及其训练方法的示例，但是其不限于此，也可以基于其他结构的神经网络来得到相应的网络。
89.此外，根据本公开的示例性实施例，基于神经网络来识别目标视频帧中的文本，可以将人工智能模型应用于视频标识的识别中，这有利于提高视频帧识别的准确度和识别速度。然而，识别目标视频帧中的文本的方式不限于此，也可以其他相似功能的算法模块来实现。
90.此外，尽管上面描述了除预设标识之外的标识内容是文本的示例，但是本公开不限于此，该标识内容也可以是任意其他类型的标识，例如，可以是图形标识，如此，可以利用预先训练的第二图形检测网络，对目标视频帧进行检测，得到包含图形的第一候选区域。这里，第二图形检测网络可以检测出未包含在已知的标识数据库中的图形，此外，作为示例，第二图形检测网络还可以检测出上述图形检测网络所检测到的文本标识。
91.根据本公开的示例性实施例，在步骤s20中，通过确定包含除预设标识之外的第一候选区域，可以确定出例如图2a和图2b中所示的文字行和临时标识，而避免仅参照已知的标识数据库检测而导致无法灵活应对新出现的、自定义的文字或图形的标识的情况。
92.还需要说明的是，确定包含预设图形标识的第二候选区域和/或确定包含预设文本标识的第二候选区域以及确定第一候选区域的执行顺序可以是任意的，三者可以按照任意顺序先后执行，三者中的任意二者或者三者也可以同时执行。
93.在步骤s30，将第一候选区域中的与第一区域之间的距离小于预设值的第一候选区域确定为第二区域。
94.由于第一候选区域包含除预设标识之外的标识内容，因此第一候选区域可能包含标识和视频内容二者，在步骤s30中，可以根据第一候选区域距第一区域的距离，筛选出包含标识的第一候选区域(即第二区域)，而排除掉包含视频内容的第一候选区域。这里，第一
候选区域与第一区域之间的距离可以通过不同的方式来确定，预设值的字段类型可以根据确定二者距离的方式来给定，预设值的大小可以是根据实际需要任意设置的。下面将给出确定第二区域的示例。
95.在一示例中，可以通过对第一区域进行扩大并且计算扩大后的第一区域与第一候选区域之间的重叠程度，来判断第一候选区域距第一区域的距离。在该示例中，上文提及的预设值可以是预设重叠程度。
96.例如，可以扩大第一区域，得到扩大的第一区域；确定扩大的第一区域与第一候选区域之间的重叠程度，将重叠程度大于第二预设值的第一候选区域确定为第二区域。这里，第一区域扩大的方向可以是任意指定的，例如，第一区域可以以第一区域的中心点为基准点在目标视频帧的高度和宽度方向上扩大。
97.具体来说，可以针对步骤s23中已经由集合s优化得到的集合s’，取每个第一区域的坐标框，与每个第一候选区域的坐标框比较，如果两者处于邻近的位置上，则将此第一候选区域的坐标框也保留，作为第二区域。例如，可以将集合s’中的坐标框(即，第一区域)扩大预设倍数后，计算与每个第一候选区域之间的iou，若将iou大于第二预设值，则将对应的第一候选区域确定为第二区域。
98.在该示例中，可以通过扩大第一区域而从第一候选区域中筛选出第二区域，从而可以排除掉不属于视频标识的第一候选区域，提高检测结果的准确性，并且提高扩大第一区域的方式来确定重叠程度，可以根据第一区域本身的大小来筛选第二区域，避免漏选第二区域，进一步提高检测结果的准确性。
99.在另一示例中，可以将满足预设距离条件的第一候选区域确定为第二区域，其中，预设距离条件包括：在目标视频帧的高度方向上与第一区域之间的距离小于第一预设距离；和/或，在目标视频帧的宽度方向上与第一区域之间的距离小于第二预设距离。在该示例中，上文提及的预设值可以是第一预设距离和/或第二预设距离。
100.在该示例中，可以根据在两个方向上距第一区域的距离而从第一候选区域中筛选出第二区域，从而可以排除掉不属于视频标识的第一候选区域，提高检测结果的准确性，并且选取两个方向进行计算，可以在确保准确性的同时提高计算速度。
101.在上述示例中，预设倍数、第一预设距离和第二预设距离均可根据实际需要而任意设定。此外，确定第二区域的方式不限于以上示例，也可以通过其他方式，从第一候选区域中确定出可能为视频中的标识的第二区域。
102.在步骤s40，将第一区域和第二区域确定为目标视频帧中的标识区域。
103.在该步骤中，可以将第一区域和第二区域一起作为从目标视频帧中检测出的标识区域。在一示例中，可以将第一区域和第二区域分别保存为从目标视频帧中检测出的标识区域；在另一示例中，可以去除第一区域和第二区域中的重复区域，将去重后的第一区域和第二区域保存为目标视频帧中的标识区域。
104.如此，根据本公开的实施例，通过将第一区域和第二区域确定为从视频帧中检测出的标识，解决了无法检测在已知的标识数据集范围之外的标识的问题，可以检测出已知标识以及已知标识范围之外的其他标识，提高检测的全面性和准确性，避免漏检。
105.此外，根据本公开的示例性实施例，如步骤s10中，在一种情况下，可以对待检测视频中的所有视频帧应用如上所述的步骤，以确定每个视频帧中的标识区域，即目标视频帧
可以是待检测视频中的所有视频帧；在另一种情况下，可以抽取待检测视频中的一部分视频帧执行上述检测，对于该情况，一方面可以基于被抽取的视频帧的检测结果用于视频审核，另一方面也可以基于这些被抽取的视频帧的检测结果，确定视频中其他视频帧的标识区域，对此方面，下面将进行详细描述。
106.具体来说，在以预设时间间隔从待检测视频中抽取视频帧作为目标视频帧的情况下，根据本公开的示例性实施例的检测方法还可以包括：针对当前目标视频帧与在当前目标视频帧之前和/或之后的相邻目标视频帧之间的中间视频帧，确定当前目标视频帧与中间视频帧之间在目标区域中的区域相似度，其中，目标区域为与当前目标视频帧对应的第一区域和第二区域。
107.这里，预设时间间隔例如可以是2秒，然而其不限于此，也可以根据实际需要进行调整。预设条件可以为：中间视频帧中的相似区域的面积占目标区域的总面积的比例高于比例阈值，其中，相似区域是指区域相似度高于相似度阈值的区域。
108.在中间视频帧满足预设条件时，可以认为中间视频帧与目标视频帧具有相同的标识区域，因此，可以将目标区域确定为所述中间视频帧中的标识区域；在中间视频帧不满足预设条件时，可以认为中间视频帧不具有目标视频帧的标识区域，因此，可以对中间视频帧执行上述检测步骤s10至步骤s40。
109.例如，可以基于每个抽样的目标视频帧的第一区域和第二区域，遍历当前目标视频帧前后所有的中间视频帧，直至遇到前一个或后一个抽样的目标视频帧。对于遍历范围内的所有中间视频帧，判断上述第一区域和第二区域中的标识出现的起止时间。
110.举例而言，假定待检测视频具有100个视频帧，从这100个视频帧中选取第10、20、30、40、50、60、70、80、90、100帧视频帧作为目标视频帧。这里，第10帧与第20帧为相邻的目标视频帧，二者之间的视频帧为中间视频帧，即，第11帧至第19帧为中间视频帧，类似地，第20帧与第30帧为相邻的目标视频帧，即，第21帧至第29帧为中间视频帧，以此类推，可确定其他相邻的目标视频帧及它们之间的中间视频帧。
111.以第20帧的处理为例进行说明，可以先确定第20帧(其为目标视频帧)中的第一区域和第二区域，并将所确定的第一区域和第二区域作为目标区域。
112.这里，第20帧之前的相邻目标视频帧为第10帧，第20帧之后的相邻目标视频帧为第30帧。可以针对第20帧与第10帧之间的中间视频帧(即，第11帧至第19帧)和/或第20帧与第30帧之间的中间视频帧(即，第21帧至第29帧)，确定第20帧与每个中间视频帧之间在上述目标区域中的区域相似度。
113.在中间视频帧满足上面描述的预设条件时，可以认为该中间视频帧与第20帧具有相同的标识区域，例如，可确定出第11帧至第19帧以及第21帧至第25帧均满足上述预设条件，因此，可认为第11帧至第19帧、第21帧至第25帧均与第20帧具有相同的标识区域，而第26帧至第29帧不满足上述预设条件，则可认为第26帧至第29帧与第20帧具有不同的标识区域，如此，可确定第20帧中的标识区域所出现的起始帧为第11帧，结束帧为第25帧，从而可确定标识出现的起止时间。
114.与上面对第20帧执行的处理类似，可以针对所有目标视频帧执行上述过程，需要说明的是，在确定出第11帧至第19帧与第20帧之间满足上述预设条件的情况下，在针对第10帧(其为目标视频帧)进行处理时，可能会确定出第11帧至第19帧与第10帧之间也满足上
述预设条件，在此情况下，可认为第11帧至第19帧与第10帧也具有相同的标识区域，也就是说，作为中间视频帧的第11帧至第19帧与作为目标视频帧的第10帧和第20帧均具有相同的标识区域，因此，可将第10帧的标识区域和第20帧的标识区域均确定为第11帧至第19帧的标识区域。
115.上文所述的区域相似度可以通过计算像素相似度来确定，相似区域可以基于区域中的像素相似度来确定。具体来说，对于遍历范围内的每一中间视频帧，可以取中间视频帧的目标区域的坐标框范围内的部分，计算与抽样的目标视频帧的像素相似度，像素相似度例如可以为均方差(mean squared error，mse)指标，当像素相似度高于相似度阈值δ的像素数占目标区域的总像素数的比例高于比例阈值γ时，或者，当像素相似度高于相似度阈值δ的像素面积占目标区域的总像素面积的比例高于比例阈值γ时，则认为该中间视频帧包含与目标视频帧同样的标识。这里，比例阈值γ和相似度阈值δ可以根据实际需要而任意设定，例如可以根据实际检测的检测结果的精确度要求来确定，在比例阈值γ和相似度阈值δ较高的情况下，检测结果更准确。
116.在上文中，标识出现的起始时间对应于标识在时序上首次出现的视频帧，标识出现的终止时间对应于标识在时序上末次出现的视频帧，其中，首次出现的视频帧可以是在包含与目标视频帧同样的标识的视频帧中最靠前的视频帧，末次出现的视频帧可以是在包含与目标视频帧同样的标识的视频帧中最靠后的视频帧。这里，最靠前的视频帧可以是目标视频帧之前的中间视频帧，也可以是目标视频帧本身；最靠后的视频帧可以是目标视频帧之后的中间视频帧，也可以是目标视频帧本身。
117.如此，根据上述方法，可以得到目标视频帧的第一区域和第二区域中的标识出现的起止时间，以便于后续对视频帧进行批量处理，例如批量擦除起止时间内的视频帧中的标识等。
118.需要说明的是，这里给出了基于mse指标来表示相似度的示例，然而，其不限于此，也可以替换成其他相似度计算指标。
119.如上面所述，根据本公开的示例性实施例，采用先抽取目标视频帧检测、进而对中间视频帧进行检测的这种“时域检测”方案，可以在保持高效检测的情况下，得到逐帧的检测结果，解决了相关技术中无法同时保障检测速度和检测效果的问题。
120.上面描述了根据本公开的示例性实施例的标识检测方法，该方法中涉及计算机视觉、图像视频处理、人工智能等领域的技术，涉及到的算法种类包括图像物体检测(image detection)、图像分割(image segmentation)等，本领域技术人员可以在相应领域的知识中获知相关算法的具体计算过程，这里不对其进行赘述。
121.上面参照图3和图4描述了根据本公开的示例性实施例的标识检测方法，图5示出了根据一示例性实施例示出的一种标识检测方法的示例的框架示意图，下面将结合图5描述该方法的一实施示例。
122.如图5所示，目标视频帧可以分别输入到图形检测网络、第一文本检测网络和第二文本检测网络，其中，图形检测网络主要是针对图标类的标志识别，第一文本检测网络主要是针对文字类的logo识别，第二文本检测网络主要是用于将全图中类似文字的区域全都检测出来。
123.具体来说，一方面，可以利用图形检测网络，以检测出数据库中的图形模板类别及
其位置，另一方面，可以利用第一文本检测网络、例如可以采用用于文本分类的递归卷积神经网络算法，进行ocr文字识别，以检测出视频帧中的文字并对其进行文字识别。此外，可以利用第二文本检测网络、例如可以采用dbnet网络，对视频帧中的文字区域进行检测，以检测出视频帧中出现的类似文本的区域。上述3个网络模块均返回出一系列的坐标框，标记出来对应的位置，即，图形检测网络和第一文本检测网络输出的第二候选区域以及第二文本检测网络输出的第一候选区域。
124.然后，可以进行标识融合。具体来说，可以对第二候选区域进行融合，得到第一区域，并且基于第一区域对第一候选区域进行筛选，得到第二区域，如此，可将第一区域和第二区域确定为所述目标视频帧中的标识区域。
125.在目标视频帧为抽样的视频帧的情况下，可以采用如上面所述的时域检测方案，基于目标视频帧的检测结果确定中间视频帧中的标识区域，以完成对整个待检测视频的标识检测，并且可以将检测出的标识送入到后续的标识处理环节中。
126.此外，根据本公开的示例性实施例的检测方法，可以自动地对视频中的标识进行检测，并且，由于对目标视频帧和中间视频帧的检测结果均为自动生成的，因此其检测结果可以被送入到后续的视频修复、标识擦除等的处理中，以被自动地进行处理，避免了手动标注标识的区域边界突兀而导致的过度修复、视觉效果差等问题。
127.图6是根据一示例性实施例示出的一种数据查询装置的框图。参照图6，该装置包括获取单元100、第一确定单元200、第二确定单元300以及第三确定单元400。
128.获取单元100被配置为获取待检测视频中的目标视频帧。
129.第一确定单元200被配置为识别目标视频帧中的第一区域和第一候选区域，其中，第一区域包含预设标识，第一候选区域包含除所述预设标识之外的标识内容。
130.第二确定单元300被配置为将第一候选区域中的与第一区域之间的距离小于预设值的第一候选区域确定为第二区域。
131.第三确定单元400被配置为将第一区域和第二区域确定为目标视频帧中的标识区域。
132.作为示例，预设标识包括预设图形标识、预设文本标识中的至少一种，其中，第一确定单元200还被配置为：对目标视频帧进行图形标识检测和文本标识检测，得到包含预设图形标识的第二候选区域和/或包含预设文本标识的第二候选区域；对得到的第二候选区域进行融合，确定第一区域。
133.作为示例，第一确定单元200还被配置为：合并重叠程度大于第一预设值的第二候选区域，得到新的第二候选区域；在任意两个第二候选区域的重叠程度小于或等于第一预设值时，将第二候选区域作为第一区域。
134.作为示例，第一确定单元200还被配置为：确定每两个第二候选区域之间的重叠程度，在重叠程度大于第一预设值时，将对应的两个第二候选区域合并，并将合并后的区域作为第一区域；在重叠程度小于或等于第一预设值时，将对应的两个第二候选区域分别作为第一区域。
135.作为示例，除预设标识之外的标识内容包括文本，其中，第一确定单元200还被配置为：对目标视频帧进行文本检测，得到包含文本的第一候选区域。
136.作为示例，第二确定单元300还被配置为：扩大第一区域，得到扩大的第一区域；确
定扩大的第一区域与第一候选区域之间的重叠程度，将重叠程度大于第二预设值的第一候选区域确定为第二区域。
137.作为示例，第二确定单元300还被配置为：将满足预设距离条件的第一候选区域确定为第二区域，其中，预设距离条件包括：在目标视频帧的高度方向上与第一区域之间的距离小于第一预设距离；和/或，在目标视频帧的宽度方向上与第一区域之间的距离小于第二预设距离。
138.作为示例，获取单元100还被配置为：以预设时间间隔，从待检测视频中抽取视频帧作为目标视频帧，其中，标识检测装置还包括第四确定单元，第四确定单元被配置为：针对当前目标视频帧与在当前目标视频帧之前和/或之后的相邻目标视频帧之间的中间视频帧，确定当前目标视频帧与中间视频帧之间在目标区域中的区域相似度，其中，目标区域为与当前目标视频帧对应的第一区域和第二区域；在中间视频帧满足预设条件时，将目标区域确定为中间视频帧中的标识区域，其中，预设条件为：中间视频帧中的相似区域的面积占目标区域的总面积的比例高于比例阈值，其中，相似区域是指区域相似度高于相似度阈值的区域。
139.关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
140.图7是根据一示例性实施例示出的一种电子设备的框图。如图7所示，电子设备10包括处理器101和用于存储处理器可执行指令的存储器102。这里，处理器可执行指令在被处理器运行时，促使处理器执行如上述示例性实施例所述的标识检测方法。
141.作为示例，电子设备10并非必须是单个的设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备10还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的服务器。
142.在电子设备10中，处理器101可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器101还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
143.处理器101可运行存储在存储器102中的指令或代码，其中，存储器102还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。
144.存储器102可与处理器101集成为一体，例如，将ram或闪存布置在集成电路微处理器等之内。此外，存储器102可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器102和处理器101可在操作上进行耦合，或者可例如通过i/o端口、网络连接等互相通信，使得处理器101能够读取存储在存储器102中的文件。
145.此外，电子设备10还可以包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备10的所有组件可经由总线和/或网络而彼此连接。
146.在示例性实施例中，还可提供一种计算机可读存储介质，当计算机可读存储介质中的指令由处理器执行时，使得处理器能够执行如上述示例性实施例所述的标识检测方法。计算机可读存储介质例如可以是包括指令的存储器，可选地，计算机可读存储介质可以
是：只读存储器(rom)、随机存取存储器(ram)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd r、cd-rw、cd rw、dvd-rom、dvd-r、dvd r、dvd-rw、dvd rw、dvd-ram、bd-rom、bd-r、bd-r lth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如，多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
147.在示例性实施例中，还可提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令被处理器执行时实现如上述示例性实施例所述的标识检测方法。
148.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
149.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

标识检测方法、装置、电子设备及存储介质与流程

相关文献

最热文献