视觉媒体数据去重处理方法、装置、设备和存储介质与流程

2022-04-13 18:48:30 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，特别是涉及一种视觉媒体数据去重处理方法、装置、设备和存储介质。

背景技术：

2.随着计算机技术的发展，以及互联网在人们生活工作中的广泛应用，越来越多人们通过互联网来获取和传递信息。其中，信息形式可以是文字、网页、音频数据以及视觉媒体数据等，而视觉媒体数据作为包括内容最全面的数据形式，更是成为了大多数用户的信息传递方式。
3.由于现有的视觉媒体制作方式门槛较低，用户可借助视觉媒体制作工具快速生成，进而时刻都有海量视觉媒体发布到网络上。但不同用户发布的视觉媒体数据，存在重复或者复制他人视觉媒体数据的情况，容易出现大量视觉媒体数据重复导致占据发布通道以及显示界面资源的问题，因此对于视觉媒体平台而言，需要实时关注平台上发布的视觉媒体数据，并对视觉媒体数据进行去重处理，以提升所发布的视觉媒体数据的质量，吸引更多用户。
4.传统上多采用基于md5值的去重方式，即首先计算视觉媒体数据的md5值(即md5信息摘要值)，然后根据md5值来确定视觉媒体数据是否相同，并进一步对视觉媒体数据进行去重。但是传统的基于md5值的去重方法，对于视觉媒体数据中存在的干扰因素，比如视觉媒体数据在上传过程中的压缩、裁剪、加水印等操作加较为敏感。也就是说，相同视觉媒体数据进行压缩或轻度编辑操作(裁剪、加水印等操作)后，容易被认定为是不重复的视觉媒体数据。因此，传统的基于md5值的去重方式，去重率仍有待提升。

技术实现要素：

5.基于此，有必要针对上述技术问题，提供一种能够提升视觉媒体平台的视觉媒体数据去重率的视觉媒体数据去重处理方法、装置、设备和存储介质。
6.一种视觉媒体数据去重处理方法，所述方法包括：
7.分别对至少两个视觉媒体数据进行视觉特征提取，得到各所述视觉媒体数据的视觉特征，所述视觉特征包括图像特征和文字区域特征；
8.对各所述视觉媒体数据进行文字信息提取，得到各所述视觉媒体数据的文字内容特征；
9.基于所述视觉特征以及所述文字内容特征，对所述至少两个视觉媒体数据进行相似度分析，得到所述视觉媒体数据间的相似度；
10.根据所述视觉媒体数据间的相似度，对所述至少两个视觉媒体数据进行去重处理。
11.一种视觉媒体数据装置，所述装置包括：
12.视觉特征提取模块，用于分别对至少两个视觉媒体数据进行视觉特征提取，得到
各所述视觉媒体数据的视觉特征，所述视觉特征包括图像特征和文字区域特征；
13.文字内容特征提取模块，用于对各所述视觉媒体数据进行文字信息提取，得到各所述视觉媒体数据的文字内容特征；
14.相似度分析模块，用于基于所述视觉特征以及所述文字内容特征，对所述至少两个视觉媒体数据进行相似度分析，得到所述视觉媒体数据间的相似度；
15.去重处理模块，用于根据所述视觉媒体数据间的相似度，对所述至少两个视觉媒体数据进行去重处理。
16.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
17.分别对至少两个视觉媒体数据进行视觉特征提取，得到各所述视觉媒体数据的视觉特征，所述视觉特征包括图像特征和文字区域特征；
18.对各所述视觉媒体数据进行文字信息提取，得到各所述视觉媒体数据的文字内容特征；
19.基于所述视觉特征以及所述文字内容特征，对所述至少两个视觉媒体数据进行相似度分析，得到所述视觉媒体数据间的相似度；
20.根据所述视觉媒体数据间的相似度，对所述至少两个视觉媒体数据进行去重处理。
21.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
22.分别对至少两个视觉媒体数据进行视觉特征提取，得到各所述视觉媒体数据的视觉特征，所述视觉特征包括图像特征和文字区域特征；
23.对各所述视觉媒体数据进行文字信息提取，得到各所述视觉媒体数据的文字内容特征；
24.基于所述视觉特征以及所述文字内容特征，对所述至少两个视觉媒体数据进行相似度分析，得到所述视觉媒体数据间的相似度；
25.根据所述视觉媒体数据间的相似度，对所述至少两个视觉媒体数据进行去重处理。
26.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现以下步骤：
27.分别对至少两个视觉媒体数据进行视觉特征提取，得到各所述视觉媒体数据的视觉特征，所述视觉特征包括图像特征和文字区域特征；
28.对各所述视觉媒体数据进行文字信息提取，得到各所述视觉媒体数据的文字内容特征；
29.基于所述视觉特征以及所述文字内容特征，对所述至少两个视觉媒体数据进行相似度分析，得到所述视觉媒体数据间的相似度；
30.根据所述视觉媒体数据间的相似度，对所述至少两个视觉媒体数据进行去重处理。
31.上述视觉媒体数据去重处理方法、装置、设备和存储介质中，通过分别对至少两个视觉媒体数据进行视觉特征提取，以得到各视觉媒体数据的视觉特征，其中，视觉特征包括
图像特征和文字区域特征，通过同时考虑视觉媒体数据上的文字区域特征，避免出现将具备相同图像特征和不同文字区域特征的视觉媒体数据，归为同一视觉媒体数据的情况。通过对各视觉媒体数据进行文字信息提取，得到各视觉媒体数据的文字内容特征，进而可基于视觉特征以及文字内容特征，对至少两个视觉媒体数据进行相似度分析，得到视觉媒体数据间的相似度，并根据视觉媒体数据间的相似度，对至少两个视觉媒体数据进行去重处理。实现了从多角度进行结合考虑，以提升计算得到的视频之间的相似程度的精准度，避免遗漏重复视频未进行去重的情况，同时通过采用多角度综合考虑的方式，也可避免传统的基于md5值的去重方式中，对于视频中存在干扰因素的过度关注的问题，提升了视频平台的视频去重率和去重处理效率。
附图说明
32.图1为一个实施例中视觉媒体数据去重处理方法的应用环境图；
33.图2为一个实施例中视觉媒体数据去重处理方法的流程示意图；
34.图3为一个实施例中对至少两个视觉媒体数据进行去重处理的流程示意图；
35.图4为一个实施例中得到训练好的特征提取网络的流程示意图；
36.图5为另一个实施例中视觉媒体数据去重处理方法的流程示意图；
37.图6为再一个实施例中视觉媒体数据去重处理方法的流程示意图；
38.图7为一个实施例中视觉媒体数据去重处理装置的结构框图；
39.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
40.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
41.本技术提供的视频去重处理方法涉及人工智能技术。其中，人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
42.其中，计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语
义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
43.随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
44.本技术提供的视频去重处理方法，涉及人工智能的算计视觉等技术，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据，数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104分别对至少两个视觉媒体数据进行视觉特征提取，得到各视觉媒体数据的视觉特征，并对各视觉媒体数据进行文字信息提取，得到各视觉媒体数据的文字内容特征。其中，视觉特征包括图像特征和文字区域特征，服务器104可接收终端102发送的本地视觉媒体数据，也可从服务器104自身的云端数据库中获取视觉媒体数据。进一步地，服务器104可基于视觉特征以及文字内容特征，对至少两个视觉媒体数据进行相似度分析，得到视觉媒体数据间的相似度，进而根据视觉媒体数据间的相似度，对至少两个视觉媒体数据进行去重处理，得到去重后的视觉媒体数据并进行保存。其中，服务器104可将去重后的视觉媒体数据保存在自身的云端数据库中，也可将去重后的视觉媒体数据发送至终端102进行展示和存储。其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等，但并不局限于此。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
45.在一个实施例中，如图2所示，提供了一种视觉媒体数据去重处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：
46.步骤s202，分别对至少两个视觉媒体数据进行视觉特征提取，得到各视觉媒体数据的视觉特征，视觉特征包括图像特征和文字区域特征。
47.具体地，通过获取待去重处理的视觉媒体数据库，其中，待去重处理的视觉媒体数据库中至少包括两个待去重处理的视觉媒体数据。进而通过对视觉媒体数据库中的至少两个视觉媒体数据进行视觉特征提取，以得到视觉媒体数据的视觉特征。
48.其中，视觉媒体数据的视觉特征具体包括图像特征和文字区域特征，图像特征表示视觉媒体数据所表征的图像数据，而文字区域特征则表示具备文字的视觉媒体数据中，文字所在的具体区域。
49.进一步地，视觉媒体数据可以包括视频数据和图像数据，视频数据可包括不同时长或不同视频平台的视频数据，图像数据可以包括图片以及表情包等不同类型和用途的图像数据。
50.在一个实施例中，以视觉媒体数据为视频数据为例，则在分别对至少两个视觉媒体数据进行视觉特征提取，得到各视觉媒体数据的视觉特征之前，还包括：对至少两个视频数据进行视频抽帧，得到视频帧。
51.具体地，视频抽帧的目的是选取视频中的代表性的图像帧，用于衡量视频相似度，以减少相似度分析过程中的计算量。其中，视频抽帧可以采用多种方法，如固定间隔抽帧以及关键帧抽帧等。
52.其中，关键帧抽帧则可以根据实际情况从视频中抽取特定感兴趣的关键帧，比如可以用物体检测和识别算法，抽取视频中含有感兴趣物体的图像帧。具体来说，可以通过获取目标视频信息，即用户感兴趣的的视频信息，并根据目标视频信息，对至少两个视频数据进行关键帧抽帧，得到视频关键帧。
53.同样地，固定间隔抽帧即表示每隔固定的时间抽取一帧，具体来说可以是按照预设抽帧时间间隔，对至少两个视频数据进行定时视频抽帧，得到对应的固定视频帧。其中，预设抽帧时间间隔可根据用户需求或实际应用场景进行调整和修改，不进行具体限定。
54.进一步地，抽帧时需保证抽帧算法没有随机性，即对于同一个视频，每次抽取到的帧应是相同的，从而保证两个相同的视频抽取到的帧也是相同的，便于相似度的计算。其中，每个视频抽取的帧数应该是固定的，如10帧，而超出的帧数舍弃，不足的帧数则可以用末尾帧补齐。
55.步骤s204，对各视觉媒体数据进行文字信息提取，得到各视觉媒体数据的文字内容特征。
56.具体地，通过对各视觉媒体数据进行图像预处理，得到预处理后的待识别图像帧，并基于待识别图像帧进行字符切分和字符识别，依次得到切分后的字符，进而通过对切分后的字符进行降维处理和特征提取，得到字符特征，进一步可基于字符特征进行特征分类和内容识别，以得到视觉媒体数据的文字内容特征。
57.其中，通过对各视觉媒体数据进行图像预处理，比如灰度化处理即二值化处理，以及降噪处理等图像预处理操作，以得到预处理后的待识别图像帧。进而通过对待识别图像帧进行字符切分和字符识别，其中，字符切分则是将待识别图像帧中的字符分割成单个字符，并对切分后的字符依次进行字符识别。其中，如果字符行存在倾斜情况时，还需进一步对字符进行倾斜校正，并进一步对切分后的字符进行归一化处理，即将单个的字符图像调整成为相同的尺寸规格后，对切分后的字符进行挨个进行字符识别。
58.进一步地，通过对切分后的字符进行降维处理和特征提取，得到字符特征。其中，字符可以包括数字、字母、符号以及汉字等不同字符类型，通过对字符进行特征提取可进一步确定字符类型。其中，针对数字、字母或者符号而言，由于数字、字母或者符号本身的数量较少，可归属于小字符集，则可不进行降维处理或者简单的降维处理，即可达到字符识别的要求。
59.而针对汉字而言，由于汉字数量众多，属于大字符集，且汉字结构复杂，形近字较多，进行字符识别时难度较大，则为了提高字符识别效率，则需要对汉字进行降维处理，降低特征维数。同时为了保证减少维数后的特征向量保留足够的字符信息量，以达到区分不同字符的目的，则对于降维处理的力度需要根据实际需求进行调整和修改。
60.在一个实施例中，对切分后的字符进行降维处理和特征提取，得到字符特征后，进一步基于字符特征进行特征分类和内容识别，得到视觉媒体数据的文字内容特征。
61.具体地，通过采用训练好的分类器对字符特征进行特征分类和内容识别，确定各字符特征属于哪个字符分类，进而可在确定字符特征的字符分类后，进一步获取字符内容，
以得到视觉媒体数据的文字内容特征。
62.其中，具体可以通过随机采集得到字符库，并根据字符库对初始分类器进行训练，以得到训练好的分类器。
63.在一个实施例中，可以采用文字信息提取相关算法或者网络模型，对视觉媒体数据进行文字信息提取，以得到各视觉媒体数据的文字内容特征，比如ocr(optical character recognition，即光学字符识别)算法，对视觉媒体数据进行文字信息提取。本实施例中不对所采用的文字信息提取相关算法或者网络模型具体限定，所采用的算法或者网络模型可达到文字信息提取的需求即满足要求。
64.步骤s206，基于视觉特征以及文字内容特征，对至少两个视觉媒体数据进行相似度分析，得到视觉媒体数据间的相似度。
65.具体地，基于图像特征和文字区域特征，进行视觉相似度计算，生成至少两个视觉媒体数据的视觉相似度值，以及基于文字内容特征进行文字相似度计算，生成至少两个视觉媒体数据的文字相似度值，进而综合视觉相似度值和文字相似度值，得到视觉媒体数据间的相似度。
66.其中，可以采用欧式距离计算两个视觉媒体数据的视觉相似度，即基于图像特征和文字区域特征，计算得到两个视觉媒体数据之间的欧氏距离，根据计算得到的欧氏距离大小，判断两个视觉媒体数据的视觉相似程度。其中，欧氏距离越小，表明两个视觉媒体数据的视觉相似程度越高。
67.此外，当视觉媒体数据为图片时，本实施例中还可以采用感知哈希算法(即perceptual hash algorithm)计算两个视觉媒体数据的视觉相似度。其中，感知哈希算法的作用是对每张图片生成一个指纹(fingerprint)字符串，然后比较不同图片的指纹字符串，并根据指纹字符串的比对结果两个视觉媒体数据的视觉相似程度，其中，指纹字符串越接近，就说明图片越相似，即两个视觉媒体数据的视觉相似程度越高。
68.在一个实施例中，可根据文字内容特征，以及文字内容对应的编辑距离，进行文字相似度计算，生成至少两个视觉媒体数据的文字相似度值。
69.其中，编辑距离指将一段文字通过删除、加入、替换这三种操作变成另一段文字所需要的最小步骤，可以理解的是，两段文字的文字内容所对应的编辑距离越小，两段文字的相似程度越高。
70.此外，由于编辑距离计算复杂度较高，在时效要求较高的场景下，也可采用更快的jaccard相似度计算。其中，jaccard相似度(即杰卡德相似性系数)，主要用于比较有限样本集之间的相似性与差异性，可计算得到符号度量或布尔值度量的样本间的相似度。对于两段文字，jaccard相似度为这两段文字的交集的元素个数除以并集的元素个数。
71.进一步地，通过计算视觉相似度值和文字相似度值之和，可得到视觉媒体数据间的相似度。
72.步骤s208，根据视觉媒体数据间的相似度，对至少两个视觉媒体数据进行去重处理。
73.具体地，通过获取预设相似度阈值，并将视觉媒体数据间的相似度和预设相似度阈值进行比对，判断视觉媒体数据间的相似度是否大于预设相似度阈值。当确定视觉媒体数据间的相似度大于预设相似度阈值时，则表明当前比对的两个视觉媒体数据存在重复数
据，进而需要进行去重处理，保留去重后的视觉媒体数据。
74.在一个实施例中，视觉媒体数据包括视频数据，则在进行视觉特征提取之前，还需要对至少两个视频数据进行视频抽帧，得到视频帧，进而对视频帧进行视觉特征提取，得到各视频帧的视觉特征，包括图像特征和文字区域特征，以及对各视频帧进行文字信息提取，得到各视频帧的文字内容特征。
75.具体地，基于视觉特征以及文字内容特征，对至少两个视频帧进行相似度分析，得到两个视频帧间的相似度，并获取预设相似度阈值，进而判断视频帧间的相似度是否大于预设相似度阈值。
76.其中，当确定视频帧间的相似度大于预设相似度阈值时，确定当前两个视频帧为相似视频帧对，并获取任意两个视频数据所抽取的预设对视频帧中的相似视频帧对数量。
77.进一步地，通过获取预设相似视频帧对阈值，并根据预设相似视频帧对阈值和相似视频帧对数量，确定当前两个视频数据中是否存在重复视频。当确定存在重复视频时，对当前两个视频数据进行视频去重处理。
78.上述视觉媒体数据去重处理方法中，通过分别对至少两个视觉媒体数据进行视觉特征提取，以得到各视觉媒体数据的视觉特征，其中，视觉特征包括图像特征和文字区域特征，通过同时考虑视觉媒体数据上的文字区域特征，避免出现将具备相同图像特征和不同文字区域特征的视觉媒体数据，归为同一视觉媒体数据的情况。通过对各视觉媒体数据进行文字信息提取，得到各视觉媒体数据的文字内容特征，进而可基于视觉特征以及文字内容特征，对至少两个视觉媒体数据进行相似度分析，得到视觉媒体数据间的相似度，并根据视觉媒体数据间的相似度，对至少两个视觉媒体数据进行去重处理。实现了从多角度进行结合考虑，以提升计算得到的视频之间的相似程度的精准度，避免遗漏重复视频未进行去重的情况，同时通过采用多角度综合考虑的方式，也可避免传统的基于md5值的去重方式中，对于视频中存在干扰因素的过度关注的问题，提升了视频平台的视频去重率和去重处理效率。
79.在一个实施例中，分别对至少两个视觉媒体数据进行视觉特征提取，得到各视觉媒体数据的视觉特征的步骤，具体包括：
80.当检测到视觉媒体数据存在文字时，基于训练好的特征提取网络，分别对至少两个视觉媒体数据进行文字区域位置检测，生成视觉媒体数据的文字区域特征；
81.基于训练好的特征提取网络，分别对至少两个视觉媒体数据进行图像特征提取，得到至少两个视觉媒体数据的图像特征。
82.具体地，由于在视觉媒体数据中，其中的文字信息至关重要，相同的视觉画面配上不同的文字，则会导致视觉媒体数据的含义发生较大的变化，因此在提取视觉特征的时候需要同时考虑画面中的文字的位置，即文字区域位置。
83.在本实施例中，具体可基于训练好的特征提取网络，检测视觉媒体数据中文字区域位置，生成得到文字区域特征。其中，文字区域特征具体可以是文字区域掩模，文字区域掩模是一个取值为0或1的矩阵，1代表为文字区域，0则为非文字区域。
84.进一步地，得到文字区域掩膜后，将文字区域掩膜作为一个通道与图像的rgb通道组成四通道，作为训练好的特征提取网络的输入数据。可以理解是的是，训练好的特征提取网络，对文字区域掩膜以及图像的rgb通道数据所组成的输入数据，进行特征提取时，可输
出得到视觉媒体数据的文字区域特征以及图像特征。
85.本实施例中，当检测到视觉媒体数据存在文字时，基于训练好的特征提取网络，分别对至少两个视觉媒体数据进行文字区域位置检测，生成视觉媒体数据的文字区域特征，并基于训练好的特征提取网络，分别对至少两个视觉媒体数据进行图像特征提取，得到至少两个视觉媒体数据的图像特征。实现了对视觉媒体数据进行视觉特征提取时，同时考虑数据媒体数据的视觉画面以及视觉画面上的文字区域位置，以避免出现将具备相同图像特征和不同文字区域特征的视觉媒体数据，归为同一视觉媒体数据的情况，以提高后续对视觉媒体数据的去重率，减少重复去重处理操作，进一步提升去重处理效率。
86.在一个实施例中，如图3所示，当视觉媒体数据为视频数据，视觉媒体数据间的相似度为视频帧间的相似度时，对至少两个视觉媒体数据进行去重处理的步骤，即根据视觉媒体数据间的相似度，对至少两个视觉媒体数据进行去重处理的步骤，具体包括：
87.步骤s302，获取预设相似度阈值，并判断视频帧间的相似度是否大于预设相似度阈值。
88.具体地，通过获取预设相似度阈值，并将预设相似度阈值和视频帧间的相似度进行比对，判断视频帧间的相似度是否大于预设相似度阈值。其中，预设相似度阈值可根据用户需求以及实际应用场景进行调整和修改，不局限于某些具体取值。
89.步骤s304，当确定视频帧间的相似度大于预设相似度阈值时，确定当前两个视频帧为相似视频帧对。
90.具体地，通过将预设相似度阈值和视频帧间的相似度进行比对，并确定视频帧间的相似度大于预设相似度阈值时，则表明当前比对的两个视频帧为相似视频帧对。其中，当视频帧间的相似度不大于预设相似度阈值，表明当前两个进行比对的视频帧不属于相似的视频帧。
91.步骤s306，获取任意两个视频数据所抽取的预设对视频帧中的相似视频帧对数量。
92.具体地，针对任意两个视频数据所抽取的视频帧，分别进行相似度分析，确定出所有相似视频帧对，并统计相似视频帧对的数量。
93.在一个实施例中，假设每个视频抽取10帧，对于视频a和b，首先计算a视频抽取的10个视频帧，和与b视频抽取的10个视频帧之间的相似度，判断各自所抽取的10个视频帧之间的相似度是否大于预设相似度阈值。其中，对视频所抽取的帧数也不进行具体限定，可根据实际需求和不同应用场景进行修改和调整。
94.具体来说，对于a视频所抽取的每一帧，依次从b视频中匹配出与之相似度最高的视频帧，得到10对视频帧对，并统计10对视频帧对中的相似视频帧对的数量。其中，10对视频帧对中的相似视频帧对，表示相似度大于预设相似度阈值的视频帧对。
95.步骤s308，根据预设相似视频帧对阈值和相似视频帧对数量，确定当前两个视频数据中是否存在重复视频。
96.具体地，通过统计出两个视频数据之间的相似视频帧对的数量，并获取预设相似视频帧对阈值，并将统计得到的相似视频帧对数量，和预设相似视频帧对阈值进行比对，判断相似视频帧对数量是否大于预设相似视频帧对阈值。
97.其中，当相似视频帧对数量大于预设相似视频帧对阈值时，则确定当前两个视频
数据中存在重复视频。
98.举例来说，对于a视频所抽取的每一帧，依次从b视频中匹配出与之相似度最高的视频帧，得到10对视频帧对，并统计10对视频帧中的相似视频帧对数量，若相似视频帧对数量大于预设相似视频帧对阈值(如预设相似视频帧对阈值为9对)，则判定视频相似，确定当前两个视频数据中存在重复视频。
99.其中，预设相似视频帧对阈值可根据用户需求或实际应用场景进行调整和修改，不局限于具体的某些取值，其限制条件为预设相似视频帧对阈值需要小于等于从任意两个视频中所抽取出的视频帧对数量。
100.步骤s310，当确定存在重复视频时，对当前两个视频数据进行视频去重处理。
101.具体地，当确定相似视频帧对数量大于预设相似视频帧对阈值时，确定当前比对的两个视频中存在重复视频，对当前两个视频数据进行视频去重处理，即删除其中一个视频，保留其中一个视频并进行存储。
102.其中，当存在多个视频需要进行去重处理时，可采用随机选取两个视频进行比对，并保留其中一个视频的方式，将所保留下来的视频和需要比对的多个视频中的任意一个视频继续进行比对，直至最后不存在重复视频时，则完成对当前去重处理操作。
103.本实施例中，通过获取预设相似度阈值，并判断视频帧间的相似度是否大于预设相似度阈值，当确定视频帧间的相似度大于预设相似度阈值时，确定当前两个视频帧为相似视频帧对。进一步获取任意两个视频数据所抽取的预设对视频帧中的相似视频帧对数量，并根据预设相似视频帧对阈值和相似视频帧对数量，确定当前两个视频数据中是否存在重复视频，当确定存在重复视频时，对当前两个视频数据进行视频去重处理。实现了从对视频数据的视频帧开始进行相似度计算，确定出相应的相似视频帧对，并在确定出所有的相似视频帧对后，基于相似视频帧对的数量进一步判定当前比对的两个视频是否相同，提升了对视频相似程度计算和比对的准确度，避免遗漏重复视频未进行去重的情况，提升了视频平台的视频去重处理效率。
104.在一个实施例中，如图4所示，得到训练好的特征提取网络的步骤，具体包括：
105.步骤s402，随机采集视觉媒体数据样本集。
106.具体地，通过随机采集视觉媒体数据样本集，比如视频数据、图片数据以及表情包数据等。
107.步骤s404，获取视觉媒体数据样本集中视觉媒体数据的不同区域图像，作为训练视觉媒体数据正样本，视觉媒体数据正样本中包括有文字区域特征的区域图像。
108.具体地，针对视觉媒体数据样本集中的同一视觉媒体数据，需要获取视觉媒体数据的不同区域图像，作为训练视觉媒体数据正样本。其中，获取同一视觉媒体数据不同区域的图像，目的在于确定出该视觉媒体数据是否包含文字，以及文字的位置区域具体在该视觉媒体数据的哪个位置，进而视觉媒体数据正样本中包括有文字区域特征的区域图像。
109.步骤s406，获取视觉媒体数据样本集中不同视觉媒体数据的相同区域图像，作为训练视觉媒体数据负样本。
110.具体地，针对视觉媒体数据样本集中的不同视觉媒体数据，需要获取不同视觉媒体数据的相同区域的图像，比如当前某些视觉媒体数据的其中一个区域的图像，也可以同时获取某些视觉媒体数据的多个相对应的区域的图像，作为训练视觉媒体数据负样本。
111.步骤s408，根据训练视觉媒体数据正样本和训练视觉媒体数据负样本，对初始特征提取网络进行训练，得到训练好的特征提取网络。
112.具体地，根据训练视觉媒体数据正样本和训练视觉媒体数据负样本，可得到训练视觉媒体数据样本集，进而根据训练视觉媒体数据样本集对初始特征提取网络进行训练，得到训练好的特征提取网络。
113.其中，为了减少标注量，可以采用自监督学习的方法进行训练，即随机采用同一张图像的不同区域作为正样本，不同图像上的不同部分作为负样本，训练相似度网络，最后得到训练好的特征提取网络，以来提取视频帧的图像特征和文字区域特征。其中，所训练的初始特征提取网络可以是多种不同类型或不同结构的网络模型，可实现特征提取即满足要求，不对其具体类型进行限定。
114.本实施例中，通过随机采集视觉媒体数据样本集，并获取视觉媒体数据样本集中视觉媒体数据的不同区域图像，作为训练视觉媒体数据正样本，视觉媒体数据正样本中包括有文字区域特征的区域图像。通过获取视觉媒体数据样本集中不同视觉媒体数据的相同区域图像，作为训练视觉媒体数据负样本，进而根据训练视觉媒体数据正样本和训练视觉媒体数据负样本，对初始特征提取网络进行训练，得到训练好的特征提取网络。实现了根据训练视觉媒体数据负样本，以及根据包括有文字区域特征的区域图像的训练视觉媒体数据正样本，对对初始特征提取网络的训练，可使得训练得到的特征提取网络可同时提取视觉媒体数据的图像特征和文字区域特征，避免出现将具备相同图像特征和不同文字区域特征的视觉媒体数据，归为同一视觉媒体数据的情况，以提高后续对视觉媒体数据的去重率，减少重复去重处理操作，进一步提升视觉媒体数据的去重处理效率。
115.在一个实施例中，如图5所示，提供了一种视觉媒体数据去重处理方法，该方法具体包括以下步骤：
116.步骤s501，随机采集视觉媒体数据样本集。
117.步骤s502，获取视觉媒体数据样本集中视觉媒体数据的不同区域图像，作为训练视觉媒体数据正样本，视觉媒体数据正样本中包括有文字区域特征的区域图像。
118.步骤s503，获取视觉媒体数据样本集中不同视觉媒体数据的相同区域图像，作为训练视觉媒体数据负样本。
119.步骤s504，根据训练视觉媒体数据正样本和训练视觉媒体数据负样本，对初始特征提取网络进行训练，得到训练好的特征提取网络。
120.步骤s505，当检测到视觉媒体数据存在文字时，基于训练好的特征提取网络，分别对至少两个视觉媒体数据进行文字区域位置检测，生成视觉媒体数据的文字区域特征。
121.步骤s506，基于训练好的特征提取网络，分别对至少两个视觉媒体数据进行图像特征提取，得到至少两个视觉媒体数据的图像特征。
122.步骤s507，对各视觉媒体数据进行图像预处理，得到预处理后的待识别图像帧。
123.步骤s508，基于待识别图像帧进行字符切分和字符识别，依次得到切分后的字符。
124.步骤s509，对切分后的字符进行降维处理和特征提取，得到字符特征。
125.步骤s510，基于字符特征进行特征分类和内容识别，得到视觉媒体数据的文字内容特征。
126.步骤s511，基于图像特征和文字区域特征，进行视觉相似度计算，生成至少两个视
觉媒体数据的视觉相似度值。
127.步骤s512，基于文字内容特征进行文字相似度计算，生成至少两个视觉媒体数据的文字相似度值。
128.步骤s513，综合视觉相似度值和文字相似度值，得到视觉媒体数据间的相似度。
129.步骤s514，根据视觉媒体数据间的相似度，对至少两个视觉媒体数据进行去重处理。
130.上述视觉媒体数据去重处理方法中，通过同时考虑视觉媒体数据上的文字区域特征，避免出现将具备相同图像特征和不同文字区域特征的视觉媒体数据，归为同一视觉媒体数据的情况，并从多角度进行结合考虑，以提升计算得到的视频之间的相似程度的精准度，避免遗漏重复视频未进行去重的情况，同时通过采用多角度综合考虑的方式，也可避免传统的基于md5值的去重方式中，对于视频中存在干扰因素的过度关注的问题，提升了视频平台的视频去重率和去重处理效率。
131.在一个实施例中，如图6所示，提供了一种视觉媒体数据去重处理方法，当视觉媒体数据为视频数据时，该方法具体包括以下步骤：
132.步骤s601，对至少两个视频数据进行视频抽帧，得到视频帧。
133.步骤s602，当检测到视频帧存在文字时，基于训练好的特征提取网络，分别对至少两个视频帧进行文字区域位置检测，生成视频帧的文字区域特征。
134.步骤s603，基于训练好的特征提取网络，分别对至少两个视频帧进行图像特征提取，得到至少两个视频帧的图像特征。
135.步骤s604，对各视频帧进行图像预处理，得到预处理后的待识别图像帧。
136.步骤s605，基于待识别图像帧进行字符切分和字符识别，依次得到切分后的字符。
137.步骤s606，对切分后的字符进行降维处理和特征提取，得到字符特征。
138.步骤s607，基于字符特征进行特征分类和内容识别，得到视频帧的文字内容特征。
139.步骤s608，基于图像特征和文字区域特征，进行视觉相似度计算，生成至少两个视频帧的视觉相似度值。
140.步骤s609，基于文字内容特征进行文字相似度计算，生成至少两个视频帧的文字相似度值。
141.步骤s610，综合视觉相似度值和文字相似度值，得到视频帧间的相似度。
142.步骤s611，获取预设相似度阈值，并判断视频帧间的相似度是否大于预设相似度阈值。
143.步骤s612，当确定视频帧间的相似度大于预设相似度阈值时，确定当前两个视频帧为相似视频帧对。
144.步骤s613，获取任意两个视频数据所抽取的预设对视频帧中的相似视频帧对数量。
145.步骤s614，根据预设相似视频帧对阈值和相似视频帧对数量，确定当前两个视频数据中是否存在重复视频。
146.步骤s615，当确定存在重复视频时，对当前两个视频数据进行视频去重处理。
147.上述视觉媒体数据去重处理方法中，通过同时考虑视觉媒体数据上的文字区域特征，避免出现将具备相同图像特征和不同文字区域特征的视觉媒体数据，归为同一视觉媒
体数据的情况，并从多角度进行结合考虑，以提升计算得到的视频之间的相似程度的精准度，避免遗漏重复视频未进行去重的情况，同时通过采用多角度综合考虑的方式，也可避免传统的基于md5值的去重方式中，对于视频中存在干扰因素的过度关注的问题，提升了视频平台的视频去重率和去重处理效率。
148.本技术还提供一种应用场景，该应用场景应用上述的视觉媒体数据去重处理方法。具体地，该视觉媒体数据去重处理方法在该应用场景的应用如下：
149.当视觉媒体数据为图片时，则直接对分别对至少两个图片进行视觉特征提取，得到各图片的视觉特征，视觉特征包括图像特征和文字区域特征。同时还需对各图片进行文字信息提取，得到各图片的文字内容特征，进而基于视觉特征以及文字内容特征，对至少两个视觉媒体数据进行相似度分析，得到图片间的相似度，以根据图片间的相似度，对至少两个图片进行去重处理。
150.应该理解的是，虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
151.在一个实施例中，如图7所示，提供了一种视觉媒体数据去重处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：视觉特征提取模块702、文字内容特征提取模块704、相似度分析模块706以及去重处理模块708，其中：
152.视觉特征提取模块702，用于分别对至少两个视觉媒体数据进行视觉特征提取，得到各视觉媒体数据的视觉特征，视觉特征包括图像特征和文字区域特征。
153.文字内容特征提取模块704，用于对各视觉媒体数据进行文字信息提取，得到各视觉媒体数据的文字内容特征。
154.相似度分析模块706，用于基于视觉特征以及文字内容特征，对至少两个视觉媒体数据进行相似度分析，得到视觉媒体数据间的相似度。
155.去重处理模块708，用于根据视觉媒体数据间的相似度，对至少两个视觉媒体数据进行去重处理。
156.上述视觉媒体数据去重处理装置中，通过分别对至少两个视觉媒体数据进行视觉特征提取，以得到各视觉媒体数据的视觉特征，其中，视觉特征包括图像特征和文字区域特征，通过同时考虑视觉媒体数据上的文字区域特征，避免出现将具备相同图像特征和不同文字区域特征的视觉媒体数据，归为同一视觉媒体数据的情况。通过对各视觉媒体数据进行文字信息提取，得到各视觉媒体数据的文字内容特征，进而可基于视觉特征以及文字内容特征，对至少两个视觉媒体数据进行相似度分析，得到视觉媒体数据间的相似度，并根据视觉媒体数据间的相似度，对至少两个视觉媒体数据进行去重处理。实现了从多角度进行结合考虑，以提升计算得到的视频之间的相似程度的精准度，避免遗漏重复视频未进行去重的情况，同时通过采用多角度综合考虑的方式，也可避免传统的基于md5值的去重方式
中，对于视频中存在干扰因素的过度关注的问题，提升了视频平台的视频去重率和去重处理效率。
157.在一个实施例中，视觉特征提取模块，还用于：
158.当检测到视觉媒体数据存在文字时，基于训练好的特征提取网络，分别对至少两个视觉媒体数据进行文字区域位置检测，生成视觉媒体数据的文字区域特征；基于训练好的特征提取网络，分别对至少两个视觉媒体数据进行图像特征提取，得到至少两个视觉媒体数据的图像特征。
159.在一个实施例中，相似度分析模块，还用于：
160.基于图像特征和文字区域特征，进行视觉相似度计算，生成至少两个视觉媒体数据的视觉相似度值；基于文字内容特征进行文字相似度计算，生成至少两个视觉媒体数据的文字相似度值；综合视觉相似度值和文字相似度值，得到视觉媒体数据间的相似度。
161.在一个实施例中，提供了一种视觉媒体数据去重处理装置，还包括视频抽帧模块，用于对至少两个视频数据进行视频抽帧，得到视频帧；
162.视觉媒体数据间的相似度为视频帧间的相似度，去重处理模块还用于：
163.获取预设相似度阈值，并判断视频帧间的相似度是否大于预设相似度阈值；当确定视频帧间的相似度大于预设相似度阈值时，确定当前两个视频帧为相似视频帧对；获取任意两个视频数据所抽取的预设对视频帧中的相似视频帧对数量；根据预设相似视频帧对阈值和相似视频帧对数量，确定当前两个视频数据中是否存在重复视频；当确定存在重复视频时，对当前两个视频数据进行视频去重处理。
164.在一个实施例中，提供了一种视觉媒体数据去重处理装置，还包括特征提取网络训练模块，用于：
165.随机采集视觉媒体数据样本集；获取视觉媒体数据样本集中视觉媒体数据的不同区域图像，作为训练视觉媒体数据正样本；视觉媒体数据正样本中包括有文字区域特征的区域图像；获取视觉媒体数据样本集中不同视觉媒体数据的相同区域图像，作为训练视觉媒体数据负样本；根据训练视觉媒体数据正样本和训练视觉媒体数据负样本，对初始特征提取网络进行训练，得到训练好的特征提取网络。
166.在一个实施例中，文字内容特征提取模块，还用于：
167.对各视觉媒体数据进行图像预处理，得到预处理后的待识别图像帧；基于待识别图像帧进行字符切分和字符识别，依次得到切分后的字符；对切分后的字符进行降维处理和特征提取，得到字符特征；基于字符特征进行特征分类和内容识别，得到视觉媒体数据的文字内容特征。
168.在一个实施例中，视频抽帧模块，还用于
169.获取目标视频信息，并根据目标视频信息，对至少两个视频数据进行关键帧抽帧，得到视频关键帧；或按照预设抽帧时间间隔，对至少两个视频数据进行定时视频抽帧，得到对应的固定视频帧。
170.关于视觉媒体数据去重处理装置的具体限定可以参见上文中对于视觉媒体数据去重处理方法的限定，在此不再赘述。上述视觉媒体数据去重处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器
调用执行以上各个模块对应的操作。
171.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视觉媒体数据、图像特征、文字区域特征、文字内容特征以及视觉媒体数据间的相似度等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视觉媒体数据去重处理方法。
172.本领域技术人员可以理解，图8中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
173.在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
174.在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
175.在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。
176.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
177.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
178.以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能
因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于无人机视觉的坝体裂纹识别与测量方法与流程

视觉媒体数据去重处理方法、装置、设备和存储介质与流程

相关文献

最热文献