图像处理方法、装置、图像处理设备及存储介质与流程

2021-10-29 21:06:00 来源：中国专利 TAG：图像处理装置计算机方法设备

1.本发明涉及图像处理技术领域，尤其涉及一种图像处理方法、一种图像处理装置、一种图像处理设备及一种计算机存储介质。

背景技术：

2.随着信息流以及短视频的普及和发展，越来越多的平台可供用户(包括自媒体和普通用户等)制作发布图像或视频。用户上传发布的图像或者视频有可能出现不完整的字幕，导致图像质量或者视频质量降低，严重影响用户的观看体验。因此，如何识别不完整字幕图像是图像处理技术中的一个重要研究课题。

技术实现要素：

3.本发明实施例提供了一种图像处理方法、装置、图像处理设备及存储介质，可以通过目标检测模型确定待检测图像中各个文本框的预测类别，基于文本框的预测类别识别待检测图像为不完整字幕图像，可以提升识别不完整图像的准确率和召回率。
4.一方面，本发明实施例提供了一种图像处理方法，该图像处理方法包括：
5.获取待检测图像；
6.调用训练后的目标检测模型确定所述待检测图像中各个文本内容所属文本框的预测类别，所述预测类别用于指示所述文本框所包含的文本内容为不完整内容的概率；
7.若存在至少一个文本框的预测类别为目标类别，则获取各个预测类别为所述目标类别的目标文本框的置信度，所述目标类别用于指示文本框所包含的文本内容为不完整内容的概率大于第一预设阈值；
8.若存在至少一个目标文本框的置信度大于第二预设阈值，则输出所述待检测图像的预测类型为第一类型，所述第一类型用于指示所述待检测图像为不完整字幕图像。
9.另一方面，本发明实施例提供了一种图像处理装置，该图像处理装置包括：
10.获取单元，用于获取待检测图像；
11.确定单元，用于调用训练后的目标检测模型确定所述待检测图像中各个文本内容所属文本框的预测类别，所述预测类别用于指示所述文本框所包含的文本内容为不完整内容的概率；
12.所述获取单元还用于若存在至少一个文本框的预测类别为目标类别，则获取各个预测类别为所述目标类别的目标文本框的置信度，所述目标类别用于指示文本框所包含的文本内容为不完整内容的概率大于第一预设阈值；
13.输出单元，用于若存在至少一个目标文本框的置信度大于第二预设阈值，则输出所述待检测图像的预测类型为第一类型，所述第一类型用于指示所述待检测图像为不完整字幕图像。
14.再一方面，本发明实施例提供了一种图像处理设备，该图像处理设备包括输入接口、输出接口，该图像处理设备还包括：
15.处理器，适于实现一条或多条指令；以及，
16.计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：
17.获取待检测图像；
18.调用训练后的目标检测模型确定所述待检测图像中各个文本内容所属文本框的预测类别，所述预测类别用于指示所述文本框所包含的文本内容为不完整内容的概率；
19.若存在至少一个文本框的预测类别为目标类别，则获取各个预测类别为所述目标类别的目标文本框的置信度，所述目标类别用于指示文本框所包含的文本内容为不完整内容的概率大于第一预设阈值；
20.若存在至少一个目标文本框的置信度大于第二预设阈值，则输出所述待检测图像的预测类型为第一类型，所述第一类型用于指示所述待检测图像为不完整字幕图像。
21.再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：
22.获取待检测图像；
23.调用训练后的目标检测模型确定所述待检测图像中各个文本内容所属文本框的预测类别，所述预测类别用于指示所述文本框所包含的文本内容为不完整内容的概率；
24.若存在至少一个文本框的预测类别为目标类别，则获取各个预测类别为所述目标类别的目标文本框的置信度，所述目标类别用于指示文本框所包含的文本内容为不完整内容的概率大于第一预设阈值；
25.若存在至少一个目标文本框的置信度大于第二预设阈值，则输出所述待检测图像的预测类型为第一类型，所述第一类型用于指示所述待检测图像为不完整字幕图像。
26.本发明实施例在对识别待检测图像是否为不完整字幕图像时，可以先调用训练后的目标检测模型确定待检测图像中各个文本内容所属文本框的预测类别，然后确定待检测图像中是否存在预测类别为目标类别的目标文本框。若存在预测类别为目标类别的目标文本框，则根据目标文本框的置信度与第二预设阈值确定待检测图像为不完整自字幕图像。考虑了待检测图像中可能同时包含有完整字幕内容的文本框以及不完整字幕内容的文本框，与基于图像分类的不完整字幕图像识别方法相比，调用训练后的目标检测模型确定待检测图像中各个文本内容所属文本框的预测类别，可以对待检测图像中的各个文本框进行区分，可以关注到待检测图像中的局部区域信息，提升对不完整字幕图像识别的准确率以及召回率。并且还可以依据包含不完整字幕内容的目标文本框的置信度与第二预设阈值的比较结果识别不完整字幕图像，可以进一步提升对不完整字幕图像识别的准确率。
附图说明
27.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
28.图1是本发明实施例提供的不完整字幕的示意图；
29.图2是本发明实施例提供的不完整字幕的示意图；
30.图3a是本发明实施例提供的图像处理方法的一种场景示意图；
31.图3b是本发明实施例提供的图像处理方法的另一种场景示意图；
32.图4是本发明实施例提供的一种图像处理方法的流程示意图；
33.图5是本发明实施例提供的另一种图像处理方法的流程示意图；
34.图6是本发明实施例提供的一种图像处理装置的结构示意图；
35.图7是本发明实施例提供的一种图像处理设备的结构示意图。
具体实施方式
36.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
37.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，计算机视觉技术(computer vision，cv)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和图像处理设备代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图像处理，使图像处理设备处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、视频处理，以及光学字符识别(optical character recognition，ocr)等多种技术。
38.随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。除此之外，人工智能技术还可以在其他领域得到应用，例如，可以采用人工智能技术中的计算机视觉技术实现对不完整字幕图像的识别。
39.其中，不完整字幕图像是指存在不完整文本内容的图像。在一个实施例中，当用户发布的视频或者图像并非直接由图像采集设备采集得到，而是由用户对图像素材进行剪辑处理得到时，用户发布的图像或者视频有可能会出现不完整的字幕。例如，由于不同平台尺寸比例不同等因素，用户可能需要对图像素材进行裁剪，可能导致图像素材中字幕所属的文本框被裁剪，从而使得裁剪后的文本框内的字幕内容不完整，那么可以得到包含有不完整字幕内容的图像，即不完整字幕图像。不同文字方向的字幕类型不同，可以根据文字方向将字幕分为横字幕(如图1所示)和竖字幕(如图2所示)。下面分别对包含有横字幕的图像和包含有竖字幕的不完整字幕图像进行举例阐述。
40.请参见图1，图1中包括图像100以及图像100中的正常横字幕101。可选的，在剪辑处理过程中，可能会对图像100进行横向裁剪，得到图像110。那么相应的，图像100中的正常横字幕101在剪辑处理过程中可能也被横向裁剪，得到不完整的横字幕，即横裁横字幕111，那么包含有横裁横字幕111的图像110为不完整字幕图像。可选的，在剪辑处理过程中，可能会对图像100进行竖向裁剪，得到图像120。那么相应的，图像100中的正常横字幕101在剪辑
处理过程中可能也被竖向裁剪，得到不完整的横字幕，即竖裁横字幕121，那么包含有竖裁横字幕121的图像120为不完整字幕图像。可选的，在剪辑处理过程中，可能会同时对图像100进行横向裁剪和竖向裁剪，得到图像130。那么相应的，图像100中的正常横字幕101可能也同时被横向裁剪以及竖向裁剪，得到不完整的横字幕，即横裁横字幕131。其中，对于横字幕，横向裁剪的影响比竖向裁剪的影响更大，所以对于对同时进行了横向裁剪和竖向裁剪的横字幕来说，裁剪后的横字幕可以称为横裁横字幕。
41.请参见图2，图2中包括图像200以及图像200中的正常竖字幕201。可选的，在剪辑处理过程中，可能会对图像200进行横向裁剪，得到图像210。那么相应的，图像200中的正常竖字幕201在剪辑处理过程中可能也被横向裁剪，得到不完整的竖字幕，即横裁竖字幕211，那么包含有横裁竖字幕211的图像210为不完整字幕图像。可选的，在剪辑处理过程中，可能会对图像200进行竖向裁剪，得到图像220。那么相应的，图像200中的正常竖字幕201在剪辑处理过程中可能也被竖向裁剪，得到不完整的竖字幕，即竖裁竖字幕221，那么包含有竖裁竖字幕221的图像220为不完整字幕图像。可选的，在剪辑处理过程中，可能会同时对图像200进行横向裁剪和竖向裁剪，得到图像230。那么相应的，图像200中的正常竖字幕201可能也同时被横向裁剪以及竖向裁剪，得到不完整竖字幕，即竖裁竖字幕231。其中，对于竖字幕，竖向裁剪的影响比横向裁剪的影响更大，所以对于对同时进行了横向裁剪和竖向裁剪的竖字幕来说，裁剪后的竖字幕可以称为竖裁竖字幕。
42.上述举例说明的不完整字幕图像要么为包含不完整横字幕的不完整字幕图像，要么为包含不完整竖字幕的不完整字幕图像。需要明白，本发明所说的不完整字幕图像还可以同时包含不完整横字幕和不完整竖字幕。
43.在一个实施例中，本发明实施例基于上述所提及的机器学习算法提出了一种应用于图像处理技术领域的图像处理方法。在该图像处理方法中，可以调用训练后的目标检测模型确定待检测图像中各个文本内容所属文本框的预测类别。当根据文本框的预测类别确定待检测图像中包含不完整文本内容的的目标文本框时，可以根据目标文本框的置信度判断待检测图像是否为不完整字幕图像。与基于图像分类的不完整字幕图像的识别方法相比，可以有效关注待检测图像中的局部特征，可以通过目标检测模型对待检测图像中的各个文本框的文本内容进行区分，能够同时从待检测图像中检测到包含有完整字幕内容的文本框以及包含有不完整字幕内容的文本框，并依据不完整字幕内容的文本框识别不完整字幕图像，可以提升对不完整字幕图像识别的准确率以及召回率，在同样的识别准确率下，召回率提升了21个百分点。
44.在具体实现中，该图像处理方法可由图像处理设备执行，此处所提及的图像处理设备可以是指具有数据计算功能的任一设备，如终端设备或者服务器。其中，终端设备可以包括但不限于：智能手机、平板电脑、膝上计算机、可穿戴设备、台式计算机，等等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、内容分发网络(content delivery network，cdn)、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器，等等。
45.其中，该图像处理方法的适用场景广，可以适用于各个需要进行内容审核或者封面选图的平台。例如新闻资讯平台、浏览器平台、短视频平台等等。当本发明的图像处理方
法应用于上述信息流平台中时，可以有效对内容或者封面进行审核，平台中出现的不完整字幕图像显著减少，提升了用户体验。
46.在一个实施例中，本发明实施例所提供的图像处理方法可以应用于各个需要内容审核的平台中。在用户上传发布图像或者视频之前，图像处理设备需要利用本发明的图像处理方法对待上传图像、待发布图像、待上传视频或者待发布视频进行处理，识别待上传图像、待发布图像、待上传视频或者待发布视频中是否存在不完整字幕图像，如果存在不完整字幕图像，那么将会进行拦截或者降权，例如，对待上传的图像或者待上传的视频进行拦截；又例如，对待发布的图像或者待发布的视频进行降权。如果不存在不完整字幕图像，那么将正常发布或者上传，例如进入推荐池，如图3a所示。在一个实施例中，本发明实施例所提供的图像处理方法可以应用于各个需要封面选图的平台中。在信息流平台以及短视频平台中，为了吸引用户阅读，图像处理设备需要为待上传图像、待发布图像、待上传视频或者待发布视频中候选封面图进行处理，如果候选封面图中存在不完整字幕，即该候选封面图为不完整字幕图像，那么候选封面图不能作为最终的封面图，移除该候选封面图，并且无法触发封面选图的下一步流程。如果候选封面图中不存在不完整字幕图像，即该封面图为完整字幕图像，那么可以触发封面选图的下一步流程，触发封面图处理模块执行下一步，如图3b所示。
47.基于上述描述，本发明实施例提出的一种图像处理方法；该图像处理方法可以由上述所提及的图像处理设备执行。参见图4所示，该图像处理方法可包括以下s401
‑
s404：
48.s401、获取待检测图像。
49.在本发明实施例中，待检测图像的分辨率可以是任意值；例如待检测图像的分辨率可以为600*800，待检测图像的分辨率也可以为3000*4000，等等。具体的，该待检测图像可以是一帧独立图像，也可以是图像序列中的任意一帧图像。其中，图像序列中是指包含多帧按照时间先后顺序进行排列所构成的图像集；例如，该图像序列可以是视频，该视频可以是影视视频、短视频，等等。其中，短视频又可称为短片视频，其一般是在互联网新媒体上传播的播放时长在n分钟(例如4分钟、5分钟等)以内的视频。
50.s402、调用训练后的目标检测模型确定待检测图像中各个文本内容所属文本框的预测类别，预测类别用于指示文本框所包含的文本内容为不完整内容的概率。
51.其中，文本框的预测类别为多个待选择类别中的任意一个。图像处理设备可以根据文本框内的文本内容确定文本框的多个待选择类别。一个实施例中，由前述可知，字幕可能包括以下6种情况：正常横字幕、横裁横字幕、竖裁横字幕、正常竖字幕、横裁竖字幕以及竖裁竖字幕。那么文本框的多个待选择类别可以包括以下一种或多种：包含正常横字幕的文本框、包含横裁横字幕的文本框、包含竖裁横字幕的文本框、包含正常竖字幕的文本框、包含横裁竖字幕的文本框以及包含竖裁竖字幕的文本框。
52.其中，预测类别用于指示文本框所包含的文本内容为不完整内容的概率也就是说预测类别用于指示文本框所包含的字幕为不完整字幕的概率。
53.其中，目标检测模型可以包括以下任意一种：基于efficientdet算法构造的目标检测模型、基于yolo算法构造的目标检测模型和基于rcnn算法构造的目标检测模型。
54.在一个实施例中，针对由efficientdet算法构造的目标检测模型，该目标检测模型可以由神经网络efficientnet、双向特征金字塔网络(bifpn)以及目标检测预测头网络
组成。其中，efficientnet是一个通过网络自动搜索(nas)构造的基于卷积神经网络(cnn)的图像特征提取网络，用于提取待检测图像的基础特征集合，基础特征集合中包括待检测图像在多个尺寸下的基础特征。bifpn是一个图像融合网络，用于对基础特征集中中的多个尺寸下的基础特征进行融合得到融合特征，使得融合特征能够驳岸韩多个尺寸下的融合特征，从而提高目标检测模型的准确率。目标检测预测头网络用于根据融合特征预测出待检测图像中的各个文本内容所属文本框的预测类别。
55.在一个实施例中，针对基于yolo算法构造的目标检测模型，该目标检测模型先将待检测图像划分为固定的网格(比如7*7)，如果某个样本对象中心落在对应网格，该网格负责这个对象位置的回归；每个网格预测对象位置与置信度信息，并将这些信息编码为一个向量，并输出该网格预测的结果，所有网格的预测结果合并得到待检测图像中的各个文本内容所属文本框的预测类别。
56.在一个实施例中，针对基于rcnn算法构造的目标检测模型，该目标检测模型先利用region proposal算法提取待检测图像中的候选区域，并对提取到的候选区域进行归一化得到cnn的输入值。然后再利用cnn对输入值进行卷积和/或池化等操作，得到具有固定维度的特征向量。最后再利用特征训练分类器对特征向量进行分类，得到待检测图像中的各个文本内容所属文本框的预测类别。
57.s403、若存在至少一个文本框的预测类别为目标类别，则获取各个预测类别为目标类别的目标文本框的置信度，目标类别用于指示文本框所包含的文本内容为不完整内容的概率大于第一预设阈值。
58.具体的，若待检测图像中存在至少一个文本框的预测类别为目标类别，则获取各个预测类别为目标类别的目标文本框的置信度，若待检测图像中不存在预测类别为目标类别的目标文本框，则输出该待检测图像的预测类型为第二类型，该第二类型用于指示待检测图像为完整字幕图像。其中，目标文本框可以包括以下一种或多种：包含横裁横字幕的文本框、包含竖裁横字幕的文本框、包含横裁竖字幕的文本框以及包含竖裁竖字幕的文本框。各个目标文本框所包含的字幕内容为不完整字幕的概率大于第一预设阈值。
59.举例说明。假设待检测图像中存在2个文本框，分别为文本框a、文本框b和文本框c。通过训练后的目标检测模型确定文本框a的预测类别a、文本框b的预测类别b以及文本框c的预测类别c。当该预测类别a指示文本框a包含的文本内容为不完整内容的概率小于或等于第一预设阈值、预测类别b指示文本框b包含的文本内容为不完整内容的概率小于或等于第一预设阈值以及预测类别c指示文本框c包含的文本内容为不完整内容的概率小于或等于第一预设阈值时，该待检测图像中不存在预设类别为目标类别的目标文本框。那么图像处理设备可以输出该待检测图像的类型为第二类型。当该预测类别a指示文本框a包含的文本内容为不完整内容的概率小于或等于第一预设阈值、预测类别b指示文本框b包含的文本内容为不完整内容的概率大于第一预设阈值以及预测类别c指示文本框c包含的文本内容为不完整内容的概率大于第一预设阈值时，该待检测图像中存在预设类别为目标类别的目标文本框。那么图像处理设备可以获取文本框b的置信度以及文本框c的置信度。
60.s404、若存在至少一个目标文本框的置信度大于第二预设阈值，则输出待检测图像的预测类型为第一类型，该第一类型用于指示待检测图像为不完整字幕图像。
61.具体的，图像处理设备可以将目标文本框与第二预设阈值做比较，若存在至少一
个目标文本框的置信度大于第二预设阈值，则输出待检测图像的预测类型为第一类型；若各个目标文本框的置信度均小于或者等于第二预设阈值，则输出待检测图像的预测类型为第二类型。
62.承接上述的例子，在获取到文本框b的置信度与文本框c的置信度后，若文本框b的置信度与文本框c的置信度均小于或者等于第二预设阈值，则输出待检测图像的类型为第二类型；若文本框b的置信度大于第二预设阈值或者文本框c的置信度大于第二预设阈值，那么图像处理设备可以输出待检测图像的预测类型为第一类型。
63.其中，各个目标文本框的预测类别对应的第二预设阈值可能相同，也可能不同。在一个实施例中，当各个目标文本框的预测类别对应的第二预设阈值均相同时，可以将各个目标文本框的置信度均与这个第二预设阈值作比较，并根据比较结果输出待检测图像的预测类型。承接上述的例子，将文本框b的置信度与文本框c的置信度均与这个相同的第二预设阈值作比较，并根据比较结果输出待检测图像的预测类型。在另一个实施例中，各个目标文本框的预测类别对应的第二预设阈值可能不同。例如，当目标文本框为包含横裁横字幕的文本框时，第二预设阈值为第二预设阈值1；当目标文本框为包含竖裁横字幕的文本框时，第二预设阈值为第二预设阈值2；当目标文本框为包含横裁竖字幕的文本框时，第二预设阈值为第二预设阈值3；当目标文本框为包含竖裁竖字幕的文本框时，第二预设阈值为第二预设阈值4。承接上述的例子，若文本框b为包含横裁横字幕的文本框，文本框c为包含竖裁横字幕的文本框，那么图像处理设备将文本框b的置信度与第二预设阈值1做比较，将文本框c的置信度与第二预设阈值2做比较，并根据比较结果输出待检测图像的预测类型。又例如，当目标文本框为包含横裁横字幕的文本框或者当目标文本框为包含竖裁横字幕的文本框时，第二预设阈值为第二预设阈值1；当目标文本框为包含横裁竖字幕的文本框或者当目标文本框为包含竖裁竖字幕的文本框时，第二预设阈值为第二预设阈值2。等等。
64.本发明实施例在对识别待检测图像是否为不完整字幕图像时，可以先调用训练后的目标检测模型确定待检测图像中各个文本内容所属文本框的预测类别，然后确定待检测图像中是否存在预测类别为目标类别的目标文本框。若存在预测类别为目标类别的目标文本框，则根据目标文本框的置信度与第二预设阈值确定待检测图像为不完整自字幕图像。考虑了待检测图像中可能同时包含有完整字幕内容的文本框以及不完整字幕内容的文本框，与基于图像分类的不完整字幕图像识别方法相比，调用训练后的目标检测模型确定待检测图像中各个文本内容所属文本框的预测类别，可以对待检测图像中的各个文本框进行区分，可以关注到待检测图像中的局部区域信息，提升对不完整字幕图像识别的准确率以及召回率。并且还可以依据包含不完整字幕内容的目标文本框的置信度与第二预设阈值的比较结果识别不完整字幕图像，可以进一步提升对不完整字幕图像识别的准确率。
65.参见上述图4所示的方法实施例的相关描述可知，图4所示的图像处理方法可以调用训练后的目标检测模型实现对不完整字幕图像的识别。那么，在调用训练后的目标检测模型之前，需要对目标检测模型进行训练。基于此，参见图5，图5示出了另一种图像处理方法的流程示意图，该图像处理方法可包括s501
‑
s506：
66.s501、通过光学字符识别算法对初始图像进行文字识别，确定初始图像中的各个候选文本框以及各个候选文本框所包含的文本内容。
67.其中，光学字符识别(optical character recognition，ocr)算法是指图像处理
设备通过检测暗、亮的模式确定候选文本框以及各个候选文本框所包含的文本内容，然后用字符识别方法将其翻译成计算机文字的过程。
68.在一个实施例中，图像处理设备中可包括ocr模块，该ocr模块采用数据平台部提供的ocr识别服务，通过ocr算法对初始图像进行文字识别，确定初始图像中的各个候选文本框以及各个候选文本框所包含的文本内容。其中，初始图像可以是指来源于图像采集设备采集的图像素材，也可以是经过剪辑处理得到的图像。
69.s502、调用不通顺识别模型对各个候选文本框所包含的文本内容进行处理，并在初始图像所包含的所有候选文本框中确定文本内容不通顺的参考文本框。
70.其中，由于ocr算法会对初始图像中的所有文本内容进行检测和识别，无法有效区分初始图像中的文本内容是人工添加的字幕内容还是图像采集设备采集的图像中自带的背景文字，例如拍摄的图像素材中包括的文字内容。而且，由于图像自带的背景文字通常位于初始图像的最底层图层，所以图像自带的背景文字可能会被图像中置于最底层图层上方的图层遮盖，使得图像自带的背景文字的文本内容不通顺。因此，可以调用不通顺识别模型对各个候选文本框所包含的文本内容进行处理，并在初始图像所包含的所有候选文本框中确定文本内容不通顺的参考文本框。
71.具体的，图像处理设备可以调用不通顺识别模型对各个候选文本框的每一行文本内容进行不通顺检测得到各个候选文本框的每一行文本内容的不通顺评价值；然后将各个候选文本框的每一行文本内容进行上下文拼接，得到各个候选文本框的拼接文本内容，并调用不通顺识别模型对各个候选文本框的拼接文本内容进行不通顺检测得到各个候选文本框的拼接文本内容的不通顺评价值；最后基于各个候选文本框的每一行文本内容的不通顺评价值以及各个候选文本框的拼接文本内容的不通顺评价值确定各个候选文本框的不通顺评价值，若各个候选文本框中的任意一个候选文本框的不通顺评价值大于不通顺评价阈值，则确定任意一个候选文本框为文本内容不通顺参考文本框。
72.其中，不通顺识别模型可以是基于bert的文本分类模型。可以对文本内容进行语义通顺度的识别，得到文本内容的不通顺评价值。
73.其中，为了避免将一些有换行的字幕内容误判为不通顺的背景文字，需要基于候选文本框的每一行文本内容的不通顺评价值以及候选文本框的拼接文本内容的不通顺评价值确定候选文本框的不通顺评价值。可选的，可以将候选文本框的每一行文本内容的不通顺评价值以及候选文本框的拼接文本内容的不通顺评价值中的最小值作为候选文本框的不通顺评价值。可选的，也可以对候选文本框的每一行文本内容的不通顺评价值以及候选文本框的拼接文本内容的不通顺评价值进行加权求和得到候选文本框的不通顺评价值。
74.其中，若任意一个候选文本框的不通顺评价值大于不通顺评价阈值，则确定该任意一个候选文本框为文本内容不通顺参考文本框。其中，不通顺评价值可能有多种类型，例如，不通顺评价值为不通顺分数，不通顺评价值为不通顺等级等等。例如，当不通顺评价值为不通顺分数时，不通顺评价阈值为不通顺分数阈值，若候选文本框的不通顺分数大于不通顺分数阈值，那么该候选文本框为参考文本框。例如，当不通顺评价值为不通顺等级时，不通顺评价阈值为不通顺等级阈值，若候选文本框的不通顺等级高于不通顺等级阈值，那么该候选文本框为参考文本框。
75.s503、将初始图像中参考文本框所包含的文本内容过滤，得到目标图像。
76.其中，初始图像可以是一张图像，也可以是包含多张图像的图像集。相应的，由初始图像得到的目标图像可以是一张图像，也可以是包含多张图像的图像集。
77.s504、根据预设裁剪方式对目标图像进行裁剪得到样本图像。
78.可选的，当目标图像为一张图像时，可以对这一张图像进行多次裁剪得到包含多张样本图像的样本图像集。可选的，当目标图像为包含多张图像的图像集时，可以对图像集中的每一张图像分别以预设裁剪方式裁剪一次得到每一张图像对应的一张样本图像，然后可以基于所有图像对应的样本图像得到样本图像集；也可以对图像集中的每一张图像分别以预设裁剪方式裁剪多次得到每一张图像对应的多张样本图像，然后可以基于所有样本图像图像得到样本图像集。其中，预设裁剪方式可以包括随机裁剪和/或固定方式裁剪。预设裁剪方式所指示的裁剪的上下左右范围可以不超过目标图像高和宽的三分之一。
79.s505、根据目标图像中各个文本框在目标图像中的位置和尺寸以及预设裁剪方式，识别样本图像中的各个文本框；将样本图像中的各个文本框与目标图像中对应的文本框进行比较，以确定样本图像的基准类型。
80.具体的，根据目标图像中各个文本框在目标图像中的位置和尺寸以及预设裁剪方式，识别样本图像中的各个文本框；将样本图像中的各个文本框与目标图像中对应的文本框进行比较，以确定样本图像中各个文本框的类别。进而确定样本图像的基准类型。
81.为了更好的阐述本发明实施例，下面结合图1的示例进行说明，在图1中，若图像100为目标图像，将包含有正常横字幕101的文本框命名为文本框102。假设经过预设裁剪方式得到了样本图像110。在样本图像110中，可以文本框112，将文本框112与文本框102进行比较，可以确定文本框112被横裁了，所以可以确定文本框112内的正常横字幕101被横裁了，得到了横裁横字幕111。通过与上述确定样本图像中包含的横裁横字幕的文本框类似的方法可以确定样本图像集的每个样本图像中的各个文本框的类别。每个样本图像中可以包括以下一种或多种类别的文本框：包含正常横字幕的文本框、包含横裁横字幕的文本框、包含竖裁横字幕的文本框、包含正常竖字幕的文本框、包含横裁竖字幕的文本框以及包含竖裁竖字幕的文本框。基于此，每个样本图像就可以根据该样本图像内的各个文本框的类别确定该样本图像的基础类型。
82.s506、构造包含样本图像以及样本图像的基准类型的训练样本，调用目标检测模型对样本图像进行处理，得到样本图像的预测类型；根据预测类型和基准类型，对目标检测模型进行训练，得到训练后的目标检测模型。
83.在经过上述s501
‑
s506获得训练后的目标检测模型之后，图像处理设备可以利用训练后的目标检测模型对待检测图像进行预测，输出对待检测图像的检测结果，即输出待检测图像的预测类型为不完整字幕图像或者完整字幕图像。
84.本发明实施例在构造训练样本时，通过ocr算法对初始图像进行文字识别，并调用不通顺识别模型从初始图像中的所有候选文本框中确定文本内容不通顺的参考文本框，然后对初始图像中参考文本框所包含的文本内容过滤，得到目标图像，最后根据预设裁剪方式对目标图像进行裁剪得到样本图像以及根据样本图像中的各个文本框与目标图像中对应的文本框确定样本图像的基准类型，从而可以得到包含大量样本图像与样本图像的基准类型的训练样本集，省去了数据标注的人力成本和时间成本。同时，与基于ocr的不完整字幕图像的识别方法相比，本发明可以通过不通顺识别模型确定包含背景文字的参考文本
框，可以准确区分ocr检测到的不完整字幕与背景文字，避免将不通顺的背景文字误识别为不完整字幕，提升了构造训练样本的准确性，进而提升训练后的目标检测模型的准确性，提升识别不完整字幕准图像的准确性。
85.基于上述图像处理方法实施例的描述，本发明实施例还公开了一种图像处理装置，所述图像处理装置可以是运行于上述所提及的图像处理设备中的一个计算机程序(包括程序代码)。该图像处理装置可以执行图4或图5所示的方法。请参见图6，所述图像处理装置可以运行如下单元：
86.获取单元601，用于获取待检测图像；
87.确定单元602，用于调用训练后的目标检测模型确定所述待检测图像中各个文本内容所属文本框的预测类别，所述预测类别用于指示所述文本框所包含的文本内容为不完整内容的概率；
88.所述获取单元601还用于若存在至少一个文本框的预测类别为目标类别，则获取各个预测类别为所述目标类别的目标文本框的置信度，所述目标类别用于指示文本框所包含的文本内容为不完整内容的概率大于第一预设阈值；
89.输出单元603，用于若存在至少一个目标文本框的置信度大于第二预设阈值，则输出所述待检测图像的预测类型为第一类型，所述第一类型用于指示所述待检测图像为不完整字幕图像。
90.在一种实施方式中，获取各个预测类别为所述目标类别的目标文本框的置信度之后，输出单元603还用于：
91.若各个目标文本框的置信度均小于或者等于所述第二预设阈值，输出所述待检测图像的类型为第二类型，所述第二类型用于指示所述待检测图像为完整字幕图像。
92.再一种实施方式中，输出单元603用于若存在至少一个目标文本框的置信度大于第二预设阈值，输出所述待检测图像的预测类型为第一类型，包括：
93.将各个目标文本框的置信度与所述各个目标文本框的预测类别对应的第二预设阈值进行比较；
94.若存在至少一个目标文本框的置信度大于所述目标文本框的预测类别对应的第二预设阈值，则输出所述待检测图像的类型为所述第一类型。
95.再一种实施方式中，所述调用训练后的目标检测模型确定所述待检测图像中各个文本内容所属文本框的预测类别之前，获取单元601还用于获取训练样本，所述训练样本包括样本图像以及所述样本图像的基准类型；
96.调用目标检测模型对所述样本图像进行处理，得到所述样本图像的预测类型；
97.根据所述预测类型和所述基准类型，对所述目标检测模型进行训练，得到所述训练后的目标检测模型。
98.再一种实施方式中，获取单元601获取训练样本，包括：
99.根据预设裁剪方式对目标图像进行裁剪得到样本图像；
100.根据所述目标图像中各个文本框在所述目标图像中的位置和尺寸以及所述预设裁剪方式，识别所述样本图像中的各个文本框；
101.将所述样本图像中的各个文本框与所述目标图像中对应的文本框进行比较，以确定所述样本图像的基准类型；
102.构造包含所述样本图像以及所述样本图像的基准类型的训练样本。
103.再一种实施方式中，获取单元601根据预设裁剪方式对目标图像进行裁剪得到样本图像之前，还用于：
104.通过光学字符识别算法对初始图像进行文字识别，确定所述初始图像中的各个候选文本框以及各个候选文本框所包含的文本内容；
105.调用不通顺识别模型对各个候选文本框所包含的文本内容进行处理，并在所述初始图像所包含的所有候选文本框中确定文本内容不通顺的参考文本框；
106.将所述初始图像中所述参考文本框所包含的文本内容过滤，得到所述目标图像。
107.再一种实施方式中，获取单元601调用不通顺识别模型对各个候选文本框所包含的文本内容进行处理，并在所述各个初始图像所包含的所有候选文本框中确定文本内容不通顺的参考文本框，包括：
108.调用所述不通顺识别模型对所述各个候选文本框的每一行文本内容进行不通顺检测得到所述各个候选文本框的每一行文本内容的不通顺评价值；
109.将所述各个候选文本框的每一行文本内容进行上下文拼接，得到所述各个候选文本框的拼接文本内容，并调用所述不通顺识别模型对所述各个候选文本框的拼接文本内容进行不通顺检测得到所述各个候选文本框的拼接文本内容的不通顺评价值；
110.基于所述各个候选文本框的每一行文本内容的不通顺评价值以及所述各个候选文本框的拼接文本内容的不通顺评价值确定所述各个候选文本框的不通顺评价值；
111.若所述各个候选文本框中的任意一个候选文本框的不通顺评价值大于不通顺评价阈值，则确定所述任意一个候选文本框为所述文本内容不通顺的参考文本框。
112.根据本发明的一个实施例，图4或图5所示的方法所涉及的各个步骤均可以是由图6所示的图像处理装置中的各个单元执行的。例如，图4所示的步骤s401和s403由图6中所示的获取单元601来执行，步骤s402由图6中所示的确定单元602来执行，步骤s404由图6中所示的输出单元604来执行。
113.根据本发明的另一个实施例，图6所示的图像处理装置中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以是由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其他实施例中，基于图像处理装置也可以包括其他单元，在实际应用中，这些功能也可以由其他单元协助实现，并且可以由多个单元协作实现。
114.根据本发明的另一个实施例，可以通过包括中央处理单元(central processing unit，cpu)，随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件。例如计算机的通用计算设备上运行能够执行如图4或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6所示的图像处理装置，以及来实现本发明实施例的图像处理方法。所述的计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述图像处理设备中，并在其中运行。
115.本发明实施例在对识别待检测图像是否为不完整字幕图像时，可以先调用训练后的目标检测模型确定待检测图像中各个文本内容所属文本框的预测类别，然后确定待检测
图像中是否存在预测类别为目标类别的目标文本框。若存在预测类别为目标类别的目标文本框，则根据目标文本框的置信度与第二预设阈值确定待检测图像为不完整自字幕图像。考虑了待检测图像中可能同时包含有完整字幕内容的文本框以及不完整字幕内容的文本框，与基于图像分类的不完整字幕图像识别方法相比，调用训练后的目标检测模型确定待检测图像中各个文本内容所属文本框的预测类别，可以对待检测图像中的各个文本框进行区分，可以关注到待检测图像中的局部区域信息，提升对不完整字幕图像识别的准确率以及召回率。并且还可以依据包含不完整字幕内容的目标文本框的置信度与第二预设阈值的比较结果识别不完整字幕图像，可以进一步提升对不完整字幕图像识别的准确率。
116.基于上述图像处理方法实施例的描述，本发明实施例还公开了一种图像处理设备。请参见图7，该图像处理设备至少包括处理器701、输入接口702、输出接口703以及计算机存储介质704可通过总线或其他方式连接。
117.所述计算机存储介质704是图像处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质704既可以包括图像处理设备的内置存储介质，当然也可以包括图像处理设备支持的扩展存储介质。计算机存储介质704提供存储空间，该存储空间存储了图像处理设备的操作系统。并且，在该存储空间中还存放了适于被处理器701加载并执行的一条或多条指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速ram存储器；可选的，还可以是至少一个远离前述处理器的计算机存储介质、所述处理器可以称为中央处理单元(central processing unit，cpu)，是图像处理设备的核心以及控制中心，适于被实现一条或多条指令，具体加载并执行一条或多条指令从而实现相应的方法流程或功能。
118.在一个实施例中，可由处理器701加载并执行计算机存储介质704中存放的一条或多条指令，以实现执行如图4或图5中所示的相应方法所涉及的各步骤，具体实现中，计算机存储介质704中的一条或多条指令由处理器701加载并执行以下步骤：
119.获取待检测图像；
120.调用训练后的目标检测模型确定所述待检测图像中各个文本内容所属文本框的预测类别，所述预测类别用于指示所述文本框所包含的文本内容为不完整内容的概率；
121.若存在至少一个文本框的预测类别为目标类别，则获取各个预测类别为所述目标类别的目标文本框的置信度，所述目标类别用于指示文本框所包含的文本内容为不完整内容的概率大于第一预设阈值；
122.若存在至少一个目标文本框的置信度大于第二预设阈值，则输出所述待检测图像的预测类型为第一类型，所述第一类型用于指示所述待检测图像为不完整字幕图像。
123.在一种实施方式中，获取各个预测类别为所述目标类别的目标文本框的置信度之后，处理器701还用于：
124.若各个目标文本框的置信度均小于或者等于所述第二预设阈值，输出所述待检测图像的类型为第二类型，所述第二类型用于指示所述待检测图像为完整字幕图像。
125.再一种实施方式中，处理器701用于若存在至少一个目标文本框的置信度大于第二预设阈值，输出所述待检测图像的预测类型为第一类型，包括：
126.将各个目标文本框的置信度与所述各个目标文本框的预测类别对应的第二预设阈值进行比较；
127.若存在至少一个目标文本框的置信度大于所述目标文本框的预测类别对应的第二预设阈值，则输出所述待检测图像的类型为所述第一类型。
128.再一种实施方式中，所述调用训练后的目标检测模型确定所述待检测图像中各个文本内容所属文本框的预测类别之前，处理器701还用于获取训练样本，所述训练样本包括样本图像以及所述样本图像的基准类型；
129.调用目标检测模型对所述样本图像进行处理，得到所述样本图像的预测类型；
130.根据所述预测类型和所述基准类型，对所述目标检测模型进行训练，得到所述训练后的目标检测模型。
131.再一种实施方式中，处理器701获取训练样本，包括：
132.根据预设裁剪方式对目标图像进行裁剪得到样本图像；
133.根据所述目标图像中各个文本框在所述目标图像中的位置和尺寸以及所述预设裁剪方式，识别所述样本图像中的各个文本框；
134.将所述样本图像中的各个文本框与所述目标图像中对应的文本框进行比较，以确定所述样本图像的基准类型；
135.构造包含所述样本图像以及所述样本图像的基准类型的训练样本。
136.再一种实施方式中，处理器701根据预设裁剪方式对目标图像进行裁剪得到样本图像之前，处理器701还用于：
137.通过光学字符识别算法对初始图像进行文字识别，确定所述初始图像中的各个候选文本框以及各个候选文本框所包含的文本内容；
138.调用不通顺识别模型对各个候选文本框所包含的文本内容进行处理，并在所述初始图像所包含的所有候选文本框中确定文本内容不通顺的参考文本框；
139.将所述初始图像中所述参考文本框所包含的文本内容过滤，得到所述目标图像。
140.再一种实施方式中，处理器701调用不通顺识别模型对各个候选文本框所包含的文本内容进行处理，并在所述各个初始图像所包含的所有候选文本框中确定文本内容不通顺的参考文本框，包括：
141.调用所述不通顺识别模型对所述各个候选文本框的每一行文本内容进行不通顺检测得到所述各个候选文本框的每一行文本内容的不通顺评价值；
142.将所述各个候选文本框的每一行文本内容进行上下文拼接，得到所述各个候选文本框的拼接文本内容，并调用所述不通顺识别模型对所述各个候选文本框的拼接文本内容进行不通顺检测得到所述各个候选文本框的拼接文本内容的不通顺评价值；
143.基于所述各个候选文本框的每一行文本内容的不通顺评价值以及所述各个候选文本框的拼接文本内容的不通顺评价值确定所述各个候选文本框的不通顺评价值；
144.若所述各个候选文本框中的任意一个候选文本框的不通顺评价值大于不通顺评价阈值，则确定所述任意一个候选文本框为所述文本内容不通顺的参考文本框。
145.本发明实施例在对识别待检测图像是否为不完整字幕图像时，可以先调用训练后的目标检测模型确定待检测图像中各个文本内容所属文本框的预测类别，然后确定待检测图像中是否存在预测类别为目标类别的目标文本框。若存在预测类别为目标类别的目标文本框，则根据目标文本框的置信度与第二预设阈值确定待检测图像为不完整自字幕图像。考虑了待检测图像中可能同时包含有完整字幕内容的文本框以及不完整字幕内容的文本
框，与基于图像分类的不完整字幕图像识别方法相比，调用训练后的目标检测模型确定待检测图像中各个文本内容所属文本框的预测类别，可以对待检测图像中的各个文本框进行区分，可以关注到待检测图像中的局部区域信息，提升对不完整字幕图像识别的准确率以及召回率。并且还可以依据包含不完整字幕内容的目标文本框的置信度与第二预设阈值的比较结果识别不完整字幕图像，可以进一步提升对不完整字幕图像识别的准确率。
146.需要说明的是，本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。图像处理设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该图像处理设备执行上述图像处理方法实施例图4或图5中所执行的步骤。
147.以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：卫星图像道路印刷物识别方法及其装置与流程

图像处理方法、装置、图像处理设备及存储介质与流程

相关文献

最热文献