图像处理方法、装置、图像处理设备及存储介质与流程

2021-10-29 21:06:00 来源：中国专利 TAG：图像处理装置计算机方法设备

技术特征：
1.一种图像处理方法，其特征在于，包括：获取待检测图像；调用训练后的目标检测模型确定所述待检测图像中各个文本内容所属文本框的预测类别，所述预测类别用于指示所述文本框所包含的文本内容为不完整内容的概率；若存在至少一个文本框的预测类别为目标类别，则获取各个预测类别为所述目标类别的目标文本框的置信度，所述目标类别用于指示文本框所包含的文本内容为不完整内容的概率大于第一预设阈值；若存在至少一个目标文本框的置信度大于第二预设阈值，则输出所述待检测图像的预测类型为第一类型，所述第一类型用于指示所述待检测图像为不完整字幕图像。2.如权利要求1所述的方法，其特征在于，所述获取各个预测类别为所述目标类别的目标文本框的置信度之后，还包括：若各个目标文本框的置信度均小于或者等于所述第二预设阈值，则输出所述待检测图像的类型为第二类型，所述第二类型用于指示所述待检测图像为完整字幕图像。3.如权利要求1所述的方法，其特征在于，所述若存在至少一个目标文本框的置信度大于第二预设阈值，则输出所述待检测图像的预测类型为第一类型，包括：将各个目标文本框的置信度与所述各个目标文本框的预测类别对应的第二预设阈值进行比较；若存在至少一个目标文本框的置信度大于所述目标文本框的预测类别对应的第二预设阈值，则输出所述待检测图像的类型为所述第一类型。4.如权利要求1所述的方法，其特征在于，所述调用训练后的目标检测模型确定所述待检测图像中各个文本内容所属文本框的预测类别之前，还包括：获取训练样本，所述训练样本包括样本图像以及所述样本图像的基准类型；调用目标检测模型对所述样本图像进行处理，得到所述样本图像的预测类型；根据所述预测类型和所述基准类型，对所述目标检测模型进行训练，得到所述训练后的目标检测模型。5.如权利要求4所述的方法，其特征在于，所述获取训练样本，包括：根据预设裁剪方式对目标图像进行裁剪得到样本图像；根据所述目标图像中各个文本框在所述目标图像中的位置和尺寸以及所述预设裁剪方式，识别所述样本图像中的各个文本框；将所述样本图像中的各个文本框与所述目标图像中对应的文本框进行比较，以确定所述样本图像的基准类型；构造包含所述样本图像以及所述样本图像的基准类型的训练样本。6.如权利要求5所述的方法，其特征在于，所述根据预设裁剪方式对目标图像进行裁剪得到样本图像之前，还包括：通过光学字符识别算法对初始图像进行文字识别，确定所述初始图像中的各个候选文本框以及各个候选文本框所包含的文本内容；调用不通顺识别模型对各个候选文本框所包含的文本内容进行处理，并在所述初始图像所包含的所有候选文本框中确定文本内容不通顺的参考文本框；将所述初始图像中所述参考文本框所包含的文本内容过滤，得到所述目标图像。
7.如权利要求6所述的方法，其特征在于，所述调用不通顺识别模型对各个候选文本框所包含的文本内容进行处理，并在所述各个初始图像所包含的所有候选文本框中确定文本内容不通顺的参考文本框，包括：调用所述不通顺识别模型对所述各个候选文本框的每一行文本内容进行不通顺检测得到所述各个候选文本框的每一行文本内容的不通顺评价值；将所述各个候选文本框的每一行文本内容进行上下文拼接，得到所述各个候选文本框的拼接文本内容，并调用所述不通顺识别模型对所述各个候选文本框的拼接文本内容进行不通顺检测得到所述各个候选文本框的拼接文本内容的不通顺评价值；基于所述各个候选文本框的每一行文本内容的不通顺评价值以及所述各个候选文本框的拼接文本内容的不通顺评价值确定所述各个候选文本框的不通顺评价值；若所述各个候选文本框中的任意一个候选文本框的不通顺评价值大于不通顺评价阈值，则确定所述任意一个候选文本框为所述文本内容不通顺的参考文本框。8.一种图像处理装置，其特征在于，包括：获取单元，用于获取待检测图像；确定单元，用于调用训练后的目标检测模型确定所述待检测图像中各个文本内容所属文本框的预测类别，所述预测类别用于指示所述文本框所包含的文本内容为不完整内容的概率；所述获取单元还用于若存在至少一个文本框的预测类别为目标类别，则获取各个预测类别为所述目标类别的目标文本框的置信度，所述目标类别用于指示文本框所包含的文本内容为不完整内容的概率大于第一预设阈值；输出单元，用于若存在至少一个目标文本框的置信度大于第二预设阈值，则输出所述待检测图像的预测类型为第一类型，所述第一类型用于指示所述待检测图像为不完整字幕图像。9.一种图像处理设备，包括输入接口、输出接口，其特征在于，还包括：处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1
‑
7任意一项所述的图像处理方法。10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1
‑
7任意一项所述的图像处理方法。

技术总结
本申请公开了一种图像处理方法、装置、图像处理设备及存储介质，其中方法包括：获取待检测图像；调用训练后的目标检测模型确定待检测图像中各个文本内容所属文本框的预测类别，预测类别用于指示文本框所包含的文本内容为不完整内容的概率；若存在至少一个文本框的预测类别为目标类别，则获取各个预测类别为目标类别的目标文本框的置信度，目标类别用于指示文本框所包含的文本内容为不完整内容的概率大于第一预设阈值；若存在至少一个目标文本框的置信度大于第二预设阈值，则输出待检测图像的预测类型为第一类型，第一类型用于指示待检测图像为不完整字幕图像，可以提升对不完整字幕图像识别的准确率以及召回率。幕图像识别的准确率以及召回率。幕图像识别的准确率以及召回率。

技术研发人员：侯昊迪余亭浩
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2021.02.20
技术公布日：2021/10/28

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：卫星图像道路印刷物识别方法及其装置与流程

图像处理方法、装置、图像处理设备及存储介质与流程

相关文献

最热文献