一种视频图像标注文字的合规性检验方法

2022-07-23 00:34:18 来源：中国专利 TAG：

1.本发明属于视频监控技术领域，具体涉及一种视频图像标注文字的合规性检验方法。

背景技术：

2.为了保障城市的平安和谐，视频监控设备的应用日益广泛，它们通常被安装在交通要道、大型公共聚集场所等地，为城市管理和治安维稳提供不可或缺的助力。在视频监控系统中，标注文字是不可或缺的一部分。它能在原始的视频流中以透明叠加的方式，展示出与视频内容相关的重要信息。标注文字对视频图像的内容理解起着决定性的作用，将它承载的精确时间、位置等信息与轮廓、纹理、颜色等视觉信息结合起来，可以帮助使用者更加准确地理解场景信息。随着平安城市、天网工程等系统的建设，对庞大的监控视频系统进行统一的管理显得尤为重要。
3.为了推进视频监控系统的集成管理，实现视频监控系统图像文字标注命名准确、位置统一的应用需求，中华人民共和国公安部发布了《ga/t 751—2008视频图像文字标注规范》，对视频监控系统中的标注文字规范性进行了规定。视频监控系统图像文字标注位置如图2所示。
4.标注文字的标注内容具体地包括以下信息：
5.地点信息：标注在右下角，若为单行字符，字符上沿距图像下边缘的距离为图像长或宽中较短边的1/10以内，字符中点位于图像垂直中心线以右。
6.时间信息：格式形如“yyyy-mm-dd hh:mm:ss”，标注在右上角，字符下沿距图像上边缘的距离为图像长或宽中较短边的1/10以内，字符中点位于图像垂直中心线以右。
7.摄像机信息：标注在左下角，按照摄像机是否可控、类型(枪式、球形、其它)、用途的顺序标注，字符上沿距图像下边缘的距离为图像长或宽中较短边的1/10以内，字符中点位于图像垂直中心线以左。
8.目前存在的一个很大的问题是不同地区在对视频监控系统进行文字标注的时候没有完全遵循统一的标准，导致视频图像文字标注出现多种不规范现象，比如随机放置标注文字的位置，任意设置标注文字的内容格式等，大大降低了对视频监控进行内容理解的效率。因此，需要对其标注文字的合规性进行检验，推进标注文字规范化建设进程，进而推进视频监控系统及视频会议系统的集成化管理。
9.根据标准，对视频图像标注文字的合规性检验主要包括以下两个方面：
10.(1)位置统一：对标注文字显示位置的合规性进行检验
11.视频图像中只允许存在三种标注文字：时间信息，位于视频图像右上角；地点信息，位于视频图像右下角；附加信息：位于视频图左下角。
12.(2)命名规范：对标注文字的内容合规性进行检验
13.如果标注文字为时间信息，检验其是否为“yyyy-mm-dd hh:mm:ss”格式；如果标注文字为地名信息，检验其是否为本辖区内部的正确地名。
14.现有的标注文字合规性检验方法主要通过人工方式进行，管理人员依赖经验来对标注文字的位置合规性、内容合规性做出判断并进行相应的调整，这种方式不仅非常耗费精力也无法保证处理结果的准确性，尤其是面对海量监控画面时管理人员更是力不从心，成本高，效率低。在实际工作中，大量视频监控系统的数据信息处于闲置状态，利用效率非常低。自然场景文字识别(scene text recognition，str)帮助人们从背景复杂的场景中提取出样式丰富的文字，更好地理解场景信息，视频图像标注文字的检测和识别常参考识别场景文字的方法。在具体的应用场景中，仅仅使用str方法得到图片上的文字是不够的，需要对str输出结果做修正。这个过程超出了一般str方法的能力，但对于最终的应用又十分关键。
15.在现有技术中，申请号为202011083560.x的专利说明书中公布了一种监控画面文字标签的调整方法、存储介质及调整系统，该申请预先设置一个时间表，将一天时间划分为多个时间段，获取实时时间并将其作为监控画面所显示的时间，判断该时间处于时间表的哪个时间段内，相应调整监控画面的文字标签内容。该申请将一天的时间划分为固定的时间段，根据时间段预先设置4-8个标签并在监控画面中叠加，没有文字识别过程，也不涉及到标注文字合规性检验的内容。
16.申请号为202010422410.0的专利说明书公布了一种视频图像中叠加透明时间字符的夜间成像识别方法，该申请改进crnn的训练过程配置，使用识别模型从夜间待检图像中输出时间字符识别结果并进行逻辑校验。该申请只针对时间信息进行识别，没有涉及视频监控系统中重要且识别难度更大的地名信息。此外，由于该发明是直接对裁剪好的时间区域图像中的字符进行识别，不包含字符图像在原图中的位置信息，故无法对视频图像中叠加字符的位置合规性进行判断。

技术实现要素：

17.为了克服现有技术的不足，本发明提供了一种视频图像标注文字的合规性检验方法，该方法对图像中标注文字的合规性进行检验，即检验标注文字是否命名准确、位置统一。首先使用文字检测模型对视频图像中的所有标注文字进行定位，根据定位结果进行标注文字的位置合规性检验；再根据定位结果获得标注文字所在区域图像，使用文字识别模型对图像中的标注文字进行识别，对识别出的标注文字作时间和地点信息的区分，通过不同的后处理方式对标注文字进行处理并检验其内容合规性；最后输出标注文字合规性检验结果。本发明可以有效地对视频图像标注文字的合规性做出判断并将结果反馈给管理人员，提高视频图像标注文字规范性。
18.本发明解决其技术问题所采用的技术方案包括如下步骤：
19.步骤1：获取有标注文字的视频图像，视频图像高为width，宽为height；所述标注文字包括：时间信息、地点信息、附加信息；
20.步骤2：使用训练好的文字检测模型对视频图像中的标注文字进行定位，确定各标注文字区域所在位置，定位结果为标注文字的外包围框宽度、高度和中心点坐标；
21.步骤3：根据定位结果进行视频图像标注文字的位置合规性检验；
22.步骤4：根据定位结果从视频图像中截取出标注文字所在区域图像，使用训练好的文字识别模型对区域图像中的标注文字进行识别；
23.步骤5：对标注文字识别结果进行时间信息和地点信息的区分；
24.步骤6：如果标注文字是时间信息，通过文本匹配方法判断其是否为标准格式，即是否为“yyyy-mm-dd hh:mm:ss”标准格式，输出时间信息格式合规性检验结果，如果为不规范的时间信息格式，对其进行文本结构化处理，将其输出为标准格式；其中，yyyy表示年份，mm表示月份，dd表示日，hh表示小时，mm表示分钟，ss表示秒；
25.步骤7：如果标注文字识别结果是地名信息，对地名信息进行文本纠错：获取辖区内地名字典，借助编辑距离，将识别结果与给定的辖区内地名字典进行比对，做内容合规性检验并输出结果；
26.步骤8：根据标注文字的位置合规性和内容合规性结果给出最终的合规性检验结果。
27.进一步地，所述步骤2中使用训练好的文字检测模型对视频图像中的标注文字进行定位，具体包括：
28.采用将yolov3和ctpn结合起来的检测网络来进行文字定位，包括以下步骤：
29.步骤2-1：将视频图像输入检测网络，根据预设的锚框产生文本提议；
30.步骤2-2：通过文本线构造算法将文本提议合并得到标注的矩形外包围框，各文字的外包围框在垂直方向按照坐标递增的顺序排序，用(c
x
,cy)代表外包围框中心点的坐标，w代表宽度，h代表高度；如果没有矩形外包围框产生，说明图像中没有标注文字存在，中止合规性检验；
31.通过计算得到标注文字外包围框左上顶点坐标(x
min
,y
min
)，右下顶点坐标(x
max
,y
max
)：
32.x
min
＝c
x-w/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
33.y
min
＝c
y-h/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
34.x
max
＝c
x
w/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
35.y
max
＝cy h/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
36.x
min
,x
max
∈(0,width)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
37.y
min
,y
max
∈(0,height)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
38.进一步地，所述步骤3中根据定位结果进行所述视频图像标注文字的位置合规性检验，具体地：
39.步骤3-1：根据文字外包围框水平中点与图像垂直中心线的相对位置判断标注文字位于图像左侧或是左侧，若：
40.c
x
《0.5width
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
41.则标注文字位于图像左侧，则该文字可能为附加信息，否则文字位于图像右侧，可能为时间信息或地点信息；
42.步骤3-2：若标注文字位于图像左侧，判断文字是否附加信息位置合规的条件是：
43.标注在左下角，字符上沿距图像下边缘的距离为图像长或宽中较短边的1/10以内,误差项为p
error
，不超过图像长或宽中较短边的1/20，即：
44.y
min
/min(height,width)≥9/10-p
error
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
45.p
error
《1/20min(height,width)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
46.步骤3-3：若标注文字位于图像右侧，根据文字外包围框垂直中点与图像水平中心
线的相对位置判断标注文字位于图像右上侧或是右下侧，若：
47.cy《0.5height
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
48.则文字位于右上侧，可能为时间信息，否则文字位于图像右下侧，可能为地点信息；
49.步骤3-4：若标注文字位于图像右上侧，判断其是否时间信息位置合规的条件是：
50.字符下沿距图像上边缘的距离为图像长或宽中较短边的1/10以内，即：
51.y
max
/min(height,width)≤1/10 p
error
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
52.步骤3-5：若标注文字位于图像右下侧，根据各文字的外包围框在垂直方向按照坐标递增的顺序排序的结果判断是否为单行地名标注，若为单行字符，判断其是否地点信息位置合规的条件是：字符上沿距图像下边缘的距离为图像长或宽中较短边的1/10以内。
53.进一步地，所述步骤5中对标注文字识别结果进行时间信息和地点信息的区分，具体地：
54.如果标注文字中数字占比达到预设值，或者包含“年”、“月”、“日”、“星期”、“时”、“分”、“秒”七者中的两者及以上，则认为是时间信息，否则为地点信息。
55.进一步地，所述步骤6的具体步骤为：
56.步骤6-1：通过“年”、“月”、“日”、“星期”、“时”、“分”、“秒”七个时间标志词判断时间信息是否合规，七个时间标志词出现两个及以上即为不合规的时间信息：
57.步骤6-2：根据设计的剔除规则将时间信息中的汉字进行剔除：
58.(1)对时间信息中的关键标志词“年”、“月”、“日”、“时”、“分”、“秒”进行替换，具体地：将“年”、“月”用
“‑”
替换，“时”、“分”用“:”替换，“日”、“秒”用“*”替换；
59.(2)将时间信息中的其他汉字用“*”号替换，并将连续的*号合并；
60.步骤6-3：借助正则表达式将步骤6-2中得到的时间信息格式化为标准时间格式：“yyyy-mm-dd hh:mm:ss”。
61.进一步地，所述步骤7的具体步骤为：
62.步骤7-1：使用基于编辑距离的文本相似性度量方式，对于步骤5中输出的地点信息在辖区地名字典中寻找与之相似度前k高的选项，k取1～5中的任意值；
63.步骤7-2：设定相似度阈值s
thresh
，s
thresh
取50～90之间的任意值；如果相似度前k高的相似度值大于相似度阈值s
thresh
，则取相似度排名第一的地名作为识别结果；如果排名第一相似度小于相似度阈值s
thresh
，则转到下一步；
64.步骤7-3：基于编辑距离的相似性度量无法在给定的辖区地名字典中找到与之相对应的真实地名，则引入字符的表意文字描述序列来进一步处理，字符的表意文字描述序列用汉字部件来对字符进行描述；对地点信息进行字符级别的匹配紧凑程度排序，具体地包括如下步骤：
65.步骤7-3-1：将地点信息与相似度最高各候选项中将最长公共子串略去，减少字符串匹配长度；
66.步骤7-3-2：对余下字符串计算基于表意文字描述序列的字符编辑距离；
67.步骤7-3-3：使用needleman-wunsch算法对字符串进行基于字符编辑距离的对齐，得到最终的结果；
68.本发明的有益效果如下：
69.(1)本发明解决了标注文字合规性检验的实际需求；
70.针对视频监控系统对标注文字的应用现状和对合规性检验的实际需求，基于文字识别方法实现了对视频图像标注文字的位置合规性、内容合规性检验，将检验结果反馈给管理人员，提醒其对不规范的标注文字进行调整，该方法准确率高且速度快，对标注文字的合规性进行全面综合的检验，将管理人员从复杂繁多的视频监控画面标注文字合规性检验中解放出来。
71.(2)本发明能够助力视频图像文字标注规范的实施；
72.有利于改善当前视频监控系统图像标注文字信息杂乱且位置不统一的现状，推进《规范》的应用，提升管理部门的监管效率，进一步有利于视频监控资源的广泛共享，互联互通，最大限度的利用现有资源，节省社会资源成本。
73.(3)本发明能够助力视频监控审计系统；
74.可以将本发明中提出的方法应用到视频监控审计系统中，帮助视频监控系统应对合规性检查，满足行业标准，加快对于安全事件的发现和处置效率。
75.(4)本发明为类似应用领域的需求提供了解决思路；
76.视频图像标注文字的合规性检验也可以推广至视频会议、视频网站等系统，帮助系统对其标注文字进行规范。
附图说明
77.图1是本发明方法流程图。
78.图2是本发明方法视频图像文字标注区域标准示意图。
79.图3是本发明实施例待判定标注文字合规性的视频图像例。
80.图4是本发明实施例视频图像中的标注文字进行定位的输出结果。
81.图5将本发明实施例对视频图像中的标注文字进行定位的输出结果还原到视频图像中。
82.图6是本发明方法对标注文字进行位置合规性检验的流程图。
83.图7是本发明实施例对标注文字进行识别的结果。
84.图8是本发明方法对标注文字进行内容合规性检验流程图。
85.图9是本发明实施例辖区地名字典中与视频中地名信息相似度前3高的选项。
86.图10是本发明实施例辖区地名字典中与实施例2中地名信息相似度前3高的选项。
87.图11为本发明实施例字符的表意文字描述序列示意图。
88.图12为本发明实施例2最大相似度候选项略去最长公共子串的结果。
89.图13为对本发明实施例2字符串计算基于字符的编辑距离并使用needleman-wunsch算法对齐的结果。
具体实施方式
90.下面结合附图和实施例对本发明进一步说明。
91.本发明提出一种视频图像标注文字的合规性检验方法，该方法面向视频监控系统图像文字标注命名准确、位置统一的应用需求，对由不同厂家的各种摄像头拍摄到的视频图像标注文字的合规性进行检验，旨在解决现有技术中视频图像标注文字合规性检验方法
成本高、效率低的问题，可以提高检验效率并及时将检验结果反馈给管理人员进行调整。本发明在str方法的基础上，对视频监控系统画面中不同位置的标注文字做位置合规性检验，对从视频监控系统画面识别出的不同类型标注文字内容做不同后处理：对时间信息进行内容合规性检验后，对不合规的时间信息进行文本结构化处理，将其组织成标准的时间格式；对地名信息做文本纠错处理，纠正其中的错误文字，再进行标注文字的内容合规性检验，地名信息的纠错处理有助于提升标注文字合规性检验的准确率。
92.一种视频图像标注文字的合规性检验方法，包括如下步骤：
93.步骤1：获取有标注文字的视频图像，视频图像高为width，宽为height；所述标注文字包括：时间信息、地点信息、附加信息；
94.步骤2：使用训练好的文字检测模型对视频图像中的标注文字进行定位，确定各标注文字区域所在位置，定位结果为标注文字的外包围框宽度、高度和中心点坐标；
95.步骤3：根据定位结果进行视频图像标注文字的位置合规性检验；
96.步骤4：根据定位结果从视频图像中截取出标注文字所在区域图像，使用训练好的文字识别模型对区域图像中的标注文字进行识别；
97.步骤5：对标注文字识别结果进行时间信息和地点信息的区分；
98.步骤6：如果标注文字是时间信息，通过文本匹配方法判断其是否为标准格式，即是否为“yyyy-mm-dd hh:mm:ss”标准格式，输出时间信息格式合规性检验结果，如果为不规范的时间信息格式，对其进行文本结构化处理，将其输出为标准格式；
99.步骤7：如果标注文字识别结果是地名信息，对地名信息进行文本纠错：获取辖区内地名字典，借助编辑距离，将识别结果与给定的辖区内地名字典进行比对，做内容合规性检验并输出结果；
100.步骤8：根据标注文字的位置合规性和内容合规性结果给出最终的合规性检验结果。
101.进一步地，所述步骤2中使用训练好的文字检测模型对视频图像中的标注文字进行定位，具体包括：
102.采用将yolov3和ctpn结合起来的检测网络来进行文字定位，包括以下步骤：
103.步骤2-1：将视频图像输入检测网络，根据预设的锚框产生文本提议；
104.步骤2-2：通过文本线构造算法将文本提议合并得到标注的矩形外包围框，各文字的外包围框在垂直方向按照坐标递增的顺序排序，用(c
x
,cy)代表外包围框中心点的坐标，w代表宽度，h代表高度；如果没有矩形外包围框产生，说明图像中没有标注文字存在，中止合规性检验；
105.通过计算得到标注文字外包围框左上顶点坐标(x
min
,y
min
)，右下顶点坐标(x
max
,y
max
)：
106.x
min
＝c
x-w/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
107.y
min
＝c
y-h/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
108.x
max
＝c
x
w/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
109.y
max
＝cy h/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
110.x
min
,x
max
∈(0,width)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
111.y
min
,y
max
∈(0,height)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
112.进一步地，所述步骤3中根据定位结果进行所述视频图像标注文字的位置合规性检验，具体地：
113.步骤3-1：根据文字外包围框水平中点与图像垂直中心线的相对位置判断标注文字位于图像左侧或是左侧，若：
114.c
x
《0.5width
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
115.则标注文字位于图像左侧，则该文字可能为附加信息，否则文字位于图像右侧，可能为时间信息或地点信息；
116.步骤3-2：若标注文字位于图像左侧，判断文字是否附加信息位置合规的条件是：
117.标注在左下角，字符上沿距图像下边缘的距离为图像长或宽中较短边的1/10以内,误差项为p
error
，不超过图像长或宽中较短边的1/20，即：
118.y
min
/min(height,width)≥9/10-p
error
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
119.p
error
《1/20min(height,width)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
120.步骤3-3：若标注文字位于图像右侧，根据文字外包围框垂直中点与图像水平中心线的相对位置判断标注文字位于图像右上侧或是右下侧，若：
121.cy《0.5height
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
122.则文字位于右上侧，可能为时间信息，否则文字位于图像右下侧，可能为地点信息；
123.步骤3-4：若标注文字位于图像右上侧，判断其是否时间信息位置合规的条件是：
124.字符下沿距图像上边缘的距离为图像长或宽中较短边的1/10以内，即：
125.y
max
/min(height,width)≤1/10 p
error
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
126.步骤3-5：若标注文字位于图像右下侧，根据各文字的外包围框在垂直方向按照坐标递增的顺序排序的结果判断是否为单行地名标注，若为单行字符，判断其是否地点信息位置合规的条件是：字符上沿距图像下边缘的距离为图像长或宽中较短边的1/10以内。
127.进一步地，所述步骤5中对标注文字识别结果进行时间信息和地点信息的区分，具体地：
128.如果标注文字中数字占比达到预设值，或者包含“年”、“月”、“日”、“星期”、“时”、“分”、“秒”七者中的两者及以上，则认为是时间信息，否则为地点信息。
129.进一步地，所述步骤6的具体步骤为：
130.步骤6-1：通过“年”、“月”、“日”、“星期”、“时”、“分”、“秒”七个时间标志词判断时间信息是否合规，七个时间标志词出现两个及以上即为不合规的时间信息：
131.步骤6-2：根据设计的剔除规则将时间信息中的汉字进行剔除：
132.(1)对时间信息中的关键标志词“年”、“月”、“日”、“时”、“分”、“秒”进行替换，具体地：将“年”、“月”用
“‑”
替换，“时”、“分”用“:”替换，“日”、“秒”用“*”替换；
133.(2)将时间信息中的其他汉字用“*”号替换，并将连续的*号合并；
134.步骤6-3：借助正则表达式将步骤6-2中得到的时间信息格式化为标准时间格式：“yyyy-mm-dd hh:mm:ss”。
135.进一步地，所述步骤7的具体步骤为：
136.步骤7-1：使用基于编辑距离的文本相似性度量方式，对于步骤5中输出的地点信息在辖区地名字典中寻找与之相似度前k高的选项，k取1～5中的任意值；
137.步骤7-2：设定相似度阈值s
thresh
，s
thresh
取50～90之间的任意值；如果相似度前k高的相似度值大于相似度阈值s
thresh
，则取相似度排名第一的地名作为识别结果；如果排名第一相似度小于相似度阈值s
thresh
，则转到下一步；
138.步骤7-3：基于编辑距离的相似性度量无法在给定的辖区地名字典中找到与之相对应的真实地名，则引入字符的表意文字描述序列来进一步处理，字符的表意文字描述序列用汉字部件来对字符进行描述；对地点信息进行字符级别的匹配紧凑程度排序，具体地包括如下步骤：
139.步骤7-3-1：将地点信息与相似度最高各候选项中将最长公共子串略去，减少字符串匹配长度；
140.步骤7-3-2：对余下字符串计算基于表意文字描述序列的字符编辑距离；
141.步骤7-3-3：使用needleman-wunsch算法对字符串进行基于字符编辑距离的对齐，得到最终的结果；
142.具体实施例：
143.如图1所示，本发明提出一种视频图像标注文字的合规性检验方法，包括如下步骤：
144.s1：获取有标注文字的视频图像，具体地：如图3所示，该图像为从视频监控系统中抓取的有标注文字的单帧图像，其高为width，宽为height，文字标注了时间和地点信息，在具体的实施过程中，用户可以抓取多张图像作为待处理图像集，对其逐一进行标注文字的合规性检验，本实施例中width＝1920，height＝1080；
145.s2：对所述视频图像中的标注文字进行定位，本发明主要针对的是视频图像标注文字的合规性检验，在接收到需要检验合规性的图片后，需要判断其中是否有标注文字存在，若是，则进行标注文字的合规性检验；具体地：使用训练好的文字检测模型来给出视频图像中标注文字的位置，这里的网络可以是各种用来做文字检测的网络，包括但不限于由yolo、ssd等目标检测网络改造而来的文字检测网络和ctpn、pixellink等专门为文字检测设计的网络，本发明采用将yolov3和ctpn结合起来的检测网络来进行文字定位，包括以下步骤：
146.s21：将视频图像输入检测网络，检测网络的锚框(anchor)参考ctpn设计，9个锚框宽度设置成5～10之间一固定宽度，高度在10～300之间，根据锚框产生文本提议；
147.s22：通过文本线构造算法将文本提议合并得到标注的矩形外包围框，各文字的外包围框在垂直方向按照坐标递增的顺序排序，检测网络最终输出如图4和图5所示，(c
x
,cy)代表外包围框中心点的坐标，w代表其宽度，h代表其高度，特别地，如果没有矩形外包围框产生，说明图像中没有标注文字存在，中止合规性检验。
148.通过计算得到标注文字外包围框左上顶点坐标(x
min
,y
min
)，右下顶点坐标(x
max
,y
max
)：
149.x
min
＝c
x-w/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
150.y
min
＝c
y-h/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
151.x
max
＝c
x
w/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
152.y
max
＝cy h/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
153.x
min
,x
max
∈(0,width)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
154.y
min
,y
max
∈(0,height)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
155.s3：根据定位结果进行所述视频图像标注文字的位置合规性检验，具体地：
156.对于从视频图像中得到的标注文字的矩形外包围框，对其进行位置合规性检验的流程如图6所示，其具体步骤是：
157.s31：根据文字外包围框水平中点与图像垂直中心线的相对位置判断标注文字位于图像左侧或是左侧，若：
158.c
x
《0.5width
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
159.则标注文字位于图像左侧，则该文字有可能为附加信息，否则文字位于图像右侧，有可能为是时间或地点信息，本实施例中两文字包围框均位于图像右侧，可能为时间或地点信息；
160.s32：若标注文字位于图像左侧，判断文字是否附加信息位置合规的条件是：
161.标注在左下角，字符上沿距图像下边缘的距离为图像长或宽中较短边的1/10以内,误差项为p
error
，不超过图像长或宽中较短边的1/20，即：
162.y
min
/min(height,width)≥9/10-p
error
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
163.p
error
《1/20min(height,width)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
164.s32：若标注文字位于图像右侧，根据文字外包围框垂直中点与图像水平中心线的相对位置判断标注文字位于图像右上侧或是右下侧，若：
165.cy《0.5height
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
166.则文字位于右上侧，可能为时间信息，否则文字位于图像右下侧，可能为地点信息；
167.s33：若标注文字位于图像右上侧，判断其是否时间信息位置合规的条件是：
168.字符下沿距图像上边缘的距离为图像长或宽中较短边的1/10以内，即：
169.y
max
/min(height,width)≤1/10 p
error
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
170.s34：若标注文字位于图像右下侧，根据各文字的外包围框在垂直方向按照坐标递增的顺序排序的结果判断是否为单行地名标注，若为单行字符，判断其是否地点信息位置合规的条件是：字符上沿距图像下边缘的距离为图像长或宽中较短边的1/10以内，如式(6)所示；
171.在本实施例中，通过本发明的位置合规性检验方法，图3所示的视频图像文字标注位置合规；
172.s4：根据定位结果从所述视频图像中截取出标注文字所在区域图像，将定位结果、位置合规性检验结果与文字区域图像进行关联保存。对所述区域图像中的标注文字进行识别，具体地：使用训练好的文字识别模型对区域图像中的标注文字进行识别，这里的识别网络可以是任何常用的文字识别网络，如crnn，encoder-decoder网络等，本发明采用crnn网络进行文字识别，识别结果如图7所示。
173.s5：对标注文字识别结果进行时间信息和地点信息的区分，具体地：如果标注文字数字占比达到预设值，预设值为50％～80％之间任意值，本实施例中取60％，或者包含“年”、“月”、“日”、“星期”、“时”、“分”、“秒”七者中的两者及以上，则认为是时间信息，否则为地点信息，当然，根据实际需要还可以采用其他的方式进行判断，不对其作具体限定。具体地以图4的标注文字为例：其文字识别结果字符串1为：2021年12月03日星期开11:47:47，
数字占比为63.6％，可以判断其为时间信息，文字识别结果字符串2为：朝阳夫街与前进路卡口北1，数字占比为8.3％，判断其为地点信息；
174.s6：如果标注文字识别结果是时间信息，通过文本匹配方法判断其是否为标准格式并输出时间信息格式合规性检验结果，即是否为：
[0175]“yyyy-mm-dd hh:mm:ss”形式，如不是，将其文本结构化为标准时间，图4的时间信息2021年12月03日星期开11:47:47文本格式不合规，结构化后的时间t1为“2021-12-03 11:47:47”，具体步骤为：
[0176]
s601：通过“年”、“月”、“日”、“星期”、“时”、“分”、“秒”七个时间关键标志词判断时间信息是否合规，七个时间关键标志词出现两个及以上即为不合规的时间信息：本例中“年”、“月”、“日”、“星期”四个时间关键标志词出现，时间信息内容检验结果为不合规，下一步对其进行格式化；
[0177]
s602：根据设计的剔除规则将时间信息中的汉字进行剔除：
[0178]
(1)对时间信息中的关键标志词“年”、“月”、“日”、“时”、“分”、“秒”进行替换，具体地：将“年”、“月”用
“‑”
替换，“时”、“分”用“:”替换，“日”、“秒”用“*”替换；
[0179]
(2)将时间信息中的其他汉字用“*”号替换，并将连续的*号合并。
[0180]
本例中得到的结果是：2021-12-03*11:47:47*；
[0181]
s603：借助正则表达式将步骤s602中得到的时间信息格式化为标准时间：2021-12-03 11:47:47。
[0182]
s7：如图8所示，如果标注文字识别结果是地名信息，如果标注文字识别结果是地名信息，对地名信息进行文本纠错：将识别结果与给定的辖区内地名字典进行比对，做内容合规性检验并输出结果，具体地：
[0183]
s701：使用基于编辑距离的文本相似性度量方式，对于s4中输出的地名信息在辖区地名字典中寻找与之相似度前k高的选项，k取1～5中的任意值，此例取3，得到的结果如图9所示；
[0184]
s702：相似度阈值s
thresh
可以取50～90之间的任意值，本例中取55，可见，地名信息内容合规，而且在给定的辖区地名字典中找到了与识别结果“朝阳夫街与前进路卡口北1”相对应的真实地名“朝阳大街与前进路卡口北1”。在其他实施例中，可能top1选项不是唯一的，给定另一实施例2，在实施例2中，s4中输出的地名信息为：小城族镇麻家庄村党家挂大港东曰，在辖区地名字典中寻找与之相似度前3高的选项，得到的结果如图10所示：
[0185]
在此实施例中，基于编辑距离的相似性度量无法在给定的辖区地名字典中找到与之相对应的真实地名，引入字符的表意文字描述序列来进一步处理。字符的表意文字描述序列用汉字部件来对其进行描述，如图11所示。
[0186]
s703：对于实施例2中由字级别的编辑距离得到的相似度均为67的候选项，进行字符级别的匹配紧凑程度排序，具体地包括如下步骤：
[0187]
s703-1：在文字识别结果与各候选项中将其最长公共子串略去，减少字符串匹配长度，本实施例得到的结果如图12所示：
[0188]
s703-2：对余下字符串计算基于表意文字描述序列的字符编辑距离；
[0189]
s703-3：使用needleman-wunsch算法对字符串进行基于字符编辑距离的对齐，得到的结果如图13所示，可见，地名信息内容合规，而且在给定的辖区地名字典中找到了与“小城族镇麻家庄村党家挂大港东曰”相对应的真实地名“城关镇麻家庄村党家洼大巷东口东”；
[0190]
s8：根据标注文字的位置合规性和内容合规性结果给出最终的合规性检验结果，具体地，本例中标注文字的位置合规，时间信息内容不合规，地点信息内容合规，所以总体图4的标注文字地名信息合规，时间信息不合规，需要提醒管理人员对标注时间进行格式调整。
[0191]
上述参数或阈值的具体数值可根据实际情况和规范执行的严格程度进行调整。
[0192]
根据本发明提出的方法，对1000张真实场景的视频图像标注文字的合规性进行检验，得到的结果如表1所示，单张图片合规性检验的准确率在75％以上。
[0193]
表1对1000张真实场景的视频图像标注文字进行合规性检验的结果
[0194]

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种去中心化CA认证系统、方法、设备及存储介质与流程

一种视频图像标注文字的合规性检验方法

相关文献

最热文献