一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种端子排图像检测信息匹配方法与流程

2022-06-01 06:40:59 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,具体涉及一种端子排图像检测信息匹配方法。


背景技术:

2.人工智能被誉为第四次工业革命的核心驱动力,对社会和经济的影响日益凸显。随着人工智能技术的进一步成熟以及政府和产业界投入的日益增长,人工智能应用将不断加速。各国政府纷纷出台相关政策,并将其上升到国家战略高度。当前,国家电网的运行方式和发展模式也正在发生变化,电网向高电压大电网、广域互连、配电网柔性自适应方向发展,能源互联网逐步形成。传统技术方法已无法满足电网业务的快速发展需求和解决相关业务痛点,需借助人工智能技术,从模型、样本、平台、通用组件、各专业智能化应用、运营机制、开放生态等多个方面统筹开展人工智能体系设计,加快人工智能的应用落地,促进公司电网数字化转型升级,实现对电网业务全面赋能。现阶段国家电网在面向人工智能应用建设方面,已成功应用无人机智能巡检技术,替代传统人工巡检,极大提高了隐蔽性缺陷发现率;安监领域亦开展了现场作业视频智能分析,实现典型违章行为的智能识别;基建领域在高风险和复杂工序现场,实施违章智能告警应用,有效识别电力作业现场安全隐患。
3.随着神经网络的复兴,场景文字检测和识别任务得到了很大推动,基于自然场景图像的文字识别技术也逐渐成为计算机视觉研究中的热点问题,并且近年来涌现了许多基于深度学习的场景文字检测和识别的算法。ocr文字识别作为一种通用的图像理解技术,对信息检索、电力系统信息回路,图纸、图片数据转换等应用的研究都有着重要意义。但现阶段因文字字符结构复杂,种类繁多,自然环境复杂多样、文字扭曲的原因,造成检测、识别、转译难度大的问题,依然不能得到有效解决。在实际应用过程中,失败案例屡屡出现,原因各不相同,其中大部分都是源于模型对于新“新数据”缺乏泛化能力。因此,即使ocr模型可以处理许多情况,如不同的字体、方向、角度、曲线、背景,但也有一些偏差是不能工作,如一些不流行的字体、符号和背景等等。
4.针对目前电力系统设备的二次作业智能回路检修工作过程中,存在机房电器柜端子排关联信息与标准cad图纸信息对比复核,及现场信息二次回路识别智能化辅助人员决策的应用需求。开展现场端子排图像文字检测、识别、cad图纸结构化数据库建设及端子号对应关系核查、校准的应用技术研究。以期实现辅助检修作业过程中的cad图纸、图像识别对比,达到提升设备检修作业效率、降低人员操作工作失误率,实现二次作业智能化决策的实际应用。
5.端子排端子序号和线管文字并不是一一对应关系,且会因拍摄角度或者现场已存在的端子号与端子线管之间的“斜着”、“歪着”的对应关系在数据关联匹配阶段,造成二分图匹配迭代矩阵存在“稀疏”性,即“信息不对称”,传统的二分图数据关联方法,极有可能求的局部最优解,造成漏匹配或误匹配,极大的影响匹配准确性。


技术实现要素:

6.针对端子排数据情况的分析,本发明主要解决信息不对称二分图-数据关联匹配问题。端子排的最终ocr检测识别结果,需要更进一步进行业务逻辑的判断,需要根据端子号和线管文本信息的检测识别结果,进行最优的匹配关联。本发明的目的在于提供端子排图像检测信息匹配方法。本发明的技术方案:
7.一种端子排图像检测信息匹配方法,采用带权二分图的最优匹配kuhn-munkres算法进行迭代求解,进行匹配效果,利用空间关系进行损失矩阵的求解,并且逻辑上判断“m
×
n”关系进行矩阵加权,最后进行二分匹配求解端子号与端子线管文字信息的指派匹配求解,根据端子排ocr检测、识别结果,进行数据关联,并通过与cad数据库信息进行关联,最终可形成表格化处理结果。
8.优选的,具体表现为:利用ocr识别检测端子排结果,通过二分图数据关联匹配算法,形成最后的ocr图像数据匹配结果,进而生成由图像到端子信息的表格化转化;cad图纸端,通过端子排行业标准规范,建立对应图的图纸数据库,并赋予基于带属性的各端子信息,形成端子信息关联;最后,将ocr检测数据与cad数据库结果对比,进而实现完整的端子排信息核检回路闭环,辅助巡检工作人员核检、比对应用。
9.优选的,利用空间关系进行损失矩阵的求解,所述空间关系指端子排端子号文本图像位置坐标和线管文本图像位置坐标之间的欧氏距离,进而形成损失矩阵。
10.优选的,所述m
×
n中的m指数量端子排线号文本的数量,n指端子排线管文本的数量;逻辑关系指m和n的大小。
11.优选的,指派匹配求解的具体求解过程包括以下步骤:
12.1)先对端子排的所有文本检测、识别得到端子排文本内容以及相应的图像位置坐标信息;
13.2)然后再根据文本内容判断识别到的文本是否属于数字;进而将端子排线号和端子排线管的图像位置信息分成两组序列;
14.3)根据2)判断两组序列的大小求解端子排端子号文本图像位置坐标和线管文本图像位置坐标之间的欧氏距离,形成损失矩阵;
15.4)依据损失矩阵再根据kuhn-munkres算法,进行匹配求解自此,根据最优的行索引对应的列索引,得到端子排序号和端子排线管的匹配对。
16.优选的,步骤2)中所述数字包括0,1,2,3,4,5,6,7,8,9。
17.优选的,步骤3)中判断m和n的大小,若m小于等于n,则端子排线号文本作为损失矩阵的行索引,线管文本作为损失矩阵的列索引,同理反之。
18.优选的,在信息匹配之前还有端子排图像标注处理步骤和端子排图像检测识别步骤。
19.优选的,端子排图像标注处理步骤包括:角度为非水平位的端子排采用四点式标注,标注边框紧贴文字数字的周边,不留有空隙;同一线管上的文字标注为一个整体,文字或数字间若带有空格,不分开标注,将空格标注出来,在标注过程中,如果中间存在若干空格只标注一个空格。
20.优选的,端子排图像检测识别步骤包括:采取两阶段ocr字符识别,一阶段采用可微的二值化dbnet网络结构作为文本检测,不同的是在模型backbone的不同阶段添加了bam
模块,用于增强模型的增强表达,达到在文本结构信息缺失的情况下,仍然能得到有效的对文本目标分割边界定位的目的;二阶段采用cnn rnn ctc方法实现文本识别。
21.本发明的有益效果:
22.本发明提供了一种基于图像ocr文本检测识别结果的端子排端子号和端子排线管文本关联匹配的检测技术途径。其主要方法是采用端子排端子号和端子排线管的文本检测识别信息(包含文本内容及相对应的文本实例图像位置坐标),判断文本是否属于数字进行二分图数据分组,形成端子号和线管数据序列,再依据两数据序列的图像位置坐标,求解一一对应的欧氏距离,形成损失矩阵;两数据序列的损失矩阵,采用带权二分图的最优匹配kuhn-munkres算法进行迭代求解,最后根据行,列索引得到最优的线号和线管的匹配对。利用匹配对信息,形成数据表格与cad图纸信息核查比对,最终实现检修作业过程中工作人员端子排识别匹配核查任务的实际应用,达到了提升设备检修作业效率、降低人员操作工作失误率,实现作业人员智能化决策的效果。
附图说明
23.图1端子排文本正确标注示例图;
24.图2常见标注形式及解决方法图;
25.图3端子排文字字符ocr检测识别网络架构图;
26.图4 bam:bottleneck attention module
‑‑‑
bmcv2018图;
27.图5 improved-db-net网络结构图;
28.图6 db-net对比improved-db-net检测效果图;
29.图7 tia数据增强方法效果图;
30.图8 cnn rnn网络结构图;
31.图9信息不对称二分图匹配图;
32.图10端子排二分图匹配效果图;
33.图11表格化处理结果图;
34.图12一致性结果对比技术路线图。
具体实施方式
35.在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。术语“内”、“上”、“下”等指示的方位或状态关系为基于附图所示的方位或状态关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
36.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,根据具体情况理解上述术语在本发明中的具体含义。
37.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。
38.下面结合附图以及具体实施方式对本发明作进一步详细说明。
39.1端子排图像标注处理方案
40.针对端子排上的文字数字、文本内容标注,为弥补数据不足,防止漏标的情况,本标注方法大方面采用“应标尽标”的原则。正确标注方式,见图1所示。
41.采用原则一般为:角度为非水平位(向上/向下带倾斜角度)的端子排需采用四点式标注,保证标注边框紧贴文字数字的周边,不得留有空隙。同一线管上的文字标注为一个整体,文字(数字)间若带有空格,不需要分开标注。且需要将空格标注出来,在标注过程中,如果中间存在若干空格只标注一个空格即可。
42.依据端子排现场数据情况,常常会存在各式各样的问题,为满足端子排检测识别,参考当前ocr技术领域的数据常用处理方法,针对不同情况,进行有效调节解决,见图2。
43.2端子排图像检测识别方法
44.cnn为卷积神经网络结构,rnn为循环神经网络结构,ctc是一种避开输入与输出手动对齐的一种方式。是语音识别或者ocr识别的常用应用方法。
45.cnn rnn ctc表述为:
46.采用cnn卷积网络结构,用于提取输入文本图像的卷积特征,rnn循环神经网络是将在卷积特征的基础上继续提取文字序列特征,用于表征文本序列之间的上下文语义信息,是指文本的实际内容。使用ctc损失,把从循环层获取的一系列标签分布转换成最终的标签序列,即实际文本内容。ctc(connectionist temporal classification)是一种避开输入与输出手动对齐的一种方式,是非常适合语音识别或者ocr应用。
47.backbone-通常指在不同图像细粒度上聚合并形成图像特征的卷积神经网络。
48.neck:通常指一系列混合和组合图像特征的网络层,并将图像特征传递到预测层。
49.head:通常指对图像特征进行预测,转译部分。
50.ocr识别技术路线,第一阶段先通过图像分割确定文字的位置,并将确定的文字位置进行抠图,第二阶段,基于抠出的图像,进行ocr文字识别。
51.bda(base data augmentation,基于基本图像处理的数据增强),包含但不限于颜色、噪声、透视等变化,用于生成新的图像;tia一种新的数据增强方法,是一种有效的扭曲文本增强策略。其原理是首先,设置一些参考点,然后将这些参考点进行随机扰动,并将相应的局部图像进行几何变换,形成新的变换图像。
52.cnn rnn:以cnn卷积神经网络进行文本图像处理得到图像的序列特征,以图像序列特征作为rnn循环神经网络结构的输入,进行文本字符序列的上下文特征学习。
53.sequence to sequence问题:指从序列到序列的映射问题,机器翻译,语音转译及ocr等领域的都需要语音、文本对齐(见图),但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时,由于人的语速的不同,或者字符间距离的不同,导致模型很难收敛。也即是用ctc的原因。
54.针对现场端子排的数据形式,结合现阶段ocr检测识别研究现状,当前最先进的ocr识别系统,所采取的技术路线多数是以分割为基础的算法检测,再根据对分割结果进行文字识别的两阶段方法。即是通过由下而上的方式,先对text进行分割,然后再根据文本分割实例,计算出文本的实际内容。而当前ocr文字识别技术,真正端到端的深度学习网络模型架构设计尚不成熟,网络loss目标损失函数的定义容易引起网络学习过程的相悖、矛盾、
冲突(如检测趋向于回归,识别趋向于分类),且训练困难,泛化能力不足,模型大,速度慢,精度低,并不适用与工业实际应用领域。
55.本方案采取两阶段ocr字符识别,一阶段采用可微的二值化(differentiable binarization)dbnet网络结构作为文本检测,不同的是在模型backbone的不同阶段添加了bam(bottleneck attention module)模块,用于增强模型的增强表达,达到在文本结构信息缺失的情况下,仍然能得到有效的对文本目标分割边界定位的目的;二阶段采用cnn rnn ctc方法实现文本识别,此种方式是目前最优秀的文字识别网络架构。
56.总体上,其网络结构层,如图3所示(端子排文字字符ocr检测识别网络架构)具体为两部分:检测端和识别端。
57.(1)端子排文字字符ocr检测端
58.检测端为ocr检测识别模型的第一阶段,先对现场采集的数据做有效的数据增强功能,包含文字的变形、光照、噪声等数据处理方式;其次,再具体使用当前最优秀的cnn特征提取结构作为resnet-backbone,同时neck端,sff(spatial feature fusion)融合不同cnn阶段的特征分布,实现不同尺度上的检测能力,弥补待检测目标的尺度问题。最后head端达到从输入图像到文字分割,最后基于分割结果,实现一阶段预测定位到文本的位置信息。
59.文本信息不全的定位检测问题,归根结底是文本边界定位不准的问题,是模型缺乏泛化能力的表现。本方案采用resnet作为backbone,在残差数据融合阶段,附加了瓶颈注意模块(bam),如图4,bam是一种增强注意力的新方法,用于增强网络模型的表示能力。它是依据于“人看东西时不可能把注意力放在所有的图像上,会把焦点目光聚集在图像的重要物体上,仿照人的眼睛聚焦在图像几个重要的点上”,使得更倾向于模型所注意的边界上面。所采用的注意力模块,既可以满足学习聚焦不同channel上的不同内容,又可以在spatial上、位置上有效地通过dilation膨胀系数,去拟合中间特征,增加信息的表达能力。该工作机制更符合人类视觉系统的在“关键敏感信息”刺激下,“定位区域”、“定位位置”的过程表达。所提出bam注意力模块,作者亦强调了在不同的stage残差端添加一个注意力模块网络是信息流增强表达的关键点。
60.依据bam思路,本方案采用backbone为resnet50,并在网络的四个阶段stage1,stage2,stage3,stage4,分别添加一个bam模块,用于注意不同阶段的注意力边界信息,所提出的改进的improved-db-net网络结构,如图5所示。
61.依据更改的网络结构在公有的数据集上,进行训练,并同时确保同样的数据以及训练参数,最终在同一张端子排线管图像上进行检测效果对比,对比结果如图6所示。对比结果发现该方法具备一定的边界“学习能力”。
62.(2)端子排文字字符ocr识别端
63.另一部分ocr recognition作为第二阶段,二阶段的输入为一阶段4-points位置输出,通过位置输出,将可回归文本区域的图像信息进行抠图,抠出原始图像,作为二阶段的输入,见网络结构图。
64.扭曲文本识别转译问题,原因在于整个模型结构,对扭曲文本没有进行有效的学习,端子排所包含的弯曲数据过少。数据增强是提升文本识别效果的常用方法,除了(文本bda(base data augmentation,基于基本图像处理的数据增强),最近luo等人针对文字识
别提出的一种新的数据增强方法tia《learn to augment:joint data augmentation and network optimization for text recognition.2020》,如图7所示。它是一种有效文本扭曲增强的策略。其原理是首先设置一些参考点,然后将这些参考点进行随机扰动,并将相应的局部图像进行几何变换,形成新的变换图像。现阶段ocr识别技术研究方法已证明,它可以进一步提升使识别准确率,且效果提升比较明显。
65.本研究首先通过(base data augmentation)bda tia的数据增强方式,一是扩充自然环境的光照影响,二是扩增扭曲文本样本的数量,增强表达进而提高模型的学习能力,进而提高ocr文字转译准确率,解决扭曲文本识别转译的问题。另二阶段网络结构,使用cnn rnn网络结构,如图8所示。cnn rnn(convolutional recurrent neural network)是目前较为流行的图文识别模型,可识别较长的文本序列(rnn通常使用长短时记忆网络(blstm)实现)。它包含cnn特征提取层和blstm序列特征提取层,能够进行端到端的联合训练。它利用blstm和ctc部件学习字符图像中的上下文关系,从而有效提升文本识别准确率,使得模型更加鲁棒。预测过程中,前端使用标准的cnn网络提取文本图像的特征。(recurrent neural network)循环层结构。rnn的作用是预测从卷积层获取的特征序列的标签(真实值)分布。ocr文本序列数据分布是指在不同位置点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义,不是指时间而是文字序列,是解决序列数据前后的数据关系映射问题。
66.二阶段,cnn rnn之后,将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层(ctc-connectionist temporal classification)进行预测得到文本序列。转译阶段使用ctc)解码对齐方式。一是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果;二是解决图像中文字存在类似的sequence to sequence问题,如同一般场景ocr文字识别一样,也需要在预处理操作时进行对齐,如果不使用对齐而直接训练模型时,由于文本的位置分布不同,或者端子字符间距离的不同,或者端子字符扭曲、型形变导致模型很难收敛,而ctc是一种避开输入与输出手动对齐的一种方式,是非常适合ocr文本对齐应用的一种有效方法,能有效起到端子文字对齐转译功能。
67.3数据关联匹配表格化处理
68.端子排的最终ocr检测识别结果,需要更进一步进行业务逻辑的判断,需要根据端子号和线管文本信息的检测识别结果,进行最优的匹配关联。但端子号和线管文本信息数量上的不等(“多对少”“少对多”即m
×
n或n
×
m),会引起信息不对称,也就是映射到二分图-数据关联匹配的最优求解问题。端子排端子号和线管的二分图问题又称作二部图,是图论中的一种特殊模型。它是g=(v,e)的一个无向图,如果顶点v可分割为两个互不相交的子集(a,b),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(i in a,j in b),则称图g为一个二分图。通俗讲就是将图中的节点分到两个集合中,满足只存在由一个集合中的点指向另一个集合中的点的边,也就是说两个集合中点不互通。
69.本研究采用带权二分图的最优匹配kuhn-munkres算法进行迭代求解,进行匹配效果,如图9所示。
70.针对信息不对称的二分图-数据关联匹配问题,本研究利用关键的空间关系进行损失矩阵的求解,并且逻辑上判断“m
×
n”关系进行矩阵加权,最后进行二分匹配求解端子
号与端子线管文字信息的指派匹配求解。匹配效果如图10所示。
71.最后,根据端子排ocr检测、识别结果,进行数据关联,并通过与cad数据库信息进行关联,最终可形成表格化处理结果。如图11所示。本发明采用基于深度学习的图像文字识别、数据信息关联匹配、数据库关联匹配等核心算法,实现现场端子排数据检测识别及端子号和端子线排信息关联匹配对比。具体表现为利用ocr识别检测端子排结果,通过二分图数据关联匹配算法,形成最后的ocr图像数据匹配结果,进而生成由图像到端子信息的表格化转化;cad图纸端,通过端子排行业标准规范,建立对应图的图纸数据库,并赋予基于带属性的各端子信息,形成端子信息关联。最后,将ocr检测数据与cad数据库结果对比,进而实现完整的端子排信息核检回路闭环,辅助巡检工作人员核检、比对应用。如图12所示,实一致性结果对比技术。
72.应可理解的是,本发明不将其应用限制到本文提出的部件的详细结构和布置方式。本发明能够具有其他实施例,并且能够以多种方式实现并且执行。前述变形形式和修改形式落在本发明的范围内。应可理解的是,本文公开和限定的本发明延伸到文中和/或附图中提到或明显的两个或两个以上单独特征的所有可替代组合。本文所述的实施例说明了已知用于实现本发明的最佳方式,并且将使本领域技术人员能够利用本发明。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献