一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种针对管道周边机械设备图片的数据集构建方法与流程

2022-07-02 09:37:10 来源:中国专利 TAG:


1.本发明涉及图片数据处理用于模型训练的技术领域,尤其是涉及一种针对管道周边机械设备图片的数据集构建方法。


背景技术:

2.西气东输管道工程作为本国最重要的基建工程之一,贯穿东西9个省市,而管道安全问题更是重中之重。但管道周围经常会出现大型工程机械,对管道的安全和西气东输的稳定存在潜在威胁,为了避免大型机械对管道造成可能损伤,故采集大量工程机械图片构建数据集,为后续自动识别工作提供数据支撑。
3.深度学习模型训练中常常因训练图片中目标的尺度与实际场景应用中模型尺度的差异导致结果误差较大的问题。虽然类似r-cnn、fast r-cnn的网络结构已经开始考虑解决由于目标尺度导致的分类误差,但不如从训练图片本身出发通过改变尺度来适应实际情况,从而提高模型的效果。
4.上述中的现有技术方案存在以下缺陷:现有的管道周围会布置多个摄像头对视频流中的图片进行监测,主要是通过模型训练对视频流中机械设备违规动作进行报警,但是现有的模型训练缺少大量的数据库作为支撑点,导致模型训练的系统无法切实有效的实施,此问题亟待解决。


技术实现要素:

5.本发明的目的是提供一种针对管道周边机械设备图片的数据集构建方法,其具有大量提高管道周围模型训练系统学习数据库的作用。
6.为实现上述目的,本发明提供了如下技术方案:一种针对管道周边机械设备图片的数据集构建方法,其特征在于,包括s1、工程机械图片收集:准备管道周边图片集,将数据集进行预处理,针对数据集中无关图片、重复图片人工剔除,对前期管道图片中分类错误的图片进行人工调整;s2、图片调整:对前期管道图片中分类错误的图片进行人工调整,人工深度调整包括将图片格式转换为jpeg格式,将图片大小调整至500kb,同时对调整后的图片进行统一命名;s3、标注人员培训:首先参与样例数据标注,完成标注返回结果后对于标注过程中的存疑点集中讨论、确定唯一标准,保证后续图片标注结果的一致性;s4、图片标注:针对图像特点,提出了更适合工程机械数据的标注标准,一个工程机械需要用标注框标注工程机械头部、工程机械车身和工程机械整体,各个框边缘重合度需要完全贴合,在标注过程中对于标注结果进行抽查,避免数据标注的精度统一;
s5、数据增强:对图片数据进行增强,采用了模拟视角变换和针对像素点两类方法,增加数据量,满足后续网络训练要求;s6、图片二次标注:对s5中经过数据增强后的机械图片进行二次标注,标注内容和s4中的标准内容相同;s7、效果验证:对s6中的二次标注完成后的数据利用现有模型进行测试,检验数据以及标注的效果。
7.通过采用上述技术方案,本发明利用真实的管道周边机械设备图片,利用人工筛选、自动化处理等方式得到满足要求的数据图片,针对上面处理后的图片使用我们改进的数据标注工具完成标注,在数据标注中融合了数据增强功能,可以获得更充分的数据训练样本。
8.综上所述,本发明的有益技术效果为:1、采用了工程机械图片收集、图片调整、标注人员培训、图片标注、数据增强、图片二次标注和效果验证,从而产生了大量提高管道周围模型训练系统学习数据库的效果。
附图说明
9.图1为本发明中的流程结构示意图。
具体实施方式
10.以下结合附图对本发明作进一步详细说明。
11.参照图1,为本发明公开的一种针对管道周边机械设备图片的数据集构建方法,本发明的处理步骤包括:机械图片收集、图片调整、标注人员培训、图片标注、数据增强、图片二次标注和效果验证等主要步骤。
12.步骤1:机械图片收集,管道巡视员手动采集现场图片,上报西气东输各地管道处,管道处汇总后将图片数据提交给武汉管理处,其后数据交给我方进行后续处理,图片集具体说明:根据机械类别共可以分为五类,分别为:挖掘机械、铲运机械、凿岩机械、压实机械、桩工机械,后续我们在网络上爬取工程机械图片作为补充。管道处现场图片为22542张,网络爬取图片1200余张;步骤2:图片调整,因图片由各个地方管理处汇总而来,不可避免有图片被放置在多重嵌套文件夹下;部分图片为同一时刻同一地点拍摄,造成数据冗余;其次图片多采用原始命名或简单数字命名,必然造成图片集合并后文件冲突,我们针对原始图片的三个主要问题,采取了以下具体措施:a、首先通过人工遍历超过2000个文件夹的方式将图片数据分为五大类文件夹下,同时在遍历过程中我们发现部分图片的原始分类并不准确,在这一过程种我们也进行了手动调整。
13.b、其次我们对重复图片进行删除,这一过程为了保证数据的最大利用率,我们确定了最少删减原则,既图片间只要出现背景或机械动作不同就保留。
14.c、最后我们对所有图片进行了规则化,包括分辨率和文件名。我们将图片统一缩放到800*800,文件命名采用:机械类型_批次_编号的方式,保证后续可以更好的区分图片。这一过程我们采用编写了python批处理程序来完成,既提高了工作效率,也避免了人工可能出现的错误;步骤3:标注人员培训,标注图片本身反映出了人的喜好和特点,尤其在这种多人标注任务中,图片标注很容易出现因人而异的现象,进而导致在后续训练中出现个性化问题,因此为了避免这一问题,我们既要指定严格的数据标准,也要充分保证每个数据标注人员都深入理解了标注标准,我们在图片库中挑选了部分场景、工程机械比较复杂的内容进行数据标注讲解,并将部分交给标注人员去真实标注,并返回结果;根据样例图片的标注结果和标注人员标注过程的疑惑我们公开讨论、确定标准,保证了每张图片标注的一致性;步骤4:图片标注,数据标注标准总共迭代为两次,第一次我们参考比较通用的数据集标注的标准,将图片标注分为两部分工程机械头部以及工程机械整体,但是经过初步测试标注后我们发现工程机械的车身部分是识别很重要的元素,第二版中我们加入了车身这一部分标签,同时车身标签,车头标签均与工程机械整体部分在标框部分最少有一条边重合,这样保证了图片标注中引入无用数据;标注人员对于图片进行标注,并安排数据标注质检员对完成标注的图片进行质量进行抽查;步骤5:数据增强,在数据增强处理中共采用了多种方法:模拟视角变换方法:镜像、旋转180度flip、随机旋转[30,-30]度;图像锐化:锐化是通过增强高频分量来减少图像中的模糊,增强图像细节边缘和轮廓,增强灰度反差,便于后期对目标的识别和处理。锐化处理在增强图像边缘的同时也增加了图像的噪声,方法通常有微分法和高通滤波法;高斯噪声:高斯噪声是指高绿密度函数服从高斯分布的一类噪声。特别的,如果一个噪声,它的幅度分布服从高斯分布,而它的功率谱密度有事均匀分布的,则称这个噪声为高斯白噪声;高斯模糊与均值模糊都是像素点在树枝上的平滑化,两者的区别就是平滑化时采用的函数不同;随机去掉一些像素点、给图像中的每个像素点乘一个值这两种方法就比较好理解了;采用数据增强的方法,在不实质性的增加数据的情况下,使有限的数据产生等价于更多数据的价值。
[0015]
步骤6:图片二次标注,对步骤5中经过数据增强后的机械图片进行二次标注,标注内容和步骤中的标准内容相同,我们在非常经典的数据标注工具labelimg的基础上进行了二次开发,融入了步骤六种提到的数据增强方法,实现了一键数据增强,也就是只需要对原数据标注一次,相应的增强后的图片也会自动生成标注文件,提高了工作效率;步骤7;对步骤6中的二次标注完成后的数据利用现有模型进行测试,检验数据以及标注的效果。
[0016]
本发明利用真实的管道周边机械设备图片,利用人工筛选、自动化处理等方式得到满足要求的数据图片,针对上面处理后的图片使用我们改进的数据标注工具完成标注,在数据标注中融合了数据增强功能,可以获得更充分的数据训练样本。
[0017]
本具体实施方式的实施例均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献