一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的图像处理方法、电子设备及存储介质与流程

2021-10-29 20:45:00 来源:中国专利 TAG:电子设备 图像处理 深度 计算机 方法


1.本发明涉及计算机技术领域,尤其涉及一种基于深度学习的图像处理方法、电子设备及存储介质。


背景技术:

2.随着科学技术的快速进步,硬件计算单元的性能大幅提升,使得以深度学习为主的人工智能技术得到快速发展,对三维世界的理解和应用也随之愈发的多样化。其中,以智能手机等电子设备的摄像头为输入媒介的娱乐玩法是目前人工智能技术面向广大消费者的主流选择。
3.在诸多玩法中,虚拟现实技术相较于传统的美妆、变脸等技术在近年来呈明显的上升趋势,其应用也日趋广泛。虚拟现实的玩法大多是将可控素材(例如图片、表情等)填充到图像中的部分区域,也即是用可控素材覆盖图像中的部分区域,该部分区域可以是图像中窗户或者门等对象所在的区域。目前在确定图像中的填充区域时通常采用三维(3d)点云和深度信息相结合的方式,或者采用对图像进行语义分割的方式。然后,3d点云和深度信息相结合的方式往往只能提取到填充区域的大概位置,导致替换时准确度较低,效果较差;对图像进行语义分割的方式通常需要大量的图像像素层级的标注数据,数据的计算量较大,效率较低,并且分割效果也容易出现斑驳、边缘不清晰等情况。可见,如何高效、准确地提取图像中的填充区域已成为亟待解决的问题。


技术实现要素:

4.本发明实施例提供一种基于深度学习的图像处理方法、电子设备及存储介质,可以高效、准确地提取出图像中的填充区域,提升了图像填充的效果和准确度。
5.一方面,本发明实施例提供了一种基于深度学习的图像处理方法,所述方法包括:
6.获取待处理图像。
7.调用对象检测网络模型在所述待处理图像中确定目标区域图像,所述目标区域图像包括目标检测对象所在区域的图像。
8.调用图像分割网络模型对所述目标区域图像进行语义分割处理,得到所述目标区域图像的语义分割结果,所述语义分割结果用于指示所述目标区域图像中的像素是否属于所述目标检测对象的边框区域。
9.根据所述语义分割结果从所述目标区域图像中确定填充区域,并在所述填充区域中填充素材图片,所述填充区域包括所述目标检测对象所在区域的图像中除所述边框区域之外的区域图像。
10.另一方面,本发明实施例提供了一种图像处理装置,所述装置包括:
11.获取模块,用于获取待处理图像。
12.确定模块,用于调用对象检测网络模型在所述待处理图像中确定目标区域图像,所述目标区域图像包括目标检测对象所在区域的图像。
13.处理模块,用于调用图像分割网络模型对所述目标区域图像进行语义分割处理,得到所述目标区域图像的语义分割结果,所述语义分割结果用于指示所述目标区域图像中的像素是否属于所述目标检测对象的边框区域。
14.所述确定模块,还用于根据所述语义分割结果从所述目标区域图像中确定填充区域,所述填充区域包括所述目标检测对象所在区域的图像中除所述边框区域之外的区域图像。
15.所述处理模块,还用于在所述填充区域中填充素材图片。
16.又一方面,本发明实施例提供了一种电子设备,所述电子设备包括处理器和存储装置,所述处理器和所述存储装置相互连接,其中,所述存储装置用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,用以执行上述基于深度学习的图像处理方法。
17.又一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行,用以执行上述基于深度学习的图像处理方法。
18.又一方面,本发明实施公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述基于深度学习的图像处理方法。
19.本发明实施例中,通过调用对象检测网络模型可以在待处理图像中确定目标区域图像,目标区域图像包括目标检测对象所在区域的图像,通过调用图像分割网络模型对目标区域图像进行语义分割处理,可以得到目标区域图像的语义分割结果,语义分割结果用于指示目标区域图像中的像素是否属于目标检测对象的边框区域,只对目标区域图像进行语义分割避免了对整个图像进行语义分割导致的巨大计算量,根据语义分割结果从目标区域图像中确定填充区域,该填充区域是指目标检测对象所在区域的图像中除边框区域之外的区域图像,即可利用素材图片进行填充,可以高效、准确地提取出图像中的填充区域,例如窗户、门的填充区域,并快速完成图像填充,提升了图像填充的效果和准确度。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1是本发明实施例提供的一种图像处理框架的结构示意图;
22.图2是本发明实施例提供的一种基于深度学习的图像处理方法的流程示意图;
23.图3a是本发明实施例提供的一种待处理图像的示意图;
24.图3b是本发明实施例提供的一种目标区域检测结果的示意图;
25.图3c是本发明实施例提供的一种图像处理效果的示意图;
26.图4是本发明实施例提供的另一种基于深度学习的图像处理方法的流程示意图;
27.图5a是本发明实施例提供的一种待处理图像的候选框的示意图;
28.图5b是本发明实施例提供的一种目标候选框的示意图;
29.图5c是本发明实施例提供的一种扩张后的目标候选框的示意图;
30.图5d是本发明实施例提供的另一种待处理图像的示意图;
31.图5e是本发明实施例提供的另一种图像处理效果的示意图;
32.图6是本发明实施例提供的一种图像处理装置的结构示意图;
33.图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
34.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
35.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
36.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
37.计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
38.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
39.本技术实施例提供的方案主要涉及人工智能的机器学习以及计算机视觉等技术,具体通过如下实施例进行说明:
40.请参见图1,是本发明实施例提供的一种图像处理框架的结构示意图,本发明实施例的图像处理框架的基本构成可以如下:
41.(1)获取输入图像。
42.(2)将输入图像送入对象检测网络模型进行处理,以对输入图像中指定的检测对象进行识别,并进行对应的区域图像的提取,从而得到输入图像中的局部图像。其中,局部图像可以是输入图像中指定的检测对象所在的区域,指定的检测对象具体可以是指由外围边框以及外围边框包围的中间区域的物体,例如可以是窗户、门等,其中,窗户可以视为由外围边框(即窗框)以及外围边框包围的玻璃组成。
43.(3)将局部图像送入图像分割网络模型进行语义分割,语义分割是将局部图像包括的每个像素进行分类,根据分类结果找出局部图像中被指定的检测对象的外围边框所包围的区域,并作为填充区域。
44.(4)利用符合当前节日氛围的素材图片对填充区域进行填充,得到填充有素材图片的图像。
45.可以看出,本技术通过上述图像处理框架可以先对图像进行目标检测,找出图像中包括检测对象的区域,然后对该区域进行语义分割处理,避免了对整个图像进行语义分割导致的巨大计算量,根据语义分割结果从检测对象所在的区域中确定出填充区域后,即可利用素材图片进行填充,可以高效、准确地提取出图像中的填充区域,并快速完成图像填充,实现了较好的填充效果。
46.请参见图2,是本发明实施例提供的一种基于深度学习的图像处理方法的流程示意图,本发明实施例的图像处理方法包括如下步骤:
47.201、获取待处理图像。
48.具体的,待处理图像可以是调用拍摄设备实时获取的,也可以是指本地图库或者云图库等存储空间中保存的图像,本发明实施例对此不做限定。
49.以调用拍摄设备获取待处理图像为例,用户想要体验目标应用提供的虚拟现实功能时,可以将电子设备的拍摄设备对准窗户、门等拍摄对象,在开启目标应用的虚拟现实功能后,用户可以触发拍摄指令,电子设备响应该拍摄指令,启动拍摄设备,并可以获取拍摄设备捕获的图像,拍摄设备捕获的图像可以包括预览窗口中展示的图像,将拍摄设备捕获的图像作为待处理图像。
50.需要说明的是,电子设备具体可以包括智能手机、平板电脑、笔记本电脑、车载终端、智能穿戴设备等。
51.202、调用对象检测网络模型在所述待处理图像中确定目标区域图像,所述目标区域图像包括目标检测对象所在区域的图像。
52.其中,对象检测网络模型可以用于对指定的目标检测对象进行识别,确定目标检测对象在图像中的位置。
53.具体的,可以调用对象检测网络模型对待处理图像中的目标检测对象进行检测,以确定目标检测对象在待处理图像中的位置,并根据该位置确定包括目标检测对象所在区域的目标区域图像。其中,目标检测对象可以是设置的需要被填充的拍摄对象,例如窗户、门等。
54.以目标检测对象是窗户为例,待处理图像如图3a所示,其中,待处理图像10包括窗户20的区域图像以及其他背景区域图像,窗户20的区域图像具体包括边框区域(即窗框21的区域图像)以及玻璃22的区域图像,则利用对象检测网络模型对待处理图像中的窗户进
行检测,检测结果如图3b所示,可以得到包括窗户所在区域的目标区域图像30。
55.203、调用图像分割网络模型对所述目标区域图像进行语义分割处理,得到所述目标区域图像的语义分割结果,所述语义分割结果用于指示所述目标区域图像中的像素是否属于所述目标检测对象的边框区域。
56.其中,图像分割网络模型可以用于对图像中的像素进行分类。本发明中图像分割网络模型可以是对像素进行二分类,即将图像中的像素划分到两个类别中的其中一个。
57.具体的,可以通过调用图像分割网络模型对目标区域图像进行语义分割处理,得到目标区域图像中每个像素的语义分割结果,语义分割结果指示了各个像素是否属于目标检测对象的边框区域。
58.204、根据所述语义分割结果从所述目标区域图像中确定填充区域,并在所述填充区域中填充素材图片,所述填充区域包括所述目标检测对象所在区域的图像中除所述边框区域之外的区域图像。
59.具体的,根据语义分割结果可以确定目标区域图像中每个像素所属的区域,再根据每个像素所属的区域确定需要被覆盖(或者被替换)的填充区域,该填充区域是指目标检测对象所在区域的图像中除上述边框区域之外的区域图像,然后在填充区域中填充对应的素材图片。以图3b为例,调用图像分割网络模型可以得到目标区域图像30中每个像素的语义分割结果,语义分割结果指示了各个像素是否属于窗户20的边框区域(即窗框21),根据该语义分割结果可以获取目标区域图像30中被窗框21包围的区域,也即是玻璃22所在的区域,当然,如果窗户20是打开的,则窗框21包围的区域除了包括玻璃22所在的区域,还包括透过窗户20看到的背景物体,例如远方的建筑物、山水风景等,窗框21包围的区域即可作为填充区域。然后在填充区域中填充素材图片,填充效果是窗框21包围的区域中的玻璃、透过玻璃22看到的背景物体被素材图片覆盖,如图3c所示。其中,该素材图片可以是从素材库中随机选择的一张图片,也可以是将素材库展示给用户,由用户选择的一张图片。
60.在一些可行的实施方式中,可以获取当前的时间信息,然后从素材库中确定与当前的时间信息相匹配的素材图片,例如当前时间为12月25日,则节日氛围可以判定为圣诞节,可以从素材库中查找与圣诞节相关的素材图片,然后在填充区域中填充与圣诞节相关的素材图片,如图3c所示,填充的是一张圣诞老人骑着麋鹿的图片;如果是万圣节,则素材图片可以是有一个怪兽趴在窗户上,等等。从而可以实现与当前的节日氛围相符的虚拟显示效果,提升图像处理的趣味性和可玩性。
61.本发明实施例中,通过调用对象检测网络模型可以在待处理图像中确定目标区域图像,目标区域图像包括目标检测对象所在区域的图像,通过调用图像分割网络模型对目标区域图像进行语义分割处理,可以得到目标区域图像的语义分割结果,语义分割结果用于指示目标区域图像中的像素是否属于目标检测对象的边框区域,只对目标区域图像进行语义分割避免了对整个图像进行语义分割导致的巨大计算量,根据语义分割结果从目标区域图像中确定填充区域,该填充区域是指目标检测对象所在区域的图像中除边框区域之外的区域图像,即可利用素材图片进行填充,可以高效、准确地提取出图像中的填充区域,例如窗户、门的填充区域,并快速完成图像填充,提升了图像填充的效果和准确度。
62.请参见图4,是本发明实施例提供的另一种基于深度学习的图像处理方法的流程示意图,本发明实施例的图像处理方法包括如下步骤:
63.401、获取待处理图像。
64.其中,步骤401的具体实现方式可以参见前述实施例中步骤201的相关描述,此处不再赘述。
65.402、将所述待处理图像输入对象检测网络模型,得到包括所述目标检测对象的目标候选框。
66.具体的,通过将待处理图像输入对象检测网络模型,可以对待处理图像中的目标检测对象进行检测,并得到包括目标检测对象的目标候选框。如图3b所示,待处理图像中的区域30即可作为包括窗户20的目标候选框。
67.在一些可行的实施方式中,调用对象检测网络模型得到目标候选框的具体实现可以包括:
68.首先,将待处理图像输入对象检测网络模型,可以输出得到待处理图像的多个候选框以及各个候选框的概率分布、位置信息和尺寸信息,其中,概率分布用于指示候选框包括目标检测对象的概率,位置信息可以是指候选框的中心位置偏离目标检测对象的中心位置的偏移量,尺寸信息可以是指候选框的宽和高。例如,针对某个候选框,对象检测网络模型的输出可以包括两个部分,一部分是候选框包括目标检测对象的概率(p0,p1),p1可以表示候选框包括目标检测对象的概率,则p0可以表示候选框不包括目标检测对象的概率,p0和p1的和为1,另一部分是位置信息和尺寸信息(δcx,δcy,w,h),δcx、δcy表示候选框的中心位置(cx,cy)偏离目标检测对象的中心位置的偏移量,w、h表示候选框的宽和高。
69.然后,根据该概率分布,从该多个候选框中确定至少一个候选框,例如可以将每个候选框的概率与概率阈值0.6进行比较,达到该概率阈值的保留,可以确定保留下来的至少一个候选框。在根据概率确定保留的至少一个候选框之后,可以再根据该至少一个候选框的概率分布、位置信息和尺寸信息进行二次筛选,进而可以从该至少一个候选框中确定包括目标检测对象的目标候选框。
70.需要说明的是,目标候选框的数量与待处理图像中目标检测对象的数量相同,如果待处理图像中目标检测对象的数量为一个,则目标候选框的数量也为一个;如果待处理图像中目标检测对象的数量为k个,则目标候选框的数量也为k个,k为大于1的整数。以窗户为例,如果待处理图像中包括一个窗户,则可以得到这一个窗户对应的目标候选框;如果待处理图像中包括三个窗户,则可以得到这三个窗户中每个窗户对应的目标候选框。
71.在一些可行的实施方式中,根据该至少一个候选框的概率分布、位置信息和尺寸信息进行二次筛选得到目标候选框的具体实现可以包括:
72.首先根据每个候选框的位置信息和尺寸信息,可以计算得到目标检测对象的一个预测位置信息,则根据该至少一个候选框的位置信息和尺寸信息可以计算得到该目标检测对象的至少一个预测位置信息。例如,某个候选框的位置信息和尺寸信息为(δcx,δcy,w,h),该候选框的中心位置为(cx,cy),则计算得到的目标检测对象的预测位置信息为(rx,ry,rw,rh),rx=cx δcx,ry=cy δcy,rw=w,rh=h。
73.然后,利用非极大值抑制(non

maximum suppression,nms)的筛选策略对该至少一个预测位置信息进行筛选,得到预测最为准确的目标预测位置信息,进而将计算得到目标预测位置信息的候选框作为目标候选框。
74.举例来说,如图5a所示,根据概率分布确定出保留的5个候选框a、b、c、d、e,包括窗
户的概率从小到大排列为a、b、c、d、e,从概率最大的候选框e开始,分别判断a~d与e的重叠度是否大于某个设定的阈值,重叠度具体可以通过交并比(intersection over union,iou)来评价,假设a~d与e的重叠度超过阈值,那么剔除a~d,并标记候选框e需要保留,从而找出预测最为准确的候选框,并将该候选框e作为包括窗户的目标候选框。
75.可以理解的是,如果待处理图像中有多个窗户,则最终保留的有对应数量的多个目标候选框。例如,待处理图像中包括两个窗户,记为窗户1和窗户2,窗户1对应保留的候选框有4个(a、b、c、d),窗户2对应保留的候选框有4个(e、f、g),概率从小到大排列为a、b、e、g、d、c、f,从概率最大的候选框f开始,分别判断a、b、e、g、d、c与f的重叠度是否大于某个设定的阈值,假设e、g与f的重叠度超过阈值,则剔除e、g,并标记候选框f需要保留;然后,从剩下的候选框a、b、c、d中,选择概率最大的候选框c,然后判断a、b、d与c的重叠度,如果重叠度均超过设定的阈值,那么剔除a、b、d,并标记候选框c需要保留,至此,可以得到窗户1的目标候选框为c,窗户2的目标候选框为f。
76.403、根据所述目标候选框的位置信息和尺寸信息,从所述待处理图像中确定目标区域图像。
77.具体的,根据目标候选框的位置信息和尺寸信息,可以从待处理图像中截取对应位置和尺寸的区域图像,并作为包括目标检测对象的目标区域图像。
78.在一些可行的实施方式中,考虑到待处理图像在拍摄时可能存在旋转、拉伸等不规则的情况,拍摄设备也存在多样性,在确定出目标候选框之后,可以先按照预设比例(如10%)对目标候选框的宽和高进行扩张处理,得到扩张后的目标候选框,然后根据扩张后的目标候选框的位置信息和尺寸信息,从待处理图像中截取对应位置和尺寸的目标区域图像,通过扩张候选框可以保证图像中的全部目标检测对象都被检测出来,避免部分目标检测对象由于模型不稳定而被漏检。如图5b所示,由于待处理图像在拍摄时存在旋转的情况,导致得到的目标候选框30无法完整覆盖目标检测对象20(即窗户),可以按照预设比例对目标候选框30进行扩张处理,扩张后的目标候选框30如图5c所示,可以看出,扩张后的目标候选框30可以较为完整的覆盖目标检测对象20,有助于准确地提取出图像中的填充区域,提升图像填充的效果。
79.在一些可行的实施方式中,对目标候选框进行扩张处理得到扩张后的目标候选框的具体实现可以包括:
80.按照预设比例将目标候选框的边界向扩张目标候选框的方向移动,得到扩张后的边界,如果扩张后的边界超出待处理图像的边界,则将待处理图像的边界作为扩张后的目标候选框的边界,然后根据扩张后的目标候选框的边界确定扩张后的目标候选框。
81.404、将所述目标区域图像输入图像分割网络模型进行二值化分割处理,得到所述目标区域图像中的像素的分类标签。
82.具体的,调用图像分割网络模型对目标区域图像中的像素进行二值化分割处理,二值化分割处理也即是对像素进行二分类,得到目标区域图像中的像素的分类标签(也可称为分割掩码),分类标签指示了像素是否属于目标检测对象的边框区域,例如分类标签为1时,指示像素属于目标检测对象的边框区域,例如分类标签为0时,指示像素不属于目标检测对象的边框区域。
83.405、根据所述目标区域图像中的像素的分类标签确定所述目标区域图像的语义
分割结果。
84.406、根据所述语义分割结果获取所述目标检测对象所在区域的图像中不属于所述目标检测对象的边框区域的像素。
85.407、将所述不属于所述目标检测对象的边框区域的像素组成的第二区域图像作为填充区域,并在所述填充区域中填充素材图片。
86.具体的,在得到语义分割结果后,可以根据像素的分类标签获取目标检测对象所在区域的图像中不属于目标检测对象的边框区域的像素,并将不属于目标检测对象的边框区域的像素作为填充区域,然后在填充区域中填充素材图片。以图3b为例,可以根据像素的分类标签获取窗户所在区域的图像20中不属于窗户20的边框区域21的像素,并将不属于窗户20的边框区域21的像素作为填充区域。
87.在一些可行的实施方式中,在确定填充区域时,也可以根据像素的分类标签获取目标区域图像中属于目标检测对象的边框区域的像素,确定属于目标检测对象的边框区域的像素组成的第一区域图像,然后将目标检测对象所在区域的图像中除第一区域图像之外的区域图像确定为填充区域。以图3b为例,也可以根据像素的分类标签获取目标区域图像30中属于窗户20的边框区域21的像素,确定属于窗户20的边框区域21的像素组成的第一区域图像21(即边框区域21对应的区域图像),然后将窗户所在区域的图像20中除第一区域图像21之外的区域图像22确定为填充区域。
88.在一些可行的实施方式中,可以通过如下方式训练得到对象检测网络模型以及图像分割网络模型。具体的,获取训练样本集,训练样本集包括多张图像和标注信息,标注信息包括针对目标检测对象的标注框以及语义分割结果,标注框是指图像中包括目标检测对象的矩形框。以目标检测对象是窗户为例,该多张图像可以包括sunrgbd、coco等公开数据集上标签为窗户的图像,使用相机等拍摄设备拍摄室内窗户获得的图像,以及使用相机等拍摄设备拍摄室内的办公桌椅、电梯、地板、楼梯灯作为负例的图像,作为负例的图像可以避免窗户检测、窗户语义分割时出现误报。然后,利用该多张图像和标注信息中的标注框对神经网络进行训练,得到对象检测网络模型;利用该多张图像和标注信息中的语义分割结果对神经网络进行训练,得到图像分割网络模型。
89.其中,对象检测网络模型、图像分割网络模型可以采用诸如卷积神经网络(convolutional neural networks,cnn)、循环神经网络(recurrent neural network,rnn)等神经网络的结构,具体可以包括卷积层、池化层、非线性激活函数和上采样层等。
90.其中,在训练图像分割网络模型时可以采用交叉熵损失函数对其进行监督,具体损失函数为:l=

logpi,其中pi表示预测结果中某个像素的预测分类标签与标注的真实分类标签相比,预测正确的概率,介于0~1之间。
91.在一些可行的实施方式中,如果待处理图像中的目标检测对象有多个,如图5d所示,待处理图像中包括三个窗户,则确定出的填充区域包括区域41、42、43,然后利用素材图片填充这三个区域,填充效果如图5e所示,利用一张素材图片填充三个区域可以使得图像的整体感更强。当然,也可以找出三张素材图片,每张素材图片对应填充一个区域,本发明实施例不做限定。
92.在一些可行的实施方式中,对于多个目标候选框的重叠部分,可以采用“或”逻辑,即只要有一个目标候选框的语义分割结果指示重叠部分中的某一像素属于目标检测对象,
则最终检测结果中这一像素即属于目标检测对象。
93.本发明实施例中,通过调用对象检测网络模型可以得到包括目标检测对象的目标候选框,根据目标候选框的位置信息和尺寸信息,从待处理图像中截取对应位置和尺寸的目标区域图像,通过调用图像分割网络模型对目标区域图像进行二值化分割,可以得到目标区域图像中的像素的分类标签,根据分类标签将目标区域图像中不属于目标检测对象的边框区域的像素组成的区域作为填充区域,例如窗户、门的填充区域,并在填充区域中填充素材图片,只对目标区域图像进行语义分割避免了对整个图像进行语义分割导致的巨大计算量,可以高效、准确地提取出图像中的填充区域,并快速完成图像填充,提升了图像填充的效果和准确度。
94.请参见图6,是本发明实施例的一种图像处理装置的结构示意图,所述装置包括:
95.获取模块601,用于获取待处理图像。
96.确定模块602,用于调用对象检测网络模型在所述待处理图像中确定目标区域图像,所述目标区域图像包括目标检测对象所在区域的图像。
97.处理模块603,用于调用图像分割网络模型对所述目标区域图像进行语义分割处理,得到所述目标区域图像的语义分割结果,所述语义分割结果用于指示所述目标区域图像中的像素是否属于所述目标检测对象的边框区域。
98.所述确定模块602,还用于根据所述语义分割结果从所述目标区域图像中确定填充区域,所述填充区域包括所述目标检测对象所在区域的图像中除所述边框区域之外的区域图像。
99.所述处理模块603,还用于在所述填充区域中填充素材图片。
100.可选的,所述语义分割结果包括所述像素的分类标签,所述分类标签用于指示所述像素是否属于所述目标检测对象的边框区域。
101.可选的,所述确定模块602,具体用于:
102.根据所述语义分割结果获取所述目标区域图像中属于所述目标检测对象的边框区域的像素。
103.确定所述属于所述目标检测对象的边框区域的像素组成的第一区域图像。
104.将所述目标检测对象所在区域的图像中除所述第一区域图像之外的区域图像确定为填充区域。
105.可选的,所述确定模块602,具体用于:
106.根据所述语义分割结果获取所述目标检测对象所在区域的图像中不属于所述目标检测对象的边框区域的像素。
107.将所述不属于所述目标检测对象的边框区域的像素组成的第二区域图像作为填充区域。
108.可选的,所述处理模块603,具体用于:
109.将所述目标区域图像输入图像分割网络模型进行二值化分割处理,得到所述目标区域图像中的像素的分类标签。
110.根据所述目标区域图像中的像素的分类标签确定所述目标区域图像的语义分割结果。
111.可选的,所述确定模块602,具体用于:
112.将所述待处理图像输入对象检测网络模型,得到包括所述目标检测对象的目标候选框。
113.根据所述目标候选框的位置信息和尺寸信息,从所述待处理图像中确定目标区域图像。
114.可选的,所述确定模块602,具体用于:
115.按照预设比例对所述目标候选框进行扩张处理,得到扩张后的目标候选框。
116.根据所述扩张后的目标候选框的位置信息和尺寸信息,将所述待处理图像中与所述扩张后的目标候选框的位置和尺寸对应的图像区域作为目标区域图像。
117.可选的,所述确定模块602,具体用于:
118.按照预设比例将所述目标候选框的边界向扩张所述目标候选框的方向移动,得到扩张后的边界。
119.若所述扩张后的边界超出所述待处理图像的边界,则将所述待处理图像的边界作为扩张后的目标候选框的边界。
120.根据所述扩张后的目标候选框的边界确定扩张后的目标候选框。
121.可选的,所述确定模块602,具体用于:
122.将所述待处理图像输入对象检测网络模型,得到所述待处理图像的多个候选框的概率分布、位置信息和尺寸信息,所述概率分布用于指示候选框包括所述目标检测对象的概率。
123.根据所述多个候选框的概率分布,从所述多个候选框中确定至少一个候选框。
124.根据所述至少一个候选框的概率分布、位置信息和尺寸信息,从所述至少一个候选框中确定包括所述目标检测对象的目标候选框。
125.可选的,所述确定模块602,具体用于:
126.根据所述至少一个候选框的位置信息和尺寸信息,计算得到所述目标检测对象的至少一个预测位置信息。
127.利用非极大值抑制的筛选策略对所述至少一个预测位置信息进行筛选,得到目标预测位置信息。
128.将所述至少一个候选框中计算得到所述目标预测位置信息的候选框,作为包括所述目标检测对象的目标候选框。
129.可选的,所述获取模块601,还用于获取训练样本集,所述训练样本集包括多张图像和标注信息,所述标注信息包括针对目标检测对象的标注框以及语义分割结果。
130.所述处理模块603,还用于利用所述多张图像和所述标注信息中的标注框对神经网络进行训练,得到对象检测网络模型。
131.所述处理模块603,还用于利用所述多张图像和所述标注信息中的语义分割结果对神经网络进行训练,得到图像分割网络模型。
132.可选的,所述处理模块603,具体用于:
133.获取当前的时间信息。
134.从素材库中确定与所述当前的时间信息相匹配的素材图片。
135.在所述填充区域中填充所述素材图片。
136.可选的,所述获取模块601,具体用于:
137.响应于通过目标应用触发的拍摄指令,启动拍摄设备。
138.获取所述拍摄设备捕获的图像,所述拍摄设备捕获的图像包括预览窗口中展示的图像。
139.将所述拍摄设备捕获的图像作为待处理图像。
140.需要说明的是,本发明实施例的图像处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
141.请参见图7,是本发明实施例的一种电子设备的结构示意图,本发明实施例的所述电子设备包括供电模块等结构,并包括处理器701、存储装置702、用户接口703以及拍摄设备704。所述处理器701、存储装置702、用户接口703以及拍摄设备704之间可以交互数据。
142.所述存储装置702可以包括易失性存储器(volatile memory),例如随机存取存储器(random

access memory,ram);存储装置702也可以包括非易失性存储器(non

volatile memory),例如快闪存储器(flash memory),固态硬盘(solid

state drive,ssd)等;所述存储装置702还可以包括上述种类的存储器的组合。
143.所述用户接口703可以包括显示器、触控面板等,用于输出图像等数据,以及检测用户的触摸操作。
144.所述拍摄设备704可以包括相机,例如前置相机、后置相机、单镜头相机或者多镜头相机等。
145.所述处理器701可以是中央处理器701(central processing unit,cpu)。在一个实施例中,所述处理器701还可以是图形处理器(graphics processing unit,gpu)。所述处理器701也可以是由cpu和gpu的组合。在一个实施例中,所述存储装置702用于存储程序指令。所述处理器701可以调用所述程序指令,执行如下操作:
146.获取待处理图像。
147.调用对象检测网络模型在所述待处理图像中确定目标区域图像,所述目标区域图像包括目标检测对象所在区域的图像。
148.调用图像分割网络模型对所述目标区域图像进行语义分割处理,得到所述目标区域图像的语义分割结果,所述语义分割结果用于指示所述目标区域图像中的像素是否属于所述目标检测对象的边框区域。
149.根据所述语义分割结果从所述目标区域图像中确定填充区域,并在所述填充区域中填充素材图片,所述填充区域包括所述目标检测对象所在区域的图像中除所述边框区域之外的区域图像。
150.可选的,所述语义分割结果包括所述像素的分类标签,所述分类标签用于指示所述像素是否属于所述目标检测对象的边框区域。
151.可选的,所述处理器701,具体用于:
152.根据所述语义分割结果获取所述目标区域图像中属于所述目标检测对象的边框区域的像素。
153.确定所述属于所述目标检测对象的边框区域的像素组成的第一区域图像。
154.将所述目标检测对象所在区域的图像中除所述第一区域图像之外的区域图像确定为填充区域。
155.可选的,所述处理器701,具体用于:
156.根据所述语义分割结果获取所述目标检测对象所在区域的图像中不属于所述目标检测对象的边框区域的像素。
157.将所述不属于所述目标检测对象的边框区域的像素组成的第二区域图像作为填充区域。
158.可选的,所述处理器701,具体用于:
159.将所述目标区域图像输入图像分割网络模型进行二值化分割处理,得到所述目标区域图像中的像素的分类标签。
160.根据所述目标区域图像中的像素的分类标签确定所述目标区域图像的语义分割结果。
161.可选的,所述处理器701,具体用于:
162.将所述待处理图像输入对象检测网络模型,得到包括所述目标检测对象的目标候选框。
163.根据所述目标候选框的位置信息和尺寸信息,从所述待处理图像中确定目标区域图像。
164.可选的,所述处理器701,具体用于:
165.按照预设比例对所述目标候选框进行扩张处理,得到扩张后的目标候选框。
166.根据所述扩张后的目标候选框的位置信息和尺寸信息,将所述待处理图像中与所述扩张后的目标候选框的位置和尺寸对应的图像区域作为目标区域图像。
167.可选的,所述处理器701,具体用于:
168.按照预设比例将所述目标候选框的边界向扩张所述目标候选框的方向移动,得到扩张后的边界。
169.若所述扩张后的边界超出所述待处理图像的边界,则将所述待处理图像的边界作为扩张后的目标候选框的边界。
170.根据所述扩张后的目标候选框的边界确定扩张后的目标候选框。
171.可选的,所述处理器701,具体用于:
172.将所述待处理图像输入对象检测网络模型,得到所述待处理图像的多个候选框的概率分布、位置信息和尺寸信息,所述概率分布用于指示候选框包括所述目标检测对象的概率。
173.根据所述多个候选框的概率分布,从所述多个候选框中确定至少一个候选框。
174.根据所述至少一个候选框的概率分布、位置信息和尺寸信息,从所述至少一个候选框中确定包括所述目标检测对象的目标候选框。
175.可选的,所述处理器701,具体用于:
176.根据所述至少一个候选框的位置信息和尺寸信息,计算得到所述目标检测对象的至少一个预测位置信息。
177.利用非极大值抑制的筛选策略对所述至少一个预测位置信息进行筛选,得到目标预测位置信息。
178.将所述至少一个候选框中计算得到所述目标预测位置信息的候选框,作为包括所述目标检测对象的目标候选框。
179.可选的,所述处理器701,还用于:
180.获取训练样本集,所述训练样本集包括多张图像和标注信息,所述标注信息包括针对目标检测对象的标注框以及语义分割结果。
181.利用所述多张图像和所述标注信息中的标注框对神经网络进行训练,得到对象检测网络模型。
182.利用所述多张图像和所述标注信息中的语义分割结果对神经网络进行训练,得到图像分割网络模型。
183.可选的,所述处理器701,具体用于:
184.获取当前的时间信息。
185.从素材库中确定与所述当前的时间信息相匹配的素材图片。
186.在所述填充区域中填充所述素材图片。
187.可选的,所述处理器701,具体用于:
188.响应于通过目标应用触发的拍摄指令,启动拍摄设备704。
189.获取所述拍摄设备704捕获的图像,所述拍摄设备704捕获的图像包括预览窗口中展示的图像。
190.将所述拍摄设备704捕获的图像作为待处理图像。
191.具体实现中,本发明实施例中所描述的处理器701、存储装置702、用户接口703以及拍摄设备704可执行本发明实施例图2、图4提供的基于深度学习的图像处理方法的相关实施例中所描述的实现方式,也可执行本发明实施例图6提供的图像处理装置的相关实施例中所描述的实现方式,在此不再赘述。
192.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序包括一条或一条以上指令,可存储于一计算机存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)或随机存储记忆体(random access memory,ram)等。
193.本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。
194.以上所揭露的仅为本技术部分实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜