一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据分类方法、计算机及可读存储介质与流程

2021-10-19 23:50:00 来源:中国专利 TAG: 可读 机及 计算机 计算 方法


1.本技术涉及计算机技术领域,尤其涉及一种数据分类方法、计算机及可读存储介质。


背景技术:

2.随着信息与智能化社会的到来,工业产品生产逐渐走向智能化生产,这极大地提高了生产力,但是随着人工大规模解放,如何提升产品质量和良品率,从而降低原材料消耗和人工成本投入,成为了工厂在数字化、智能化改造的过程中面面临的核心问题,因此,对产品或零部件的检测就极为重要,缺陷检测成为工业上非常重要的一个应用。其中,在工业缺陷检测领域中,一般通过人工检查,但是人工检查成本高昂,并且易受到工人熟练度影响,导致检测准确性及效率差异较大;或者,采用先检测(或分割),再进行二次分类的方式,对工业缺陷进行识别,也就是说,直接采用目标检测模型等对工业缺陷进行识别,导致识别结果的准确性较低。


技术实现要素:

3.本技术实施例提供了一种数据分类方法、计算机及可读存储介质,可以提高对数据识别分类的准确性。
4.本技术实施例一方面提供了一种数据分类方法,该方法包括:
5.获取原始图像对应的视觉标识,识别原始图像中用于提取关注对象的检测位置坐标,基于检测位置坐标从原始图像中获取包含关注对象的目标检测图像,根据视觉标识及检测位置坐标确定原始图像对应的检测位置信息;视觉标识用于表示关注对象在原始图像对应的物品中的视觉角度;
6.获取目标检测图像的图像特征,对检测位置信息进行尺度变换,得到目标检测图像的位置特征;
7.对图像特征及位置特征进行特征拼接,得到融合特征,基于位置特征确定图像特征中的关键特征,基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别。
8.其中,识别原始图像中用于提取关注对象的检测位置坐标,基于检测位置坐标从原始图像中获取包含关注对象的目标检测图像,包括:
9.获取原始图像,对原始图像进行对象检测,获取包含关注对象的第一预测边框,根据第一预测边框的第一位置信息,确定检测位置坐标;
10.根据检测位置坐标确定第二预测边框,将第二预测边框在原始图像中所指示的区域,确定为目标检测图像。
11.其中,根据第一预测边框的第一位置信息,确定检测位置坐标,包括:
12.根据第一预测边框的第一位置信息,确定第一预测边框的边框宽度及边框高度;
13.基于边框宽度及边框高度,对第一预测边框进行尺寸调整,根据调整后的第一预
测边框确定检测位置坐标。
14.其中,基于边框宽度及边框高度,对第一预测边框进行尺寸调整,根据调整后的第一预测边框确定检测位置坐标,包括:
15.根据边框宽度与边框高度之间的差值及第一位置信息,对第一预测边框进行尺寸调整,确定第二位置信息及调整后的第一预测边框的调整宽度和调整高度;
16.获取边框扩张系数,基于边框扩张系数对调整宽度及调整高度进行尺寸变换,根据第二位置信息及变换后的调整宽度和调整高度,确定检测位置坐标。
17.其中,获取目标检测图像的图像特征,包括:
18.将目标检测图像输入数据分类模型中的卷积神经网络,基于卷积神经网络中的卷积层对目标检测图像进行特征提取,得到目标检测图像的图像特征。
19.其中,对检测位置信息进行尺度变换,得到目标检测图像的位置特征,包括:
20.获取目标检测图像的图像宽度及图像高度,基于图像宽度及图像高度对检测位置坐标进行归一化处理,得到归一化位置坐标;
21.获取视觉总数,基于视觉总数对视觉标识进行归一化处理,得到归一化视觉标识;
22.根据归一化位置坐标及归一化视觉标识,生成感知输入特征,采用数据分类模型中的多层感知器对感知输入特征进行尺度变换,得到目标检测图像的位置特征。
23.其中,对图像特征及位置特征进行特征拼接,得到融合特征,包括:
24.对图像特征进行归一化处理,得到归一化图像特征,对位置特征进行归一化处理,得到归一化位置特征;
25.对归一化图像特征及归一化位置特征进行特征拼接,得到融合特征。
26.其中,基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别,包括:
27.获取数据分类模型的分类器中的尺度因子,基于尺度因子对融合特征进行尺度变换;尺度因子是通过对数据分类模型中的分类器进行训练得到的;
28.基于分类器对尺度变换后的融合特征中关键特征对应的特征进行关键识别,基于关键识别结果对尺度变换后的融合特征进行分类处理,得到目标检测图像所属的图像类别。
29.其中,基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别,包括:
30.基于关键特征对融合特征进行分类处理,得到至少两个预测标签及每个预测标签的预测概率值;
31.将具有最大的预测概率值的预测标签,确定为目标检测图像所属的图像类别。
32.其中,该方法还包括:
33.若图像类别属于图像异常类别,则获取图像类别所关联的通讯方式;
34.基于通讯方式向终端设备发送物品异常消息,以使终端设备基于物品异常消息对原始图像对应的物品进行检测;物品异常消息包括图像类别。
35.本技术实施例一方面提供了一种数据分类方法,该方法包括:
36.获取检测图像样本、检测图像样本的样本视觉标识、检测样本位置坐标及目标样本标签,根据样本视觉标识及检测样本位置坐标,确定检测图像样本的检测样本位置信息;
样本视觉标识用于表示检测图像样本在检测图像样本对应的物品中的视觉角度;
37.采用初始数据分类模型中的初始卷积神经网络,获取检测图像样本的样本图像特征,采用初始数据分类模型中的初始多层感知器,对检测样本位置信息进行尺度变换,得到检测图像样本的样本位置特征;
38.对样本图像特征及样本位置特征进行特征拼接,得到样本融合特征,基于样本位置特征确定样本图像特征的样本关键特征,基于样本关键特征对样本融合特征进行分类处理,得到检测图像样本所属的图像样本类别;
39.基于图像样本类别及目标样本标签之间的损失函数,对初始数据分类模型进行训练,得到数据分类模型。
40.其中,基于样本关键特征对样本融合特征进行分类处理,得到检测图像样本所属的图像样本类别,包括:
41.基于样本关键特征对样本融合特征进行分类处理,得到至少两个样本标签及每个样本标签的样本预测概率值;至少两个样本标签包括目标样本标签;
42.将具有最大的样本预测概率值的样本标签,确定为检测图像样本所属的图像样本类别。
43.其中,损失函数包括第一损失函数及第二损失函数;
44.基于图像样本类别及目标样本标签之间的损失函数,对初始数据分类模型进行训练,得到数据分类模型,包括:
45.根据图像样本类别与目标样本标签,生成第一损失函数;
46.根据目标样本标签生成标签分布函数,根据至少两个样本标签及每个样本标签的样本预测概率值,生成预测分布函数,根据标签分布函数及预测分布函数生成第二损失函数;
47.根据第一损失函数及第二损失函数,对初始数据分类模型进行训练,得到数据分类模型。
48.本技术实施例一方面提供了一种数据分类装置,该装置包括:
49.输入获取模块,用于获取原始图像对应的视觉标识,识别原始图像中用于提取关注对象的检测位置坐标,基于检测位置坐标从原始图像中获取包含关注对象的目标检测图像,根据视觉标识及检测位置坐标确定原始图像对应的检测位置信息;视觉标识用于表示关注对象在原始图像对应的物品中的视觉角度;
50.特征获取模块,用于获取目标检测图像的图像特征,对检测位置信息进行尺度变换,得到目标检测图像的位置特征;
51.数据分类模块,用于对图像特征及位置特征进行特征拼接,得到融合特征,基于位置特征确定图像特征中的关键特征,基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别。
52.其中,该输入获取模块,包括:
53.位置确定单元,用于获取原始图像,对原始图像进行对象检测,获取包含关注对象的第一预测边框,根据第一预测边框的第一位置信息,确定检测位置坐标;
54.图像确定单元,用于根据检测位置坐标确定第二预测边框,将第二预测边框在原始图像中所指示的区域,确定为目标检测图像。
55.其中,在根据第一预测边框的第一位置信息,确定检测位置坐标方面,该位置确定单元包括:
56.位置获取子单元,用于根据第一预测边框的第一位置信息,确定第一预测边框的边框宽度及边框高度;
57.尺寸调整子单元,用于基于边框宽度及边框高度,对第一预测边框进行尺寸调整,根据调整后的第一预测边框确定检测位置坐标。
58.其中,该尺寸调整子单元,包括:
59.位置调整子单元,用于根据边框宽度与边框高度之间的差值及第一位置信息,对第一预测边框进行尺寸调整,确定第二位置信息及调整后的第一预测边框的调整宽度和调整高度;
60.尺寸变换子单元,用于获取边框扩张系数,基于边框扩张系数对调整宽度及调整高度进行尺寸变换,根据第二位置信息及变换后的调整宽度和调整高度,确定检测位置坐标。
61.其中,在获取目标检测图像的图像特征方面,该特征获取模块具体用于:
62.将目标检测图像输入数据分类模型中的卷积神经网络,基于卷积神经网络中的卷积层对目标检测图像进行特征提取,得到目标检测图像的图像特征。
63.其中,在对检测位置信息进行尺度变换,得到目标检测图像的位置特征方面,该特征获取模块包括:
64.位置归一化单元,用于获取目标检测图像的图像宽度及图像高度,基于图像宽度及图像高度对检测位置坐标进行归一化处理,得到归一化位置坐标;
65.视觉归一化单元,用于获取视觉总数,基于视觉总数对视觉标识进行归一化处理,得到归一化视觉标识;
66.位置特征获取单元,用于根据归一化位置坐标及归一化视觉标识,生成感知输入特征,采用数据分类模型中的多层感知器对感知输入特征进行尺度变换,得到目标检测图像的位置特征。
67.其中,在对图像特征及位置特征进行特征拼接,得到融合特征方面,该数据分类模块包括:
68.特征归一化单元,用于对图像特征进行归一化处理,得到归一化图像特征,对位置特征进行归一化处理,得到归一化位置特征;
69.特征拼接单元,用于对归一化图像特征及归一化位置特征进行特征拼接,得到融合特征。
70.其中,在基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别方面,该数据分类模块包括:
71.因子处理单元,用于获取数据分类模型的分类器中的尺度因子,基于尺度因子对融合特征进行尺度变换;尺度因子是通过对数据分类模型中的分类器进行训练得到的;
72.类别确定单元,用于基于分类器对尺度变换后的融合特征中关键特征对应的特征进行关键识别,基于关键识别结果对尺度变换后的融合特征进行分类处理,得到目标检测图像所属的图像类别。
73.其中,在基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像
类别方面,该数据分类模块包括:
74.结果获取单元,用于基于关键特征对融合特征进行分类处理,得到至少两个预测标签及每个预测标签的预测概率值;
75.该类别确定单元,用于将具有最大的预测概率值的预测标签,确定为目标检测图像所属的图像类别。
76.其中,该装置还包括:
77.通讯获取模块,用于若图像类别属于图像异常类别,则获取图像类别所关联的通讯方式;
78.消息发送模块,用于基于通讯方式向终端设备发送物品异常消息,以使终端设备基于物品异常消息对原始图像对应的物品进行检测;物品异常消息包括图像类别。
79.本技术实施例一方面提供了一种数据分类装置,该装置包括:
80.样本获取模块,用于获取检测图像样本、检测图像样本的样本视觉标识、检测样本位置坐标及目标样本标签,根据样本视觉标识及检测样本位置坐标,确定检测图像样本的检测样本位置信息;样本视觉标识用于表示检测图像样本在检测图像样本对应的物品中的视觉角度;
81.样本特征获取模块,用于采用初始数据分类模型中的初始卷积神经网络,获取检测图像样本的样本图像特征,采用初始数据分类模型中的初始多层感知器,对检测样本位置信息进行尺度变换,得到检测图像样本的样本位置特征;
82.样本分类模块,用于对样本图像特征及样本位置特征进行特征拼接,得到样本融合特征,基于样本位置特征确定样本图像特征的样本关键特征,基于样本关键特征对样本融合特征进行分类处理,得到检测图像样本所属的图像样本类别;
83.模型训练模块,用于基于图像样本类别及目标样本标签之间的损失函数,对初始数据分类模型进行训练,得到数据分类模型。
84.其中,在基于样本关键特征对样本融合特征进行分类处理,得到检测图像样本所属的图像样本类别方面,该样本分类模块包括:
85.概率获取单元,用于基于样本关键特征对样本融合特征进行分类处理,得到至少两个样本标签及每个样本标签的样本预测概率值;至少两个样本标签包括目标样本标签;
86.样本类别确定单元,用于将具有最大的样本预测概率值的样本标签,确定为检测图像样本所属的图像样本类别。
87.其中,损失函数包括第一损失函数及第二损失函数;
88.该模型训练模块,包括:
89.第一损失生成单元,用于根据图像样本类别与目标样本标签,生成第一损失函数;
90.第二损失生成单元,用于根据目标样本标签生成标签分布函数,根据至少两个样本标签及每个样本标签的样本预测概率值,生成预测分布函数,根据标签分布函数及预测分布函数生成第二损失函数;
91.模型生成单元,用于根据第一损失函数及第二损失函数,对初始数据分类模型进行训练,得到数据分类模型。
92.本技术实施例一方面提供了一种计算机设备,包括处理器、存储器、输入输出接口;
93.处理器分别与存储器和输入输出接口相连,其中,输入输出接口用于接收数据及输出数据,存储器用于存储计算机程序,处理器用于调用计算机程序,以执行本技术实施例一方面中的数据分类方法。
94.本技术实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行本技术实施例一方面中的数据分类方法。
95.本技术实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例一方面中的各种可选方式中提供的方法。
96.实施本技术实施例,将具有如下有益效果:
97.在本技术实施例中,计算机设备获取原始图像对应的视觉标识,识别原始图像中用于提取关注对象的检测位置坐标,基于检测位置坐标从原始图像中获取包含关注对象的目标检测图像,根据视觉标识及检测位置坐标确定原始图像对应的检测位置信息;视觉标识用于表示关注对象在原始图像对应的物品中的视觉角度;获取目标检测图像的图像特征,对检测位置信息进行尺度变换,得到目标检测图像的位置特征;对图像特征及位置特征进行特征拼接,得到融合特征,基于位置特征确定图像特征中的关键特征,基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别。通过将目标检测图像及该目标检测图像在原始图像中的检测位置信息进行结合,使得可以针对位置信息,实现对目标检测图像的识别及分类,使得在不同的位置信息下,对检测图像的识别侧重点不同,且可以得到获取到的图像类别所对应的位置,进而提高对数据识别分类的准确性。
附图说明
98.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
99.图1是本技术实施例提供的一种数据分类的网络交互架构图;
100.图2是本技术实施例提供的一种数据分类模型架构图;
101.图3是本技术实施例提供的一种数据分类的方法流程图;
102.图4a至图4b是本技术实施例提供的一种对象识别场景示意图;
103.图5是本技术实施例提供了一种目标检测图像获取场景示意图;
104.图6是本技术实施例提供的一种图像识别场景示意图;
105.图7是本技术实施例提供的一种数据分类模型训练方法流程示意图;
106.图8是本技术实施例提供的一种数据分类装置示意图;
107.图9是本技术实施例提供的另一种数据分类装置示意图;
108.图10是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
109.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
110.可选的,本技术可以采用人工智能领域中的计算机视觉技术及深度学习技术等,实现对原始图像中目标检测图像的识别及对目标检测图像的图像类别的识别等。
111.其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。例如,本技术中对原始图像中的目标检测图像及该目标检测图像的检测位置信息的获取,对目标检测图像的图像类别的识别等,均可以认为是由人工智能所实现的。
112.其中,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。而本技术中主要涉及计算机视觉技术(如对原始图像中的检测位置信息及目标检测图像的识别获取等)及机器学习/深度学习(如数据分类模型的训练及使用等)等方向,其中,本技术中可以单独使用人工智能的各个技术中的任意一个技术,也可以对人工智能中的各个技术进行随机组合使用,如单独使用计算机视觉技术,或者将计算机视觉技术与深度学习技术等进行结合使用等,在此不做限制。通过人工智能的相关技术的使用,提高了本技术中对数据识别分类的效率。
113.而计算机视觉技术(computer vision,cv)通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。深度学习(deep learning,dl)是机器学习(machine learning,ml)领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次,是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术,深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
114.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值,例如,本技术中的工业缺陷检测领域。
115.其中,本技术实施例提供的方案涉及人工智能领域中的计算机视觉及深度学习等技术,具体通过如下实施例进行说明:
116.在本技术实施例中,请参见图1,图1是本技术实施例提供的一种数据分类的网络交互架构图,本技术实施例可以由计算机设备实现。其中,计算机设备101可以从终端设备
处获取原始图像,对原始图像进行识别,得到该原始图像中目标检测图像所属的图像类别。其中,该终端设备可以是终端设备102a、终端设备102b或终端设备102c,计算机设备可以与任意一个终端设备之间进行数据交互,各个终端设备之间可以进行数据交互。其中,计算机设备101可以从终端设备中获取原始图像,从原始图像中获取检测位置信息及该检测位置信息对应的目标检测图像;或者,终端设备从原始图像中获取检测位置信息及该检测位置信息对应的目标检测图像,将该检测位置信息及目标检测图像发送至计算机设备;或者,计算机设备可以直接获取原始图像,从原始图像中获取检测位置信息及该检测位置信息对应的目标检测图像等,在此不做限制。
117.具体的,请参见图2,图2是本技术实施例提供的一种数据分类模型架构图。如图2所示,计算机设备获取到原始图像中用于提取关注对象的检测位置坐标,获取该原始图像对应的视觉标识,根据该视觉标识及检测位置坐标生成检测位置信息2012。计算机设备可以基于该检测位置坐标从原始图像中获取包含关注对象的目标检测图像2011,将该目标检测图像2011及检测位置信息2012输入数据分类模型202中,其中,该数据分类模型202中包括卷积神经网络2021及多层感知器2022。具体的,将目标检测图像2011输入卷积神经网络2021,基于卷积神经网络2021获取该目标检测图像2011的图像特征;将检测位置信息2012输入多层感知器2022中,基于多层感知器2022对检测位置信息进行尺度变换,得到该目标检测图像2011的位置特征。计算机设备将图像特征及位置特征进行特征拼接,得到融合特征,可以基于位置特征确定图像特征中的关键特征,基于该关键特征对该融合特征进行分类处理,得到该目标检测图像2011所属的图像类别。通过将检测位置信息及目标检测图像进行结合,可以对目标检测图像基于检测位置信息的侧重(即关键特征)对目标检测图像进行识别检测,并利用该图像类别在原始图像中对应的位置,从而可以提高数据分类识别的准确性。
118.可以理解的是,本技术实施例中所提及的计算机设备包括但不限于终端设备或服务器。换句话说,计算机设备可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、增强现实/虚拟现实(augmented reality/virtual reality,ar/vr)设备、头盔显示器、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,mid)等,其中,客户端具备显示功能。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
119.可选的,本技术实施例中所涉及的数据可以存储在计算机设备中,或者可以基于云存储技术对该数据进行存储,在此不做限制。其中,计算机设备可以在获取到原始图像或检测位置信息和目标检测图像后,对原始图像或检测位置信息和目标检测图像进行缓存,基于数据分类周期,对缓存的原始图像或检测位置信息和目标检测图像进行处理;也可以对获取到的原始图像或检测位置信息和目标检测图像进行实时处理,在此不做限制。
120.进一步地,请参见图3,图3是本技术实施例提供的一种数据分类的方法流程图。如图3所示,以一个原始图像为例进行描述,换句话说,在图3所描述的方法实施例中,该数据
分类过程包括如下步骤:
121.步骤s301,获取原始图像对应的视觉标识,识别原始图像中用于提取关注对象的检测位置坐标,基于检测位置信息从原始图像中获取包含关注对象的目标检测图像,根据视觉标识及检测位置坐标确定原始图像对应的检测位置信息。
122.在本技术实施例中,计算机设备可以获取原始图像,从原始图像中获取用于提取关注对象的检测位置坐标,基于检测位置坐标从原始图像中获取包含该关注对象的目标检测图像,其中,该关注对象是指本技术中所要识别的对象。计算机设备还可以获取该原始图像对应的视觉标识,根据该视觉标识及检测位置坐标确定原始图像对应的检测位置信息。例如,在工业缺陷检测领域中,该关注对象可以是工业缺陷;在实物识别领域中,该关注对象可以是人物、动物或物品等;换句话说,在不同的领域中,所对应的关注对象有所不同,该关注对象可以根据需要变化。其中,该视觉标识用于表示关注对象在原始图像对应的物品中的视觉角度,例如,该原始图像对应的物品存在四个视觉角度,分别对应视觉角度1、视觉角度2、视觉角度3及视觉角度4,在对该物品对应的视觉角度2进行拍摄,生成原始图像时,该原始图像所对应的视觉标识为视觉角度2的标识,该关注对象为该物品在视觉角度2下所呈现出的形态。
123.进一步地,计算机设备可以获取原始图像,对原始图像进行对象检测,获取包含关注对象的第一预测边框,根据第一预测边框的第一位置信息,确定检测位置坐标;根据检测位置坐标确定第二预测边框,将第二预测边框在原始图像中所指示的区域,确定为目标检测图像。
124.其中,该第一预测边框的确定过程可以参见图4a至图4b,图4a至图4b是本技术实施例提供的一种对象识别场景示意图,其中,图4a是本技术实施例提供的一种对象识别点确定场景示意图,图4b是本技术实施例提供的一种边框确定场景示意图。如图4a所示,计算机设备可以获取原始图像401,将该原始图像401划分成若干等份的识别框,即获取到至少两个识别框,获取每个识别框与关注对象之间的关联度,基于关联度确定识别点,假定从该原始图像中识别到三个可能的关注对象,记作关注对象1、关注对象2及关注对象3,其中,确定关注对象1对应的识别点为识别点4021,关注对象2对应的识别点为识别点4022,关注对象3对应的识别点为识别点4023。进一步,如图4b所示,对识别点4021进行尺寸变换及形状变换等,得到针对可能的关注对象1的至少两个关联边框,包括但不限于关联边框4031、关联边框4032及关联边框4033等;对识别点4022进行尺寸变换及形状变换等,得到针对可能的关注对象2的至少两个关联边框,包括但不限于关联边框4041及关联边框4042等;对识别点4023进行尺寸变换及形状变换等,得到针对可能的关注对象3的至少两个关联边框,包括但不限于关联边框4051及关联边框4052等。获取关联边框4031、关联边框4032及关联边框4033分别对应的置信度,假定关联边框4032的置信度>关联边框4031的置信度>关联边框4033的置信度,则将关联边框4032确定为关注对象1对应的第一预测边框;获取关联边框4041及关联边框4042分别对应的置信度,假定关联边框4042的置信度>关联边框4041的置信度,则将关联边框4042确定为关注对象2对应的第一预测边框;获取关联边框4051及关联边框4052分别对应的置信度,假定关联边框4052的置信度>关联边框4051的置信度,则将关联边框4052确定为关注对象3对应的第一预测边框。根据关注对象1的第一预测边框,确定关注对象1的第一位置坐标,根据第一位置信息确定关注对象1的检测位置坐标,同理,获取
关注对象2的检测位置坐标及关注对象3的检测位置坐标。其中,置信度用于表示对应的关联边框中出现关注对象的概率。
125.可选的,计算机设备可以获取该原始图像,基于该原始图像生成至少两个预选框,其中,至少两个预选框中两两之间可能出现重叠部分,获取每个预选框的置信度,将置信度大于预设置信度阈值的预选框,确定为第一预测边框。例如,在工业缺陷检测领域中,该关注对象为工业缺陷,计算机设备可以获取每个预选框的置信度,该置信度用于表示对应的预选框中存在工业缺陷的可能性,基于每个预选框的置信度,从至少两个预选框中确定可能存在工业缺陷的第一预测边框。
126.可选的,计算机设备还可以基于目标检测模型对原始图像进行识别,识别到该原始图像中用于提取关注对象的检测位置坐标,基于检测位置坐标从原始图像中获取包含关注对象的目标检测图像。其中,该目标检测模型可以是快速区域卷积神经网络(faster region convolutional neural networks,faster r

cnn)、单次多边框探测器(single shot multibox detector,ssd)或单次检测模型(you only look once,yolo)等,在此不做限制。
127.进一步地,计算机设备在获取到原始图像中的第一预测边框后,可以根据第一预测边框的第一位置信息,确定检测位置坐标。具体的,计算机设备可以根据第一预测边框的第一位置信息,确定第一预测边框的边框宽度及边框高度;基于边框宽度及边框高度,对第一预测边框进行尺寸调整,根据调整后的第一预测边框确定检测位置信息。其中,该检测位置坐标在原始图像中所指示的区域可以称之为感兴趣区域(region of interest,roi),即,本技术所需要进行识别的区域,该感兴趣区域中一般需要足够适度的背景反衬关注对象,因此,可以通过对第一预测边框进行尺寸调整,使得调整后的第一预测边框所指示的区域可以包含关注对象,以及用于反衬该关注对象的背景,从而提高数据识别分类的准确性。可选的,数据分类模型中使用了全连接层,以得到目标检测图像所属的图像类别,因此,也可以通过对第一预测边框进行尺寸调整及形状调整等,使得得到的目标检测图像的尺寸符合该数据分类模型所能识别的尺寸,以保障在数据分类模型中对目标检测图像进行缩放时不会发生畸变,从而提高数据识别分类的准确性。基于此,计算机设备在对第一预测边框进行尺寸调整时,可以先将第一预测边框转换为正方形,再对正方形进行缩放,得到检测位置坐标;或者,计算机设备可以将第一预测边框转换为正方形,基于该正方形得到检测位置坐标;或者,计算机设备可以对该第一预测边框进行缩放,得到检测位置坐标。
128.其中,以计算机设备先将第一预测边框转换为正方形,再对正方形进行缩放,得到检测位置坐标为例,计算机设备可以根据边框宽度与边框高度之间的差值及第一位置信息,对第一预测边框进行尺寸调整,确定第二位置信息及调整后的第一预测边框的调整宽度和调整高度;获取边框扩张系数,基于边框扩张系数对调整宽度及调整高度进行尺寸变换,根据第二位置信息及变换后的调整宽度和调整高度,确定检测位置坐标。
129.其中,将第一预测边框的第一位置信息记作其中,将第一预测边框的第一位置信息记作表示第一预测边框的左上顶点在原始图像中的位置坐标,表示第一预测边框的右下顶点在原始图像中的位置坐标。具体的,请参见图5,图5是本技术实施例提供的一种目标检测图像获取场景示意图。如图5所示,计算机设备在对原始图像501
进行对象检测后,得到包含关注对象的第一预测边框5011,将该第一预测边框5011的四个顶点分别记作a
d
、b
d
、c
d
及d
d
,其中,左上顶点a
d
在原始图像501中的位置坐标为右下顶点c
d
在原始图像501中的位置坐标为根据第一预测边框5011的第一位置信息,确定第一预测边框5011的边框宽度w
d
及边框高度h
d
,其中,该边框宽度w
d
的计算公式可以参见公式(1)所示,该边框高度h
d
可以参见公式(2)所示:
[0130][0131][0132]
其中,若边框高度h
d
大于边框宽度w
d
,则对边框宽度w
d
进行扩展;若边框宽度w
d
大于边框高度h
d
,则对边框高度h
d
进行扩展,其中,扩展的像素个数为abs是指取绝对值的运算。如图5中所示,若边框高度h
d
大于边框宽度w
d
,则将边框宽度w
d
向两侧分别扩展p个像素,得到第二位置信息及调整后的第一预测边框502的调整宽度和调整高度。其中,将第二位置信息记作(x

min
,y

min
,x

max
,y

max
),则该第二位置信息的获取方式可以参见公式(3)至公式(6)所示:
[0133][0134][0135][0136][0137]
根据第二位置信息,确定调整后的第一预测边框502的调整宽度和调整高度,将调整宽度记作w',将调整高度记作h',将该调整后的第一预测边框502的四个顶点分别记作a'、b'、c'及d',该调整后的第一预测边框502的左上顶点的位置坐标为(x

min
,y

min
),该调整后的第一预测边框502的右下顶点的位置坐标为(x

max
,y

max
)。其中,该调整宽度w'的获取方式可以参见公式(7)所示,该调整高度h'的获取方式可以参见公式(8)所示:
[0138]
w

=x

max

x

min
1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0139]
h

=y

max

y

min
1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0140]
进一步地,计算机设备可以获取边框扩张系数,基于该边框扩张系数对调整宽度w'及调整高度h'进行尺寸变换,将该边框扩张系数记作r,边框扩张系数r是在对数据分类模型进行训练的过程中所确定的一个可训练参数,经过试验,边框扩张系数r为0.4时,该数据分类模型的性能最优。当然,随着对数据分类模型的不断优化,该边框扩张系数r的值也可以进行更新,以使数据分类模型可以得到更好的性能。其中,根据第二位置信息及变换后的调整宽度w'和调整高度h',确定检测位置信息,将该检测位置信息记作(x
min
,y
min
,x
max
,y
max
),该检测位置信息的获取方式可以参见公式(9)至公式(12)所示:
[0141]
x
min
=x

min

w

*r
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0142]
y
min
=y

min

h

*r
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0143]
x
max
=x

max
w

*r
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0144]
y
max
=y

max
h

*r
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0145]
其中,根据检测位置信息确定第二预测边框503,该第二预测边框503的四个顶点分别为a、b、c及d,该第二预测边框503的左上顶点a的位置坐标为(x
min
,y
min
),第二预测边框503的右下顶点c的位置坐标为(x
max
,y
max
),可以将第二预测边框503的宽度记作w,高度记作h。将第二预测边框503在原始图像501中所指示的区域,确定为目标检测图像504,该目标检测图像504的图像宽度为w,图像高度为h。
[0146]
可选的,若第二预测边框503在原始图像501中,超出了原始图像501的图像边界,假定该原始图像501以左上顶点为坐标原点,该原始图像501的宽度为w
p
,高度为h
p
,如当x
min
<0,或者,y
min
<0,或者,x
max
>w
p
,或者,y
max
>h
p
等时,确定该第二预测边框503超出原始图像501的图像边界,将第二预测边框503所指示的区域中,超出原始图像501的图像边界的区域记作超界区域,在超界区域中添加默认值,以得到目标检测图像。
[0147]
可选的,计算机设备可以根据视觉标识及检测位置坐标生成检测位置信息,计算机设备可以根据第二位置信息及变换后的调整宽度和调整高度,确定检测位置坐标,此时,该检测位置坐标为(x
min
,y
min
,x
max
,y
max
),计算机设备可以获取视觉标识,根据该视觉标识及检测位置坐标,确定检测位置信息。其中,该视觉标识可以是该原始图像所对应的视觉的标识,例如,将参与拍摄的所有相机进行编号,如n台相机分别对应的编号为1、2、3、

及n,可以将原始图像所对应的视觉关联的相机的编号,确定为该原始图像的视觉标识,如,该原始图像由相机2拍摄得到,则可以确定该原始图像的视觉标识为2,根据视觉标识及检测位置坐标,确定检测位置信息,该检测位置信息为(2,x
min
,y
min
,x
max
,y
max
)。其中,n为正整数。可选的,该视觉标识也可以是根据视觉位置进行确定,例如,从n个视觉位置,对一个物体进行拍摄,共得到n个原始图像,该n个原始图像包括原始图像i,原始图像i的视觉标识为视觉位置i对应的标识,i为正整数,i小于或等于n。以上为两种可选的确定视觉标识的方式,其他可以表示原始图像的拍摄视觉的标识,也可以作为该原始图像的视觉标识,在此不做限制。其中,可能存在多个原始图像,在图3所示实施例中,以一个原始图像为例进行描述。
[0148]
步骤s302,获取目标检测图像的图像特征,对检测位置信息进行尺度变换,得到目标检测图像的位置特征。
[0149]
在本技术实施例中,计算机设备可以将目标检测图像输入数据分类模型中的卷积神经网络(convolutional neural networks,cnn),基于卷积神经网络中的卷积层对目标检测图像进行特征提取,得到目标检测图像的图像特征。该cnn可以是任意一个可以获取图像特征的神经网络,如resnet18网络等,在此不做限制,其中,该resnet18网络中的数字表示该网络的深度,指带有权重的层,包括卷积层和全连接层,不包括池化层和批量归一化层(batchnormalization,bn)层等。
[0150]
其中,该检测位置信息可以包括视觉标识及检测位置坐标。对检测位置信息进行尺度变换,得到目标检测图像的位置特征,包括:获取目标检测图像的图像宽度及图像高度,基于图像宽度及图像高度对检测位置坐标进行归一化处理,得到归一化位置坐标;获取视觉总数,基于视觉总数对视觉标识进行归一化处理,得到归一化视觉标识;根据归一化位置坐标及归一化视觉标识,生成感知输入特征,采用数据分类模型中的多层感知器对感知输入特征进行尺度变换,得到目标检测图像的位置特征。其中,尺度是指准绳,可以表示看待事物的一种标准,由于视觉标识与检测位置坐标具有不同的尺度,即,视觉标识与检测位置坐标的衡量标准不同,若直接将两者组合输入数据分类模型中进行预测,会使得数据分
类模型预测困难,还可能造成预测不准确,因此,可以对视觉标识及检测位置坐标进行归一化处理,以使得视觉标识与检测位置坐标具有相同的尺度,从而提高数据分类模型的预测准确性及预测效率。其中,对视觉标识的归一化处理过程可以参见公式(13)所示:
[0151][0152]
其中,该id
cam
是指原始图像的视觉标识,此处以该视觉标识为原始图像对应的相机编号为例,即id
cam
可以取1至n中的任意一个值,n为视觉总数,基于视觉总数对视觉标识进行归一化处理,得到归一化视觉标识
[0153]
进一步地,对检测位置坐标的归一化处理过程可以参见公式(14)至公式(17)所示:
[0154][0155][0156][0157][0158]
其中,w为目标检测图像的图像宽度,h为目标检测图像的图像高度,(x
min
,y
min
,x
max
,y
max
)为检测位置坐标,基于图像宽度及图像高度对检测位置坐标进行归一化处理,得到归一化位置坐标
[0159]
根据归一化位置坐标及归一化视觉标识,生成感知输入特征采用数据分类模型中的多层感知器(multi

layer perceptron,mlp)对感知输入特征进行尺度变换,得到目标检测图像的位置特征。
[0160]
其中,假定图像特征为512维特征,而检测位置信息为5维特征(即视觉标识及检测位置坐标),两者之间存在较大的尺度差异,维度差异较大,导致位置特征在该数据分类模型中进行预测时,几乎可以忽略,通过mlp对感知输入特征进行尺度变换,得到位置特征,减小了图像特征与位置特征之间的维度差异,从而改善了两者之间的维度适配问题,进一步提高了数据分类模型的预测准确性。进一步地,计算机设备可以获取该图像特征的图像维度信息,根据该图像维度信息确定位置维度范围,采用mlp对感知输入特征进行尺度变换,基于该位置维度范围,得到目标检测图像的位置特征,该位置特征的位置维度信息属于该位置维度范围。例如,该位置维度范围为大于图像维度信息的第一占比量(如1/4),小于图像维度信息,即位置特征的位置维度信息与图像维度信息的比值大于第一占比量(1/4),小于1,这是由于在对目标检测图像进行识别分类时,图像本身的特征的重要程度更高,而在保障图像特征在预测过程中的主导地位的情况下,提高位置特征与图像特征之间的尺度适配度,可以基于位置维度范围,对感知输入特征进行一定程度上的尺度变换。可选的,该位置维度范围也可以根据需要进行更新,例如,在对目标检测图像的预测过程中,位置特征的重要程度比图像特征的重要程度更高时,该位置维度范围可以为大于图像维度信息,小于
图像维度信息的第二占比量(如5/4)等,或者,该位置维度范围可以是大于图像维度信息的第一占比量,小于图像维度信息的第二占比量,在此不做限制。例如,在工业缺陷检测领域中,为了保障工业缺陷能够检测到,可以认为图像特征的重要程度大于位置特征,则该位置维度范围可以是大于图像维度信息的第一占比量,小于图像维度信息。
[0161]
步骤s303,对图像特征及位置特征进行特征拼接,得到融合特征,基于位置特征确定图像特征中的关键特征,基于该关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别。
[0162]
在本技术实施例中,计算机设备可以对图像特征进行归一化处理,得到归一化图像特征,对位置特征进行归一化处理,得到归一化位置特征;对归一化图像特征及归一化位置特征进行特征拼接,得到融合特征。通过对图像特征及位置特征进行归一化处理,进一步减小图像特征与位置特征之间的尺度差异,提高数据分类模型的预测准确性。其中,对图像特征进行归一化处理的过程可以参见公式(18)所示:
[0163][0164]
其中,f
cnn
表示图像特征,normalize为归一化算法,将位置特征记作f
mlp
,对位置特征进行归一化处理的过程可以参见公式(19)所示:
[0165][0166]
进一步,计算机设备可以对归一化图像特征及归一化位置特征进行特征拼接,得到融合特征。可选的,计算机设备也可以对归一化图像特征及归一化位置特征进行特征拼接,对拼接结果进行归一化处理,得到融合特征,在该情况下,该融合特征的获取方式可以参见公式(20)所示:
[0167][0168]
其中,concat表示特征拼接操作,其中,该归一化算法可以是l1归一化算法、l2归一化算法或线性函数归一化算法等,在此不做限制。其中,将该normalize的输入特征定义为x=(x1,x2,

,x
m
),以l2归一化算法为例,该归一化算法可以参见公式(21)所示:
[0169][0170]
其中,m为正整数,m可以表示输入特征的维度,例如,在公式(18)中,m表示图像特征的维度,在公式(19)中,m表示位置特征的维度,在公式(20)中,m可以表示融合特征的维度。
[0171]
进一步地,计算机设备可以获取数据分类模型的分类器中的尺度因子,基于尺度因子对融合特征进行尺度变换,其中,该尺度因子是通过对数据分类模型中的分类器进行训练得到的;基于分类器对尺度变换后的融合特征中关键特征对应的特征进行关键识别,基于关键识别结果对尺度变换后的融合特征进行分类处理,得到目标检测图像所属的图像类别,换句话说,该关键识别是指对该关键特征对应的特征进行重点识别,例如,增加该关键特征对应的特征的权重等。其中,经过归一化的特征的模长为1,将融合特征输入分类器后,如果直接使用激活函数对融合特征进行预测,可能出现输出值过小导致模型训练困难,模型不收敛的问题,因此,可以在数据分类模型的分类器中加入尺度因子s,再基于分类器对融合特征进行预测,从而提高数据识别分类的准确性。其中,若该尺度因子s的值过小,则
基于尺度因子s对融合特征进行尺度变换,对数据分类模型的训练没有帮助;若该尺度因子s的值过大,则容易出现输出的预测标签的预测概率值过大,甚至趋近于1,导致分类结果过度自信的问题。因此,可以将尺度因子s定义为一个可学习的参数,而不是手动调节的超参数,从而使得尺度因子s可以优化数据分类模型,提高数据分类模型对数据进行识别分类的准确性。其中,在数据分类模型的训练过程中,对尺度因子s进行学习,经过试验,该尺度因子s的取值在2至5之间时,数据分类模型的效果较好,可选的,在对数据分类模型继续进行学习优化时,该尺度因子s的取值范围可以进行优化更新。
[0172]
其中,计算机设备在对融合特征进行分类处理,得到目标检测图像所属的图像类别时,可以不对融合特征进行尺度变换,直接基于关键特征对融合特征进行分类处理,得到至少两个预测标签及每个预测标签的预测概率值;将具有最大的预测概率值的预测标签,确定为目标检测图像所属的图像类别。或者,计算机设备可以基于分类器对尺度变换后的融合特征进行分类处理,得到至少两个预测标签及每个预测标签的预测概率值,将具有最大的预测概率值的预测标签,确定为目标检测图像所属的图像类别。
[0173]
进一步地,若图像类别属于图像异常类别,则获取图像类别所关联的通讯方式;基于通讯方式向终端设备发送物品异常消息,以使终端设备基于物品异常消息对原始图像对应的物品进行检测;物品异常消息包括图像类别。举例来说,参见图6,图6是本技术实施例提供的一种图像识别场景示意图。如图6所示,计算机设备将目标检测图像601输入数据分类模型602的卷积神经网络中,基于该卷积神经网络对目标检测图像601进行特征提取,得到该目标检测图像601的图像特征;将检测位置信息输入数据分类模型602的多层感知器中,基于多层感知器对检测位置信息进行尺度变换,得到目标检测图像的位置特征。计算机设备将图像特征及位置特征进行特征拼接,得到融合特征6021,采用数据分类模型602中的分类器对融合特征6021进行分类处理,得到至少两个预测标签6022及每个预测标签的预测概率值,将具有最大预测概率值的预测标签,确定为目标检测图像所属的图像类别603。其中,假定该至少两个预测标签6022包括(k 1)个预测标签,分别记作(预测标签1、预测标签2、

、预测标签k及预测标签(k 1)),其中,至少两个预测标签6022包括常规标签及k种图像异常标签,若该图像类别603属于k种图像异常标签,则表示该图像类别603属于图像异常类别,向终端设备604发送物品异常消息。以工业缺陷检测领域为例,假定该k种图像异常标签分别为工业裂痕、夹杂、压入氧化皮、麻点、斑块及油污干扰等,假定该图像类别603为“工业裂痕”对应的图像异常标签,则获取处理该“工业裂痕”的通讯方式,基于该通讯方式向该通讯方式所指示的终端设备发送物品异常消息,以使终端设备基于物品异常消息对原始图像对应的物品进行检测,如该终端设备为自动处理装置,终端设备对该原始图像对应的物品进行检测,并对该“工业裂痕”进行修复;或者,该通讯方式关联工作人员,工作人员从终端设备中获取到物品异常消息后,对该原始图像对应的物品进行检测并修复。
[0174]
在本技术实施例中,计算机设备获取原始图像对应的视觉标识,识别原始图像中用于提取关注对象的检测位置坐标,基于检测位置坐标从原始图像中获取包含关注对象的目标检测图像,根据视觉标识及检测位置坐标确定原始图像对应的检测位置信息;视觉标识用于表示关注对象在原始图像对应的物品中的视觉角度;获取目标检测图像的图像特征,对检测位置信息进行尺度变换,得到目标检测图像的位置特征;对图像特征及位置特征进行特征拼接,得到融合特征,基于位置特征确定图像特征中的关键特征,基于关键特征对
融合特征进行分类处理,得到目标检测图像所属的图像类别。通过将目标检测图像及该目标检测图像在原始图像中的检测位置信息进行结合,使得可以针对位置信息,实现对目标检测图像的识别及分类,使得在不同的位置信息下,对检测图像的识别侧重点不同,且可以得到获取到的图像类别所对应的位置,进而提高对数据识别分类的准确性。
[0175]
进一步地,请参见图7,图7是本技术实施例提供的一种数据分类模型训练方法流程示意图。如图7所示,该方法包括如下步骤:
[0176]
步骤s701,获取检测图像样本、检测图像样本的样本视觉标识、检测样本位置坐标及目标样本标签,根据样本视觉标识及检测样本位置坐标,确定检测图像样本的检测样本位置信息。
[0177]
在本技术实施例中,计算机设备获取训练样本,该训练样本可以包括检测图像样本、检测图像样本的样本视觉标识及检测样本位置坐标及目标样本标签,根据样本视觉标识及检测样本位置坐标,确定该检测图像样本的检测样本位置信息,其中,该目标样本标签用于表示该检测图像样本实际对应的样本标签。可选的,计算机设备可以将该样本视觉标识及检测样本位置坐标进行数据拼接,得到该检测样本位置信息。
[0178]
步骤s702,采用初始数据分类模型中的初始卷积神经网络,获取检测图像样本的样本图像特征,采用初始数据分类模型中的初始多层感知器,对检测样本位置信息进行尺度变换,得到检测图像样本的样本位置特征。
[0179]
在本技术实施例中,该样本图像特征的获取过程可以参见图3的步骤s302中图像特征的获取过程,该样本位置特征的获取过程可以参见图3的步骤s302中位置特征的获取过程,在此不再进行赘述。
[0180]
步骤s703,对样本图像特征及样本位置特征进行特征拼接,得到样本融合特征,基于样本位置特征确定样本图像特征的样本关键特征,基于样本关键特征对样本融合特征进行分类处理,得到检测图像样本所属的图像样本类别。
[0181]
在本技术实施例中,计算机设备可以基于所述样本关键特征对样本融合特征进行分类处理,得到至少两个样本标签及每个样本标签的样本预测概率值;至少两个样本标签包括目标样本标签;将具有最大的样本预测概率值的样本标签,确定为检测图像样本所属的图像样本类别。该过程具体可以参见图3中步骤s303所示。
[0182]
步骤s704,基于图像样本类别及目标样本标签之间的损失函数,对初始数据分类模型进行训练,得到数据分类模型。
[0183]
在本技术实施例中,该损失函数包括第一损失函数及第二损失函数。计算机设备可以根据图像样本类别与目标样本标签,生成第一损失函数;根据目标样本标签生成标签分布函数,根据至少两个样本标签及每个样本标签的样本预测概率值,生成预测分布函数,根据标签分布函数及预测分布函数生成第二损失函数;根据第一损失函数及第二损失函数,对初始数据分类模型进行训练,得到数据分类模型。其中,该第一损失函数可以参见公式(22)所示:
[0184]
l1=crossentroyloss(logits)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(22)
[0185]
其中,logits为数据分类模型中的分类器的输出,例如,若存在c个样本标签需要进行分类,则logits为一个包含c个元素的向量,crossentroyloss为一种第一损失函数,用于对数据分类模型进行分类学习,该第一损失函数可以是交叉熵损失函数等,在此不做限
制。其中,该第二损失函数可以参见公式(23)所示:
[0186]
l2=kldivloss(logits)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(23)
[0187]
其中,该kldivloss为一种第二损失函数,用于对数据分类模型进行分布学习,该第二损失函数可以是kl散度(kullback

leibler divergence)损失函数,kl散度损失函数用于计算两个随机变量的差异程度。其中,该损失函数可以参见公式(24)所示:
[0188]
l=l1 λ*l2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24)
[0189]
其中,λ为第一损失函数及第二损失函数之间的权重系数,该权重系数可以是经验值,也可以是对数据分类模型进行训练的过程中进行优化确定的。
[0190]
进一步地,对数据分类模型进行训练的过程具体如下:
[0191]
在数据分类模型的模型部署阶段,首先去掉损失函数层,执行步骤s701至步骤s703,通过初始分类器将logits转换为概率分布,即得到至少两个样本标签及每个样本标签的样本预测概率值,该至少两个样本标签及每个样本标签的样本预测概率值可以通过向量probs进行表示。其中,该分类器可以通过激活函数将logits转换为概率分布,该激活函数可以是逻辑回归(softmax)函数,该过程如公式(25)所示:
[0192]
probs=softmax(logits)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(25)
[0193]
将具有最大的样本预测概率值的样本标签,确定为检测图像样本所属的图像样本类别,该过程如公式(26)所示:
[0194]
label=argmax(probs)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(26)
[0195]
其中,argmax表示取向量中最大元素对应的索引,即最大的样本预测概率值对应的样本标签,确定为检测图像样本所属的图像样本类别label,该图像样本类别label对应的样本预测概率值即为该图像样本类别的置信度,可以表示为公式(27):
[0196]
score=probs[label]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(27)
[0197]
其中,probs[label]表示图像样本类别label在向量probs中对应的值。
[0198]
进一步地,计算机设备可以设置初始分布函数,如果至少两个样本标签的分布是有序的(如人脸的年龄预测等),则该初始分布函数可以是一种常规的概率分布函数,如高斯函数等,将图像样本类别代入初始分布函数中,生成样本分布函数;获取至少两个样本标签及每个样本标签的样本预测概率值的概率均值及概率方差,根据概率均值及概率方差确定训练分布函数。如果该至少两个样本标签的分布是无序的,则可以统计训练集中各个样本标签分别作为图像样本类别的数量,根据各个样本标签分别作为图像样本类别的数量确定各个样本标签在训练集中的训练占比,将各个样本标签在训练集中的训练占比作为该训练分布函数;例如,假定存在4个样本标签,在训练集中,样本标签1作为图像样本类别10次,样本标签2作为图像样本类别30次,样本标签3作为图像样本类别35次,样本标签4作为图像样本类别25次,则可以确定该训练分布函数为(0.1,0.3,0.35,0.25)。通过第一损失函数,确定图像样本类别及目标样本标签之间的第一损失值,通过第二损失函数,确定样本分布函数与训练分布函数之间的第二损失值,通过公式(24),确定第一损失函数与第二损失函数之间的总损失值,基于总损失值对初始数据分类模型进行训练,得到数据分类模型。
[0199]
在本技术实施例中,计算机设备可以结合分类学习及分布学习对数据分类模型进行训练,通过分类学习真实反映该数据分类模型的预测的类别置信度,通过分布学习保障模型可以平稳训练,提高数据分类模型的训练可靠度。
[0200]
其中,参见表1,表1为某个缺陷分类的性能表现,第一性能在未使用视觉标识和roi检测位置坐标时的性能,第二性能为本技术中融合了视觉标识及检测位置坐标的情况下的性能,指标数值越大,说明性能越好。
[0201]
表1
[0202][0203]
可以看出,本技术在现有技术基础上,性能具有一定的提高,可以提高对数据识别分类的准确性。
[0204]
其中,数据分类模型的训练过程与预测过程可以由同一个计算机设备执行,也可以由不同的计算机设备执行。
[0205]
进一步地,请参见图8,图8是本技术实施例提供的一种数据分类装置示意图。该数据分类装置可以是运行于计算机设备中的一个计算机程序(包括程序代码等),例如该数据分类装置可以为一个应用软件;该装置可以用于执行本技术实施例提供的方法中的相应步骤。如图8所示,该数据分类装置800可以用于图3所对应实施例中的计算机设备,具体的,该装置可以包括:输入获取模块11、特征获取模块12及数据分类模块13。
[0206]
输入获取模块11,用于获取原始图像对应的视觉标识,识别原始图像中用于提取关注对象的检测位置坐标,基于检测位置坐标从原始图像中获取包含关注对象的目标检测图像,根据视觉标识及检测位置坐标确定原始图像对应的检测位置信息;视觉标识用于表示关注对象在原始图像对应的物品中的视觉角度;
[0207]
特征获取模块12,用于获取目标检测图像的图像特征,对检测位置信息进行尺度变换,得到目标检测图像的位置特征;
[0208]
数据分类模块13,用于对图像特征及位置特征进行特征拼接,得到融合特征,基于位置特征确定图像特征中的关键特征,基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别。
[0209]
其中,该输入获取模块11,包括:
[0210]
位置确定单元111,用于获取原始图像,对原始图像进行对象检测,获取包含关注对象的第一预测边框,根据第一预测边框的第一位置信息,确定检测位置坐标;
[0211]
图像确定单元112,用于根据检测位置坐标确定第二预测边框,将第二预测边框在原始图像中所指示的区域,确定为目标检测图像。
[0212]
其中,在根据第一预测边框的第一位置信息,确定检测位置坐标方面,该位置确定单元111包括:
[0213]
位置获取子单元1111,用于根据第一预测边框的第一位置信息,确定第一预测边框的边框宽度及边框高度;
[0214]
尺寸调整子单元1112,用于基于边框宽度及边框高度,对第一预测边框进行尺寸调整,根据调整后的第一预测边框确定检测位置坐标。
[0215]
其中,该尺寸调整子单元1112,包括:
[0216]
位置调整子单元111a,用于根据边框宽度与边框高度之间的差值及第一位置信息,对第一预测边框进行尺寸调整,确定第二位置信息及调整后的第一预测边框的调整宽度和调整高度;
[0217]
尺寸变换子单元111b,用于获取边框扩张系数,基于边框扩张系数对调整宽度及调整高度进行尺寸变换,根据第二位置信息及变换后的调整宽度和调整高度,确定检测位置坐标。
[0218]
其中,在获取目标检测图像的图像特征方面,该特征获取模块12具体用于:
[0219]
将目标检测图像输入数据分类模型中的卷积神经网络,基于卷积神经网络中的卷积层对目标检测图像进行特征提取,得到目标检测图像的图像特征。
[0220]
其中,在对检测位置信息进行尺度变换,得到目标检测图像的位置特征方面,该特征获取模块12包括:
[0221]
位置归一化单元121,用于获取目标检测图像的图像宽度及图像高度,基于图像宽度及图像高度对检测位置坐标进行归一化处理,得到归一化位置坐标;
[0222]
视觉归一化单元122,用于获取视觉总数,基于视觉总数对视觉标识进行归一化处理,得到归一化视觉标识;
[0223]
位置特征获取单元123,用于根据归一化位置坐标及归一化视觉标识,生成感知输入特征,采用数据分类模型中的多层感知器对感知输入特征进行尺度变换,得到目标检测图像的位置特征。
[0224]
其中,在对图像特征及位置特征进行特征拼接,得到融合特征方面,该数据分类模块13包括:
[0225]
特征归一化单元131,用于对图像特征进行归一化处理,得到归一化图像特征,对位置特征进行归一化处理,得到归一化位置特征;
[0226]
特征拼接单元132,用于对归一化图像特征及归一化位置特征进行特征拼接,得到融合特征。
[0227]
其中,在基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别方面,该数据分类模块13包括:
[0228]
因子处理单元133,用于获取数据分类模型的分类器中的尺度因子,基于尺度因子对融合特征进行尺度变换;尺度因子是通过对数据分类模型中的分类器进行训练得到的;
[0229]
类别确定单元134,用于基于分类器对尺度变换后的融合特征中关键特征对应的特征进行关键识别,基于关键识别结果对尺度变换后的融合特征进行分类处理,得到目标检测图像所属的图像类别。
[0230]
其中,在基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别方面,该数据分类模块13包括:
[0231]
结果获取单元135,用于基于关键特征对融合特征进行分类处理,得到至少两个预测标签及每个预测标签的预测概率值;
[0232]
该类别确定单元134,用于将具有最大的预测概率值的预测标签,确定为目标检测图像所属的图像类别。
[0233]
其中,该装置800还包括:
[0234]
通讯获取模块14,用于若图像类别属于图像异常类别,则获取图像类别所关联的
通讯方式;
[0235]
消息发送模块15,用于基于通讯方式向终端设备发送物品异常消息,以使终端设备基于物品异常消息对原始图像对应的物品进行检测;物品异常消息包括图像类别。
[0236]
本技术实施例提供了一种数据分类装置,该装置获取原始图像对应的视觉标识,识别原始图像中用于提取关注对象的检测位置坐标,基于检测位置坐标从原始图像中获取包含关注对象的目标检测图像,根据视觉标识及检测位置坐标确定原始图像对应的检测位置信息;视觉标识用于表示关注对象在原始图像对应的物品中的视觉角度;获取目标检测图像的图像特征,对检测位置信息进行尺度变换,得到目标检测图像的位置特征;对图像特征及位置特征进行特征拼接,得到融合特征,基于位置特征确定图像特征中的关键特征,基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别。通过将目标检测图像及该目标检测图像在原始图像中的检测位置信息进行结合,使得可以针对位置信息,实现对目标检测图像的识别及分类,使得在不同的位置信息下,对检测图像的识别侧重点不同,且可以得到获取到的图像类别所对应的位置,进而提高对数据识别分类的准确性。
[0237]
进一步地,请参见图9,图9是本技术实施例提供的另一种数据分类装置示意图。该数据分类装置可以是运行于计算机设备中的一个计算机程序(包括程序代码等),例如该数据分类装置可以为一个应用软件;该装置可以用于执行本技术实施例提供的方法中的相应步骤。如图9所示,该数据分类装置900可以用于图7所对应实施例中的计算机设备,具体的,该装置可以包括:样本获取模块16、样本特征获取模块17、样本分类模块18及模型训练模块19。
[0238]
样本获取模块16,用于获取检测图像样本、检测图像样本的样本视觉标识、检测样本位置坐标及目标样本标签,根据样本视觉标识及检测样本位置坐标,确定检测图像样本的检测样本位置信息;样本视觉标识用于表示检测图像样本在检测图像样本对应的物品中的视觉角度;
[0239]
样本特征获取模块17,用于采用初始数据分类模型中的初始卷积神经网络,获取检测图像样本的样本图像特征,采用初始数据分类模型中的初始多层感知器,对检测样本位置信息进行尺度变换,得到检测图像样本的样本位置特征;
[0240]
样本分类模块18,用于对样本图像特征及样本位置特征进行特征拼接,得到样本融合特征,基于样本位置特征确定样本图像特征的样本关键特征,基于样本关键特征对样本融合特征进行分类处理,得到检测图像样本所属的图像样本类别;
[0241]
模型训练模块19,用于基于图像样本类别及目标样本标签之间的损失函数,对初始数据分类模型进行训练,得到数据分类模型。
[0242]
其中,在基于样本关键特征对样本融合特征进行分类处理,得到检测图像样本所属的图像样本类别方面,该样本分类模块18包括:
[0243]
概率获取单元181,用于基于样本关键特征对样本融合特征进行分类处理,得到至少两个样本标签及每个样本标签的样本预测概率值;至少两个样本标签包括目标样本标签;
[0244]
样本类别确定单元182,用于将具有最大的样本预测概率值的样本标签,确定为检测图像样本所属的图像样本类别。
[0245]
其中,损失函数包括第一损失函数及第二损失函数;
[0246]
该模型训练模块19,包括:
[0247]
第一损失生成单元191,用于根据图像样本类别与目标样本标签,生成第一损失函数;
[0248]
第二损失生成单元192,用于根据目标样本标签生成标签分布函数,根据至少两个样本标签及每个样本标签的样本预测概率值,生成预测分布函数,根据标签分布函数及预测分布函数生成第二损失函数;
[0249]
模型生成单元193,用于根据第一损失函数及第二损失函数,对初始数据分类模型进行训练,得到数据分类模型。
[0250]
本技术实施例提供了一种数据分类装置,该装置可以结合分类学习及分布学习对数据分类模型进行训练,通过分类学习真实反映该数据分类模型的预测的类别置信度,通过分布学习保障模型可以平稳训练,提高数据分类模型的训练可靠度。
[0251]
参见图10,图10是本技术实施例提供的一种计算机设备的结构示意图。如图10所示,本技术实施例中的计算机设备可以包括:一个或多个处理器1001、存储器1002和输入输出接口1003。该处理器1001、存储器1002和输入输出接口1003通过总线1004连接。存储器1002用于存储计算机程序,该计算机程序包括程序指令,输入输出接口1003用于接收数据及输出数据,如用于计算机设备与终端设备之间进行数据交互;处理器1001用于执行存储器1002存储的程序指令。
[0252]
其中,该处理器1001用于通过数据分类模型进行预测时,执行如下操作:
[0253]
获取原始图像对应的视觉标识,识别原始图像中用于提取关注对象的检测位置坐标,基于检测位置坐标从原始图像中获取包含关注对象的目标检测图像,根据视觉标识及检测位置坐标确定原始图像对应的检测位置信息;视觉标识用于表示关注对象在原始图像对应的物品中的视觉角度;
[0254]
获取目标检测图像的图像特征,对检测位置信息进行尺度变换,得到目标检测图像的位置特征;
[0255]
对图像特征及位置特征进行特征拼接,得到融合特征,基于位置特征确定图像特征中的关键特征,基于关键特征对融合特征进行分类处理,得到目标检测图像所属的图像类别。
[0256]
其中,该处理器1001用于对数据分类模型进行训练时,执行如下操作:
[0257]
获取检测图像样本、检测图像样本的样本视觉标识、检测样本位置坐标及目标样本标签,根据样本视觉标识及检测样本位置坐标,确定检测图像样本的检测样本位置信息;样本视觉标识用于表示检测图像样本在检测图像样本对应的物品中的视觉角度;
[0258]
采用初始数据分类模型中的初始卷积神经网络,获取检测图像样本的样本图像特征,采用初始数据分类模型中的初始多层感知器,对检测样本位置信息进行尺度变换,得到检测图像样本的样本位置特征;
[0259]
对样本图像特征及样本位置特征进行特征拼接,得到样本融合特征,基于样本位置特征确定样本图像特征的样本关键特征,基于样本关键特征对样本融合特征进行分类处理,得到检测图像样本所属的图像样本类别;
[0260]
基于图像样本类别及目标样本标签之间的损失函数,对初始数据分类模型进行训练,得到数据分类模型。
[0261]
在一些可行的实施方式中,该处理器1001可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0262]
该存储器1002可以包括只读存储器和随机存取存储器,并向处理器1001和输入输出接口1003提供指令和数据。存储器1002的一部分还可以包括非易失性随机存取存储器。例如,存储器1002还可以存储设备类型的信息。
[0263]
具体实现中,该计算机设备可通过其内置的各个功能模块执行如该图3或图7中各个步骤所提供的实现方式,具体可参见该图3或图7中各个步骤所提供的实现方式,在此不再赘述。
[0264]
本技术实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机程序,执行该图3中所示方法的各个步骤,进行数据分类操作。本技术实施例实现了获取原始图像中用于提取关注对象的检测位置信息,基于检测位置信息从原始图像中获取包含关注对象的目标检测图像;获取目标检测图像的图像特征,对检测位置信息进行尺度变换,得到目标检测图像的位置特征;对图像特征及位置特征进行特征拼接,得到融合特征,对融合特征进行分类处理,得到目标检测图像所属的图像类别。通过将目标检测图像及该目标检测图像在原始图像中的检测位置信息进行结合,使得可以针对位置信息,实现对目标检测图像的识别及分类,使得在不同的位置信息下,对检测图像的识别侧重点不同,且可以得到获取到的图像类别所对应的位置,进而提高对数据识别分类的准确性。
[0265]
本技术实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机程序,执行该图7中所示方法的各个步骤,进行数据分类模型的训练操作。本技术实施例实现了对数据分类模型的训练过程,结合分类学习及分布学习对数据分类模型进行训练,通过分类学习真实反映该数据分类模型的预测的类别置信度,通过分布学习保障模型可以平稳训练,提高数据分类模型的训练可靠度。
[0266]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序适于由该处理器加载并执行图3中各个步骤所提供的数据分类方法,具体可参见该图3中各个步骤所提供的实现方式,在此不再赘述。或者,本技术实施例还提高了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序适于由该处理器加载并执行图7中各个步骤所提供的数据分类方法,具体可参见该图7中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本技术方法实施例的描述。作为示例,计算机程序可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
[0267]
该计算机可读存储介质可以是前述任一实施例提供的数据分类装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是
该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0268]
本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图3中的各种可选方式中所提供的方法,实现了基于通道注意力机制获取多媒体数据对应的通道特征图谱,基于空间注意力机制对通道特征图谱进行处理,得到多媒体数据的空间特征图谱,根据空间特征图谱确定多媒体数据的预测媒体质量,结合通道注意力机制及空间注意力机制,实现对多媒体数据中失真、降质区域的关注度,进而提高质量预测的准确率。而本技术中的质量预测模型是基于端到端进行训练的,可以使该质量预测模型在迭代过程中得到优化,同时保持卷积注意力模块的精简性,提升预测速度。
[0269]
本技术实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
[0270]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0271]
本技术实施例提供的方法及相关装置是参照本技术实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据分类设备的处理器以产生一个机器,使得通过计算机或其他可编程数据分类设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据分类设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据分类设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
[0272]
以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范
围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献