调整目标检测模型的方法、装置和设备与流程

2022-02-20 05:11:31 来源：中国专利 TAG：

1.本技术涉及目标检测领域，具体而言，涉及一种调整目标检测模型的方法、装置和设备。

背景技术：

2.随着计算机和网络通信技术的广泛应用，网络和信息安全已成为首先需要考虑和防范的问题。营业厅为公司内部与外界直接接触点之一，对营业厅网络与信息安全隐患的排查可从根源处进行有效防护，提升营销专业业务系统综合防御能力，确保营销专业业务系统安全稳定运行；在营销专业业务系统信息安全风险评估的基础上，从物理、终端、网络、边界、主机等层面进行全面、有针对性地开展营销专业业务系统安全防护设计与加固实施，强化营销专业业务系统安全防护能力，全面提升业务应用综合防御能力。
3.现有技术主要通过以下两种方式实现对目标的检测：一是通过人工对监控中的数据进行线下手动识别，但是这种方法工作量大且难以保证识别的精确度；二是通过目标检测算法对目标进行识别，但是这种方法只适用于对大目标的识别，对于低精度的小目标无法实现有效识别。
4.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本技术实施例提供了一种调整目标检测模型的方法、装置和设备，以至少解决无法有效识别低精度小目标的技术问题。
6.根据本技术实施例的一个方面，提供了一种调整目标检测模型的方法，包括：通过目标检测模型对原始图片进行检测时，获取目标检测模型对应的参数值，其中，目标检测模型用于检测原始图片中物体的位置和分类；从对原始图片进行几何变换后得到的图片数据集中，获取预设数量的图片，并按照预设顺序将预设数量的图片拼接成目标图片，其中，几何变换包括以下至少之一：翻转、旋转、缩放、裁剪、变形；获取通过聚类算法得到的目标图片的先验框，将原始图片和先验框对应的目标图片混合形成图片集，将图片集输入目标检测模型，并对目标检测模型进行迁移学习，得到改进的目标检测模型；依据目标检测模型对应的参数值调整改进的目标检测模型的参数值。
7.可选地，对原始图片进行几何变换之前，方法还包括：计算原始图片中任意两张图片的相似度，删除相似度大于预设阈值的两张图片中的任意一张图片；去除原始图片的噪声，保留原始图片的边缘信息；对原始图片进行锐化处理和灰度化处理。
8.可选地，按照预设顺序将预设数量的图片拼接成目标图片之前，方法还包括：对预设数量的图片进行以下至少之一的操作：对明亮度、饱和度和色调进行调整。
9.可选地，按照预设顺序将预设数量的图片拼接成目标图片，预设顺序为：从预设数量的图片中任取一张图片作为第一张图片，将预设数量的图片中除第一张图片以外的其他图片按照逆时针的方向依次拼接到第一张图片的正下方、右下方和右方的区域，拼接后得
到目标图片，目标图片中有用于标记目标对象的图框。
10.可选地，通过聚类算法得到的目标图片的先验框，包括：对于图片集中的任意一张图片，从图片中随机选取目标数量的聚类中心，其中，聚类中心为有预设尺寸的图框；计算标注框到每个聚类中心的距离，将标注框归到标注框与聚类中心距离最小的聚类中心所在的类，其中，标注框为图片中有不同预设尺寸的图框；重新计算每个聚类的聚类中心的尺寸，直到聚类中心的尺寸不发生变化，将聚类中心的尺寸作为先验框的尺寸，其中，聚类中心的尺寸依据聚类中所有标注框的尺寸确定。
11.可选地，计算标注框到每个聚类中心的距离，包括：计算标注框与每个聚类中心的重合度；根据重合度计算标注框到每个聚类中心的距离。
12.可选地，参数值包括：目标检测模型中全连接层的参数值和卷积层的参数值。
13.根据本技术实施例的另一方面，还提供了一种调整目标检测模型的装置，包括：采集模块，用于采集原始图片；获取模块，用于通过目标检测模型对原始图片进行检测时，获取目标检测模型对应的参数值，其中，目标检测模型用于检测原始图片中物体的位置和分类；从对原始图片进行几何变换后得到的图片数据集中，获取预设数量的图片，并按照预设顺序将预设数量的图片拼接成目标图片，其中，几何变换包括以下至少之一：翻转、旋转、缩放、裁剪、变形；处理模块，用于获取通过聚类算法得到的目标图片的先验框，将原始图片和先验框对应的目标图片混合形成图片集，将图片集输入目标检测模型，并对目标检测模型进行迁移学习，得到改进的目标检测模型；依据目标检测模型对应的参数值调整改进的目标检测模型的参数值。
14.根据本技术实施例的又一方面，还提供了一种调整目标检测模型的设备，包括：摄像头，用于采集视频，并依据视频按帧截取得到原始图片；存储器，用于存储程序指令；处理器，与存储器连接，用于执行实现以下功能的程序指令：通过目标检测模型对原始图片进行检测时，获取目标检测模型对应的参数值，其中，目标检测模型用于检测原始图片中物体的位置和分类；从对原始图片进行几何变换后得到的图片数据集中，获取预设数量的图片，并按照预设顺序将预设数量的图片拼接成目标图片，其中，几何变换包括以下至少之一：翻转、旋转、缩放、裁剪、变形；获取通过聚类算法得到的目标图片的先验框，将原始图片和先验框对应的目标图片混合形成图片集，将图片集输入目标检测模型，并对目标检测模型进行迁移学习，得到改进的目标检测模型；依据目标检测模型对应的参数值调整改进的目标检测模型的参数值。
15.根据本技术实施例的再一方面，还提供了一种非易失性存储介质，该非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行以上的调整目标检测模型的方法。
16.在本技术实施例中，先获取目标检测模型对原始图片进行检测时对应的参数值，对原始图片进行几何变换，并按照预设顺序将预设数量的图片拼接成目标图片，获取通过聚类算法得到的目标图片的先验框，将原始图片和先验框对应的目标图片混合形成图片集，将图片集输入目标检测模型，并对目标检测模型进行迁移学习，得到改进的目标检测模型；依据目标检测模型对应的参数值调整改进的目标检测模型的参数值，达到了只需提供少量的图片，就能达到较高精度的目的，从而实现了减少识别量，快速提取目标对象特征的技术效果，进而解决了无法有效识别低精度小目标技术问题。
附图说明
17.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
18.图1是根据本技术实施例的一种调整目标检测模型的设备的结构图；
19.图2是根据本技术实施例的一种调整目标检测模型的方法的流程图；
20.图3是根据本技术实施例的一种通过聚类算法获取目标图片的先验框的流程图；
21.图4a是根据本技术实施例的一种计算标注框到每个聚类中心的距离的流程图；
22.图4b是根据本技术实施例的一种iou与聚类中心k的关系图；
23.图5是根据本技术实施例的一种依据聚类中所有标注框的尺寸确定聚类中心的尺寸的流程图；
24.图6是根据本技术实施例的一种调整目标检测模型的装置的结构图；
25.图7是根据本技术实施例从原始图片中随机读取的四张图片；
26.图8是根据本技术实施例按照预设顺序将四张图片拼接而成的目标图片。
具体实施方式
27.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
28.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.本技术为了能够有效监控营业厅大厅厅内、门口等多处位置，对公共区域出现的无线路由器设备进行监控，通过对营业厅大厅、大门、无线路由器设备进行检测，实现无死角识别。由于目前市面对于小目标的检测较少，小目标为低于30
×
30的目标，如网线水晶头等，且原始图片数量少，本技术提供了一种调整目标检测模型的方法，该方法可以提高小目标的检测精度，实现大目标的特征泛化。
30.图1是根据本技术实施例的一种调整目标检测模型的设备的结构图，如图1所示，该设备包括：
31.摄像头10，用于采集视频，并依据视频按帧截取得到原始图片；
32.存储器12，用于存储程序指令；
33.处理器14，与存储器12连接，用于执行实现以下功能的程序指令：通过目标检测模型对原始图片进行检测时，获取目标检测模型对应的参数值，其中，目标检测模型用于检测原始图片中物体的位置和分类；从对原始图片进行几何变换后得到的图片数据集中，获取
预设数量的图片，并按照预设顺序将预设数量的图片拼接成目标图片，其中，几何变换包括以下至少之一：翻转、旋转、缩放、裁剪、变形；获取通过聚类算法得到的目标图片的先验框，将原始图片和先验框对应的目标图片混合形成图片集，将图片集输入目标检测模型，并对目标检测模型进行迁移学习，得到改进的目标检测模型；依据目标检测模型对应的参数值调整改进的目标检测模型的参数值，其中，参数为目标检测模型中全连接层的参数值和卷积层的参数值。
34.上述目标检测模型可以是神经网络模型，该神经网络模型可以包括卷积层、全连接层等。
35.为提高对目标识别的精准度，在依据视频按帧截取得到原始图片后，需要对原始图片进行预处理，包括：计算原始图片中任意两张图片的相似度，当计算出的相似度大于预设阈值时，认为两张图片为高相似度图片，删除两张图片中的任意一张图片，减少识别量；当计算出的相似度小于预设阈值时，认为两张图片为低相似度图片或不相似图片，两张图片均保留，其中，预设阈值在0和1之间。
36.在确定两张图片间的相似度，对原始图片进行删除或保留后，预处理还包括：去除原始图片的噪声，保留原始图片的边缘信息；并对原始图片进行锐化处理和灰度化处理。
37.对原始图片进行预处理后，再对原始图片进行以下至少之一的操作，包括：翻转、旋转、裁剪、变形、缩放等，由进行上述操作后的图片以及原始图片组成采集的数据集，通过对原始图片进行上述操作，可以扩大数据集，如可以将数据集扩大到原来的8倍。
38.对数据集中的图片进行mosaic数据增强，mosaic数据增强是在原有的cutmix数据增强方法的基础上提出的新的数据增强方法，理论上和cutmix数据增强方法类似，都是删除图片中的一部分区域中的信息，并随机填充数据集中其他图片的区域像素值，分类结果按一定比例分配。从数据集中获取预设数量的图片，该预设数量的图片可以是数据集中的任意四张图片，对四张图片进行翻转、缩放等操作，以及对四张图片进行明亮度、饱和度和色调等的调整，并按照预设顺序将四张图片拼接成目标图片，在bn计算时同时计算四张图片的数据，可以丰富检测图片的背景，其中，预设顺序为：从预设数量的四张图片中任取一张图片作为第一张图片，将预设数量的四张图片中除第一张图片以外的其他三张图片按照逆时针的方向依次拼接到第一张图片的正下方、右下方和右方的区域，拼接后得到目标图片，目标图片中有用于标记目标对象的图框。
39.由于数据集中的物体大小不一，并且本技术中截取的原始图片是镜头固定所得到的，即摄像头的位置是固定不变的，在这种情况下，使用聚类算法得到目标图片的先验框，可以增强预测框尺度的适应性。聚类算法得到目标图片的先验框具体包括如下步骤：
40.对于图片集中的任意一张图片，从图片中随机选取目标数量的聚类中心，其中，聚类中心为有预设尺寸的图框；如可以从1至9中任取一个数字作为聚类中心的数量，假设取数字5作为目标数量，则聚类中心的数量为5，聚类中心不是一个点，而是有宽和高的矩形图框，聚类中心的大小是预先设置好尺寸的，如可以设为5
×
5像素的矩形框，不同的聚类中心在图片中的位置不同，聚类中心的位置是随机选取的。
41.计算标注框到每个聚类中心的距离，将标注框归到标注框与聚类中心距离最小的聚类中心所在的类，其中，标注框为图片中有不同预设尺寸的图框，标注框的尺寸是预先设置的；如标注框可以为5
×
10，10
×
10等不同的尺寸，计算标注框到每个聚类中心的距离，包
括：计算标注框与每个聚类中心的重合度；根据重合度计算标注框到每个聚类中心的距离。用iou表示标注框与聚类中心的重合度，计算1与iou的差值，该差值即为标注框到聚类中心的距离。
42.重新计算每个聚类的聚类中心的尺寸，直到聚类中心的尺寸不发生变化，将聚类中心的尺寸作为先验框的尺寸，其中，聚类中心的尺寸依据聚类中所有标注框的尺寸确定，包括：获取属于每个聚类中心所在类的所有标注框的宽和高的值；对每个类中所有标注框的宽和高各自求和；将每个类中所有标注框的宽的和除以该类中所有标注框的个数得到该聚类中心的宽的值；将每个类中所有标注框的高的和除以该类中标注框的个数得到该聚类中心的高的值；计算出的宽和高为新的聚类中心的尺寸。如聚类1中有a、b、c三个标注框，a的尺寸为6
×
9，b的尺寸为9
×
6，c的尺寸为3
×
3，则聚类1的聚类中心的宽为(6 9 3)/3＝6，聚类1的聚类中心的高为(9 6 3)/3＝6，聚类1的新的聚类中心的尺寸为6
×
6，第一个数字表示尺寸的宽，第二个数字表示尺寸的高。
43.在上述运行环境下，本技术实施例提供了一种调整目标检测模型的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
44.图2是根据本技术实施例的一种调整目标检测模型的方法的流程图，如图2所示，该方法包括如下步骤：
45.步骤s202，通过目标检测模型对原始图片进行检测时，获取目标检测模型对应的参数值，其中，目标检测模型用于检测原始图片中物体的位置和分类；
46.步骤s204，从对原始图片进行几何变换后得到的图片数据集中，获取预设数量的图片，并按照预设顺序将预设数量的图片拼接成目标图片，其中，几何变换包括以下至少之一：翻转、旋转、缩放、裁剪、变形；
47.步骤s206，获取通过聚类算法得到的目标图片的先验框，将原始图片和先验框对应的目标图片混合形成图片集，将图片集输入目标检测模型，并对目标检测模型进行迁移学习，得到改进的目标检测模型；
48.步骤s208，依据目标检测模型对应的参数值调整改进的目标检测模型的参数值，其中，目标检测模型可以是神经网络模型，该神经网络模型可以包括卷积层、全连接层等，参数值为目标检测模型中全连接层的参数值和卷积层的参数值。
49.通过上述步骤，先获取目标检测模型对原始图片进行检测时对应的参数值，对原始图片进行几何变换，并按照预设顺序将预设数量的图片拼接成目标图片，获取通过聚类算法得到的目标图片的先验框，将原始图片和先验框对应的目标图片混合形成图片集，将图片集输入目标检测模型，并对目标检测模型进行迁移学习，得到改进的目标检测模型；依据目标检测模型对应的参数值调整改进的目标检测模型的参数值，达到了只需提供少量的图片，就能达到较高精度的目的，从而实现了减少识别量，快速提取目标对象特征的技术效果，进而解决了无法有效识别低精度小目标技术问题。
50.可选地，在步骤s202中，通过目标检测模型对原始图片进行检测，得到原始图片的准确度和损失度，在计算交叉熵损失函数时，交叉熵输出的是正确标签的似然对数，和准确率有一定的关系，但是取值范围更大。交叉熵损失函数用于分类问题中，交叉熵损失公式：
[0051][0052]
其中y^(i)为预测值，y(i)为真实标签，可以看出交叉嫡损失只关心对正确类别的预测概率。为简化演示，这里假设原始图片中只有一个类别。当有n个原始图片的训练样本时，交叉熵损失函数为：
[0053][0054]
在分类问题中，准确率的定义简单粗暴，就是看预测的类别是否和真实的类别一致。在分类任务中，对于一个n类任务，输出就是一个n维的向量，向量每一个位置就代表了一种类别，对应位置的值就代表预测的目标属于该类的概率，比如猫狗的分类，输出向量为[0.3，0.7]，就表示输入的图属于猫的概率为0.3，属于狗的为0.7。在输出预测结果时，取概率最大的索引所对应的标签作为最终预测的结果标签。其中，预测准确的数量与数据总量的比值就是准确率。
[0055]
可选地，在步骤s204中，对原始图片进行几何变换之前，方法还包括：计算原始图片中任意两张图片的相似度，删除相似度大于预设阈值的两张图片中的任意一张图片；去除原始图片的噪声，保留原始图片的边缘信息；对原始图片进行锐化处理和灰度化处理。
[0056]
在计算原始图片中任意两张图片的相似度时，当计算出的相似度大于预设阈值时，认为两张图片为高相似度图片，删除两张图片中的任意一张图片，减少识别量；当计算出的相似度小于预设阈值时，认为两张图片为低相似度图片或不相似图片，两张图片均保留，其中，预设阈值在0和1之间。
[0057]
对原始图片进行预处理后，再对原始图片进行以下至少之一的操作，包括：翻转、旋转、裁剪、变形、缩放等，由进行上述操作后的图片以及原始图片组成采集的数据集，通过对原始图片进行上述操作，可以扩大数据集，如可以将数据集扩大到原来的8倍。
[0058]
对数据集中的图片进行mosaic数据增强，mosaic数据增强是在原有的cutmix数据增强方法的基础上提出的新的数据增强方法，理论上和cutmix数据增强方法类似，都是删除图片中的一部分区域中的信息，并随机填充数据集中其他图片的区域像素值，分类结果按一定比例分配。从数据集中获取预设数量的图片，该预设数量的图片可以是数据集中的任意四张图片，对四张图片进行翻转、缩放等操作，在bn计算时同时计算四张图片的数据，可以丰富检测图片的背景。
[0059]
可选地，在步骤s204中，按照预设顺序将预设数量的图片拼接成目标图片之前，方法还包括：对预设数量的图片进行以下至少之一的操作：对明亮度、饱和度和色调进行调整。
[0060]
可选地，在步骤s204中，按照预设顺序将预设数量的图片拼接成目标图片，预设顺序为：从预设数量的图片中任取一张图片作为第一张图片，将预设数量的图片中除第一张图片以外的其他图片按照逆时针的方向依次拼接到第一张图片的正下方、右下方和右方的区域，拼接后得到目标图片，目标图片中有用于标记目标对象的图框。
[0061]
可选地，由于数据集中的物体大小不一，并且本技术中截取的原始图片是镜头固定所得到的，即摄像头的位置是固定不变的，在这种情况下，在步骤s206中，通过聚类算法得到的目标图片的先验框，其中，聚类算法为k-means聚类算法，如图3所示的通过聚类算法
获取目标图片的先验框的流程图，具体包括如下步骤：
[0062]
步骤s302，对于图片集中的任意一张图片，从图片中随机选取目标数量的聚类中心，其中，聚类中心为有预设尺寸的图框；如可以从1至9中任取一个数字作为聚类中心的数量，假设取数字5作为目标数量，则聚类中心的数量为5，聚类中心不是一个点，而是有宽和高的矩形图框，聚类中心的大小是预先设置好尺寸的，如可以设为5
×
5像素的矩形框，不同的聚类中心在图片中的位置不同，聚类中心的位置是随机选取的；
[0063]
步骤s304，计算标注框到每个聚类中心的距离，将标注框归到标注框与聚类中心距离最小的聚类中心所在的类，其中，标注框为图片中有不同预设尺寸的图框，标注框的尺寸是预先设置的；如标注框可以为5
×
10，10
×
10等不同的尺寸，计算标注框到每个聚类中心的距离，包括：计算标注框与每个聚类中心的重合度；根据重合度计算标注框到每个聚类中心的距离。用iou表示标注框与聚类中心的重合度，计算1与iou的差值，该差值即为标注框到聚类中心的距离；
[0064]
步骤s306，重新计算每个聚类的聚类中心的尺寸，直到聚类中心的尺寸不发生变化，将聚类中心的尺寸作为先验框的尺寸，其中，聚类中心的尺寸依据聚类中所有标注框的尺寸确定。
[0065]
在步骤s304中，计算标注框到每个聚类中心的距离，如图4a所示，具体包括如下步骤：
[0066]
步骤s402，计算标注框与每个聚类中心的重合度；
[0067]
步骤s404，根据重合度计算标注框到每个聚类中心的距离。
[0068]
在步骤s402至步骤s404中，用iou表示标注框与聚类中心的重合度，计算1与iou的差值，该差值即为标注框到聚类中心的距离。
[0069]
图4b为iou与聚类中心k的关系，如图4b所示，随着k的的逐渐变大，iou的变化越来越平稳，所以选择9个聚类中心进行计算时得到的聚类效果最好。
[0070]
在步骤s306中，聚类中心的尺寸依据聚类中所有标注框的尺寸确定，如图5所示，包括如下步骤：
[0071]
步骤s502，获取属于每个聚类中心所在类的所有标注框的宽和高的值；
[0072]
步骤s504，对每个类中所有标注框的宽和高各自求和；
[0073]
步骤s506，将每个类中所有标注框的宽的和除以该类中所有标注框的个数得到该聚类中心的宽的值；
[0074]
步骤s508，将每个类中所有标注框的高的和除以该类中标注框的个数得到该聚类中心的高的值，计算出的宽和高为新的聚类中心的尺寸。
[0075]
在步骤s502至步骤s508中，通过以下例子进行说明，如聚类1中有a、b、c三个标注框，a的尺寸为6
×
9，b的尺寸为9
×
6，c的尺寸为3
×
3，则聚类1的聚类中心的宽为(6 9 3)/3＝6，聚类1的聚类中心的高为(9 6 3)/3＝6，聚类1的新的聚类中心的尺寸为6
×
6，第一个数字表示尺寸的宽，第二个数字表示尺寸的高。
[0076]
在步骤s208中，改进的目标检测模型采用权值剪枝算法，该方法根据每个神经元的l1绝对值的权重值参数大小进行排序之后，将低于预设阈值的权重参数全部置为0，其中，预设阈值的范围是0至1之间，也就意味着对应网络的神经元进入休眠状态，不进行参数更新和后续计算，通过权重剪枝算法，可以减少文件的大小和导出的时间。
[0077]
通过步骤s202至步骤s208得到的改进的目标检测模型，可以对公共区域的设备进行识别，如果识别出无线路由器为非公司内部的路由器，则判定该无线路由器所处的位置不符合规范；改进的目标检测模型还可以通过对大厅和大门进行特征识别，判定图片中是否包含大厅或大门等范围，如果图片中不包含大厅或大门的特征，则认为摄像头存在遮挡或损坏，需要上报相关组织和机构更换相关路由器。
[0078]
改进的目标检测模型还可用于判断图片中的软件页面是否为安全软件，对采集的图片划分正负样本，正样本中的数据为需要识别的安全软件，负样本中的数据为安全软件所处的背景图，通过svm进行二分类，识别出图片中的软件是否为安全软件。
[0079]
图6是根据本技术实施例的一种调整目标检测模型的装置的结构图，如图6所示，该装置包括：
[0080]
采集模块60，用于采集原始图片；
[0081]
获取模块62，用于通过目标检测模型对原始图片进行检测时，获取目标检测模型对应的参数值，其中，目标检测模型用于检测原始图片中物体的位置和分类；从对原始图片进行几何变换后得到的图片数据集中，获取预设数量的图片，并按照预设顺序将预设数量的图片拼接成目标图片，其中，几何变换包括以下至少之一：翻转、旋转、缩放、裁剪、变形；
[0082]
处理模块64，用于获取通过聚类算法得到的目标图片的先验框，将原始图片和先验框对应的目标图片混合形成图片集，将图片集输入目标检测模型，并对目标检测模型进行迁移学习，得到改进的目标检测模型；依据目标检测模型对应的参数值调整改进的目标检测模型的参数值，其中，目标检测模型可以是神经网络模型，该神经网络模型可以包括卷积层、全连接层等，参数值为目标检测模型中全连接层的参数值和卷积层的参数值。
[0083]
为提高对目标识别的精准度，在依据视频按帧截取得到原始图片后，需要对原始图片进行预处理，包括：计算原始图片中任意两张图片的相似度，当计算出的相似度大于预设阈值时，认为两张图片为高相似度图片，删除两张图片中的任意一张图片，减少识别量；当计算出的相似度小于预设阈值时，认为两张图片为低相似度图片或不相似图片，两张图片均保留，其中，预设阈值在0和1之间。
[0084]
在确定两张图片间的相似度，对原始图片进行删除或保留后，预处理还包括：去除原始图片的噪声，保留原始图片的边缘信息；并对原始图片进行锐化处理和灰度化处理。
[0085]
对原始图片进行预处理后，再对原始图片进行以下至少之一的操作，包括：翻转、旋转、裁剪、变形、缩放等，由进行上述操作后的图片以及原始图片组成采集的数据集，通过对原始图片进行上述操作，可以扩大数据集，如可以将数据集扩大到原来的8倍。
[0086]
对数据集中的图片进行mosaic数据增强，mosaic数据增强是在原有的cutmix数据增强方法的基础上提出的新的数据增强方法，理论上和cutmix数据增强方法类似，都是删除图片中的一部分区域中的信息，并随机填充数据集中其他图片的区域像素值，分类结果按一定比例分配。从数据集中获取预设数量的图片，该预设数量的图片可以是数据集中的任意四张图片，对四张图片进行翻转、缩放等操作，以及对四张图片进行明亮度、饱和度和色调等的调整，并按照预设顺序将四张图片拼接成目标图片，在bn计算时同时计算四张图片的数据，可以丰富检测图片的背景，其中，预设顺序为：从预设数量的四张图片中任取一张图片作为第一张图片，将预设数量的四张图片中除第一张图片以外的其他三张图片按照逆时针的方向依次拼接到第一张图片的正下方、右下方和右方的区域，拼接后得到目标图
片，目标图片中有用于标记目标对象的图框。
[0087]
由于数据集中的物体大小不一，并且本技术中截取的原始图片是镜头固定所得到的，即摄像头的位置是固定不变的，在这种情况下，使用聚类算法得到目标图片的先验框，可以增强预测框尺度的适应性。聚类算法得到目标图片的先验框具体包括如下步骤：
[0088]
对于图片集中的任意一张图片，从图片中随机选取目标数量的聚类中心，其中，聚类中心为有预设尺寸的图框；如可以从1至9中任取一个数字作为聚类中心的数量，假设取数字5作为目标数量，则聚类中心的数量为5，聚类中心不是一个点，而是有宽和高的矩形图框，聚类中心的大小是预先设置好尺寸的，如可以设为5
×
5像素的矩形框，不同的聚类中心在图片中的位置不同，聚类中心的位置是随机选取的。
[0089]
计算标注框到每个聚类中心的距离，将标注框归到标注框与聚类中心距离最小的聚类中心所在的类，其中，标注框为图片中有不同预设尺寸的图框，标注框的尺寸是预先设置的；如标注框可以为5
×
10，10
×
10等不同的尺寸，计算标注框到每个聚类中心的距离，包括：计算标注框与每个聚类中心的重合度；根据重合度计算标注框到每个聚类中心的距离。用iou表示标注框与聚类中心的重合度，计算1与iou的差值，该差值即为标注框到聚类中心的距离。
[0090]
重新计算每个聚类的聚类中心的尺寸，直到聚类中心的尺寸不发生变化，将聚类中心的尺寸作为先验框的尺寸，其中，聚类中心的尺寸依据聚类中所有标注框的尺寸确定，包括：获取属于每个聚类中心所在类的所有标注框的宽和高的值；对每个类中所有标注框的宽和高各自求和；将每个类中所有标注框的宽的和除以该类中所有标注框的个数得到该聚类中心的宽的值；将每个类中所有标注框的高的和除以该类中标注框的个数得到该聚类中心的高的值；计算出的宽和高为新的聚类中心的尺寸。如聚类1中有a、b、c三个标注框，a的尺寸为6
×
9，b的尺寸为9
×
6，c的尺寸为3
×
3，则聚类1的聚类中心的宽为(6 9 3)/3＝6，聚类1的聚类中心的高为(9 6 3)/3＝6，聚类1的新的聚类中心的尺寸为6
×
6，第一个数字表示尺寸的宽，第二个数字表示尺寸的高。
[0091]
需要说明的是，图6所示的一种调整目标检测模型的装置用于执行图2-5所示的调整目标检测模型的方法，因此上述调整目标检测模型的方法中的相关解释说明也适用于该调整目标检测模型的装置，此处不再赘述。
[0092]
本技术实施例还提供了一种非易失性存储介质，该非易失性存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下调整目标检测模型的方法：
[0093]
通过目标检测模型对原始图片进行检测时，获取目标检测模型对应的参数值，其中，目标检测模型用于检测原始图片中物体的位置和分类；
[0094]
从对原始图片进行几何变换后得到的图片数据集中，获取预设数量的图片，并按照预设顺序将预设数量的图片拼接成目标图片，其中，几何变换包括以下至少之一：翻转、旋转、缩放、裁剪、变形；
[0095]
获取通过聚类算法得到的目标图片的先验框，将原始图片和先验框对应的目标图片混合形成图片集，将图片集输入目标检测模型，并对目标检测模型进行迁移学习，得到改进的目标检测模型；
[0096]
依据目标检测模型对应的参数值调整改进的目标检测模型的参数值，其中，目标检测模型可以是神经网络模型，该神经网络模型可以包括卷积层、全连接层等，参数值为目
标检测模型中全连接层的参数值和卷积层的参数值。
[0097]
为提高对目标识别的精准度，在依据视频按帧截取得到原始图片后，需要对原始图片进行预处理，包括：计算原始图片中任意两张图片的相似度，当计算出的相似度大于预设阈值时，认为两张图片为高相似度图片，删除两张图片中的任意一张图片，减少识别量；当计算出的相似度小于预设阈值时，认为两张图片为低相似度图片或不相似图片，两张图片均保留，其中，预设阈值在0和1之间。
[0098]
在确定两张图片间的相似度，对原始图片进行删除或保留后，预处理还包括：去除原始图片的噪声，保留原始图片的边缘信息；并对原始图片进行锐化处理和灰度化处理。
[0099]
对原始图片进行预处理后，再对原始图片进行以下至少之一的操作，包括：翻转、旋转、裁剪、变形、缩放等，由进行上述操作后的图片以及原始图片组成采集的数据集，通过对原始图片进行上述操作，可以扩大数据集，如可以将数据集扩大到原来的8倍。
[0100]
对数据集中的图片进行mosaic数据增强，mosaic数据增强是在原有的cutmix数据增强方法的基础上提出的新的数据增强方法，理论上和cutmix数据增强方法类似，都是删除图片中的一部分区域中的信息，并随机填充数据集中其他图片的区域像素值，分类结果按一定比例分配。从数据集中获取预设数量的图片，该预设数量的图片可以是数据集中的任意四张图片，对四张图片进行翻转、缩放等操作，以及对四张图片进行明亮度、饱和度和色调等的调整，并按照预设顺序将四张图片拼接成目标图片，在bn计算时同时计算四张图片的数据，可以丰富检测图片的背景，其中，预设顺序为：从预设数量的四张图片中任取一张图片作为第一张图片，将预设数量的四张图片中除第一张图片以外的其他三张图片按照逆时针的方向依次拼接到第一张图片的正下方、右下方和右方的区域，拼接后得到目标图片，目标图片中有用于标记目标对象的图框。
[0101]
由于数据集中的物体大小不一，并且本技术中截取的原始图片是镜头固定所得到的，即摄像头的位置是固定不变的，在这种情况下，使用聚类算法得到目标图片的先验框，可以增强预测框尺度的适应性。聚类算法得到目标图片的先验框具体包括如下步骤：
[0102]
对于图片集中的任意一张图片，从图片中随机选取目标数量的聚类中心，其中，聚类中心为有预设尺寸的图框；如可以从1至9中任取一个数字作为聚类中心的数量，假设取数字5作为目标数量，则聚类中心的数量为5，聚类中心不是一个点，而是有宽和高的矩形图框，聚类中心的大小是预先设置好尺寸的，如可以设为5
×
5像素的矩形框，不同的聚类中心在图片中的位置不同，聚类中心的位置是随机选取的。
[0103]
计算标注框到每个聚类中心的距离，将标注框归到标注框与聚类中心距离最小的聚类中心所在的类，其中，标注框为图片中有不同预设尺寸的图框，标注框的尺寸是预先设置的；如标注框可以为5
×
10，10
×
10等不同的尺寸，计算标注框到每个聚类中心的距离，包括：计算标注框与每个聚类中心的重合度；根据重合度计算标注框到每个聚类中心的距离。用iou表示标注框与聚类中心的重合度，计算1与iou的差值，该差值即为标注框到聚类中心的距离。
[0104]
重新计算每个聚类的聚类中心的尺寸，直到聚类中心的尺寸不发生变化，将聚类中心的尺寸作为先验框的尺寸，其中，聚类中心的尺寸依据聚类中所有标注框的尺寸确定，包括：获取属于每个聚类中心所在类的所有标注框的宽和高的值；对每个类中所有标注框的宽和高各自求和；将每个类中所有标注框的宽的和除以该类中所有标注框的个数得到该
聚类中心的宽的值；将每个类中所有标注框的高的和除以该类中标注框的个数得到该聚类中心的高的值；计算出的宽和高为新的聚类中心的尺寸。如聚类1中有a、b、c三个标注框，a的尺寸为6
×
9，b的尺寸为9
×
6，c的尺寸为3
×
3，则聚类1的聚类中心的宽为(6 9 3)/3＝6，聚类1的聚类中心的高为(9 6 3)/3＝6，聚类1的新的聚类中心的尺寸为6
×
6，第一个数字表示尺寸的宽，第二个数字表示尺寸的高。
[0105]
图7中的(a)-(d)为从原始图片中获取的预设数量的四张图片，对四张图片进行翻转、缩放等操作，以及对四张图片进行明亮度、饱和度和色调等的调整后，按照预设顺序将四张图片拼接，得到图8所示的目标图片，其中，目标图片中有用于标记目标对象的图框，预设顺序为：从预设数量的四张图片中任取一张图片作为第一张图片，将预设数量的四张图片中除第一张图片以外的其他三张图片按照逆时针的方向依次拼接到第一张图片的正下方、右下方和右方的区域，拼接后得到目标图片。
[0106]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0107]
在本技术的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0108]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0109]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0110]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0111]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0112]
以上所述仅是本技术的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种虚拟角色的处理方法、装置及存储介质与流程

调整目标检测模型的方法、装置和设备与流程

相关文献

最热文献