一种物体识别方法、装置、服务器及计算机可读存储介质与流程

2022-03-16 00:03:28 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其涉及一种物体识别方法、装置、服务器及计算机可读存储介质。

背景技术：

2.目前，为了精确识别图像中对应的目标物体，可以采用实例分割mask-rcnn技术，该技术可以精确对图像中的目标物体进行识别，但该技术只针对图片进行处理，并不能对视频进行识别。而长短期记忆网络(long short-term memory，lstm)技术可以实现对视频中的目标物体进行识别，但该技术的实现对图片帧的处理依赖上一帧图片，只能逐帧图片进行处理，大大影响视频中物体识别的效率。因此，如何提高对视频中物体识别的效率是目前需要解决的问题。

技术实现要素：

3.本发明实施例提供了一种物体识别方法、装置、服务器及计算机可读存储介质，从而可以并行处理视频数据包括的多帧图片，提高对视频中物体识别的效率。
4.本发明实施例第一方面提供了一种物体识别方法，包括：
5.获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合，所述特征映射集合用于指示所述每帧图片包括的物体的特征，所述n为大于或等于1的整数；
6.根据所述每帧图片的特征映射集合与记录的参考特征映射集合确定所述n帧图片的目标卷积集合和所述每帧图片中的物体的辅助数据，所述辅助数据用于指示所述物体在图片中对应的图像区域，所述参考特征映射集合为处理的前一批n帧图片的卷积集合，所述参考特征映射集合用于指示所述物体的形态特征；
7.将所述物体的辅助数据与所述目标卷积集合进行分类回归处理，得到所述n帧图片中包括的各个物体的类别指示数据和对应的位置数据。
8.本发明实施例第二方面提供了一种物体识别装置，包括：
9.获取模块，用于获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合，所述特征映射集合用于指示所述每帧图片包括的物体的特征，所述n为大于或等于1的整数；
10.确定模块，用于根据所述每帧图片的特征映射集合与记录的参考特征映射集合确定所述n帧图片的目标卷积集合和所述每帧图片中的物体的辅助数据，所述辅助数据用于指示所述物体在图片中对应的图像区域，所述参考特征映射集合为处理的前一批n帧图片的卷积集合，所述参考特征映射集合用于指示所述物体的形态特征；
11.处理模块，用于将所述物体的辅助数据与所述目标卷积集合进行分类回归处理，得到所述n帧图片中包括的各个物体的类别指示数据和对应的位置数据。
12.本发明实施例第三方面提供了一种服务器，包括处理器、网络接口和存储装置，所述处理器、所述网络接口和所述存储装置相互连接，其中，所述网络接口受所述处理器的控
制用于收发数据，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面所述的物体识别方法。
13.本发明实施例第四方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，该程序指令被执行时，用于实现上述第一方面所述的物体识别方法
14.本发明实施例第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的物体识别方法。
15.在本发明实施例中，服务器获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合，并根据每帧图片的特征映射集合与记录的参考特征映射集合确定n帧图片的目标卷积集合和每帧图片中的物体的辅助数据，该辅助数据用于指示物体在图片中对应的图像区域，该参考特征映射集合为处理的前一批n帧图片的卷积集合，该参考特征映射集合用于指示所述物体的形态特征，进而将物体的辅助数据与目标卷积集合进行分类回归处理，得到n帧图片中包括的各个物体的类别指示数据和对应的位置数据，从而可以并行对视频中的多帧图片的物体进行识别，提高了对视频中物体识别的效率。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.图1a是本发明实施例提供的一种实例分割mask-rcnn的结构示意图；
18.图1b是本发明实施例提供的一种lstm的结构示意图；
19.图2是本发明实施例提供的一种物体识别模型的结构示意图；
20.图3是本发明实施例提供的一种物体识别方法的流程示意图；
21.图4a是本发明实施例提供的输入的一帧图片的示意图；
22.图4b是本发明实施例提供的输入的另一帧图片的示意图；
23.图5是本发明实施例提供的另一种物体识别方法的流程示意图；
24.图6是本发明实施例提供的一种物体识别装置的结构示意图；
25.图7是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
26.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
27.目前，针对图像中的物体识别和视频中的物体识别分别采用实例分割mask-rcnn技术和lstm技术，利用该实例分割mask-rcnn技术对图像中的物体识别的过程如图1a所示，将每帧图片通过骨架网络，卷积核、候选集网络、分类回归等处理，从而实现对图像中的物
体识别，其中分类回归可以是语义分割、边框预测以及分类，但是该技术无法用于对视频中的物体识别。而利用该lstm技术可以实现对视频中的物体识别的过程，该物体识别过程如图1b所示，每次输入一帧图片，对该帧图片进行嵌入层embedding处理之后，并通过各个隐层和全连接层的处理，最终通过分类处理可以实现对视频中的物体识别，但是从图1b中可以看出，每帧图片处理的时候需要依赖上一隐层的处理结果，才能进行下一隐层的处理，例如，隐层12的处理需要依赖隐层11的处理结果，因此在对视频中的物体识别时，必须一帧图片一帧图片进行识别，从而导致对视频的物体识别效率低下。
28.基于上述实例分割mask-rcnn技术和lstm技术的缺陷，本发明实施例提供一种物体识别方法，能够并行对视频中包括的多帧图片进行处理，从而实现对视频中物体的识别，提高了物体识别的效率。在具体实现中，可以先获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合，并根据每帧图片的特征映射集合与记录的参考特征映射集合确定n帧图片的目标卷积集合和每帧图片中的物体的辅助数据，并将物体的辅助数据与目标卷积集合进行分类回归处理，得到n帧图片中包括的各个物体的类别指示数据和对应的位置数据。其中，辅助数据用于指示该物体在图片中对应的图像区域，该参考特征映射集合为处理的前一批n帧图片的卷积集合，该参考特征映射集合用于指示该物体的形态特征。
29.请参阅图2，图2为本发明实施例提供的一种物体识别模型的结构示意图。该物体识别模型可以是修改后的mask-rcnn模型，如图2所示，该物体识别模型包括输入模块201、骨架网络202、处理模块203，训练模块204，其中：
30.输入模块201可以获取采集的视频数据包括的n帧图片，并将该n帧图片并行输入骨架网络202中，骨架网络202可以对输入的n帧图片进行处理操作，从而得到n帧图片中每帧图片的特征映射集合，处理模块203可以对n帧图片进行计算，得到每帧图片的权重，以确定每帧图片中对应的物体特征的重要性，进一步地，处理模块203还可以确定每帧图片的特征向量集合与前一批的n帧图片的参考特征映射集合进行相似度计算，并得到每帧图片的相似度，根据每帧图片的相似度确定每帧图片的权重，将每帧图片的权重与每帧图片的特征映射集合进行加权平均，从而得到平均特征映射集合，该平均特征映射集合也可称为卷积集合，并将该卷积集合保存并作为下一批的n帧图片的参考特征映射集合。训练模块204可以将卷积集合放入候选集网络进行训练，以及分类回归，进而得到该n帧图片中物体的类别指示数据和对应的位置数据。
31.请参阅图3，图3为本发明实施例提供的一种物体识别方法的流程示意图。本实施例中所描述的物体识别方法，该方法可由服务器执行，该服务器可以执行上述物体识别模型中的任意一个模块，包括：
32.301、获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合。
33.其中，特征映射集合用于指示每帧图片包括的物体的特征，n为大于或等于1的整数，特征映射集合可以是指多维数组嵌套的集合，如三维数组嵌套的集合，该多维数组嵌套的集合中的数值可以用于指示每帧图片包括的物体的特征。或者，该每帧图片的特征映射集合包括物体的特征向量，该特征向量用于指示每帧图片中包括的物体的特征。
34.在一种可行的实施例中，上述n帧图片可以是从采集的视频数据中获取的未经过处理的n帧图片，或者上述n帧图片可以是服务器先从采集的视频数据中获取未处理的n帧图片，并对未处理的n帧图片进行预处理得到的。
35.在一种可行的实施例中，服务器采集视频数据，并将该视频数据分成原始的n帧图片，对原始n帧图片中的每帧图片进行预处理，从而得到视频数据包括的n帧图片，其中，该预处理包括对原始每帧图片进行灰度处理以及经过灰度处理后的每帧图片的大小进行填充处理。其中，将该视频数据分成原始n帧图片可以根据用户需求进行设置，例如可以将视频数据分成30帧图片。
36.在一种可行的实施例中，服务器可以获取采集视频数据包括的n帧图片，并将n帧图片输入骨架网络依次进行卷积、池化、激活等操作，进而得到n帧图片中每帧图片的特征映射集合。
37.302、根据每帧图片的特征映射集合与记录的参考特征映射集合确定n帧图片的目标卷积集合和每帧图片中的物体的辅助数据。
38.其中，该辅助数据用于指示物体在图片中对应的图像区域，该参考特征映射集合为处理的前一批n帧图片的卷积集合，该参考特征映射集合用于指示物体的形态特征，例如，该物体可以是猪，则参考特征映射集合用于指示猪的形态特征。
39.具体的，服务器根据每帧图片的特征映射集合和处理的前一批n帧图片的卷积集合确定出目标卷积集合，以及将目标卷积集合在候选集网络中进行训练，确定出每帧图片中的物体的辅助数据。可以理解的是，将目标卷积集合在候选集网络中进行训练，可以去除每帧图片中的背景数据以及物体多余的候选框数据，从而确定出每帧图片中的物体的辅助数据。
40.在一种可行的实施例中，若服务器第一次获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合，则上述记录的参考特征映射集合可以预先设置数值，例如，该参考特征映射集合可以设置为1。
41.在一种可行的实施例中，服务器根据每帧图片的特征映射集合与记录的参考特征映射集合确定n帧图片的目标卷积集合的实现方式可以是：将每帧图片的特征映射集合与记录的的参考特征映射集合确定出每帧图片与参考特征映射集合的相似度，在确定出每帧图片的相似度后，根据每帧图片的相似度确定出每帧图片的权重，并根据每帧图片的权重与每帧图片的特征映射集合确定出目标卷积集合。
42.303、将物体的辅助数据与目标卷积集合进行分类回归处理，得到n帧图片中包括的各个物体的类别指示数据和对应的位置数据。
43.其中，各个物体的类别指示数据可以预先设置的，例如，各个物体的类别指示数据可以是在每帧图片进行框选各个物体时就进行设置，在框选物体时设置用数字代表猪或者人，如数字1表示猪等等，或者各个物体的类别指示数据可以是各个物体的轮廓信息。该位置数据是指该物体处于的某个位置，可以用坐标进行表示。
44.在一种可行的实施例中，服务器获取两帧图片，分别为图4a和图4b，经过上述物体识别模型和物体识别方法进行处理，可以实现对猪只的识别，从而提高对视频中物体识别的效率，该输出结果为：
45.类别指示数据:[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1],1代表目标识别为猪。表示识别出23头猪。
[0046]
猪的坐标位置信息：[[1233 480 1331 724],[312 462 461 626],[144 772 268 935],[682 74 796 207],[528 228 670 321],[380 286 529 407],[749 158 817 326],
[338 294 418 462],[274 469 359 648],[438 139 560 206],[798 126 984 201],[1045 7 1098 117],[994 0 1051 107],[775 15 886 90],[1190 4 1271 76],[873 18 971 98],[357 185 459 276],[515 34 637 83],[547 83 625 150],[634 43 696 123],[938 110 1077 169],[421 199 527 285],[1124 10 1180 103]]
[0047]
其中，[1233 480 1331 724]，表示其中一头猪的两个坐标位置(左上角坐标和右下角坐标)，即，y1,x1,y2,x2。
[0048]
在本发明实施例中，服务器获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合，并根据每帧图片的特征映射集合与记录的参考特征映射集合确定n帧图片的目标卷积集合和每帧图片中的物体的辅助数据，该辅助数据用于指示物体在图片中对应的图像区域，该参考特征映射集合为处理的前一批n帧图片的卷积集合，该参考特征映射集合用于指示物体的形态特征，进而将物体的辅助数据与目标卷积集合进行分类回归处理，得到n帧图片中包括的各个物体的类别指示数据和对应的位置数据，从而可以并行对视频中的多帧图片的物体进行识别，提高了对视频中物体识别的效率。
[0049]
请参阅图5，图5为本发明实施例提供的另一种物体识别方法的流程示意图。本实施例中所描述的物体识别方法，该方法可由服务器执行，该服务器可以执行上述物体识别模型中的任意一个模块，包括：
[0050]
501、获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合。
[0051]
在一种可行的实施例中，服务器获取采集的视频数据包括的n帧图片，将n帧图片中每帧图片输入骨架网络进行卷积、池化和激活处理，从而得到每帧图片的特征映射集合。
[0052]
在一种可行的实施例中，若该n帧图片中的每帧图片是经过预处理得到的，则服务器获取采集的视频数据包括的n帧图片之前，将采集的视频数据分成原始的n帧图片，并对该原始n帧图片中每帧图片进行预先处理，在具体实现中，将原始的每帧图片进行灰度处理，其中，该原始每帧图片中的像素点的灰度计算公式如式1.1：
[0053]
f(i,j)＝(r(i,j) g(i,j) b(i,j))/3
ꢀꢀꢀꢀꢀꢀꢀ
式1.1
[0054]
其中，f(i,j)表示像素点的灰度，r(i,j)表示红颜色通道的变化、g(i,j)表示绿颜色通道的变化、b(i,j)表示蓝颜色通道的变化。
[0055]
在一种可行的实施例中，在对原始的n帧图片中的每张图片进行灰度处理之后，得到灰度处理后的n帧图片，服务器将每帧图片对应的灰度图的大小进行填充处理，以使得物体识别模型适应不同大小的图片。在具体实现中，服务器获取采集的视频数据包括的n帧图片(即上述灰度处理后的n帧图片)的最大长度和最大宽度，并确定该最大长度和该最大宽度中的最大值，并将该最大值作为填充数值，从而得到填充数值，并根据该填充数值对n帧图片中的每帧图片的大小进行填充处理，可以理解的是，根据该填充数值对n帧图片中的每帧图片的大小进行填充处理，可以将每帧图片填充为同一尺寸大小的图片。例如，服务器获取采集的视频数据包括的n帧图片的最大长度为a和最大宽度为b，如最大宽度a大于宽度b，则确定出最大值为a，并将a作为填充数值，则填充后的n帧图片大小相同。
[0056]
在一种可行的实施例中，进一步地，服务器在得到填充数值之后，可以根据该填充数值确定对每帧图片的填充规则。在具体实现中，对于n帧图片中的目标图片，服务器根据目标图片的长度和宽度计算目标图片对应的图片缩放倍数，服务器判断目标图片的长度和宽度中的较大值与图片缩放倍数的乘积是否大于填充数值，若目标图片的长度和宽度中的
较大值与图片缩放倍数的乘积大于填充数值，则调整图片缩放倍数，并按照调整后的图片缩放倍数对目标图片的大小进行填充处理；若目标图片的长度和宽度中的较大值与图片缩放倍数的乘积小于或等于填充数值，则按照图片缩放倍数对目标图片的大小进行填充处理，其中，该目标图片为n帧图片中的任意一帧图片。
[0057]
例如，以得到的填充数值为a为例，针对n帧图片中的目标图片，该目标图片的真实宽用h表示，该目标图片的长用w表示，服务器计算目标图片的缩放倍数，该缩放倍数用scale表示，该缩放倍数scale＝max(1,b/min(h,w))，b为上述最大宽度，服务器判断该目标图片的长度w和宽度h中的较大值与缩放倍数的乘积大于填充数值a，即max(h,w)*scale》a，则调整图片缩放倍数，即调整图片的缩放倍数表示为scale’＝a/max(h,w)，得到目标图片处理后的宽h’＝h*scale’，目标图片处理后的长w’＝w*scale’，从而实现根据调整后的图片缩放倍数对目标图片的大小进行填充处理。
[0058]
在一种可行的实施例中，服务器按照调整后的图片缩放倍数对目标图片的大小进行填充处理的具体实现方式：针对目标图片的顶部、底部、左部和右部分别进行填充，目标图片的顶部填充的值＝int((填充数值a
–
目标图片处理后的宽h’)/2)，目标图片的底部填充的值＝填充数值a-目标图片处理后的宽h
’-
顶部填充的值，目标图片的左部填充的值＝int((填充数值a
–
目标图片处理后的长w’)/2)，目标图片的右部填充的值＝填充数值a-目标图片处理后的长w
’-
左部填充的值，其中，int表示取整，去掉小数点。
[0059]
需要说明的是，上述灰度处理后的n帧图片与上述采集的视频数据包括的n帧图片中物体的特征未发生变化，仅仅只是为了图片填充后，以使得物体识别模型适应不同大小的图片。
[0060]
502、获取记录的参考特征映射集合。
[0061]
其中，该参考特征映射集合为处理的前一批n帧图片的卷积集合，参考特征映射集合用于指示物体的形态特征。在本发明申请中，这里的形态特征是指能够代表该物体的主要特征。
[0062]
503、根据每帧图片的特征映射集合与参考特征映射集合确定每帧图片的权重。
[0063]
具体的，服务器将每帧图片的特征映射集合与参考特征映射集合进行相似度计算，并根据得到的每帧图片的相似度确定每帧图片的权重。
[0064]
在一种可行的实施例中，服务器将每帧图片的特征映射集合与参考特征映射集合进行相似度计算，得到每帧图片的特征映射集合与参考特征映射集合之间的相似度，并根据每帧图片对应的相似度确定每帧图片的权重。其中，每帧图片的特征映射集合可以用ai表示，参考特征映射集合可以用b表示，将每帧图片的特征映射集合ai分别与参考特征映射集合b进行相似度计算，得到每帧图片的特征映射集合ai分别与参考特征映射集合b的相似度，该相似度计算如式1.2：
[0065]
similarityi(ai,b)＝(ai*bi)/||ai||*||b||
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式1.2
[0066]
在一种可行的实施例中，在得到每帧图片的特征映射集合ai分别与参考特征映射集合b的相似度之后，服务器对上述每帧图片的特征映射集合ai分别与参考特征映射集合b的相似度进行归一化，从而得到每帧图片的权重，该每帧图片的权重计算如式1.3：
[0067][0068]
其中，softmax()为归一化函数，sum()为求和函数。
[0069]
504、根据每帧图片的权重和特征映射集合确定n帧图片的目标卷积集合。
[0070]
具体的，服务器根据每帧图片的权重和特征映射集合进行加权平均，得到n帧图片的目标卷积集合。
[0071]
在一种可行的实施例中，服务器对每帧图片的权重和特征映射集合进行加权处理，得到n帧图片的总特征映射集合，对n帧图片的总特征映射集合进行取平均处理，得到n帧图片的目标卷积集合。其中，上述每帧图片的权重用wi表示，每帧图片的特征映射集合用xi表示，该目标卷积集合用c表示，则n帧图片的目标卷积集合计算公式如式1.4：
[0072]
c＝sum(wi*xi)/i
ꢀꢀꢀꢀꢀ
式1.4
[0073]
在一种可行的实施例中，服务器在确定n帧图片的目标卷积积集合之后，服务器将利用目标卷积集合对参考特征映射集合进行更新。在具体实现中，服务器将得到的目标卷积集合作为参考特征映射集合，以方面确定下一批n帧图片对应的卷积集合。
[0074]
在一种可行的实施例中，服务器第一次获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合之后，服务器需要根据n帧图片中每帧图片的特征映射集合与记录的参考特征映射集合确定目标卷积集合，由于此时还未有参考特征映射集合，因此在初始数据训练时，可以预先设置参考特征映射集合，一般可以将参考特征映射集合设置为1。
[0075]
505、利用候选集网络对目标卷积集合进行数据处理，得到每帧图片中的物体的辅助数据。
[0076]
具体的，服务器利用候选集网络对目标卷积集合进行第一次的数据处理，将每帧图片中的背景数据以及物体多余的候选框数据去掉，从而得到每帧图片中的物体的辅助数据，该辅助数据用于指示物体在图片中对应的图像区域。
[0077]
506、将物体的辅助数据与目标卷积集合进行分类回归处理，得到n帧图片中包括的各个物体的类别指示数据和对应的位置数据。
[0078]
具体的，服务器在得到每帧图片中的物体的辅助数据后进行二次处理，将物体的辅助数据与目标卷积集合进行分类回归处理，得到n帧图片中包括的各个物体的类别指示数据和对应的位置数据。通过二次处理，可以更加比较准确地对物体进行识别。
[0079]
在本发明实施例中，服务器获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合和记录的参考特征映射集合，并根据每帧图片的特征映射集合与参考特征映射集合确定每帧图片的权重，进而根据每帧图片的权重和特征映射集合确定n帧图片的目标卷积集合，并利用候选集网络对目标卷积集合进行数据处理，得到每帧图片中的物体的辅助数据，进而将物体的辅助数据与目标卷积集合进行分类回归处理，得到n帧图片中包括的各个物体的类别指示数据和对应的位置数据，从而可以并行对视频中的多帧图片的物体进行识别，提高了对视频中物体识别的效率。
[0080]
请参阅图6，为本发明实施例提供的一种物体识别装置的结构示意图。本实施例中所描述的物体识别装置，可由服务器执行，包括：
[0081]
获取模块601，用于获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合，所述特征映射集合用于指示所述每帧图片包括的物体的特征，所述n为大于或等于1的整数；
[0082]
确定模块602，用于根据所述每帧图片的特征映射集合与记录的参考特征映射集合确定所述n帧图片的目标卷积集合和所述每帧图片中的物体的辅助数据，所述辅助数据
用于指示所述物体在图片中对应的图像区域，所述参考特征映射集合为处理的前一批n帧图片的卷积集合，所述参考特征映射集合用于指示所述物体的形态特征；
[0083]
处理模块603，用于将所述物体的辅助数据与所述目标卷积集合进行分类回归处理，得到所述n帧图片中包括的各个物体的类别指示数据和对应的位置数据。
[0084]
在一种可行的实施例中，所述确定模块602，具体用于：
[0085]
获取记录的参考特征映射集合；
[0086]
根据所述每帧图片的特征映射集合与所述参考特征映射集合确定所述每帧图片的权重；
[0087]
根据所述每帧图片的权重和特征映射集合确定所述n帧图片的目标卷积集合；
[0088]
利用候选集网络对所述目标卷积集合进行数据处理，得到所述每帧图片中的物体的辅助数据。
[0089]
在一种可行的实施例中，所述确定模块602，具体用于：
[0090]
将所述每帧图片的特征映射集合与所述参考特征映射集合进行相似度计算，得到所述每帧图片的特征映射集合与所述参考特征映射集合之间的相似度；
[0091]
根据所述每帧图片对应的相似度确定所述每帧图片的权重。
[0092]
在一种可行的实施例中，所述确定模块602，具体用于：
[0093]
对所述每帧图片的权重和特征映射集合进行加权处理，得到所述n帧图片的总特征映射集合；
[0094]
对所述n帧图片的总特征映射集合进行取平均处理，得到所述n帧图片的目标卷积集合。
[0095]
在一种可行的实施例中，所述处理模块603，还用于：
[0096]
利用所述目标卷积集合对所述参考特征映射集合进行更新。
[0097]
在一种可行的实施例中，所述获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合之前，所述装置还包括：填充模块604，其中：
[0098]
所述获取模块601，还用于获取采集的视频数据包括的n帧图片的最大长度和最大宽度；
[0099]
所述确定模块602，还用于确定所述最大长度和所述最大宽度中的最大值，得到填充数值；
[0100]
所述填充模块604，用于根据所述填充数值对所述n帧图片中的每帧图片的大小进行填充处理。
[0101]
在一种可行的实施例中，所述填充模块604，具体用于：
[0102]
对于所述n帧图片中的目标图片，根据所述目标图片的长度和宽度计算所述目标图片对应的图片缩放倍数，所述目标图片为所述n帧图片中的任意一帧图片；
[0103]
若所述目标图片的长度和宽度中的较大值与所述图片缩放倍数的乘积大于所述填充数值，则调整所述图片缩放倍数，并按照调整后的图片缩放倍数对所述目标图片的大小进行填充处理；
[0104]
若所述目标图片的长度和宽度中的较大值与所述图片缩放倍数的乘积小于或等于所述填充数值，则按照所述图片缩放倍数对所述目标图片的大小进行填充处理。
[0105]
在一种可行的实施例中，所述获取模块601，具体用于：
[0106]
获取采集的视频数据包括的n帧图片；
[0107]
将所述n帧图片中每帧图片输入骨架网络进行卷积、池化和激活处理，以得到所述每帧图片的特征映射集合。
[0108]
可以理解的是，本实施例的物体识别装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例图3或者图5的相关描述，此处不再赘述。
[0109]
请参见图7，为本发明实施例提供的一种服务器的结构示意图。本实施例中所描述的服务器，包括：处理器701、网络接口702及存储器703。其中，处理器701、网络接口702及存储器703可通过总线或其他方式连接，本发明实施例以通过总线连接为例。
[0110]
其中，处理器701(或称中央处理器(central processing unit，cpu))是服务器的计算核心以及控制核心。网络接口702可选的可以包括标准的有线接口、无线接口(如wi-fi、移动通信接口等)，受处理器701的控制用于收发数据。存储器703(memory)是服务器的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器703可以是高速ram存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器701的存储装置。存储器703提供存储空间，该存储空间存储了服务器的操作系统和可执行程序代码，可包括但不限于：windows系统(一种操作系统)、linux(一种操作系统)系统等等，本发明对此并不作限定。
[0111]
在本发明实施例中，处理器701通过运行存储器703中的可执行程序代码，执行如下操作：
[0112]
获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合，所述特征映射集合用于指示所述每帧图片包括的物体的特征，所述n为大于或等于1的整数；
[0113]
根据所述每帧图片的特征映射集合与记录的参考特征映射集合确定所述n帧图片的目标卷积集合和所述每帧图片中的物体的辅助数据，所述辅助数据用于指示所述物体在图片中对应的图像区域，所述参考特征映射集合为处理的前一批n帧图片的卷积集合，所述参考特征映射集合用于指示所述物体的形态特征；
[0114]
将所述物体的辅助数据与所述目标卷积集合进行分类回归处理，得到所述n帧图片中包括的各个物体的类别指示数据和对应的位置数据。
[0115]
在一种可行的实施例中，所述处理器701，具体用于：
[0116]
获取记录的参考特征映射集合；
[0117]
根据所述每帧图片的特征映射集合与所述参考特征映射集合确定所述每帧图片的权重；
[0118]
根据所述每帧图片的权重和特征映射集合确定所述n帧图片的目标卷积集合；
[0119]
利用候选集网络对所述目标卷积集合进行数据处理，得到所述每帧图片中的物体的辅助数据。
[0120]
在一种可行的实施例中，所述处理器701，具体用于：
[0121]
将所述每帧图片的特征映射集合与所述参考特征映射集合进行相似度计算，得到所述每帧图片的特征映射集合与所述参考特征映射集合之间的相似度；
[0122]
根据所述每帧图片对应的相似度确定所述每帧图片的权重。
[0123]
在一种可行的实施例中，所述处理器701，具体用于：
[0124]
对所述每帧图片的权重和特征映射集合进行加权处理，得到所述n帧图片的总特征映射集合；
[0125]
对所述n帧图片的总特征映射集合进行取平均处理，得到所述n帧图片的目标卷积集合。
[0126]
在一种可行的实施例中，所述处理器701，还用于：
[0127]
利用所述目标卷积集合对所述参考特征映射集合进行更新。
[0128]
在一种可行的实施例中，所述处理器701获取采集的视频数据包括的n帧图片中每帧图片的特征映射集合之前，还用于：
[0129]
获取采集的视频数据包括的n帧图片的最大长度和最大宽度；
[0130]
确定所述最大长度和所述最大宽度中的最大值，得到填充数值；
[0131]
根据所述填充数值对所述n帧图片中的每帧图片的大小进行填充处理。
[0132]
在一种可行的实施例中，所述处理器701，具体用于：
[0133]
对于所述n帧图片中的目标图片，根据所述目标图片的长度和宽度计算所述目标图片对应的图片缩放倍数，所述目标图片为所述n帧图片中的任意一帧图片；
[0134]
若所述目标图片的长度和宽度中的较大值与所述图片缩放倍数的乘积大于所述填充数值，则调整所述图片缩放倍数，并按照调整后的图片缩放倍数对所述目标图片的大小进行填充处理；
[0135]
若所述目标图片的长度和宽度中的较大值与所述图片缩放倍数的乘积小于或等于所述填充数值，则按照所述图片缩放倍数对所述目标图片的大小进行填充处理。
[0136]
在一种可行的实施例中，所述处理器701，具体用于：
[0137]
获取采集的视频数据包括的n帧图片；
[0138]
将所述n帧图片中每帧图片输入骨架网络进行卷积、池化和激活处理，以得到所述每帧图片的特征映射集合。
[0139]
具体实现中，本发明实施例中所描述的处理器701、网络接口702及存储器703可执行本发明实施例提供的一种物体识别方法的流程中所描述的实现方式，也可执行本发明实施例提供的一种物体识别装置中所描述的实现方式，在此不再赘述。
[0140]
本发明实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，可执行上述物体识别实施例中所执行的步骤。
[0141]
本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述物体识别实施例中所执行的步骤。
[0142]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0143]
以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权
利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：手写数字识别方法、系统、设备及计算机可读存储介质与流程

一种物体识别方法、装置、服务器及计算机可读存储介质与流程

相关文献

最热文献