轻量级多分支和多尺度人员重识别的制作方法

2022-06-22 22:18:16 来源：中国专利 TAG：

轻量级多分支和多尺度人员重识别

背景技术：

1.多个相机可被用于捕捉场景中的活动。随后对捕捉的图像的处理使得终端用户能够观看场景，并且在整个场景中在完全360度的运动范围上移动。例如，多个相机可被用于捕捉体育比赛，并且终端用户可以在整个比赛区域中自由移动。终端用户也可以从虚拟相机观看比赛。
附图说明
2.图1是多选手跟踪系统的框图；
3.图2是从捕捉自单个相机视图的帧中提取的限界框的图示；
4.图3是在时间戳t处从多个相机捕捉的限界框的图示；
5.图4是用于重识别的轻量级多分支多尺度模型的结构的框图；
6.图5是瓶颈和细化块的结构的框图；
7.图6是通道级关注机制的图示；
8.图7是选手的图示；
9.图8是实现轻量级多分支和多尺度(lmbms)重识别的方法的过程流程图；
10.图9是图示出实现轻量级多分支和多尺度重识别的计算设备的框图；并且
11.图10是示出计算机可读介质的框图，该介质存储了用于实现轻量级多分支和多尺度重识别的代码。
12.相同的数字在本公开和附图各处始终被用于提及相似的组件和特征。100系列的数字指代最初出现于图1中的特征；200系列的数字指代最初出现于图2b中的特征；等等依此类推。
具体实施方式
13.体育赛事和其他竞赛经常被广播，供终端用户娱乐。这些比赛可被以各种格式渲染。例如，比赛可以被渲染为二维视频或三维视频。可以使用定位在整个比赛区域周围的一个或多个高分辨率相机来捕捉比赛。多个相机可以捕捉包括比赛区域在内的整个三维体积空间。在实施例中，相机系统可包括多个超高分辨率相机来进行体积捕捉。终端用户可以通过被呈现以表示三维体积空间的图像的序列来观看比赛的动作并且在捕捉的体积中自由移动。此外，终端用户可以从虚拟相机观看比赛，该虚拟相机通过在三维体积空间中跟随球或特定选手来跟随区域内的动作。就本文使用的而言，比赛区域是被正式标记来进行比赛的空间部分。在示例中，比赛区域可以是场地、球场或者用于进行比赛的其他地面。
14.使用多个高分辨率相机捕捉体育赛事将实时地为每场比赛创建三维(3d)场景，这为终端用户带来了沉浸式的交互式体验。为了从任何角度重放激动人心的时刻，可以控制虚拟相机遵循特定的路径，以便提供沉浸式用户体验。控制虚拟相机的路径的核心组件是一种基于多相机(multi-camera)的多选手跟踪算法，该算法被用于跟踪比赛区域内的每个选手。在基于多相机的多选手跟踪中，选手重识别(player re-identification，re-id)将
同一选手在由同一相机捕捉的各帧间关联起来。多相机关联组件可以在来自不同相机的帧之间找到同一选手。
15.本技术实现了轻量级多分支和多尺度(lightweight multi-branch and multi-scale，lmbms)重识别。可以通过确定查询人员的身份在由同一相机捕捉的帧之间以及在同一时间从多个相机捕捉的帧之间的对应关系来重识别人员。从而，重识别可被用于单相机人员跟踪和多视图关联中。本技术包括考虑局部信息、采用多尺度融合并且生成动态特征的重识别。
16.局部信息可以是从卷积神经网络的浅层中提取的局部特征。多分支结构被构建来实现人员re-id中的多尺度融合。此外，部署了通道级关注机制，以生成鲁棒的动态特征。根据本技术的lmbms模型实现了性能和速度的良好平衡。为了便于描述，使用体育赛事作为场景并且使用选手作为被重识别的人员来描述本技术。然而，本技术可适用于在其中重识别任何人员或物体的任何场景。
17.由于若干个原因，当被应用于体育赛事时，人员re-id尤其具有挑战性。首先，同一球队的选手在比赛过程期间穿着几乎相同的球衣。此外，在许多体育运动中，选手与其他选手发生身体接触的极端交互是非常常见的。当与现有的re-id数据集相比较时，体育赛事中的极端交互和其他问题，例如姿势、遮挡等等，更加明显。传统的解决方案侧重于统一的、抽象的和全局的信息，因此在体育应用中不能很好地发挥作用，从而无法解决上述问题。本技术的带有多分支和多尺度卷积神经网络的轻量级人员re-id模型解决了这些挑战。为了便于描述，使用篮球来描述本技术。然而，本技术可适用于任何场景和任何体育运动，例如橄榄球、足球，等等。
18.图1是多选手跟踪系统100的框图。多选手跟踪系统100包括多个单选手跟踪模块102和一多视图关联模块104。具体地，多选手跟踪系统100包括单选手跟踪模块102a...102n，其中有n个相机，并且每个单选手跟踪模块对应于一个相机。在实施例中，相机系统可包括具有5120x3072分辨率的一个或多个物理相机，它们被配置为捕捉比赛区域。相机的数目可以被选择来确保整个比赛区域被至少三个相机所捕捉。多个相机以各种姿态捕捉实时视频流。多个相机可以按每秒30帧(fps)捕捉比赛区域。在不同场景中，选择的相机的数目可能是不同的。例如，取决于比赛区域周围的结构，使用不同数目的相机，每个位置可由至少三个相机捕捉。
19.在实施例中，基于多相机的选手跟踪过程将选手的身份与选手的位置解耦。如图所示，每个单选手跟踪模块102a...102n获得各自的流106a...106n。每个流可以是视频，该视频包含由相机捕捉的多个图像或帧。对于每个单选手跟踪模块102a...102n，多个检测块108a...108n检测单个相机视图中的同一选手。在实施例中，选手检测在由每个相机捕捉的每个解码帧上执行，以生成二维(2d)图像中的所有选手位置。每个选手的位置可以由限界框来定义。对于检测块108a...108n的每一者，确定孤立的限界框，这些限界框定义每个选手在与每个单相机视图相对应的流中的位置。多个跟踪块110a...110n在流106a...106n中跟踪在块108a...108n处检测到的每个选手。在实施例中，选手跟踪是经由基于位置的跟踪模块来执行的。单相机多物体跟踪算法对于每个相机中的连续帧跟踪所有选手。
20.每个相机的单相机选手跟踪结果被输入到多视图关联模块104中。通过多视图关联可以在3d空间中获得多个选手跟踪结果，以在多个相机间连接同一选手。多视图关联模
块104在帧级别执行来在所有相机视图间关联在每个相机视图中识别的选手。因此，多视图关联模块104使用来自多个相机的时间戳t处的选手的限界框来得出该选手在比赛区域中的位置。该位置可以是捕捉的体积空间中的二维或三维位置。具体地，多视图关联模块104通过来自相机系统的每个相机的re-id特征，将相同选手的多个相机视图中的限界框关联起来。
21.换句话说，多视图关联模块104识别在每个相机视图中跟踪的同一选手。在实施例中，使用投影矩阵为每个选手计算3d位置。在实施例中，投影矩阵是相机参数。投影矩阵使得能够使用来自多个相机的图像坐标来生成相应的三维位置。投影矩阵将时间戳t处的来自多个相机中的选手的二维坐标映射到所捕捉的场景的三维体积空间内的三维位置。
22.通过使用从高分辨率相机获得的图像，本技术能够使终端用户沉浸在体育赛事或比赛的三维重现中。在实施例中，终端用户能够从比赛区域内的任何一点观看比赛过程。终端用户还能够在比赛区域内的任何一点观看完整的360
°
的比赛。从而，在实施例中，终端用户可以从任何选手的视角来体验比赛过程。可以经由体积捕捉方法来捕捉比赛。例如，可以使用多个5k超高清相机来记录比赛画面，这些相机捕捉数据点的高度、宽度和深度以产生体素(具有体积的像素)。从而，根据本技术的相机系统可包括多个超高分辨率相机来捕捉整个比赛区域。在捕捉比赛内容之后，大量的数据被处理，并且完全体积化的三维人员或物体的所有视点被重现。这个信息可被用于以多视角三维格式渲染虚拟环境，这使得用户能够从任何角度和视角体验捕捉的场景，并且能提供真正的六个自由度。在比赛区域中前进的能力使得终端用户能够“看到”与选手在实时比赛过程期间看到的相同的视图。本技术还能够通过在主动比赛过程期间随时准确定位选手来实现比赛故事讲述、助理教练、教练、战略制定、选手评估和选手分析。如本文所述的重识别可被应用于在单相机跟踪期间来自单个相机的帧。重识别也可被应用于在时间t来自多个相机的帧。从而，在多选手跟踪系统中，选手re-id在单相机选手跟踪和多视图关联中都发挥着重要作用。
23.图1的示意图并不打算表明示例系统要包括图1中所示的所有系统和模块。更确切地说，可以使用图1中没有图示的更少的或额外的相机系统和模块来实现示例系统100。
24.图2是从由单个相机视图捕捉的帧中提取的多个限界框200的图示。在单相机跟踪中，re-id被用来在由同一相机捕捉的帧之间成对地匹配选手。如图2中所示，限界框202、限界框204、限界框206和限界框208是从单个相机在不同时间戳捕捉的帧中提取的。对于由单个相机捕捉的每一对帧，通过确定定义每个选手的位置的孤立边界盒并且随后在边界盒内匹配特征，来检测所有选手。re-id可被用于获得由单个相机捕捉的各帧间的相同选手的限界框的关联。在实施例中，每个选手在由单个相机捕捉的各帧间被指派了唯一标识符。
25.图2的示意图并不打算表明这些帧只限于捕捉单个选手。更确切地说，限界框200是从一帧得出的图像斑块，这可包括多个图像斑块或限界框。可以使用图2中没有图示的任何数目的限界框来实现本技术。
26.图3是在时间戳t处从多个相机捕捉的限界框300的图示。在图3中，图示了比赛区域302。多个相机被定位在比赛区域302周围。具体地，相机02、相机04、相机16和相机20可被用于在时间戳t捕捉多个选手。孤立的限界框304、限界框306、限界框308和限界框310是同一选手的。如图3中所示，通过在同一时间戳t处同一帧中的所有相机间成对地匹配每个选手来在多个相机视图间关联这些限界框。
27.虽然选手re-id在选手跟踪和多视图关联中的具体用法不同，但它们的基本理念是相同的，即，确定一对图像斑块是否是来自任何帧和任何相机的同一选手。因此，本技术通过匹配图像斑块(例如，限界框)中的同一选手，来识别多个帧间的同一选手。传统的re-id解决方案依赖于统一的全局特征和低效的局部特征。一般而言，神经网络的深层被用来产生全局特征，而浅层产生局部特征。传统的模型使用深层生成特征，这可以被称为统一全局特征。由于选手在比赛区域内时穿着相似的球衣并且共享着相似的背景，所以全局特征不能够区分不同的选手，因为他们的全局特征之间的差异很小。此外，传统上全局特征是从卷积神经网络的更深层提取的。这些深层大多包含高级别语义信息，很容易陷入配对差错。此外，传统的解决方案通过将图像划分为若干个独立部分，然后独立总结局部特征，来获得局部特征。由于在提取局部特征时缺乏上下文，局部特征的独立总结会导致差错。此外，在没有任何上下文的情况下提取局部特征，在所有部分的特征被合并时，将会削弱图像的最具鉴别力的部分。特征的鉴别性部分或者鉴别性特征是指那些在限界框内的人之间最有可能不同或者总是不同的特征。
28.根据本技术的轻量级多分支和多尺度(lmbms)重识别提取全局特征和丰富的多尺度多级别局部特征。在实施例中，lmbms模型由三个分支组成。每个分支从骨干网络的不同部分开始。如本文所述，骨干网络可以是18层残余网络(resnet-18)。在每个分支中的若干个细化块之后，在不同尺度和不同级别生成特征。在此之后，来自所有分支的特征被合并。最后，应用通道级关注机制来动态地选择高效的特征。来自识别度高的一些通道的特征被加强，并且来自识别度低的其他通道的特征被削弱。具有高识别度的特征可能是最有鉴别力的特征。因此，本技术可以侧重并且使用图像的最有鉴别力的部分来区分和配对选手。例如，同一球队的两名选手可能看起来是相同的，而从这两名选手提取的特征的最有鉴别力的部分将是球衣号码区域。换句话说，球衣号码区域在同一球队的人之间将很有可能不同或者总是不同的。可以在训练期间从数据集中学习加强和削弱特定通道的能力。图4中描绘了lmbms re-id模型的结构。
29.图3的示意图并不打算表明这些帧只限于捕捉单个选手。更确切地说，限界框300是从一帧得出的图像斑块，这可包括多个图像斑块或限界框。可以使用图3中没有图示的任何数目的限界框来实现本技术。
30.图4是用于重识别的轻量级多分支多尺度模型400的结构的框图。在实施例中，用于重识别的轻量级多分支多尺度模型是神经网络402。如本文所述的卷积网络骨干是18层残余网络(resnet-18)。然而，可以使用任何具有性能和速度的良好平衡的分类模型。如表格1中所示，resnet-18有6个部分，不同的部分具有不同的分辨率，不同的分辨率呈现出不同级别(例如抽象和细节)和不同尺度的特征，其中不同尺度可以指图像的各种大小。
[0031][0032]
表格1
[0033]
如表格1中所示，根据本技术使用的resnet-18的部分包括头部网络(头部网)和四个残余块。因此，对于头部网402，具有64个输出通道和步幅为2的7
×
7卷积层之后是步幅为2的3
×
3最大池化层。每个残余块可以具有如对于图5所述的卷积层的数目。然而，根据本技术的残余块包括额外的平均池化，如对于图5所描述。
[0034]
如表格1中所定义，残余块1包括3
×
3卷积层，其具有64个输出通道并且步幅为4。残余块2包括3
×
3卷积层，其具有128个输出通道并且步幅为4。残余块3包括3
×
3卷积层，其具有256个输出通道并且步幅为4。残余块4包括3
×
3卷积层，其具有512个输出通道并且步幅为4。完全连接层将2d阵列平铺成1d阵列，并且连接所有输入节点和所有输出节点。
[0035]
lmbms re-id模型400使用头部网402、残余块1 406、残余块2 408和残余块3 410来提取特征。对于每个残余块1 406、残余块2 408和残余块3 410，以不同的分辨率利用多个尺度提取多级别特征。根据本技术，当与具有抽象的全局信息的具有更低分辨率的特征相比时，具有更高分辨率的特征包含更详细的局部信息。在实施例中，残留块可被定位成一系列，其中该系列中的第一残余块最靠近头部网。残余块越靠近头部网，残余块就越浅。从而，可以从更靠近头部网的层获得浅特征。残余块在该系列中的位置离头部网越远，残余块就越深。可以从更远离头部网的层获得更深的特征。lmbms re-id模型400从输入到该系列残余块的限界框得出特征，其中当与来自更浅残余块的特征相比时，来自更深残余块的特征具有更高的尺度和更高的分辨率。
[0036]
在实施例中，每个残余块形成lmbms的分支的开始。从每个残余块提取的特征可以被输入到多个细化块。从而，lmbms的每个分支包括一残余块和一个或多个细化块。在实施例中，被应用到从残余块提取的特征的细化块的数目取决于特征的尺度和分辨率。具体地，每个分支中的细化块的数目可以被选择来保证每个分支的输出具有相同的大小。由于每个残余块的输出可能具有不同的输出大小，所以细化块可以为每个分支生成相同大小的输出。如图4中所示，从残余块1 406提取的特征可以被细化块412a、414a和416a处理。从残余块2 408提取的特征可以被细化块412b和414b处理。从残余块3 410提取的特征可以被细化块412c处理。图4中图示的细化块将不同级别的特征统一到同一特征空间中。通道级关注机制418接收并且将来自细化块的特征图谱池化成特征图谱。这些特征可以被重塑并且挤压到序列。就这里使用的而言，挤压到序列可以指将高维阵列平铺到一维序列。然后，输出网络(输出网)可以充当执行1
×
1卷积的输出层。
[0037]
图4的示意图并不打算表明示例系统要包括图4中所示的所有块和模块。更确切地说，可以使用图4中没有图示的更少的或额外的块和模块来实现示例系统400。
[0038]
图5是瓶颈502和细化块504的结构的框图。传统的瓶颈502包括执行1
×
1卷积的层502a，执行3
×
3卷积的层504a，以及执行第二1
×
1卷积的层506a。在执行中，层502a和层506a的功能是减小然后恢复维度，而层504a创建瓶颈，其输入/输出维度比执行的卷积要小。因此，瓶颈502在执行计算上昂贵的3
×
3卷积之前减少输入的通道，并且使用1
×
1卷积将通道恢复回到原始形状。传统瓶颈502的跳过分支包括执行1
×
1卷积的层508a。
[0039]
细化块504包括执行1
×
1卷积的层502b，执行3
×
3卷积的层504b，以及执行第二1
×
1卷积的层506b。细化块504还包括跳过分支中的层508b，其执行1
×
1卷积。与传统的瓶颈502类似，细化块504可以接收任何分辨率的输入特征图谱，并且生成分辨率为一半大小、通道数为四倍的新特征图谱。跳过分支中的额外的平均池化层510抽象出更一般的信息以集中在输入图像的重要的、有鉴别力的区域。如图4中所示，在每个分支中堆叠了不同数目的细化块，这将不同级别的特征统一到同一特征空间中。具体地，lmbms的不同分支可能有不同大小和不同分辨率的特征，并且不在同一特征空间中。为了维持特性特征，每个细化块可以将特征转移到同一特征空间中。
[0040]
图5的示意图并不打算表明细化块504要包括图5中所示的所有卷积和池化。更确切地说，可以使用图5中没有图示的更少的或额外的卷积层和池化来实现示例细化块504。
[0041]
图6是通道级关注机制600的图示。当如图4中所示收集来自所有分支的特征时，通道级关注机制被应用到特征以获得每个特征的权重分布。通道级关注机制可以动态地生成特征，并且具有更高效的特征表达。在通道级关注机制600中，块602执行自适应池化。在自适应池化中，二维(2d)特征图谱被池化成单个值。在块604，单个特征图谱值被重塑并且挤压成序列。从而，高维阵列可以被转换成一维阵列。层606是具有64个输出通道的完全连接层。层608是具有128个输出通道的完全连接层。
[0042]
在两个完全连接卷积层606和608之后，获得128维向量，其中每个维度表示每个通道的重要性。为了获得每个通道的权重，应用了softmax层610。softmax函数被如下应用：
[0043][0044]
softmax层610产生统一权重分布。为了获得最终特征，softmax层610的权重分布输出被乘以原始特征。在实施例中，re-id特征被视为距离度量。当被用于单相机多选手跟踪和多相机关联中时，特征应当在统一空间中被正规化。在实施例中，在最终输出中添加批量正规化。
[0045]
图6的示意图并不打算表明通道级关注机制600要包括图6中所示的所有卷积和池化。更确切地说，可以使用图6中没有图示的更少的或额外的完全连接层和池化来实现示例通道级关注机制600。
[0046]
为了评估体育分析中的lmbms模型，具有包含来自50多个篮球视频的100名选手的20000个图像的数据集被用来训练模型。图7是选手702、704、706和708的图示。选手702、704、706和708的每一者具有不同的大小、姿态、方向和背景。总而言之，每个选手有来自若干个序列中的若干个相机角度的200个图像。90％的数据被用作训练集，其余10％是测试
集。
[0047]
在lmbms模型的训练阶段期间，可以如下提高训练效率。首先，在每个历时中，详细地选择一些具有不同难度的示例。困难的示例是由来自同一球队的不同选手构成的，而容易的示例是来自不同球队的不同选手。其次，每个图像被指派固定的概率，并且可以模拟多于一个选手在限界框中的遮挡情况。最后，考虑到在进行配对时使用特征，对于度量任务组合三元组损失，并且对于分类任务组合交叉熵损失，以指导训练。这些损失可以在训练期间获得良好的分类结果，以及生成适当特征映射函数。三元组损失和交叉熵损失如下：
[0048][0049]
三元组损失
[0050][0051]
交叉熵损失
[0052]
最终损失函数由三元组损失、交叉熵损失和恒定权重构成，该恒定权重平衡了这两种类型的损失。
[0053]
loss
lmbms
＝loss
triplet
αloss
cross-entropy
[0054]
lmbms的损失函数
[0055]
其中α在示范性数据集中是3。
[0056]
本技术在准确性和速度之间保持了良好的平衡。当与传统模型相比时，高准确性保证了该模型能够在有挑战性的情形中获得更准确的识别结果。更重要的是，更少的参数保证了该模型可以实时运行。传统上，人员re-id侧重于分离同一类别中的不同身份，这是从分类任务中延伸出来的。然而，这些传统技术通常是基于resnet-50的更深层的，而resnet-50是分类任务中的基线。resnet-50的更深层有更少的局部信息，这在区分具有几乎相同外观的人时是非常重要的。其次，在具有局部信息的传统技术中，图像被划分成若干部分来进行多尺度特征提取。传统技术在其从相似的背景分离出局部信息时无法实现多尺度融合。最后，传统技术在性能和模型复杂性之间没有良好的平衡。
[0057]
图8是实现轻量级多分支和多尺度(lmbms)重识别的方法800的过程流程图。可以在图1的系统100、图9的计算设备900或者图10的计算机可读介质1000中实现示例方法800。例如，可以使用单选手跟踪模块102、多视图关联模块104、处理单元cpu 902、gpu 908或者处理器1002来实现方法800。
[0058]
在块802，从卷积神经网络的浅层提取局部信息。局部信息可以是从输入到卷积神经网络(例如resnet-18)的图像中提取的局部特征。输入到resnet-18的图像可以是孤立的限界框，这些限界框定义了由多个相机之中的一相机捕捉的单相机视图中的每个选手的位置。限界框可以根据xy坐标由图像内的限界框的位置来描述。限界框的宽度(w)和高度(h)也被给出。
[0059]
在块804，在不同的分辨率下，从提取的局部信息中得出多个尺度的多级别特征。具体地，从残余块1、残余块2和残余块3提取的局部特征可以被输入到一个或多个细化块
中，其中从每个残余块中提取特征是lmbms模型中的分支的开始。从残余块1提取的特征通过三个细化块被处理。在resnet-18中，残余块1接收头部网的输出。从残余块2提取的特征通过两个细化块被处理。在resnet-18中，残余块2接收残余块1的输出。从残余块3提取的特征通过一个细化块被处理。在resnet-18中，残余块3接收残余块2的输出。因此，在每个分支中的若干个细化块之后，在不同尺度和不同级别生成特征。
[0060]
在块806，经由通道级关注机制生成动态特征。通道级关注机制合并了从lmbms模型的每个分支以不同尺度生成的特征。具体地，从在不同尺度和不同级别上生成的特征中选择高效的特征。经由为每个特征得出的权重分布，来自识别度高的一些通道的特征被加强，并且来自识别度低的其他通道的特征被削弱。为了获得每个通道的权重，应用了softmax函数。softmax函数产生统一权重分布。为了获得最终特征，softmax函数的权重分布输出被乘以原始特征。
[0061]
一旦获得特征，就可以执行特征匹配。在单相机re-id中，特征匹配发生在来自单个相机的成对帧之间。在多相机关联中，特征匹配发生在在时间戳t处来自相机系统的不同相机的成对帧之间。在特征匹配中，根据提取的特征，将一个帧中检测到的选手与其他帧中的同一选手进行匹配。以这种方式，如本文所述的re-id甚至在极端遮挡和其他恶劣条件中都能够实现选手识别。
[0062]
这个过程流程图并不打算表明要以任何特定顺序执行示例方法800的块，或者在每一种情况中都要包括所有的块。另外，取决于具体实现方式的细节，在示例方法800内可包括任何数目的未示出的额外块。
[0063]
现在转到图9，示出了图示出实现轻量级多分支和多尺度(lmbms)重识别的计算设备的框图。计算设备900可以是例如膝上型计算机、桌面型计算机、平板计算机、移动设备、或者可穿戴设备，等等。计算设备900可包括被配置为执行存储的指令的中央处理单元(central processing unit，cpu)902，以及存储可被cpu 902执行的指令的存储器设备904。cpu 902可通过总线906耦合到存储器设备904。此外，cpu 902可以是单核处理器、多核处理器、计算集群、或者任何数目的其他配置。此外，计算设备900可包括多于一个cpu 902。在一些示例中，cpu 902可以是具有多核处理器体系结构的片上系统(system-on-chip，soc)。在一些示例中，cpu 902可以是用于图像处理的专用数字信号处理器(digital signal processor，dsp)。存储器设备904可包括随机访问存储器(random access memory，ram)、只读存储器(read only memory，rom)、闪存、或者任何其他适当的存储器系统。例如，存储器设备904可包括动态随机访问存储器(dynamic random-access memory，dram)。
[0064]
计算设备900还可包括视觉处理单元或图形处理单元(graphics processing unit，gpu)908。如图所示，cpu 902可通过总线906耦合到gpu 908。gpu 908可被配置为在计算设备900内执行任何数目的图形操作。例如，gpu 908可被配置为渲染或操纵图形图像、图形帧、视频等等，以被显示给计算设备900的观看者。
[0065]
cpu 902也可通过总线906连接到输入/输出(i/o)设备接口912，该接口被配置为将计算设备900连接到一个或多个i/o设备914。i/o设备914可包括例如键盘和指点设备，其中指点设备可包括触摸板或者触摸屏，等等。i/o设备914可以是计算设备900的内置组件，或者可以是从外部连接到计算设备900的设备。在一些示例中，存储器904可以通过直接存储器访问(direct memory access，dma)与i/o设备914进行通信耦合。
[0066]
cpu 902也可通过总线906链接到显示接口916，该接口被配置为将计算设备900连接到显示设备916。显示设备918可包括作为计算设备900的内置组件的显示屏幕。显示设备918还可包括在计算设备900内部或者从外部连接到计算设备900的计算机监视器、电视或者投影仪，等等。显示设备916还可包括头戴式显示器。
[0067]
计算设备900还包括存储设备920。存储设备920是物理存储器，例如硬盘驱动器、光驱动器、拇指驱动器、驱动器的阵列、固态驱动器、或者这些的任何组合。存储设备920也可包括远程存储驱动器。
[0068]
计算设备900还可包括网络接口控制器(network interface controller，nic)922。nic 922可被配置为通过总线906将计算设备900连接到网络924。网络924可以是广域网(wide area network，wan)、局域网(local area network，lan)或者因特网，等等。在一些示例中，该设备可以通过无线技术与其他设备通信。例如，该设备可以经由无线局域网连接与其他设备通信。在一些示例中，该设备可以经由或类似技术与其他设备连接和通信。
[0069]
计算设备900还包括用于人员识别的轻量级多分支和多尺度(lmbms)重识别模块928。局部信息提取器930可被配置为从输入图像中提取全局特征和丰富的多尺度多级别局部特征。lmbms re-id模块928的分支可以从resnet-18的浅层提取局部特征。多尺度、多级别特征生成器932将一个或多个细化块应用到提取的特征。通道级关注机制932从细化的特征生成动态特征。通道级关注机制合并了从lmbms模型的每个分支以不同尺度生成的特征。一旦获得特征，就可以执行特征匹配。在单相机re-id中，特征匹配发生在来自单个相机的成对帧之间。在多相机中，特征匹配发生在在时间戳t处来自相机系统的不同相机的成对帧之间。
[0070]
图9的框图并不打算表明计算设备900要包括图9中所示的所有组件。更确切地说，计算设备900可包括更少的组件或者图9中没有图示的额外组件，例如，额外的缓冲器、额外的处理器，等等。取决于具体实现方式的细节，计算设备900可包括图9中没有示出的任何数目的额外组件。此外，lmbms re-id模块928、多尺度、多级别特征生成器932和通道级关注机制932的任何功能可以部分或完全地在硬件和/或处理器902中实现。例如，功能可利用专用集成电路来实现，用在处理器902中实现的逻辑来实现，或者在任何其他设备中实现。例如，lmbms re-id模块928的功能可以用专用集成电路、在处理器中实现的逻辑、在专门的图形处理单元(例如gpu 908)中实现的逻辑来实现，或者在任何其他设备中实现。
[0071]
图10是示出计算机可读介质1000的框图，该介质存储了用于实现轻量级多分支和多尺度(lmbms)重识别的代码。计算机可读介质1000可被处理器1002通过计算机总线1004访问。此外，计算机可读介质1000可包括被配置为指挥处理器1002执行本文描述的方法的代码。在一些实施例中，计算机可读介质1000可以是非暂态计算机可读介质。在一些示例中，计算机可读介质1000可以是存储介质。
[0072]
本文论述的各种软件组件可被存储在一个或多个计算机可读介质1000上，如图10中所示。例如，局部信息提取器模块1006、多尺度、多级别特征模块1008和通道级关注模块1010可被存储在计算机可读介质1000上。
[0073]
局部信息提取器模块1006可被配置为从输入图像中提取全局特征和丰富的多尺度多级别局部特征。多尺度、多级别特征模块1008可被配置为将一个或多个细化块应用到
提取的特征。通道级关注模块1010可被配置为提取与锻炼区域内的人相对应的骨骼框架。重复计数模块1012可被配置为从细化的特征生成动态特征。
[0074]
图10的框图并不打算表明计算机可读介质1000要包括图10中所示的所有组件。另外，取决于具体实现方式的细节，计算机可读介质1000可包括图10中没有示出的任何数目的额外组件。
[0075]
示例
[0076]
示例1是一种用于轻量级多分支和多尺度(lmbms)重识别的系统。该系统包括：为人员识别而训练的卷积神经网络，其中，所述卷积神经网络包括一系列残余块，该一系列残余块从所述卷积神经网络的头部网络获得输入；多个细化块，其中，一个或多个细化块取得来自所述一系列残余块之中的一残余块的特征作为输入，其中，所述特征是以不同的尺度和不同的分辨率输入的，并且所述多个细化块的输出是同一特征空间中的多个特征；以及通道级关注机制，用于合并所述多个特征并且生成最终动态特征。
[0077]
示例2包括如示例1所述的系统，包括或不包括可选的特征。在这个示例中，在来自单个相机视图的成对帧之间向所述最终动态特征应用特征匹配，以进行单相机人员重识别。
[0078]
示例3包括如示例1至2中的任何一者所述的系统，包括或不包括可选的特征。在这个示例中，在成对帧之间向所述最终动态特征应用特征匹配，以进行多相机人员重识别，其中每对帧是在时间戳t处来自不同相机视图的。
[0079]
示例4包括如示例1至3中的任何一者所述的系统，包括或不包括可选的特征。在这个示例中，所述系统包括一个或多个相机，所述一个或多个相机捕捉比赛区域内的多个选手；以及人员检测器，所述人员检测器为所述比赛区域内的每个选手得出孤立限界框，其中，所述孤立限界框被输入到所述卷积神经网络以进行人员识别。
[0080]
示例5包括如示例1至4中的任何一者所述的系统，包括或不包括可选的特征。在这个示例中，所述一系列残余块从输入到所述一系列残余块的限界框中得出特征，其中，当与来自更浅残余块的特征相比较时，来自更深残余块的特征处于更高的尺度和更高的分辨率。
[0081]
示例6包括如示例1至5中的任何一者所述的系统，包括或不包括可选的特征。在这个示例中，每个细化块对输入特征执行1
×
1卷积、3
×
3卷积和第二1
×
1卷积，并且将这一系列卷积的结果与在该细化块的跳过分支中应用到所述输入特征的平均池化和另一1
×
1卷积的结果相乘。
[0082]
示例7包括如示例1至6中的任何一者所述的系统，包括或不包括可选的特征。在这个示例中，被应用到从残余块提取的特征的细化块的数目取决于所述特征的尺度和分辨率。
[0083]
示例8包括如示例1至7中的任何一者所述的系统，包括或不包括可选的特征。在这个示例中，通道级关注机制根据softmax函数为每个特征获得权重分布，并且对输入到所述通道级关注机制的特征进行合并以获得所述最终动态特征的128维度向量，其中每个维度表示每个通道的重要性。
[0084]
示例9包括如示例1至8中的任何一者所述的系统，包括或不包括可选的特征。在这个示例中，批量正规化被应用到所述最终动态特征。
[0085]
示例10包括如示例1至9中的任何一者所述的系统，包括或不包括可选的特征。在这个示例中，所述卷积神经网络是利用与度量任务相组合的三元组损失以及用于分类的交叉熵损失来训练的。
[0086]
示例11是一种用于轻量级多分支和多尺度(lmbms)重识别的方法。该方法包括：从输入到为人员识别而训练的卷积神经网络的限界框中提取局部特征，其中，所述卷积神经网络包括一系列残余块，该一系列残余块从所述卷积神经网络的头部网络获得输入；经由所述一系列残余块从提取的局部特征在多个尺度上得出多级别特征，其中，一个或多个细化块取得来自所述一系列残余块之中的每个残余块的特征作为输入并且输出同一特征空间中的多个特征；以及合并所述多个特征以生成最终动态特征。
[0087]
示例12包括如示例11所述的方法，包括或不包括可选的特征。在这个示例中，在来自单个相机视图的成对帧之间向所述最终动态特征应用特征匹配，以进行单相机人员重识别。
[0088]
示例13包括如示例11至12中的任何一者所述的方法。包括或不包括可选的特征。在这个示例中，在成对帧之间向所述最终动态特征应用特征匹配，以进行多相机人员重识别，其中每对帧是在时间戳t处来自不同相机视图的。
[0089]
示例14包括如示例11至13中的任何一者所述的方法。包括或不包括可选的特征。在这个示例中，所述方法包括捕捉比赛区域内的多个选手，并且为所述比赛区域内的每个选手得出孤立限界框，其中，所述孤立限界框被输入到所述卷积神经网络以进行人员识别。
[0090]
示例15包括如示例11至14中的任何一者所述的方法。包括或不包括可选的特征。在这个示例中，所述一系列残余块从输入到所述一系列残余块的限界框中得出特征，其中，当与来自更浅残余块的特征相比较时，来自更深残余块的特征处于更高的尺度和更高的分辨率。
[0091]
示例16包括如示例11至15中的任何一者所述的方法。包括或不包括可选的特征。在这个示例中，每个细化块对输入特征执行1
×
1卷积、3
×
3卷积和第二1
×
1卷积，并且将这一系列卷积的结果与在该细化块的跳过分支中应用到所述输入特征的平均池化和另一1
×
1卷积的结果相乘。
[0092]
示例17包括如示例11至16中的任何一者所述的方法。包括或不包括可选的特征。在这个示例中，被应用到从残余块提取的特征的细化块的数目取决于所述特征的尺度和分辨率。
[0093]
示例18包括如示例11至17中的任何一者所述的方法。包括或不包括可选的特征。在这个示例中，所述方法包括根据softmax函数为每个特征获得权重分布，并且对输入到通道级关注机制的特征进行合并以获得所述动态特征的128维度向量，其中每个维度表示每个通道的重要性。
[0094]
示例19包括如示例11至18中的任何一者所述的方法。包括或不包括可选的特征。在这个示例中，批量正规化被应用到所述最终动态特征。
[0095]
示例20包括如示例11至19中的任何一者所述的方法。包括或不包括可选的特征。在这个示例中，所述卷积神经网络是利用与度量任务相组合的三元组损失以及用于分类的交叉熵损失来训练。
[0096]
示例21是至少一个计算机可读介质，用于实现智能体育馆，所述至少一个计算机
可读介质上存储有指令。所述计算机可读介质包括指令，所述指令指挥处理器从输入到为人员识别而训练的卷积神经网络的限界框中提取局部特征，其中，所述卷积神经网络包括一系列残余块，该一系列残余块从所述卷积神经网络的头部网络获得输入；经由所述一系列残余块从提取的局部特征在多个尺度上得出多级别特征，其中，一个或多个细化块取得来自所述一系列残余块之中的每个残余块的特征作为输入并且输出同一特征空间中的多个特征；以及合并所述多个特征以生成最终动态特征。
[0097]
示例22包括如示例21所述的计算机可读介质，包括或不包括可选的特征。在这个示例中，在来自单个相机视图的成对帧之间向所述最终动态特征应用特征匹配，以进行单相机人员重识别。
[0098]
示例23包括如示例21至22中的任何一者所述的计算机可读介质，包括或不包括可选的特征。在这个示例中，在成对帧之间向所述最终动态特征应用特征匹配，以进行多相机人员重识别，其中每对帧是在时间戳t处来自不同相机视图的。
[0099]
示例24包括如示例21至23中的任何一者所述的计算机可读介质，包括或不包括可选的特征。在这个示例中，所述计算机可读介质包括捕捉比赛区域内的多个选手，并且为所述比赛区域内的每个选手得出孤立限界框，其中，所述孤立限界框被输入到所述卷积神经网络以进行人员识别。
[0100]
示例25包括如示例21至24中的任何一者所述的计算机可读介质，包括或不包括可选的特征。在这个示例中，所述一系列残余块从输入到所述一系列残余块的限界框中得出特征，其中，当与来自更浅残余块的特征相比较时，来自更深残余块的特征处于更高的尺度和更高的分辨率。
[0101]
在一个或多个特定方面中不需要包括本文描述和图示的所有组件、特征、结构、特性，等等。如果说明书陈述例如“可”、“可能”、“可以”或者“能够”包括某一组件、特征、结构或特性，那么并不是要求要包括该特定组件、特征、结构或特性。如果说明书或权利要求提及“一”元素，那么并不意味着只有一个该元素。如果说明书或权利要求提及“一额外”元素，那么并不排除有多于一个该额外元素。
[0102]
要注意，虽然已参考特定实现方式描述了一些方面，但根据一些方面，其他实现方式是可能的。此外，不需要按图示和描述的特定方式来布置附图中图示和/或本文描述的电路元件或其他特征的布置和/或顺序。根据一些方面，许多其他布置是可能的。
[0103]
在附图中示出的每个系统中，元素在一些情况下可各自具有相同的标号或不同的标号以暗示出所表示的元素可以是不同的和/或相似的。然而，元素可以灵活到足以具有不同的实现方式并且与本文示出或描述的一些或所有系统一起工作。附图中示出的各种元素可以是相同或者不同的。哪一个被称为第一元素以及哪一个被称为第二元素，是任意的。
[0104]
要理解，上述示例的细节可在一个或多个方面中的任何地方被使用。例如，也可对本文描述的方法或计算机可读介质的任一者实现上文描述的计算设备的所有可选特征。此外，虽然流程图和/或状态图在本文中可能已被用于描述一些方面，但本技术并不限于这些图或者本文的相应描述。例如，流程不需要按与本文图示和描述的顺序完全相同的顺序移动经过每个图示的方框或状态。
[0105]
本技术不限于本文列出的具体细节。事实上，受益于本公开的本领域技术人员将会明白，在本技术的范围内，可做出不同于前述描述和附图的许多其他变化。因此，限定本
技术的范围的是所附权利要求，包括对其的任何修改。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于移动互联网的财务数据智能采集分析管理系统的制作方法

轻量级多分支和多尺度人员重识别的制作方法

相关文献

最热文献