视频服饰检测方法、装置及设备与流程

2022-09-15 05:12:03 来源：中国专利 TAG：

1.本公开涉及但不限于图像处理技术领域，尤其涉及一种视频服饰检测方法、装置及设备。

背景技术：

2.随着互联网的快速普及以及电子商务的兴起与发展，基于计算机视觉的图像分析技术得到了空前的发展。对于模特以及普通用户拍摄的服饰图片，想获取穿着服饰的描述性信息，比如类别、颜色、纹理、领口等。一般是通过人工的方式对拍摄的服饰图片添加各种属性标签，以基于各种属性标签搜索相关的服饰。由于不同用户对服饰的属性认知不同，难以确定服饰图片中服饰的标准属性，进而难以搜索相关服饰。

技术实现要素：

3.有鉴于此，本公开实施例至少提供一种视频服饰检测方法、装置、设备、存储介质及程序产品。
4.本公开实施例的技术方案是这样实现的：
5.一方面，本公开实施例提供一种视频服饰检测方法，所述方法包括：
6.对待处理视频的多个视频帧进行分区，确定每一所述视频帧对应的分区信息；
7.对每一所述视频帧进行检测，得到每一所述视频帧中目标人物对应的检测结果；所述检测结果包括所述视频帧中所述目标人物的人物信息和所述目标人物对应的服饰信息；
8.基于每一所述视频帧对应的分区信息，对相同分区内的视频帧的检测结果进行校正，得到每一所述视频帧对应的目标检测结果；其中，相同分区内的视频帧对应的目标检测结果针对目标人物的检测结果相同。
9.另一方面，本公开实施例提供一种视频服饰检测装置，所述装置包括：
10.分区模块，用于对待处理视频的多个视频帧进行分区，确定每一所述视频帧对应的分区信息；
11.检测模块，用于对每一所述视频帧进行检测，得到每一所述视频帧中目标人物对应的检测结果；所述检测结果包括所述视频帧中所述目标人物的人物信息和所述目标人物对应的服饰信息；
12.校正模块，用于基于每一所述视频帧对应的分区信息，对相同分区内的视频帧的检测结果进行校正，得到每一所述视频帧对应的目标检测结果；其中，相同分区内的视频帧对应的目标检测结果针对目标人物的检测结果相同。
13.再一方面，本公开实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
14.又一方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，
该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
15.又一方面，本公开实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算机设备中运行时，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
16.又一方面，本公开实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。
17.本公开实施例中，通过对待处理视频的多个视频帧进行分区，在得到分区内每一视频帧的检测结果之后，可以基于分区内各视频帧的检测结果，进行投票统计，得到每一视频帧的目标检测结果，这样，可以是分区内的检测结果趋于稳定，避免一段视频中相同目标人物和同款服饰因为光线、角度等变换产生的检测结果不一致，提升了整体的检测准确度。相比于单帧视频或图像的人物检测和服饰检测，本公开实施例可以接收用户上传的待处理视频，并对多个视频帧进行检测，可以实现更广的推荐范围。
18.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。
附图说明
19.此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。
20.图1为本公开实施例提供的一种视频服饰检测方法的实现流程示意图；
21.图2为本公开实施例提供的一种视频服饰检测方法的实现流程示意图；
22.图3为本公开实施例提供的一种视频服饰检测方法的实现流程示意图；
23.图4为本公开实施例提供的一种视频服饰检测方法的实现流程示意图；
24.图5为本公开实施例提供的一种视频服饰检测方法的实现流程示意图；
25.图6为本公开实施例提供的一种视频服饰检测方法的实现流程示意图；
26.图7是本公开实施例提供的服饰展示界面的一个可选的界面示意图；
27.图8是本公开实施例提供的服饰导购系统的业务流程示意图；
28.图9a是本公开实施例提供的第一检索策略的流程示意图；
29.图9b是本公开实施例提供的第二检索策略的流程示意图；
30.图10是本公开实施例提供的一种服装导购界面的界面示意图；
31.图11为本公开实施例提供的一种视频服饰检测装置的组成结构示意图；
32.图12为本公开实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
33.为了使本公开的目的、技术方案和优点更加清楚，下面结合附图和实施例对本公开的技术方案进一步详细阐述，所描述的实施例不应视为对本公开的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。
34.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可
以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
35.除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开的目的，不是旨在限制本公开。
36.本公开实施例提供一种视频服饰检测方法，该方法可以由计算机设备的处理器执行。其中，计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。
37.图1为本公开实施例提供的一种视频服饰检测方法的实现流程示意图，如图1所示，该方法包括如下步骤s101至步骤s103：
38.步骤s101、对待处理视频的多个视频帧进行分区，确定每一所述视频帧对应的分区信息。
39.在一些实施例中，该多个视频帧可以为该待处理视频中的全部视频帧，也可以是基于预设的抽帧规则，从待处理视频帧中抽取的多个视频帧。其中，该预设的抽帧规则可以是按照预设抽帧频率抽帧，也可以是基于视频帧的图像质量进行抽帧。经过抽帧之后，可以通过该待处理视频的部分视频帧代表整个待处理视频中的人物信息和服饰信息，进而在一定程度上减少了计算量。
40.在一些实施例中，上述对待处理视频的多个视频帧进行分区的方式可以包括：基于该待处理视频对应的多个预设分区点，对该多个视频帧进行分区；其中，该多个预设分区点可以为基于时长(帧数)均匀分布的多个点。在另一些实施例中，该对待处理视频的多个视频帧进行分区的方式还可以包括：所述多个视频帧进行场景识别，确定每一视频帧的场景信息，将场景信息相同的一个视频帧或多个连续的视频帧作为一个分区。
41.其中，每一视频帧的分区信息用于确定该视频帧位于哪一个分区内，一个分区内的视频帧的数量可以为一个，也可以为多个。在该分区内视频帧的数量为多个的情况下，多个视频帧为连续的。
42.步骤s102、对每一所述视频帧进行检测，得到每一所述视频帧中目标人物对应的检测结果；所述检测结果包括所述视频帧中所述目标人物的人物信息和所述目标人物对应的服饰信息。
43.在一些实施例，针对多个视频帧中的每一个视频帧，需要分别对该视频帧进行人物检测，得到该视频帧中目标人物的人物信息。其中，可以提取该视频帧中人物的人物特征，在该人物特征与预设人物特征库中的一个预设人物特征匹配的情况下，将匹配的预设人物特征对应的人物信息作为该视频帧中人物的人物信息。其中，该人物信息还包括目标人物在当前视频帧中的位置信息，即目标人物的检测框信息。
44.在一些实施例，针对多个视频帧中的每一个视频帧，需要分别对该视频帧进行服饰检测，得到该视频帧中目标人物的对应的服饰信息。其中，可以对检测该视频帧中服饰对
应的检测框信息，基于该服饰对应的检测框信息从该视频帧中截取对应的服饰图片；进而，基于该服饰的服饰图片，对该服饰的属性信息进行检测，得到对应的服饰属性，该服饰属性可以为服饰的类别信息。该服饰信息包括服饰的服饰检测框和对应的服饰属性。
45.步骤s103、基于每一所述视频帧对应的分区信息，对相同分区内的视频帧的检测结果进行校正，得到每一所述视频帧对应的目标检测结果；其中，相同分区内的视频帧对应的目标检测结果针对目标人物的检测结果相同。
46.在一些实施例中，考虑到在同一个分区，分区内的各视频帧对应的检测结果应该是统一的，因此，针对每一分区，基于该分区内每一视频帧的分区信息，对该分区内的各个视频帧的检测结果进行校正，得到每一视频帧的目标检测结果。
47.示例性的，在一个分区包括第一视频帧、第二视频帧和第三视频帧共3个视频帧的情况下，若第一视频帧、第二视频帧和第三视频帧分别对应的目标人物的人物信息和服饰信息均相同，则不对各视频帧的检测结果进行变更；若第一视频帧的检测结果包括目标人物a1和服饰b1、第二视频帧的检测结果包括目标人物a1和服饰b2、第三视频帧的检测结果包括目标人物a2和服饰b1，可以看到，该分区内各视频帧中的检测结果存在不同，则需要对分区内的视频帧的检测结果进行校正。
48.在一些实施例中，可以通过统计分区内每一检测结果对应的视频帧数量，将视频数量最多的检测结果确定为该分区内每一视频帧对应的目标检测结果。即统计分区内每一人物信息对应的视频帧数量，将视频数量最多的人物信息确定为该分区内每一视频帧对应的目标人物信息；统计分区内每一服饰信息(服饰类别)对应的视频帧数量，将视频数量最多的服饰信息(服饰类别)确定为该分区内每一视频帧对应的目标服饰信息。
49.在另一些实施例中，可以通过分别确定该分区内每一视频帧的视频帧质量，基于该视频帧质量为对应的视频帧分配投票权重，其中视频帧质量越高投票权重越高。之后，基于各视频帧的检测结果，和每一视频帧的投票权重，得到目标检测结果。
50.本公开实施例中，通过对待处理视频的多个视频帧进行分区，在得到分区内每一视频帧的检测结果之后，可以基于分区内各视频帧的检测结果，进行投票统计，得到每一视频帧的目标检测结果，这样，可以是分区内的检测结果趋于稳定，避免一段视频中相同目标人物和同款服饰因为光线、角度等变换产生的检测结果不一致，提升了整体的检测准确度。相比于单帧视频或图像的人物检测和服饰检测，本公开实施例可以接收用户上传的待处理视频，并对多个视频帧进行检测，可以实现更广的推荐范围。
51.图2是本公开实施例提供的视频服饰检测方法的一个可选的流程示意图，该方法可以由计算机设备的处理器执行。基于图1，图1中的s101可以更新为s201至s203，将结合图2示出的步骤进行说明。
52.步骤s201、获取所述待处理视频对应的多个视频帧。
53.在一些实施例中，该待处理视频可以包括具有时序关系的多个原始视频帧，以帧率为30为例，长度为1秒的待处理视频可以包括30个原始视频帧，上述多个视频帧可以为该待处理视频帧中具有时序关系的多个原始视频帧。
54.在另一些实施例中，为了减少数据计算量，可以基于预设的频率从对该待处理视频进行抽帧处理，得到多个视频帧；即，按照预设的频率从多个原始视频帧中进行抽帧处理，得到多个视频帧。
55.步骤s202、基于每一所述视频帧对应的相邻视频帧集合，确定每一所述视频帧对应的变化类别；所述变化类别用于表征所述视频帧相对于对应的相邻视频帧的变化程度。
56.在一些实施例中，可以通过步骤s2021至步骤s2022实现上述基于每一所述视频帧对应的相邻视频帧集合，确定每一所述视频帧对应的变化类别。
57.步骤s2021、针对每一所述视频帧，将与所述视频帧相邻的至少一个视频帧作为所述视频帧对应的相邻视频帧集合。
58.在一些实施例中，针对每一个视频帧，在对该视频帧进行变化类别的判断过程中，可以获取与该视频帧相邻的至少一个视频帧作为该视频帧对应的相邻视频帧集合。与该视频帧相邻的至少一个视频帧可以均分布于该视频帧之前，也可以均分布于该视频帧之后，还可以分别分布于该视频帧的前后。
59.步骤s2022、将所述视频帧对应的相邻视频帧集合输入训练后的视频分割网络，得到所述视频帧对应的变化类别。
60.在一些实施例中，可以将包括该视频帧的相邻视频帧集合输入至视频分割网络，该视频分割网络可以基于输入的相邻视频帧集合中视频帧之间的变化情况，对该视频帧的变化类别进行预测。
61.其中，该变化类别可以包括表征第一变化程度的第一类别和表征第二变化程度的第二类别，该第二变化程度大于该第一变化程度。示例性的，该第一类别可以为表征该视频帧在该相邻视频帧集合中未发生明显变化的类别；该第二类别可以为表征该视频帧在该相邻视频帧集合中发生明显变化的类别。
62.在一些实施例中，该视频分割模型的训练过程可以包括：获取多个样本视频帧和每一样本视频帧对应的标准类别标签，该标准类别标签可以包括上述第一类别和第二类别；按照预设的滑动窗口中该多个样本视频帧中依次获取样本视频帧集合，并将该样本视频帧集合输入至初始视频分割模型，得到该样本视频帧集合对应的一个预设类别标签，该预设类别标签用于表征该样本视频帧集合的中间视频帧的变化类别；基于得到的预设类别标签和标准类别标签，确定损失值，并基于该损失值对初始视频分割模型的模型参数进行调整，直至模型收敛，将训练后的初始视频分割模型确定为该训练后的视频分割网络，
63.步骤s203、基于每一所述视频帧对应的变化类别，对所述多个视频帧进行划分，得到每一视频帧对应的分区信息。
64.在一些实施例中，所述变化类别包括表征第一变化程度的第一类别和表征第二变化程度的第二类别。相应地，可以通过步骤s2031至步骤s2032实现上述基于每一所述视频帧对应的变化类别，对所述多个视频帧进行划分，得到每一视频帧对应的分区信息。
65.步骤s2031、基于所述多个视频帧对应的时序关系，对每一所述变化类别对应的视频帧进行聚类，得到至少一个视频帧集合；所述视频帧集合中包括一个视频帧或连续的至少两个视频帧，且所述连续的至少两个视频帧具有相同的变化类别。
66.在一些实施例中，聚类后的得到的视频帧集合可以包括一个视频帧，还可以包括可以至少两个视频帧。其中，在该视频帧集合包括至少两个视频帧的情况下，该至少两个视频帧是连续的，且具有相同的变化类别。
67.示例性的，若存在20个视频帧，其中，第1至8个视频帧为第一类别，第9至11个视频帧为第二类别，第12至14个视频帧为第一类别，第15个视频帧为第二类别，第16至20个视频
帧为第一类别；则第一个视频帧集合包括第1至8个视频帧，第二个视频帧集合包括第9至11个视频帧，第三个视频帧集合包括第15个视频帧，第四个视频帧集合包括第16至20个视频帧。
68.步骤s2032、将位于目标视频帧集合的中心的视频帧作为划分基准，对所述多个视频帧进行划分，得到每一所述视频帧对应的分区信息；所述目标视频帧集合为所述第二类别的视频帧集合。
69.基于上述举例，若存在20个视频帧，其中，第1至8个视频帧为第一类别，第9至11个视频帧为第二类别，第12至14个视频帧为第一类别，第15个视频帧为第二类别，第16至20个视频帧为第一类别；则可以将第二类别的第9至11个视频帧中的第10个视频帧作为第一个划分基准，将第二类别的第15个视频帧作为第二个划分基准；进而，可以将这20个视频帧划分为第1至9个视频帧为第一分区，第11至14个视频帧为第二分区，第16至20个视频帧为第三分区。
70.基于上述实施例，由于通过对待处理视频的多个视频帧进行分区，在得到分区内每一视频帧的检测结果之后，可以基于分区内各视频帧的检测结果，进行投票统计，得到每一视频帧的目标检测结果，这样，可以是分区内的检测结果趋于稳定，避免一段视频中相同目标人物和同款服饰因为光线、角度等变换产生的检测结果不一致，提升了整体的检测准确度。
71.图3是本公开实施例提供的视频服饰检测方法的一个可选的流程示意图，该方法可以由计算机设备的处理器执行。基于图1，图1中的s102可以更新为s301至s302，将结合图3示出的步骤进行说明。
72.步骤s301、针对每一所述视频帧，对所述视频帧进行人物检测，确定所述视频帧中所述目标人物对应的人物信息。
73.在一些实施例中，可以通过步骤s3011至步骤s3014实现上述对所述视频帧进行人物检测，确定所述视频帧中所述目标人物对应的人物信息。
74.步骤s3011、对所述视频帧进行人脸探测，确定所述视频帧中人脸对应的人脸图像。
75.在一些实施例中，可以通过以下方式实现上述步骤s3011：对所述视频帧进行人脸探测，确定所述视频帧中的人脸所在的部分图像和所述人脸对应的关键点位置；基于所述人脸对应的关键点位置，对所述人脸所在的部分图像进行校准，得到所述人脸对应的人脸图像。
76.步骤s3012、对所述人脸图像进行人脸特征提取，得到所述人脸对应的待匹配人脸特征。
77.在一些实施例中，可以基于预设的人脸特征提取网络，对该人脸图像进行特征提取，得到该人脸对应的待匹配人脸特征。
78.步骤s3013、获取预设的人脸特征库，所述人脸特征库包括至少一个预设人物和每一所述预设人物对应的人物信息和多个人脸特征。
79.在一些实施例中，该预设人物可以为需要进行识别的人物，以实施场景为明星服饰推荐场景为例，该人脸特征库中的预设人物可以是预先设置的明星对象；以实施场景为老师服饰推荐场景为例，该人脸特征库中的预设人物可以是预先设置的当前学校的老师对
象。
80.在一些实施例中，针对人脸特征库中的每一个预设人物，为了提升对视频帧中人物检测的准确度，可以为每一预设人物设置多个人脸特征，在判断视频帧中的人物(人脸)是否为人脸特征库中的一个预设人物的过程中，可以分别计算视频帧中人脸对应的待匹配人脸特征和该预设人物对应的每一人脸特征之间的特征距离，进而得到视频帧中的人脸是否为该预设人物。
81.步骤s3014、基于所述待匹配人脸特征与每一所述预设人物对应的多个人脸特征之间的特征距离，在所述多个预设人物中确定所述人脸对应的目标预设人物，将所述目标预设人物对应的人物信息确定为所述目标人物对应的人物信息。
82.在一些实施例中，上述基于所述待匹配人脸特征与每一所述预设人物对应的多个人脸特征之间的特征距离，在所述多个预设人物中确定所述人脸对应的目标预设人物，包括：针对每一所述预设人物，分别确定所述待匹配人脸特征和所述预设人物对应的每一所述人脸特征之间的特征距离；比对每一所述人脸特征的特征距离和预设的距离阈值，确定每一所述人脸特征对应的相似结果；所述相似结果用于表征所述人脸是否对应所述人脸特征对应的预设人物；基于每一所述人脸特征对应的相似结果，在所述多个预设人物中确定所述人脸对应的目标预设人物。
83.其中，在n个预设人物对应7个人脸特征，且人脸特征为2048维度的特征向量的情况下，可以得到7n
×
2048的特征矩阵；同时，待匹配人脸特征为一个2048维度的特征向量，将得到的待匹配人脸特征和7n
×
2048的特征矩阵进行7n次距离计算，可以得到1
×
7n的距离矩阵。这里的1指的是当前视频帧中探测到1个待匹配人脸特征对应的1个人脸，在探测到m个人脸的情况下，可以得到m
×
7n的距离矩阵。基于预设的距离阈值，对该1
×
7n的距离矩阵进行二值化，即大于距离阈值的元素置为第一值，小于距离阈值的元素置为第二值，可以得到待验证的二值矩阵(1
×
7n)，该待验证的二值矩阵包括每一人脸特征的相似度结果。
84.其中，在该二值矩阵中的元素均为0的情况下，表示该视频帧中人物并非人脸特征库中的任意一个预设人物。
85.在一些实施例中，在第一相似结果均对应一个已匹配预设人物的情况下，将所述已匹配预设人物确定为所述目标预设人物；所述第一相似结果表征所述人脸对应所述人脸特征对应的预设人物。
86.其中，在至少两个值为1的元素均位于同一个已匹配预设人物的区间之中，则将该同一个已匹配预设人物作为当前视频帧中待匹配人脸特征对应的目标预设人物。
87.在一些实施例中，在第一相似结果对应至少两个已匹配预设人物的情况下，基于所述待匹配人脸特征与每一所述已匹配预设人物对应的多个人脸特征的特征距离和，在所述至少两个已匹配预设人物中确定所述目标预设人物。
88.其中，在至少两个值为1的元素均位于至少两个已匹配预设人物的区间之中，需要在该至少两个已匹配预设人物中进一步确定一个目标已匹配人物作为当前视频帧中人脸对应的目标预设人物，由于相同人对应的向量距离小，不同人对应的向量距离大的特点，针对该至少两个已匹配预设人物中的每一已匹配预设人物，可以分别计算该待匹配人脸特征与每一已匹配预设人物的多个人脸特征的特征距离和，进而可以得到至少两个特征距离和，将最小特征距离和对应的已匹配预设人物作为当前视频帧中待匹配人脸特征对应的目
标预设人物。
89.步骤s302、对所述视频帧进行服饰检测，确定所述目标人物对应的服饰的服饰信息。
90.在一些实施例中，所述服饰信息包括服饰的服饰类别，可以通过步骤s3021至步骤s3024实现上述对所述视频帧进行服饰检测，确定所述目标人物对应的服饰信息。
91.步骤s3021、提取所述视频帧对应的服饰特征图。
92.步骤s3022、基于所述服饰特征图，确定所述视频帧中服饰对应的检测框信息。
93.在一些实施例中，该服饰对应的检测框信息包括该服饰对应的检测框在视频帧中的位置。其中，基于该视频帧对应的服饰特征图，在服饰特征图中的每个特征点放置若干个锚点框(以特征点为中心放置不同尺寸的锚点框)，每个锚点框可以预测出一个备选框的位置；在训练的过程中，将与真实服饰框位置接近的锚点框作为正样本，其他作为负样本，这样使得测试时上述正样本的锚点框对应的预测框的位置较为精确，并选择得分最高100个预测框作为备选框。对得到的备选框在特征图上进行区域池化，池化的特征用于对备选框进行分类以及对备选框进行进一步的优化(确定位置偏移量对备选框的位置进行调整)，最终得到服饰框的类别和最终位置。
94.步骤s3023、基于所述服饰对应的检测框信息，确定所述服饰对应的服饰特征。
95.在一些实施例中，可以通过以下实现方式实现上述步骤s3023：基于所述服饰对应的检测框信息，从所述视频帧中截取所述服饰对应的服饰图片；对所述服饰图片进行特征提取，得到所述服饰对应的服饰特征。
96.在一些实施例中，所述服饰特征包括多个服饰子特征，还可以通过以下实现方式实现上述步骤s3023：基于所述服饰对应的检测框信息，从所述视频帧中截取所述服饰对应的服饰图片；对所述服饰图片进行数据增强处理，得到所述服饰对应的至少一个相似服饰图片；对所述服饰图片和所述至少一个相似服饰图片进行特征提取，得到所述服饰对应的多个服饰子特征。
97.其中，针对该服饰，可以基于该服饰对应的检测框信息，从该视频帧中截取所述服饰对应的服饰图片。由于服饰图片是单一的图像，且服装带有褶皱、变形、大小占比不均等特点，依靠单一的服饰图片本身进行特征捕捉会带有偶然性，随机性，及背景噪音等。因此，需要对服饰图片进行智能数据增强，以加强网络对于服饰细节，如纹理样式等的认知。该数据增强处理包括以下至少之一：平移，缩放，翻转等各种仿射变换。进而可以得到视频帧中服饰对应的服饰图片和数据增强得到的至少一个相似服饰图片。
98.其中，针对服饰图片和所述至少一个相似服饰图片，可以采用相同的特征提取方法，对每一图片的特征进行提取，得到该服饰对应的多个服饰子特征。
99.步骤s3024、基于所述服饰对应的服饰特征，确定所述服饰的服饰类别。
100.在一些实施例中，该服饰类别可以包括服装类别、纹理类别和主色调类别。为了提升服饰类别的分类准确性，可以预先构建服装类别对应的第一分类器、纹理类别对应的第二分类器和主色调类别对应的第三分类器，将该服饰对应的服饰特征(多个服饰子特征)分别输入至第一分类器、第二分类器和第三分类器，得到该服饰的服装类别、纹理类别和主色调类别。
101.基于上述实施例，由于通过对多个视频帧中每一视频帧分别进行人物检测和服饰
检测，可以得到个视频帧对应的服饰信息和人物信息，提升了检测准确度。
102.图4是本公开实施例提供的视频服饰检测方法的一个可选的流程示意图，该方法可以由计算机设备的处理器执行。所述服饰信息包括所述服饰的数据信息；基于图3，图3中的s302还可以包括s401至s403，将结合图4示出的步骤进行说明。
103.步骤s401、基于预设服饰库的数据量在第一检索策略和第二检索策略中确定目标检索策略；所述第一检索策略对应的数据量高于所述第二检索策略对应的数据量；所述预设服饰库包括多个预设服饰和每一所述预设服饰对应的数据信息。
104.在一些实施例中，可以设置一个数据量阈值，在该预设服饰库的数据量大于或等于该数据量阈值的情况下，将第一检索策略作为该目标检索策略；在该预设服饰库的数据量小于该数据量阈值的情况下，将第二检索策略作为该目标检索策略。
105.在一些实施例中，预设服饰对应的数据信息可以包括该预设服饰的服饰图片、服饰名称、购买链接等。
106.步骤s402、利用所述目标检索策略，在所述多个预设服饰中确定与所述服饰匹配的至少一个预设服饰。
107.在一些实施例中，在所述目标检索策略为所述第一检索策略的情况下，可以通过步骤s4021至步骤s4024实现上述利用所述目标检索策略，在所述多个预设服饰中确定与所述服饰匹配的至少一个预设服饰。
108.步骤s4021、基于所述服饰的服饰图片，确定所述服饰图片对应的服饰特征向量。
109.步骤s4022、在所述多个预设服饰对应的多个第一中心特征中，确定与所述服饰特征向量匹配的目标第一中心特征；所述多个第一中心特征是对所述预设服饰库中的多个预设服饰向量进行聚类后确定的，聚类得到的每一第一聚类结果对应一个第一中心特征。
110.步骤s4023、基于所述目标第一中心特征，对所述服饰特征向量进行量化编码，得到服饰编码。
111.在一些实施例中，可以通过以下实现方式实现上述基于所述目标第一中心特征，对所述服饰特征向量进行量化编码，得到服饰编码：基于不同的特征位置，对所述服饰特征向量进行特征内拆分，得到所述服饰特征向量对应的每一所述特征位置对应的服饰子向量；基于所述目标第一中心特征对应的每一所述特征位置的第二中心特征，对每一所述特征位置对应的服饰子向量进行量化编码，得到每一所述特征位置对应的服饰子向量的量化值；所述第二中心特征是对所述目标第一中心特征对应的多个所述特征位置的预设子向量进行聚类后确定的，聚类得到的每一第二聚类结果对应一个第二中心特征；基于每一所述特征位置对应的服饰子向量的量化值，确定所述服饰编码。
112.步骤s4024、将目标编码结果对应的预设服饰编码对应的预设服饰确定为与所述服饰匹配的至少一个预设服饰；所述目标编码结果为所述目标第一中心特征对应的多个量化编码结果中，与所述服饰编码匹配的至少一个量化编码结果；对所述目标第一中心特征对应的预设服饰向量进行量化编码的方法与对所述服饰特征向量进行量化编码的方法相同。
113.在一些实施例中，上述编码方式包括：
114.对所述预设服饰库中的多个预设服饰向量进行聚类，得到多个第一聚类结果；每一所述第一聚类结果对应第一中心特征；
115.针对每一所述第一聚类结果，基于不同的特征位置，对所述第一聚类结果对应的每一所述预设服饰向量进行特征内拆分，得到每一所述预设服饰向量对应的每一所述特征位置对应的服饰子特征；
116.针对每一所述特征位置，对每一所述第一聚类结果中所述特征位置对应的服饰子特征进行聚类，得到多个第二聚类结果；每一所述第二聚类结果对应第二中心特征；基于每一所述第二聚类结果对应第二中心特征，对所述特征位置对应的每一所述服饰子特征进行量化编码，得到所述特征位置对应的每一所述服饰子特征的量化值；
117.针对每一所述预设服饰向量，基于所述预设服饰向量中每一所述服饰子特征的量化值，确定所述预设服饰向量的量化编码结果。
118.在一些实施例中，在所述目标检索策略为所述第二检索策略的情况下，可以通过步骤s4025至步骤s4027实现上述利用所述目标检索策略，在所述多个预设服饰中确定与所述服饰匹配的至少一个预设服饰。
119.步骤s4025、基于所述服饰的服饰图片，确定所述服饰图片对应的整体特征向量和至少一个局部特征向量。
120.步骤s4026、针对所述多个预设服饰中的每一所述预设服饰，确定所述预设服饰对应的预设整体向量和所述整体特征向量确定第一相似度，并确定所述预设服饰对应的每一预设局部向量与每一局部特征向量之间的第二相似度；基于所述第一相似度和至少一个第二相似度，确定所述预设服饰与所述服饰之间的预设相似度。
121.在一些实施例中，可以基于第一相似度和至少一个第二相似度构建对应的图形推理网络，在图形推理网络中，一个节点代表第一相似度，其他节点分别代表第二相似度，每条边代表两个相似度(第一相似度与第二相似度、第二相似度之间)之间的关系。最后，利用交叉熵分类损失函数让网络对于全局特征的节点进行判断来决定所述预设服饰与所述服饰之间的预设相似度。
122.步骤s4027、基于每一所述预设服饰对应的预设相似度，在所述多个预设服饰中确定与所述服饰匹配的至少一个预设服饰。
123.在一些实施例中，预设相似度最高的至少一个预设服饰作为与所述服饰匹配的至少一个预设服饰。
124.步骤s403、将与所述服饰匹配的每一所述预设服饰对应的数据信息确定为所述服饰的数据信息。
125.基于上述实施例，由于基于预设服饰库的数据量在第一检索策略和第二检索策略中确定目标检索策略，再基于目标检索策略从预设服饰库中检索与所述服饰匹配的预设服饰，并将预设服饰对应的数据信息确定为所述服饰的数据信息，可以灵活的选择不同检索策略，提升检索效率。
126.图5是本公开实施例提供的视频服饰检测方法的一个可选的流程示意图，该方法可以由计算机设备的处理器执行。基于图1，所述目标人物的服饰信息包括所述视频帧中每一服饰对应的检测框信息和服饰类别，图1中的s103可以更新为s501至s502，将结合图5示出的步骤进行说明。
127.步骤s501、针对每一分区，对所述分区内每一所述视频帧中每一所述服饰进行分类，得到至少一个检测类别；所述检测类别对应的服饰在对应的至少一个待校正视频帧内
的检测框信息满足预设的重叠条件。
128.在一些实施例中，可以基于每一视频帧中各服饰对应的检测框信息，对这个分区内所有的检测框进行分类，确定当前分区内各视频帧中存在的服饰数量，其中，每一服饰对应一个检测类别。该检测类别对应的服饰在对应的至少一个待校正视频帧内的检测框信息满足预设的重叠条件。为了便于理解本方案，以每一视频帧均包括一种服饰为例进行说明：分别获取该分区内n个视频帧中存在的一个服饰的检测框信息，基于预设的分类算法，若判断这n个视频帧对应的n个检测框信息中两两检测框信息之间的交并比大于预设阈值，则该分区对应一个检测类别，即该分区内仅存在真实场景中的一个服饰，这个真实场景中的服饰在该分区的每一视频帧中均存在对应的服饰信息(检测框信息和服饰类别)。
129.示例性的，在一个分区包括第一视频帧、第二视频帧和第三视频帧共3个视频帧的情况下，若第一视频帧的检测结果包括上衣a1和裤子b1、第二视频帧的检测结果包括上衣a1和裤子b2、第三视频帧的检测结果包括上衣a2和裤子b1。在对该分区进行分类得到至少一个检测类别的过程中，需要对6个检测框信息进行分类，若第一视频帧的上衣a1、第二视频帧的上衣a1和第三视频帧的上衣a2的三个上衣检测框满足该预设的重叠条件，则将这三个上衣检测框划分为第一个检测类别，且该第一个检测类别对应的待校正视频帧为第一至第三视频帧；相应地，若第二视频帧的裤子b2和第三视频帧的裤子b1的两个裤子检测框满足该预设的重叠条件，则将这两个裤子检测框划分为第二个检测类别，且该第二个检测类别对应的待校正视频帧为第二和第三视频帧；将第一视频帧的裤子b1的裤子检测框划分为第三个检测类别，且该第三个检测类别对应的待校正视频帧为第一视频帧。
130.步骤s502、针对每一所述服饰，基于每一所述待校正视频帧中所述服饰对应的服饰类别，确定所述服饰对应的目标服饰类别。
131.基于上述举例，在得到第一个检测类别(第一视频帧的上衣a1、第二视频帧的上衣a1和第三视频帧的上衣a2的三个上衣检测框)、第二个检测类别(第二视频帧的裤子b2和第三视频帧的裤子b1的两个裤子检测框)和第三个检测类别(第一视频帧的裤子b1的裤子检测框)的情况下，其中，第三个检测类别由于只有一个视频帧，则保留该第一视频帧的裤子检测框，服饰类别为裤子b1；对于第一个检测类别需要基于第一视频帧的上衣a1、第二视频帧的上衣a1和第三视频帧的上衣a2，确定这三个上衣检测框对应的目标服饰类别，即确定该第一个检测类别对应的服饰是上衣a1还是上衣a2；对于第二个检测类别需要基于第二视频帧的裤子b2和第三视频帧的裤子b1，确定这两个裤子检测框对应的目标服饰类别，即确定该第二个检测类别对应的服饰是裤子b1还是裤子b2。
132.在一些实施例中，可以通过步骤s5021至步骤s5023实现上述基于每一所述待校正视频帧中所述服饰对应的服饰类别，确定所述服饰对应的目标服饰类别。
133.步骤s5021、获取每一所述待校正视频帧对应的视频帧质量。
134.在一些实施例中，所述获取每一所述待校正视频帧对应的视频帧质量，包括：针对每一所述待校正视频帧，基于所述服饰对应的检测框信息，确定所述待校正视频帧对应的服饰区域；基于所述待校正视频帧和所述服饰区域，确定所述待校正视频帧对应的视频帧质量。
135.其中，所述视频帧质量包括以下至少之一：所述服饰的遮挡程度、所述服饰对应的服饰区域的清晰度和所述服饰对应的服饰区域的亮度。
136.步骤s5022、基于每一所述待校正视频帧对应的视频帧质量，确定每一所述待校正视频帧对应的投票权重；所述待校正视频帧对应的投票权重与所述待校正视频帧对应的视频帧质量正相关。
137.步骤s5023、基于每一所述待校正视频帧对应的投票权重，和每一所述待校正视频帧中所述服饰对应的服饰类别，确定所述服饰对应的目标服饰类别。
138.在一些实施例中，可以基于每一视频帧对应的所述服饰的遮挡程度、所述服饰对应的服饰区域的清晰度和所述服饰对应的服饰区域的亮度，对该视频帧的视频帧质量进行估计，得到视频帧质量量化值；基于各个待校正视频帧对应的视频帧质量量化值，确定每一待校正视频帧对应的投票权重。
139.示例性的，以上述第一个检测类别为例，需要基于第一视频帧的上衣a1、第二视频帧的上衣a1和第三视频帧的上衣a2，确定这三个上衣检测框对应的目标服饰类别。其中，第一视频帧至第三视频帧的视频帧质量量化值分别为2、2、6，则可以确定该第一视频帧至第三视频帧分别对应的投票权重为0.2、0.2和0.6，结合各个视频帧中该服饰的服饰类别，可以得到投票结果为上衣a1为0.4、上衣a2为0.6，则将第一视频帧至第三视频帧分别对应的三个上衣检测框的服饰类别均设置为目标服饰类别(上衣a2)。
140.在另一些实施例中，所述视频帧质量包括至少一个质量维度的质量信息，所述服饰类别包括至少一个服饰子类别。
141.相应地，上述基于每一所述待校正视频帧对应的视频帧质量，确定每一所述待校正视频帧对应的投票权重，包括：针对每一所述服饰子类别，基于所述服饰子类别与每一所述质量维度之间的关联程度，和每一所述质量维度的质量信息，确定所述服饰子类别对应的投票子权重。
142.相应地，上述基于每一所述待校正视频帧对应的投票权重，和每一所述待校正视频帧中所述服饰对应的服饰类别，确定所述服饰对应的目标服饰类别，包括：针对每一所述服饰子类别，基于所述服饰子类别对应的投票子权重，和每一所述待校正视频帧中所述服饰对应的服饰子类别，确定所述服饰对应的目标服饰子类别。
143.在一些实施例中，服饰类别可以包括不同维度的服饰子类别，针对每一服饰子类别，可以基于该服饰子类别与对应的每一所述质量维度之间的关联程度，和每一所述质量维度的质量信息，确定所述服饰子类别对应的投票子权重。
144.在一些实施例中，以该服饰类别包括主色调类别为例，在视频帧质量包括所述服饰的遮挡程度、所述服饰对应的服饰区域的清晰度和所述服饰对应的服饰区域的亮度的情况下，该主色调类别与服饰区域的亮度的关联程度较高，与服饰的遮挡程度和服饰区域的清晰度的关联程度较低；以该服饰类别包括纹理类别为例，该纹理类别与遮挡程度和服饰区域的清晰度的关联程度较高，与服饰区域的亮度的关联程度较低。
145.示例性的，以上述第二个检测类别为例，基于第二视频帧的裤子(色调c1、纹理d1)和第三视频帧的裤子(色调c2、纹理d2)，确定这两个裤子检测框对应的目标服饰类别，即这个裤子的色调属于c1还是c2，纹理属于d1还是d2。在第二视频帧的亮度量化值为3、遮挡程度量化值为6、清晰度为6，且第三视频帧的亮度量化值为6、遮挡程度量化值为3、清晰度为3的情况下，在确定这个裤子的色调的过程中，可以为亮度、遮挡程度、清晰度分别设置关联程度为6、2、2，则可以得到裤子的色调属于c1的投票结果为42、属于c2的投票结果为48，即
这个裤子的色调属于c2；在确定这个裤子的纹理的过程中，可以为亮度、遮挡程度、清晰度分别设置关联程度为2、4、4，可以得到裤子的纹理属于d1的投票结果为54、属于d2的投票结果为36，即这个裤子的纹理属于d1。可以看出，针对用一个检测类别，即针对同一个服饰，该服饰对应的目标服饰子类别可以存在于不同的待校正视频帧中。
146.基于上述实施例，由于基于分区内各视频帧的检测结果，进行投票统计，得到每一视频帧的目标检测结果，这样，可以是分区内的检测结果趋于稳定，避免一段视频中相同目标人物和同款服饰因为光线、角度等变换产生的检测结果不一致，提升了整体的检测准确度。
147.图6是本公开实施例提供的视频服饰检测方法的一个可选的流程示意图，该方法可以由计算机设备的处理器执行。基于上述实施例，以基于图1为例，图1中的方法还可以包括s601至s603，将结合图6示出的步骤进行说明。
148.步骤s601、通过服饰展示界面播放所述待处理视频。
149.在一些实施例中，该服饰展示界面可以包括视频播放区域，在该视频播放区域内播放该待处理视频。
150.步骤s602、在展示所述待处理视频中的目标视频帧的过程中，展示所述目标视频帧中所述目标人物的人物信息和所述目标人物对应的服饰信息。
151.在一些实施例中，该目标视频帧为该待处理视频包括的多个原始视频帧的任意一个视频帧。步骤s602是以展示该目标视频帧为例，对该服饰展示界面中其他区域显示的内容进行说明，也就是说，随着待处理视频进行播放的过程中，上述视频播放区域内的目标视频帧也随之变更，相应地，该其他区域显示的内容也随着该目标视频帧的变化而发生变化。
152.在一些实施例中，在展示该待处理视频中的目标视频帧的过程中，该目标视频帧中显示该目标人物的人物信息和目标人物对应的服饰信息。其中，上述人物信息和服饰信息可以通过矩形框的形式显示人物和服饰对应的位置/范围，并通过文字的形式显示人物的身份信息和服饰对应的分类信息。
153.在一些实施例中，可以通过步骤s6021至步骤s6022实现上述展示所述目标视频帧中所述目标人物的人物信息和所述目标人物对应的服饰信息。
154.步骤s6021、通过所述服饰展示界面中的人物展示区域展示所述目标视频帧中所述目标人物的人物信息。
155.在一些实施例中，该目标人物的人物信息包括该目标人物在该目标视频帧中的局部人脸图像。相应地，该人物展示区域可以包括多个人物子区域，在目标视频帧存在n个目标人物的情况下，可以在该人物展示区域中展示n个人物子区域，同时，每一人物子区域展示对应目标人物在当前的目标视频帧的局部人脸图像。
156.在一些实施例中，该目标人物的人物信息包括该目标人物的身份信息。
157.步骤s6022、通过所述服饰展示界面中的服饰展示区域展示所述目标视频帧中所述目标人物对应的服饰信息；所述服饰信息包括所述目标视频帧中每一所述服饰对应的局部服饰图片和服饰类别。
158.在一些实施例中，该目标人物对应的服饰信息包括该目标人物在该目标视频帧中对应的局部服饰图片。相应地，该服饰展示区域可以包括多个服饰子区域，在目标视频帧存在n个服饰的情况下，可以在该服饰展示区域中展示n个服饰子区域，同时，每一服饰子区域
展示对应目标人物在当前的目标视频帧的局部服饰图像。
159.在一些实施例中，该目标人物对应的服饰信息包括每一服饰对应的服饰类别。其中，该服饰类别可以包括但不限于是以下至少之一：衬衫、t恤、短裤、长裤、短裙、长裙、连衣裙、连衣裤等。
160.在一些实施例中，为了便于用户对需要的服饰进行购买，所述方法还可以包括步骤s603至s604。
161.步骤s603、接收针对所述每一所述服饰对应的局部服饰图片中目标服饰图片的触发操作。
162.在一些实施例中，可以通过该服饰展示界面接收用户针对当前服饰展示区域中展示的至少一个服饰对应的局部服饰图片中目标服饰图片的触发操作；响应于该触发操作，执行步骤s604。其中，该触发操作可以包括长按操作、点击操作或语音选择操作等。
163.步骤s604、响应于所述触发操作，在所述服饰展示界面中的服饰购买区域展示至少一个相关服饰和每一所述相关服饰对应的购买链接。
164.在一些实施例中，在展示该待处理视频的过程中，在未接收到该触发操作的情况下，该服饰展示界面可以不显示该服饰购买区域。响应于针对目标视频帧对应的目标服饰图片的触发操作，可以显示该服饰购买区域，并通过该服饰购买区域展示该目标服饰图片对应的至少一个相关服饰和每一所述相关服饰对应的购买链接。
165.在一些实施例中，所述方法还可以包括，通过该服饰展示界面的服饰购买区域接收用户针对所述至少一个相关服饰中目标相关服饰的选择操作，响应于所述选择操作，跳转至所述目标相关服饰的购买链接对应的购买界面。
166.示例性的，请参阅图7，图7是本公开实施例提供的服饰展示界面的一个可选的界面示意图，服饰展示界面710可以包括人物展示区域711、服饰展示区域712和视频播放区域714。响应于针对该服饰展示区域中目标服饰图片的触发操作，可以在服饰购买区域713展示该目标服饰图片对应的至少一个相关服饰和每一所述相关服饰对应的购买链接。
167.基于上述实施例，可以通过可视化界面在展示待处理视频的过程中，实时展示当前显示的目标视频帧中存在的目标人物的人物信息和服饰的服饰信息，提升了检索结果与原始视频的关联程度；同时，在接收到用户针对某一个服饰图片的点击操作后，进一步展示服饰图片对应的至少一个相关服饰和每一所述相关服饰对应的购买链接，可以在提升与用户交互感的同时，为用户购买同款服饰提供了便捷性。
168.下面说明本公开实施例提供的视频服饰检测方法在实际场景中的应用。
169.随着近年网络经济的迅猛发展，2021年网络购物市场交易规模达13万亿元，且增长率仍保持强劲势头，其中服饰类交易所占比重高达57.5％。在服饰类网购场景中，明星同款等追星式购物非常火热，但受图像质量、图像特殊角度和物体尺寸等客观因素的限制，现有服饰检索算法在一些特殊条件下的图像识别能力仍不足预期。
170.基于上述广阔的市场前景以及当前面对的技术痛点，本公开实施例提供了一种基于视频流的ai明星同款服装导购系统，该系统融合了明星识别、服饰属性解析、服饰推荐等功能于一体，并以视频流的形式通过区间信息弥补单帧图像在服饰检索场景下的不足，提升服饰检索和推荐的准确率，为用户提供更加准确和易用的服装导购系统。
171.请查阅图8，其示出了本公开实施例中服饰导购系统的业务流程。如图8所示，该流
程包括：
172.步骤s801、获取待处理视频，并对待处理视频进行抽帧，得到多个视频帧。
173.其中，可以通过该服饰导购系统提供的视频上传接口接收用户上传的一段视频，将该视频作为该待处理视频。
174.在一些实施例中，可以基于预设的频率对该待处理视频进行抽帧处理，得到该待处理视频对应的多个视频帧。之后，可以基于该多个视频帧分别执行后续的步骤s802、步骤s803和步骤s804。其中，步骤s802、步骤s803和步骤s804可以同时进行，并分别得到对应的人物(明星)识别结果、视频分片结果、服饰属性结果。
175.步骤s802、对各视频帧内的目标人物进行识别，得到人物识别结果。
176.在一些实施例中，可以通过提取视频帧中人物的人脸特征以完成对各视频帧内的人物的识别。
177.其中，可以利用人脸探测技术获得视频帧中的人脸图像，之后利用人脸关键点探测技术获取人脸图像对应的5个关键点位置信息，该5个关键点位置信息包括左眼位置、右眼位置、鼻头位置、左嘴角位置和右嘴角位置；将人工设定的标准人脸作为人脸对齐(face alignment)的矫正基准，将探测到人脸和标准人脸进行对齐，得到对齐后的人脸图像；然后通过人脸特征提取器提取人脸图像的局部纹理特征并降维，得到视频帧中人物的人脸特征。
178.在一些实施例中，为了对待处理视频中的目标人物进行识别，例如，对待处理视频中的明星人物进行识别，可以预先建立目标人物(明星)对应的预设人脸库。该预设人脸库的构建方法包括：通过预设人脸接口接收导入的目标人物的人脸样本图像，对该人脸样本图像进行上述人脸探测和人脸对齐过程，得到该目标人物对应人脸部分图像。
179.其中，导入的人脸样本图像可以为多个，相应地，得到的人脸部分图像也可以是多个，为了提升对该目标人物的识别准确率，可以对得到的多个人脸部分图像进行数据清洗，得到该目标人物对应的预设数量个标准人脸图像。该预设数量个标准人脸图像用于对待识别的人脸图像进行多次验证。示例性的，该预设数量可以设置为7。
180.在一些实施例中，通过以下方式完成对当前视频帧中人物的识别过程：提取n个目标人物对应的标准人脸图像，在每一目标人物对应7个标准人脸图像的情况下，可以得到7n个标准人脸图像；分别对每一标准人脸图像进行特征提取，可以得到7n个标准人脸特征，在标准人脸特征为2048维度的特征向量的情况下，可以得到7n
×
2048的特征矩阵；同时，对该当前视频帧对应中人物对应的人脸图像进行特征提取，可以得到一个2048维度的特征向量，将得到的这个特征向量和7n
×
2048的特征矩阵进行7n次距离计算，可以得到1
×
7n的距离矩阵。这里的1指的是当前视频帧中探测到1个人脸，在探测到m个人脸的情况下，可以得到m
×
7n的距离矩阵。
181.为了便于理解，将以当前视频帧中探测到1个人脸，即得到1
×
7n的距离矩阵为例进行说明，基于预设的距离阈值，对该1
×
7n的距离矩阵进行二值化，即大于距离阈值的元素置为第一值，小于距离阈值的元素置为第二值，可以得到待验证的二值矩阵(1
×
7n)。在该二值矩阵中的元素均为0的情况下，表示该视频帧中人物并非预设人脸库中的目标人物。在该二值矩阵中的元素存在一个1的情况下，将值为1的元素对应的目标人物作为当前视频帧中人脸对应的目标人物；在该二值矩阵中的元素存在至少两个1的情况下，判断值为1的
元素对应的目标人物是否为1个，在至少两个值为1的元素均位于同一个目标人物的区间之中，则将该同一个目标人物作为当前视频帧中人脸对应的目标人物；在至少两个值为1的元素均位于至少两个目标人物的区间之中，需要在该至少两个目标人物中进一步确定一个目标人物作为当前视频帧中人脸对应的目标人物，由于相同人对应的向量距离小，不同人对应的向量距离大的特点，针对该至少两个目标人物中的每一目标人物，可以分别计算该视频帧对应的2048维度的特征向量与每一目标人物的7个标准人脸特征的特征距离和，进而可以得到至少两个特征距离和，将最小特征距离和对应的目标人物作为当前视频帧中人脸对应的目标人物。
182.步骤s803、对多个视频帧进行分区，得到视频分区结果。
183.其中，该视频分区结果包括每一视频帧对应的分区信息。
184.在一些实施例中，针对每一视频帧，可以基于该视频帧对应的相邻视频帧确定该视频帧的变化类别，进而基于每一视频帧对应的变化类别对多个视频帧进行划分，得到每一视频帧对应的分区信息。
185.其中，可以按照多个视频帧之间的时序关系，通过预设长度的滑动窗口从多个视频帧中抽取预设帧数个视频帧，将该预设帧数个视频帧输入至视频分割网络，确定该预设帧数个视频帧的中间视频帧的变化类别。该视频分割网络可以基于输入的预设帧数个视频帧之间的视频帧内容变化情况，确定中间视频帧的变化类别，该变化类别可以包括第一类别(无变化)和第二类别(突变和渐变)。在得到多个视频帧中每一视频帧的变化类别之后，将连续的第二类别的n个视频帧的中心点作为划分基准，利用得到的划分基准对多个视频帧进行分区，得到每一视频帧对应的分区信息。
186.示例性的，若存在20个视频帧，其中，第1至8个视频帧为第一类别，第9至11个视频帧为第二类别，第12至14个视频帧为第一类别，第15个视频帧为第二类别，第16至20个视频帧为第一类别；则可以将第二类别的第9至11个视频帧中的第10个视频帧作为第一个划分基准，将第二类别的第15个视频帧作为第二个划分基准；进而，可以将这20个视频帧划分为第1至9个视频帧为第一分区，第11至14个视频帧为第二分区，第16至20个视频帧为第三分区。
187.在一些实施例中，该视频分割网络为三维卷积网络，可以设置5层或6层，该三维卷积网络的输入数据为一个5维矩阵，格式为batch-size(batch的大小)
×
channel(视频帧的通道数)
×
temporal-length(视频帧的数量)
×
height(视频帧的高)
×
width(视频帧的宽)，输出是一个1*3的logits。损失函数是multi-logits的多分类cross-entropy。
188.步骤s804、对各视频帧内的服饰进行识别，得到每一视频帧对应的服饰属性结果。
189.在一些实施例中，对每一视频帧的服饰进行识别的过程可以包括服饰检测步骤和服饰属性分类步骤。
190.在一些实施例中，该服饰检测步骤包括两个阶段的检测方法。
191.在第一阶段，使用备选框检测网络检测出视频帧中服饰的备选框位置，在该第一阶段，基于该视频帧对应的特征图，在特征图中的每个特征点放置若干个锚点框(以特征点为中心放置不同尺寸的锚点框)，每个锚点框可以预测出一个备选框的位置；在训练的过程中，将与真实服饰框位置接近的锚点框作为正样本，其他作为负样本，这样使得测试时上述正样本的锚点框对应的预测框的位置较为精确，并选择得分最高100个预测框作为备选框。
192.在第二阶段，将第一阶段得到的备选框在特征图上进行区域池化，池化的特征用于对备选框进行分类以及对备选框进行进一步的优化(确定位置偏移量对备选框的位置进行调整)，最终得到服饰框的类别和最终位置。
193.在一些实施例中，基于服饰检测步骤得到的服饰框的最终位置，可以从视频帧中截取服饰对应的服饰图片，为了有效地提取服饰特征，可以先把服饰图片缩放到256
×
256的尺寸，然后将其输入至深度卷积神经网络得到一个2048维的服饰特征向量；基于服饰检测步骤得到的服饰框的类别，选取该类别对应的三个分类器，基于这三个分类器分别对服饰的服饰类别、纹理和主色调进行分类。其中，这三个分类器会共用前面提取到的2048维服饰特征向量，在每一个属性的分类器中会进行一次非线性变换，将2048维的服饰特征向量转变成128维的属性特征向量，然后对其进行softmax运算，得到对应属性的类别。
194.在一些实施例中，对每一视频帧的服饰进行识别的过程还可以包括同款服饰检索步骤。其中，该同款服饰检索步骤可以包括数据增强过程和数据检索过程。
195.在一些实施例中，该数据增强过程用于对当前得到的服饰图片进行智能数据增强。由于输入的同一款式服装样本较少，且服装带有褶皱、变形、大小占比不均等特点，单一依靠服饰图片本身进行特征捕捉会带有偶然性，随机性，及背景噪音等。因此，需要对服饰图片进行智能数据增强，以加强网络对于服饰细节，如纹理样式等的认知。数据增强方法包括平移，缩放，翻转等各种仿射变换。进而可以得到视频帧中服饰对应的服饰图片和数据增强得到的至少一个相似服饰图片。
196.在一些实施例中，针对该视频帧的服饰，可以通过对数据增强过程得到的服饰图片和至少一个相似服饰图片进行数据检索过程，相比于单一对服饰图片进行检索的过程，可以提升检索准确度。其中，该数据增强过程可以基于不同的数据量采用不同的检索策略，检索策略包括千万-亿级别数据量对应的第一检索策略和百万级别数据量对应的第二检索策略。
197.请参阅图9a，其示出了第一检索策略的流程示意图，该第一检索策略包括：
198.步骤一、将预设服饰库中每一预设服饰向量进行量化编码，得到对应的量化编码结果。
199.请参阅图9a，先将所有预设服饰向量911进行粗聚类，得到k个粗聚类结果912，并保存每一聚类结果对应的聚类中心。针对每一个聚类结果，将该聚类结果的所有预设服饰向量913进行均匀拆分为l个特征段914，对于每个特征段914进行聚类，得到每个特征段的聚类中心。基于每个特征段的聚类中心对每个特征段进行量化编码，可以得到每一预设服饰向量对应的l个量化值，将该l个量化值作为该预设服饰向量对应的量化编码结果915。如图9a中，第一个预设服饰向量经过量化编码后可以得到l个量化值为“14，201，34，67”。
200.步骤二、基于步骤一的量化编码方法，对需要检索的服饰特征向量进行编码，得到服饰编码，基于该服饰编码分别与每一预设服饰向量对应的量化编码结果进行比对，将匹配的预设服饰向量对应的同款服饰数据作为检索结果。
201.在步骤二中，对于需要检索的服饰特征向量，先比较服饰特征向量与每一聚类结果对应的聚类中心，确定最相似的聚类中心；采用与步骤一相同的方法，将该服饰特征向量均匀拆分为l个特征段，基于最相似的聚类中心对应的每个特征段的聚类中心对每个特征段进行量化编码，可以得到服饰特征向量对应的l个量化值；在最相似的聚类中心对应的多
个预设服饰向量对应的量化编码结果中，确定与服饰特征向量对应的l个量化值最相似的多个预设服饰向量，作为匹配的预设服饰向量。
202.请参阅图9b，其示出了第二检索策略的流程示意图，该第二检索策略包括：
203.将服饰图片和数据增强得到的至少一个相似服饰图片作为待查询图片，针对待查询图片，针对待查询图片，提取该待查询图片对应的整体特征向量和局部特征向量。同时，针对预设服饰库中的每一个预设服饰图片，基于相同的特征提取方法提取对应的整体特征向量和局部特征向量。
204.请参阅图9b，在对待查询图片921和预设服饰图片931进行特征提取的过程中，可以采用共享权重的主干网络分别对待查询图片921和预设服饰图片931进行特征提取，其中，该主干网络可以为金字塔网络，相应地，可以提取输入图片的多层特征。之后，对待查询图片921对应的多层特征进行自适应窗口池化(adaptive window pooling)，得到对应的待查询图片921对应的整体特征向量922和局部特征向量923；对预设服饰图片931对应的多层特征进行最大池化(max pooling)，得到对应的预设服饰图片931对应的整体特征向量932和局部特征向量933。之后，分别确定待查询图片921对应的局部特征向量923和预设服饰图片931对应的局部特征向量933中两两之间的局部特征相似度941；确定待查询图片921对应的整体特征向量922和预设服饰图片931对应的整体特征向量932之间的整体相似度942；基于该局部相似度941和整体特征相似度942构建对应的图形推理网络，在图形推理网络中，一个节点代表整体特征相似度，其他节点分别代表待查询图片921和预设服饰图片931的局部特征相似度，每条边代表两个相似度之间的关系。最后，利用交叉熵分类损失函数让网络对于全局特征的节点进行判断来决定待查询图片921和预设服饰图片931是否属于同款图片，得到输出结果951。
205.在一些实施例中，在利用金字塔网络提取多层特征的过程中，可以通过三元组损失函数辅助网络对难样本进行发掘，对于每一个样本，取正样本的最大距离(即最难的正样本)和负样本的最小距离(即最难负样本)作为损失函数的优化目标，使得同类样本之间的距离不断减小，不同类样本距离不断拉大，得到一个更好的特征空间，来保证有效的学习。
206.步骤s805、基于每一视频帧对应的服饰属性结果和每一视频帧对应的分区信息，对相同分区内的视频帧的服饰属性结果进行比对投票，得到相同分区内视频帧对应的相同的服饰属性结果。
207.在一些实施例中，该比对投票过程用于对一个分区内各视频帧的服饰属性结果进行聚类，确定相同的物品在不同时间的表现，然后基于相同物体在不同时间维度的服饰属性结果进行投票，最终得到这个物体的最终的服饰属性结果。因为视频中相同场景内相邻帧同一物体变化不会太大，同一分区内不同帧所有识别物体可以聚合为相同物体在时间轴上表现。
208.在一些实施例中，在进行比对投票的过程中，可以基于不同视频帧对应的视频帧质量，为相同分区内每一视频帧设置不同的投票权重，在进行比对投票的过程中，可以基于不同视频帧对应的投票权重，得到该物体的最终的服饰属性结果。其中，该视频帧质量可以包括服饰图片的亮度、清晰度和遮挡程度。
209.步骤s806、在展示所述待处理视频中的目标视频帧的过程中，展示所述目标视频帧中所述目标人物的人物信息和所述目标人物对应的服饰属性结果。
210.在一些实施例中，在展示该待处理视频中的目标视频帧的过程中，该目标视频帧中显示该目标人物的人物信息和目标人物对应的服饰属性结果。其中，上述人物信息和服饰属性结果可以通过矩形框的形式显示人物和服饰对应的位置/范围，并通过文字的形式显示人物的身份信息和服饰对应的分类信息。
211.在一些实施例中，请参阅图10，图10示出了一种服装导购界面的界面示意图，可以看出，该服装导购界面包括视频播放区域1001，该视频播放区域1001用于播放该待处理视频，以展示待处理视频中的目标视频帧为例，该服装导购界面还包括人物展示区域1002，通过人物展示区域1002展示所述目标视频帧中所述目标人物的人物信息；该服装导购界面还包括服饰展示区域1003，通过服饰展示区域1003展示所述目标视频帧中所述目标人物对应的服饰属性结果。
212.在一些实施例中，响应于针对该服饰展示区域1003中任意服饰图片的点击操作，可以服饰选中区域1004中展示该点击操作对应的服饰图片，同时，在服饰购买区域1005中展示该服饰图片对应的多个同款服饰和每一同款服饰对应的购买链接，响应于针对多个同款服饰中目标同款服饰的触发操作，跳转至该目标同款服饰对应的购买界面。
213.在一些实施例中，在得到区间一致的投票结果后，进行视频帧的平滑处理，保证在抽帧情况下不会出现识别信息(人物信息和服饰属性结果)不停闪动的情况。平滑后的人物信息和服饰属性结果将以矩形框和分类信息的形式在视频帧上展示，最后经过视频帧合成视频，将视频和各sdk信息返回至前端页面(服装导购界面)，以上各功能步骤的结果输出将在前端页面上对应显示。
214.基于上述实施例，本公开实施例相对于对比单帧图像的图像检索和服饰推荐，本服饰导购系统可以识别上传视频内全部的服饰特征并做推荐，不局限于单帧图像，推荐的范围更广；同时，在特征检索前增加图像增强处理，通过平移、旋转、缩放等各类数据增强方式加强对于服饰细节的认知，提升特征检索输入的多样性，增强检索效果；同时，提供了视频区间的算法结果投票处理，使得区间内的服装检索结果趋于稳定，避免一段视频中同款服饰因为光线、角度等变换产生的检索结果不一致，视觉感受效果更好；本公开实施例提供了百万量级、亿级别2种数据量级的单帧图像特征检索方式，可以基于具体的业务规模和数据规模选择对应的实现方式。
215.基于前述的实施例，本公开实施例提供一种视频服饰检测装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(central processing unit，cpu)、微处理器(microprocessor unit，mpu)、数字信号处理器(digital signal processor，dsp)或现场可编程门阵列(field programmable gate array，fpga)等。
216.图11为本公开实施例提供的一种视频服饰检测装置的组成结构示意图，如图11所示，视频服饰检测装置1100包括：分区模块1101、检测模块1102和校正模块1103，其中：
217.分区模块1101，用于对待处理视频的多个视频帧进行分区，确定每一所述视频帧对应的分区信息；
218.检测模块1102，用于对每一所述视频帧进行检测，得到每一所述视频帧中目标人物对应的检测结果；所述检测结果包括所述视频帧中所述目标人物的人物信息和所述目标
人物对应的服饰信息；
219.校正模块1103，用于基于每一所述视频帧对应的分区信息，对相同分区内的视频帧的检测结果进行校正，得到每一所述视频帧对应的目标检测结果；其中，相同分区内的视频帧对应的目标检测结果针对目标人物的检测结果相同。
220.在一些实施例中，所述分区模块1101，还用于：
221.获取所述待处理视频对应的多个视频帧；
222.基于每一所述视频帧对应的相邻视频帧集合，确定每一所述视频帧对应的变化类别；所述变化类别用于表征所述视频帧相对于对应的相邻视频帧的变化程度；
223.基于每一所述视频帧对应的变化类别，对所述多个视频帧进行划分，得到每一视频帧对应的分区信息。
224.在一些实施例中，所述分区模块1101，还用于：
225.针对每一所述视频帧，将与所述视频帧相邻的至少一个视频帧作为所述视频帧对应的相邻视频帧集合；
226.将所述视频帧对应的相邻视频帧集合输入训练后的视频分割网络，得到所述视频帧对应的变化类别。
227.在一些实施例中，所述变化类别包括表征第一变化程度的第一类别和表征第二变化程度的第二类别；所述第二变化程度高于所述第一变化程度；所述分区模块1101，还用于：
228.基于所述多个视频帧对应的时序关系，对每一所述变化类别对应的视频帧进行聚类，得到至少一个视频帧集合；所述视频帧集合中包括一个视频帧或连续的至少两个视频帧，且所述连续的至少两个视频帧具有相同的变化类别；
229.将位于目标视频帧集合的中心的视频帧作为划分基准，对所述多个视频帧进行划分，得到每一所述视频帧对应的分区信息；所述目标视频帧集合为所述第二类别的视频帧集合。
230.在一些实施例中，所述检测模块1102，还用于：
231.针对每一所述视频帧，对所述视频帧进行人物检测，确定所述视频帧中所述目标人物对应的人物信息；
232.对所述视频帧进行服饰检测，确定所述目标人物对应的服饰的服饰信息。
233.在一些实施例中，所述检测模块1102，还用于：
234.对所述视频帧进行人脸探测，确定所述视频帧中人脸对应的人脸图像；
235.对所述人脸图像进行人脸特征提取，得到所述人脸对应的待匹配人脸特征；
236.获取预设的人脸特征库，所述人脸特征库包括至少一个预设人物和每一所述预设人物对应的人物信息和多个人脸特征；
237.基于所述待匹配人脸特征与每一所述预设人物对应的多个人脸特征之间的特征距离，在所述多个预设人物中确定所述人脸对应的目标预设人物，将所述目标预设人物对应的人物信息确定为所述目标人物对应的人物信息。
238.在一些实施例中，所述检测模块1102，还用于：
239.针对每一所述预设人物，分别确定所述待匹配人脸特征和所述预设人物对应的每一所述人脸特征之间的特征距离；
240.比对每一所述人脸特征的特征距离和预设的距离阈值，确定每一所述人脸特征对应的相似结果；所述相似结果用于表征所述人脸是否对应所述人脸特征对应的预设人物；
241.基于每一所述人脸特征对应的相似结果，在所述多个预设人物中确定所述人脸对应的目标预设人物。
242.在一些实施例中，所述检测模块1102，还用于：
243.在第一相似结果均对应一个已匹配预设人物的情况下，将所述已匹配预设人物确定为所述目标预设人物；所述第一相似结果表征所述人脸对应所述人脸特征对应的预设人物；
244.在第一相似结果对应至少两个已匹配预设人物的情况下，基于所述待匹配人脸特征与每一所述已匹配预设人物对应的多个人脸特征的特征距离和，在所述至少两个已匹配预设人物中确定所述目标预设人物。
245.在一些实施例中，所述服饰信息包括服饰的服饰类别，所述检测模块1102，还用于：
246.提取所述视频帧对应的服饰特征图；
247.基于所述服饰特征图，确定所述视频帧中服饰对应的检测框信息；
248.基于所述服饰对应的检测框信息，确定所述服饰对应的服饰特征；
249.基于所述服饰对应的服饰特征，确定所述服饰的服饰类别。
250.在一些实施例中，所述检测模块1102，还用于：
251.基于所述服饰对应的检测框信息，从所述视频帧中截取所述服饰对应的服饰图片；
252.对所述服饰图片进行特征提取，得到所述服饰对应的服饰特征。
253.在一些实施例中，所述服饰特征包括多个服饰子特征；所述检测模块1102，还用于：
254.基于所述服饰对应的检测框信息，从所述视频帧中截取所述服饰对应的服饰图片；
255.对所述服饰图片进行数据增强处理，得到所述服饰对应的至少一个相似服饰图片；
256.对所述服饰图片和所述至少一个相似服饰图片进行特征提取，得到所述服饰对应的多个服饰子特征。
257.在一些实施例中，所述服饰信息包括所述服饰的数据信息；所述检测模块1102，还用于：
258.基于预设服饰库的数据量在第一检索策略和第二检索策略中确定目标检索策略；所述第一检索策略对应的数据量高于所述第二检索策略对应的数据量；所述预设服饰库包括多个预设服饰和每一所述预设服饰对应的数据信息；
259.利用所述目标检索策略，在所述多个预设服饰中确定与所述服饰匹配的至少一个预设服饰；
260.将与所述服饰匹配的每一所述预设服饰对应的数据信息确定为所述服饰的数据信息。
261.在一些实施例中，在所述目标检索策略为所述第一检索策略的情况下，所述检测
模块1102，还用于：
262.基于所述服饰的服饰图片，确定所述服饰图片对应的服饰特征向量；
263.在所述多个预设服饰对应的多个第一中心特征中，确定与所述服饰特征向量匹配的目标第一中心特征；所述多个第一中心特征是对所述预设服饰库中的多个预设服饰向量进行聚类后确定的，聚类得到的每一第一聚类结果对应一个第一中心特征；
264.基于所述目标第一中心特征，对所述服饰特征向量进行量化编码，得到服饰编码；
265.将目标编码结果对应的预设服饰编码对应的预设服饰确定为与所述服饰匹配的至少一个预设服饰；所述目标编码结果为所述目标第一中心特征对应的多个量化编码结果中，与所述服饰编码匹配的至少一个量化编码结果；对所述目标第一中心特征对应的预设服饰向量进行量化编码的方法与对所述服饰特征向量进行量化编码的方法相同。
266.在一些实施例中，所述检测模块1102，还用于：
267.基于不同的特征位置，对所述服饰特征向量进行特征内拆分，得到所述服饰特征向量对应的每一所述特征位置对应的服饰子向量；
268.基于所述目标第一中心特征对应的每一所述特征位置的第二中心特征，对每一所述特征位置对应的服饰子向量进行量化编码，得到每一所述特征位置对应的服饰子向量的量化值；所述第二中心特征是对所述目标第一中心特征对应的多个所述特征位置的预设子向量进行聚类后确定的，聚类得到的每一第二聚类结果对应一个第二中心特征；
269.基于每一所述特征位置对应的服饰子向量的量化值，确定所述服饰编码。
270.在一些实施例中，在所述目标检索策略为所述第二检索策略的情况下，所述检测模块1102，还用于：
271.基于所述服饰的服饰图片，确定所述服饰图片对应的整体特征向量和至少一个局部特征向量；
272.针对所述多个预设服饰中的每一所述预设服饰，确定所述预设服饰对应的预设整体向量和所述整体特征向量确定第一相似度，并确定所述预设服饰对应的每一预设局部向量与每一局部特征向量之间的第二相似度；基于所述第一相似度和至少一个第二相似度，确定所述预设服饰与所述服饰之间的预设相似度；
273.基于每一所述预设服饰对应的预设相似度，在所述多个预设服饰中确定与所述服饰匹配的至少一个预设服饰。
274.在一些实施例中，所述目标人物的服饰信息包括所述视频帧中每一服饰对应的检测框信息和服饰类别；所述检测模块1102，还用于：
275.针对每一分区，对所述分区内每一所述视频帧中每一所述服饰进行分类，得到至少一个检测类别；所述检测类别对应的服饰在对应的至少一个待校正视频帧内的检测框信息满足预设的重叠条件；
276.针对每一所述服饰，基于每一所述待校正视频帧中所述服饰对应的服饰类别，确定所述服饰对应的目标服饰类别。
277.在一些实施例中，所述检测模块1102，还用于：
278.获取每一所述待校正视频帧对应的视频帧质量；
279.基于每一所述待校正视频帧对应的视频帧质量，确定每一所述待校正视频帧对应的投票权重；所述待校正视频帧对应的投票权重与所述待校正视频帧对应的视频帧质量正
相关；
280.基于每一所述待校正视频帧对应的投票权重，和每一所述待校正视频帧中所述服饰对应的服饰类别，确定所述服饰对应的目标服饰类别。
281.在一些实施例中，所述检测模块1102，还用于：
282.针对每一所述待校正视频帧，基于所述服饰对应的检测框信息，确定所述待校正视频帧对应的服饰区域；
283.基于所述待校正视频帧和所述服饰区域，确定所述待校正视频帧对应的视频帧质量；
284.其中，所述视频帧质量包括以下至少之一：所述服饰的遮挡程度、所述服饰对应的服饰区域的清晰度和所述服饰对应的服饰区域的亮度。
285.在一些实施例中，所述视频帧质量包括至少一个质量维度的质量信息，所述服饰类别包括至少一个服饰子类别；所述检测模块1102，还用于：
286.针对每一所述服饰子类别，基于所述服饰子类别与每一所述质量维度之间的关联程度，和每一所述质量维度的质量信息，确定所述服饰子类别对应的投票子权重；
287.所述基于每一所述待校正视频帧对应的投票权重，和每一所述待校正视频帧中所述服饰对应的服饰类别，确定所述服饰对应的目标服饰类别，包括：
288.针对每一所述服饰子类别，基于所述服饰子类别对应的投票子权重，和每一所述待校正视频帧中所述服饰对应的服饰子类别，确定所述服饰对应的目标服饰子类别。
289.在一些实施例中，所述视频服饰检测装置1100还包括展示模块。
290.所述展示模块用于通过服饰展示界面播放所述待处理视频；在展示所述待处理视频中的目标视频帧的过程中，展示所述目标视频帧中所述目标人物的人物信息和所述目标人物对应的服饰信息。
291.在一些实施例中，所述展示模块，还用于：
292.通过所述服饰展示界面中的人物展示区域展示所述目标视频帧中所述目标人物的人物信息；
293.通过所述服饰展示界面中的服饰展示区域展示所述目标视频帧中所述目标人物对应的服饰信息；所述服饰信息包括所述目标视频帧中每一所述服饰对应的局部服饰图片和服饰类别。
294.在一些实施例中，所述展示模块，还用于：
295.接收针对所述每一所述服饰对应的局部服饰图片中目标服饰图片的触发操作；
296.响应于所述触发操作，在所述服饰展示界面中的服饰购买区域展示至少一个相关服饰和每一所述相关服饰对应的购买链接。
297.以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法，对于本公开装置实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。
298.需要说明的是，本公开实施例中，如果以软件功能模块的形式实现上述的视频服饰检测方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分
可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read only memory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本公开实施例不限制于任何特定的硬件、软件或固件，或者硬件、软件、固件三者之间的任意结合。
299.本公开实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
300.本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。
301.本公开实施例提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
302.本公开实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一些实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(software development kit，sdk)等等。
303.这里需要指出的是：上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本公开设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。
304.图12为本公开实施例提供的一种视频服饰检测设备的硬件实体示意图，如图12所示，该视频服饰检测设备1200的硬件实体包括：处理器1201和存储器1202，其中，存储器1202存储有可在处理器1201上运行的计算机程序，处理器1201执行程序时实现上述任一实施例的方法中的步骤。
305.存储器1202存储有可在处理器上运行的计算机程序，存储器1202配置为存储由处理器1201可执行的指令和应用，还可以缓存待处理器1201以及视频服饰检测设备1200中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(flash)或随机访问存储器(random access memory，ram)实现。
306.处理器1201执行程序时实现上述任一项的视频服饰检测方法的步骤。处理器1201通常控制视频服饰检测设备1200的总体操作。
307.本公开实施例提供一种计算机存储介质，计算机存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如上任一实施例的视频服饰检测方法的步骤。
308.这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描
述是类似的，具有同方法实施例相似的有益效果。对于本公开存储介质和设备实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。
309.上述处理器可以为目标用途集成电路(application specific integrated circuit，asic)、数字信号处理器(digital signal processor，dsp)、数字信号处理装置(digital signal processing device，dspd)、可编程逻辑装置(programmable logic device，pld)、现场可编程门阵列(field programmable gate array，fpga)、中央处理器(central processing unit，cpu)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本公开实施例不作具体限定。
310.上述计算机存储介质/存储器可以是只读存储器(read only memory，rom)、可编程只读存储器(programmable read-only memory，prom)、可擦除可编程只读存储器(erasable programmable read-only memory，eprom)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、磁性随机存取存储器(ferromagnetic random access memory，fram)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(compact disc read-only memory，cd-rom)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。
311.应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本公开的各种实施例中，上述各步骤/过程的序号的大小并不意味着执行顺序的先后，各步骤/过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。
312.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
313.在本公开所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
314.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
315.另外，在本公开各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述
集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
316.本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(read only memory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。
317.或者，本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
318.以上所述，仅为本公开的实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种通用的表达场景属性条件的语言系统的制作方法

视频服饰检测方法、装置及设备与流程

相关文献

最热文献