图像处理方法和系统与流程

2022-11-16 15:22:18 来源：中国专利 TAG：

1.本发明涉及智能交通领域，具体而言，涉及一种图像处理方法和系统。

背景技术：

2.目前，监测数据往往存储于客户端内网，通常是对数据进行打标后再完成对模型的训练，但由于数据量过大，导致对数据处理的时间过长,不能对模型进行及时更新，从而存在对模型更新的效率低的技术问题。
3.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

4.本发明实施例提供了一种图像处理方法和系统，以至少解决对模型更新的效率低的技术问题。
5.根据本发明实施例的一个方面，提供了一种图像处理方法，包括：获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；基于原始云端模型对待监测场景中的输入图像进行图像识别，得到特征向量；基于特征向量训练得到目标云端模型；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集。
6.根据本发明实施例的一个方面，提供了另一种图像处理方法，包括：获取由不同图像采集设备在第一时刻监测到的视频数据集；采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，其中，原始云端模型用于使云端基于待监测场景中的输入图像进行图像的特征向量训练，而得到目标云端模型；获取云端采用不同图像采集设备在第二时刻监测到的视频数据集来训练目标云端模型，而得到的目标边端模型；将原始边端模型更新为目标边端模型，其中，目标边端模型用于识别不同图像采集设备在第三时刻监测到的视频数据集。
7.根据本发明实施例的一个方面，提供了一种图像处理系统，包括：边端，用于获取由不同图像采集设备在第一时刻监测到的视频数据集，且采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型；云端，用于基于原始云端模型对待监测场景中的输入图像进行图像识别，得到特征向量，基于特征向量训练得到目标云端模型，且采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型；边端还用于基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集。
8.根据本发明实施例的一个方面，提供了另一种图像处理方法，包括：获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练得到，视频数据集为边端采用不同图像采集设备在第一时刻对交通道路监测而得到，视频数据集包含了行
驶通过交通道路的至少一车辆；基于原始云端模型对交通道路中的输入图像进行识别，得到特征向量；基于特征向量训练得到目标云端模型；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备对交通道路在第三时刻监测到的视频数据集。
9.根据本发明实施例的一个方面，提供了另一种图像处理方法，包括：在虚拟现实vr设备或增强现实ar设备的呈现画面上展示待监测场景中的输入图像；虚拟现实vr设备或增强现实ar设备发送输入图像至边端，其中，边端的原始云端模型对输入图像进行图像识别，并基于识别到的特征向量训练得到目标云端模型，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；在采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，并基于训练得到的目标边端模型更新原始边端模型之后，驱动vr设备或ar设备渲染展示第三时刻监测到的视频数据集。
10.根据本发明实施例的一个方面，提供了一种图像处理装置，包括：第一获取单元，用于获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；第一识别单元，用于基于原始云端模型对待监测场景中的输入图像进行图像识别，得到特征向量；第一训练单元，用于基于特征向量训练得到目标云端模型；第二训练单元，用于采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集。
11.根据本发明实施例的一个方面，提供了另一种图像处理装置，包括：第二获取单元，用于获取由不同图像采集设备在第一时刻监测到的视频数据集；第三训练单元，用于采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，其中，原始云端模型用于使云端基于待监测场景中的输入图像进行图像的特征向量训练，而得到目标云端模型；第三获取单元，用于获取云端采用不同图像采集设备在第二时刻监测到的视频数据集来训练目标云端模型，而得到的目标边端模型；更新单元，用于将原始边端模型更新为目标边端模型，其中，目标边端模型用于识别不同图像采集设备在第三时刻监测到的视频数据集。
12.根据本发明实施例的一个方面，提供了另一种图像处理装置，包括：第三获取单元，用于获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练得到，视频数据集为边端采用不同图像采集设备在第一时刻对交通道路监测而得到，视频数据集包含了行驶通过交通道路的至少一车辆；第二识别单元，用于基于原始云端模型对交通道路中的输入图像进行识别，得到特征向量；第三训练单元，用于基于特征向量训练得到目标云端模型；第四训练单元，用于采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备对交通道路在第三时刻监测到的视频数据集。
13.根据本发明实施例的一个方面，提供了另一种图像处理装置，包括：呈现单元，用
于在虚拟现实vr设备或增强现实ar设备的呈现画面上展示待监测场景中的输入图像；第三识别单元，用于虚拟现实vr设备或增强现实ar设备发送输入图像至边端，其中，边端的原始云端模型对输入图像进行图像识别，并基于识别到的特征向量训练得到目标云端模型，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；第五训练单元，用于在采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，并基于训练得到的目标边端模型更新原始边端模型之后，驱动vr设备或ar设备渲染展示第三时刻监测到的视频数据集。
14.根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一项的图像处理方法。
15.根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，在程序运行时执行上述任意一项的图像处理方法。
16.在本发明实施例中，获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；基于原始云端模型对待监测场景中的输入图像进行图像识别，得到特征向量；基于特征向量训练得到目标云端模型；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集。也就是说，本发明实施例在无需人工标注的情况下，通过利用第一时刻监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，利用第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，从而通过利用大量视频数据对原始云端模型和原始边端模型进行协调更新，进而实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
附图说明
17.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
18.图1(a)是根据本发明实施例的一种图像处理系统的示意图；
19.图1(b)是根据本发明实施例的一种云端-边端协同进化系统的示意图；
20.图2是根据本发明实施例的一种图像处理方法的流程图；
21.图3是根据本发明实施例的另一种图像处理方法的流程图；
22.图4是根据本发明实施例的一种图像处理方法的流程图；
23.图5是根据本发明实施例的一种图像处理方法的虚拟现实设备的硬件环境的示意图；
24.图6是根据本发明实施例的另一种图像处理方法的流程图；
25.图7是根据本发明实施例的另一种图像处理结果的示意图；
26.图8是根据本发明实施例的一种对比学习方法的示意图；
27.图9是根据本发明实施例的一种基于语言图像预训练范式的自监督训练框架的示意图；
28.图10是根据本发明实施例的一种基于语言图像预训练范式的边端模型自监督训练方法的流程图；
29.图11是根据本发明实施例的一种云端多模型蒸馏模块的示意图；
30.图12是根据本发明实施例的一种云端多模型蒸馏方法的流程图；
31.图13是根据本发明实施例的一种边端模型迭代优化方法的示意图；
32.图14是根据本发明实施例的一种计算环境的结构框图；
33.图15是根据本发明实施例的一种图像处理方法的服务网格的结构框图；
34.图16是根据本发明实施例的一种图像处理装置的示意图；
35.图17是根据本发明实施例的一种图像处理装置的示意图；
36.图18是根据本发明实施例的另一种图像处理装置的示意图；
37.图19是根据本发明实施例的另一种图像处理装置的示意图；
38.图20是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
39.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
40.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
41.首先，在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释：
42.自监督学习，可以为在无标注的数据上利用数据本身的特性进行网络训练，其中，自监督学习的监督信号来源于数据本身的内容，也即，可以为自己给自己的监督信号；
43.有监督学习，可以为在有标注(标签)的数据上利用数据本身的特性进行网络训练；
44.自然语言及图像对比预训练(contrastive language-image pre-training，简称为clip)，可以为一种多模态的自监督数据训练方法；
45.流式数据，可以与传统静态数据集做区分，可以为顺序、连续、可以快速到达的数据序列；
46.消息队列(rocketmq)，可以为一种分布式消息中间件，可以应用于异步解耦，削峰填谷等场景；
47.开源流处理平台(kafka)，可以为一种生产级别消费中间件，可以为处理实时数据
提供一个统一、高吞吐、低延迟的平台；
48.相对熵(kullback-leibler divergence，简称为kl散度)，可以为kl损失函数，是两个概率分布(probability distribution)间差异的非对称性度量，又可以被称为信息散度(information divergence)；
49.迁移学习，可以为基于已有模型和目标域的数据向目标域的数据进行迁移适配的一种学习方式；
50.伪标签：未标注数据通过已有网络模型推理得到的标签。
51.实施例1
52.根据本发明实施例，还提供了一种图像处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
53.本技术实施实施例提供了如图1(a)所示的图像处理系统。需要说明的是，该实施例的图像处理系统可以由图1(a)所示实施例的移动终端执行，图1(a)是根据本发明实施例的一种图像处理系统的示意图，如图1(a)所示，图像处理系统1000可以包括：边端1001和云端1002。
54.边端1001，用于获取由不同图像采集设备在第一时刻监测到的视频数据集，且采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型。
55.云端1001，用于基于原始云端模型对待监测场景中的输入图像进行识别，得到特征向量，基于特征向量训练得到目标云端模型，且采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型。
56.边端1001还用于基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集。
57.可选地，图1(b)是根据本发明实施例的一种云端-边端协同进化系统的示意图，如图1(b)所示，该系统可以包括边端中的边端模型自监督训练模块103和云端中的云端多模型蒸馏模块104，其中，边端模型自监督模块103可以通过构建流式的数据装载(dataloader)，使边端小模型可以源源不断地获取流式数据，基于获取到的流式数据对边端小模型进行自监督预训练，得到最终的云端大模型；云端多模型蒸馏模块104通过模型回流得到上述云端大模型，可以在不同场景模型下对输入的图像进行处理，得到特征向量，对不同场景模型下的所有特征向量进行平均池化，融合得到表征图像的特征向量，将融合得到的特征向量作为监督信息对云端大模型进行有监督训练，得到云端大模型 (可以是目标云端模型)，进而通过对云端大模型进行迁移学习，得到边端小模型 (可以是目标边端模型)，通过边端小模型对边端的边端小模型进行更新，以此循环往复，实现云端-边端模型的协同更新，从而提高了模型的更新效率。
58.在本发明实施例提供的图像处理系统，通过边端获取第一时刻监测到的视频数据集，且利用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型；通过云端对原始云端模型中的输入图像进行识别，得到特征向量，基于特征向量训练得到目标云端模型，同时，采用第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模
型，从而可以通过在无需人工标注的情况下，利用大量视频对原始云端模型和原始边端模型进行协调更新，进而实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
59.在图1所示的运行环境下，本发明实施例从云端侧提供了一种如图2所示的图像处理方法。图2是根据本发明实施例的一种图像处理方法的流程图，如图2所示，该方法可以包括以下步骤：
60.步骤s202，获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到。
61.在本发明上述步骤s202提供的技术方案中，云端获取来自边端的原始云端模型，该原始云端模型可以边端基于视频数据集对原始边端模型进行训练而得到，其中，原始边端模型可以由边端从客户线上环境获取到上述视频数据集。可选地，该实施例的视频数据集可以为由边端获取到的流式数据，其可以包括由不同图像采集设备在多种场景下采集到的视频数据，比如，城市场景下的、农村场景下的视频数据等，可以包括多帧待监测图像，此处不做具体限制；图像采集设备可以为用于采集图像的设备，比如，照相机、摄影机等，此处不做具体限制，原始边端模型可以用于表征边端小模型，原始云端模型可以为用于表征数据分布的云端大模型。
62.可选地，上述视频数据集为由边端通过不同图像采集设备在第一时刻监测到，该视频数据集用于对原始边端模型进行训练，以得到原始云端模型，云端获取由边端回流过来的原始云端模型。
63.步骤s204，基于原始云端模型对待监测场景中的输入图像进行图像识别，得到特征向量。
64.在本发明上述步骤s204提供的技术方案中，获取待监测场景下的输入图像，通过原始云端模型对输入图像进行图像识别，得到特征向量，其中，待监测场景可以为图像采集设备采集到的场景，可以为预先设定的需要监测的场景，比如，可以为城市场景、铁轨场景等，此处仅为举例说明，不做具体限制；输入图像可以为视频数据集中每帧待检测图像。
65.举例而言，待监测场景为场景1、场景2、场景3
……
场景n的城市场景，获取场景1、场景2、场景3
……
场景n的视频数据集，对视频数据集进行处理，得到待监测场景的输入图像，使用原始云端模型对待监测场景中的输入图像进行识别，得到特征向量。
66.步骤s206，基于特征向量训练得到目标云端模型。
67.在本发明上述步骤s206提供的技术方案中，获取特征向量，可以基于特征向量对原始云端模型进行训练，得到目标云端模型，其中，目标云端模型可以为云端大模型。
68.在本发明实施例中，可使得用多模型蒸馏模块，对多个场景通过原始云端模型得到的特征向量进行蒸馏操作，训练得到目标云端模型，由于在模型训练的过程，对多个场景中的数据进行拟合处理，从而提高了模型对不同场景中数据处理的准确性，进从而提高了目标云端模型的泛化能力。
69.步骤s208，采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集。
70.在本发明上述步骤s208提供的技术方案中，可以获取不同图像采集设备在第二时刻监测到的视频数据集，且利用采集到的视频采集设备对目标云端模型进行训练，将训练之后的目标云端模型通过云端-边端模型更新，对边端中的模型进行更新，得到目标边端模型。
71.可选地，可以将目标边端模型更新为边端基于目标边端模型对原始边端模型进行更新得到的模型，从而得到目标边端模型，可以通过更新得到的目标边端模型对不同图像采集设备在第三时刻监测到的视频数据集进行识别。
72.在该实施例中，假设原始边端模型为初始模型，可以由边端采用不同图像采集设备在第一时刻监测到的视频数据集对原始边端模型进行训练，将在客户线上环境得到的训练之后的原始边端模型对云端中的模型进行更新，得到原始云端模型；云端基于原始云端模型对待监测场景中的输入图像进行识别，得到每个待监测场景对应的特征向量，对得到的特征向量进行处理，将特征向量作为监督信息，训练得到目标云端模型，采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，可以将目标边端模型更新为在边端将得到的目标边端模型对原始边端模型进行更新之后得到的模型，其中，该目标边端模型可以分别对不同图像采集设备在第三时刻监测到的视频数据集进行识别，本发明实施例通过上述方式完成了云端-边端模型的协同更新，从而提高了模型的更新效率。
73.通过本技术上述步骤s202至步骤s208，获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；基于原始云端模型对待监测场景中的输入图像进行图像识别，得到特征向量；基于特征向量训练得到目标云端模型；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集。也就是说，本发明实施例在无需人工标注的情况下，通过利用第一时刻监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，利用第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，从而通过利用大量视频数据对原始云端模型和原始边端模型进行协调更新，进而实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
74.下面对该实施例的上述方法进行进一步地介绍。
75.作为一种可选的实施方式，步骤s204，基于原始云端模型对待监测场景中的输入图像进行图像识别，得到特征向量，包括：基于分别与多个待监测场景对应的原始云端模型，对多个待监测场景中的输入图像进行图像识别，得到多个子特征向量，其中，多个子特征向量与多个待监测场景一一对应；对多个子特征向量进行平均池化，得到特征向量。
76.在该实施例中，原始云端模型可以对应多个待监测场景，基于分别与多个待监测场景对应的原始云端模型对多个待监测场景中的输入图像进行识别，得到与多个待监测场景一一对应的多个子特征向量，对多个子特征向量进行平均池化处理，得到特征向量，其中，待监测场景可以为根据实际需求预设的场景；特征向量可以用于表征图像。
77.可选地，每个待监测场景可以对应一个场景模型，获取多个待监测场景中的输入图像，通过场景模型对输入图像进行识别，得到与多个待监测场景对应的多个子特征向量，
对多个子特征向量进行平均池化，融合处理得到特征向量。
78.举例而言，可以直接对无标签的视频数据集进行识别，通过多个场景模型对视频数据集中待监测图像进行处理，得到每个场景下，输入图像对应的子特征向量，得到多个子特征向量，上述子特征向量可以通过f1、f2……fn
表示，对多个子特征向量进行平均池化(即融合)，得到表征待监测图像的特征向量f，则，上述特征向量可以通过以下公式进行计算：
[0079][0080]
作为一种可选的实施方式，步骤s206，基于特征向量训练得到目标云端模型，包括：基于特征向量和目标损失函数对原始云端模型进行训练，得到目标云端模型。
[0081]
在该实施例中，可以将特征向量作为监督信息，基于目标损失函数对原始云端模型进行训练，得到目标云端模型，其中，目标损失函数可以为相对熵损失函数(kullback-leibler divergence，简称为kl散度)和对抗损失；对抗损失可以由一个简单的判别网络构成，可以用来辅助目标云端模型生成的数据与特征向量属同一个分布，从而提高模型预测的准确性。
[0082]
可选地，可以通过多个场景模型(可以为回流模型)对待识别图像进行处理，得到每个场景下输入图像对应的子特征向量，获取每个场景下的子特征向量，对多个子特征向量进行平均池化(即融合)，得到表征输入图像的特征向量，将特征向量f作为监督信息，利用目标损失函数，同时构造一个判别网络，辅助网络尽量拟合其他模型的分布以对原始云端模型的参数进行调整，得到目标云端模型。
[0083]
举例而言，假设有四个城市场景的回流模型(或模型回流)分别为场景1模型(m1)、场景2模型(m2)、场景3模型(m3)和场景4模型(m4)，待训练的模型为m0，所有输入的图像均经过四个城市场景模型(四个城市场景的回流模型)，分别生成四段子特征向量(f1、f2、f3、f4)，对四段子特征向量进行平均池化(即融合)，得到表征该输入图像的特征向量f，利用目标损失函数训练原始云端模型，使其输出与原始特征向量f接近的特征向量，从而得到目标云端模型。
[0084]
作为一种可选的实施方式，步骤s208，采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，包括：基于原始边端模型对监测到的视频数据集进行识别，得到识别结果；将识别结果确定为伪标签，且基于伪标签对目标云端模型进行训练；或者基于监测到的视频数据集的伪标签对目标云端模型进行训练，得到目标边端模型。
[0085]
在该实施例中，上述伪标签为由边端通过原始边端模型对监测到的视频数据集进行识别，得到识别结果，将识别结果确定为伪标签，可以基于该伪标签对目标云端模型进行训练，得到目标云端模型，或者基于监测到的视频数据集的伪标签对目标云端模型进行训练，得到目标云端模型，通过模型更新，将目标云端模型更新至边端中，得到目标边端模型，其中，伪标签可以为经过原始边端模型推理得到的预先未标注的标签，可以用po进行表示，此处仅为举例说明，不做具体限制。
[0086]
可选地，获取不同图像采集设备在第二时刻监测到视频数据集，可以将视频数据集中的数据依次每帧的送入质量评价模块，过滤掉不符合要求的图像，得到输入图像，将边端通过原始边端模型对输入图像进行识别得到的输入图像的伪标签，确定为视频数据集的
伪标签，其中，原始边端模型可以包括多分类模型。
[0087]
举例而言，可以假设原始边端模型中包括多分类模型，上述伪标签可以为边端中的分类模型对输入的小车图像进行监测后确定的，基于监测到的小车图像的伪标签对目标云端模型进行训练，基于训练之后的目标云端模型对原始边端模型进行更新，得到目标边端模型。
[0088]
作为一种可选的实施方式，基于监测到的视频数据集的伪标签对目标云端模型进行训练，得到目标边端模型，包括：基于监测到的视频数据集的伪标签对目标云端模型进行有监督训练，得到目标边端模型。
[0089]
在该实施例中，获取原始边端模型识别到的伪标签，基于伪标签对目标云端模型进行有监督训练，基于训练之后的目标云端模型对原始边端模型进行更新，得到目标边端模型。
[0090]
可选地，可以采用基于语言图像预训练(contrastive language-image pre-training，简称为clip)的方法，利用图片编码器对视频数据集进行识别生成一段描述语言，同时，利用自然语言编码器对伪标签进行处理，得到一段描述语言，基于两段描述语言对图片编码器和自然编码器进行训练，从而得到能表征数据分布的边端小模型。
[0091]
在本发明实施例中，提出一种基于clip范式的训练框架，通过模型中“标签-自然语言”构造“图片-自然语言对”，对图片编码器和自然语言编码器进行训练，从而使得图片编码器和自然语言编码器二者之间的向量能相互支撑，拉近二者的距离，完成图片-自然语言的对比训练，通过在原始云端模型中使用基于clip范式的训练框架，将语言作为监督信息训练图像的特征，从而实现了将单模图像数据拓展为多模态数据，提高了模型预测的准确性。
[0092]
作为一种可选的实施方式，步骤s208，采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，包括：基于监测到的视频数据集对目标云端模型的权重进行迁移学习，得到目标边端模型。
[0093]
在该实施例中，基于伪标签数据训练得到训练之后的目标云端模型，对目标云端模型的权重(网络参数)进行迁移学习，得到目标边端模型。
[0094]
可选地，可以基于识别到的伪标签通过上述方式不断的对目标云端模型进行迭代优化，训练得到一个强大且优秀的网络权重，可以对训练之后得到的目标云端模型的权重进行迁移适配，得到目标边端模型。
[0095]
举例而言，基于伪标签训练得到一个强大的网络权重之后，利用目标云端模型(云端大模型)选取流目标域的数据对目标边端模型进行迁移学习，也即，基于目标云端模型和客户线上环境(目标域的数据)进行迁移适配，将学习完之后的云端大模型对线上的边端小模型进行替换，得到目标边端模型，从而完成对客户线上边端中模型的更新。
[0096]
在本发明实施例中的云端侧，在无需人工标注的情况下，通过利用第一时刻监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，利用第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，从而通过利用大量视频数据对原始云端模型和原始边端模型进行协调更新，进而实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
[0097]
下面从边端侧对本发明实施例的图像处理方法进行介绍。
[0098]
图3是根据本发明实施例的另一种图像处理方法的流程图，如图3所示，该方法可以包括以下步骤：
[0099]
步骤s302，获取由不同图像采集设备在第一时刻监测到的视频数据集。
[0100]
在本发明上述步骤s302提供的技术方案中，在待监测场景中部署有不同图像采集设备，边端获取由不同图像采集设备在第一时刻监测到的视频数据集，其中，视频数据集可以为流式数据。
[0101]
举例而言，可以通过构建流式的数据装载(dataloader)，使边端小模型可以源源不断地获取流式数据，其中，流式数据可以包括常见消息中间件(rocketmq)、生产级别消费中间件(kafka)、搜索引擎(elasticsearch)等，可针对不同的来源设计不同的数据提取接口，需要说明的是，此处流式数据的种类仅为举例说明，此处不对流式数据做具体限制。
[0102]
步骤s304，采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，其中，原始云端模型用于使云端基于待监测场景中的输入图像进行图像的特征向量训练，而得到目标云端模型。
[0103]
在本发明上述步骤s304提供的技术方案中，边端可以采用监测到的视频数据集对原始边端模型进行训练，将训练之后的原始边端模型对云端中的模型进行更新，得到原始云端模型，基于待监测场景中的输入图像进行特征向量的训练，可以得到目标云端模型，其中，原始云端模型可以为运行与生产环境的云端大模型。
[0104]
可选地，可以基于获取到的流式数据对边端小模型进行自监督预训练，将训练之后的原始边端模型对云端中的模型进行更新，得到原始云端模型。
[0105]
步骤s306，获取云端采用不同图像采集设备在第二时刻监测到的视频数据集来训练目标云端模型，而得到的目标边端模型。
[0106]
在本发明上述步骤s306提供的技术方案中，不同图像采集设备在第二时刻监测到视频数据集，在云端采用获取到的视频数据集对原始云端模型进行训练，得到目标边端模型。
[0107]
步骤s308，将原始边端模型更新为目标边端模型，其中，目标边端模型用于识别不同图像采集设备在第三时刻监测到的视频数据集。
[0108]
在本发明上述步骤s308提供的技术方案中，将在客户线上环境得到的训练之后的原始边端模型对云端中的模型进行更新，得到原始云端模型；该原始云端模型用于在在云端中进行训练，得到目标云端模型，该云端模型用于采用不同图像采集设备在第二时刻监测到的视频数据集进行训练，得到目标云端模型，将训练得到的目标云端模型对边端中的模型进行更新，得到目标边端模型，更新之后得到的目标边端模型可以分别对不同图像采集设备在第三时刻监测到的视频数据集进行识别。
[0109]
通过本发明实施例上述步骤s302至步骤s308，获取由不同图像采集设备在第一时刻监测到的视频数据集；采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，其中，原始云端模型用于使云端基于待监测场景中的输入图像进行图像的特征向量训练，而得到目标云端模型；获取云端采用不同图像采集设备在第二时刻监测到的视频数据集来训练目标云端模型，而得到的目标边端模型；将原始边端模型更新为目标边端模型，以分别识别不同图像采集设备在第三时刻监测到的视频数据集，从而实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
[0110]
下面对该实施例的上述方法进行进一步地介绍。
[0111]
作为一种可选的实施方式，步骤s308，将原始边端模型更新为目标边端模型，以分别识别不同图像采集设备在第三时刻监测到的视频数据集，包括：将目标边端模型确定为原始边端模型，将第三时刻监测到的视频数据集确定为第一时刻监测到的视频数据集，返回执行采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型的步骤。
[0112]
在该实施例中，当一段时间后，需要再次对边端中的模型进行更新，可以通过以下步骤完成对模型的更新，此时，可以在边端将之前训练得到的目标边端模型确定为原始边端模型，将第三时刻监测到的视频数据集确定为第一时刻监测到的视频数据集，采用监测到的视频数据集对原始边端模型进行训练，重复上述确定目标边端模型的步骤，可以达到在预定时间内对目标边端模型进行及时更新的目的。
[0113]
举例而言，当一段时间之后，将在边端中将目标边端模型确定为原始边端模型，将第三时刻监测到的视频数据集确定为第一时刻监测到的视频数据集，基于监测到的数据集再次对原始边端模型进行训练，训练得到目标云端模型，采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，将得到的目标边端模型对原始边端模型进行更新，将原始边端模型更新为目标边端模型，更新之后的原始边端模型可以分别对不同图像采集设备在第三时刻监测到的视频数据集进行识别。
[0114]
可选地，可以每隔目标时间，或者当视频数据集中数据达到一定数量后通过上述方式再次对边端模型进行更新，需要说明的是，此处不对模型更新的触发条件进行限制。
[0115]
作为一种可选的实施方式，步骤s304，采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，包括：采用监测到的视频数据集对原始边端模型进行自监督训练，得到原始云端模型。
[0116]
在该实施例中，可以采用监测到的视频数据集对原始边端模型进行自监督训练，得到原始云端模型。
[0117]
可选地，可以利用自监督训练模块完成对原始边端模型的自监督训练，可以包括单视觉图像范式和多模态范式。
[0118]
作为一种可选的实施方式，采用监测到的视频数据集对原始边端模型进行自监督训练，得到原始云端模型，包括以下至少之一：对监测到的视频数据集进行增强处理，得到增强视频数据集；将增强视频数据集作为训练样本对原始边端模型进行自监督训练，得到原始云端模型，其中，训练样本中多个正样本之间的距离小于多个负样本之间的距离。
[0119]
在该实施例中，可以对监测到的视频数据集进行增强处理，得到增强视频数据集，将增强视频数据集作为训练样本对原始边端模型进行自监督训练，可使得训练样本中多个正样本之间的距离小于多个负样本之间的距离，从而完成原始边端模型的自监督训练，将训练之后的原始边端模型对云端中的模型进行更新，得到原始云端模型。
[0120]
可选地，可以为对视频数据集进行不同增强后，将得到的增强视频数据集送入训练网络，缩小正样本之间的距离，扩大与其他负样本的距离，给定视频数据集中的图像数据x，对比学习的目标是学习一个编码器f，使得：
[0121]
d(f(x)，f(x

))＜＜d(f(x)，f(x-))
[0122]
其中，x

是与x相似的正样本；x-是与x不相似的负样本；d()是一个度量函数，用于衡量正负样本之间的相似度，可以为欧式距离，余弦相似度等。
[0123]
在本发明实施例中，通过对比学习，在边端中完成对原始边端模型进行自监督训练的过程，得到原始云端模型。
[0124]
作为一种可选的实施方式，采用监测到的视频数据集对原始边端模型进行自监督训练，得到原始云端模型，包括：对监测到的视频数据集进行掩码处理，得到掩码视频数据集；基于原始边端模型对掩码视频数据集进行还原处理；基于还原后的掩码视频数据集和监测到的视频数据集对原始边端模型进行训练，得到原始云端模型。
[0125]
在该实施例中，可以对监测到的视频数据集进行掩码处理，得到掩码视频数据集，引导原始边端模型对掩码视频数据集进行还原处理，得到还原后的掩码视频数据集，通过还原后的掩码视频数据集和监测到的视频数据集对原始边端模型进行对比，确定损失函数，基于损失函数对模型参数进行调整，得到原始云端模型。
[0126]
可选地，可以输入待处理数据(i
input
)通过掩码遮盖一些部位，然后引导原始边端模型去复原被遮盖的区域，得到输出数据(i
output
)，基于输出数据和待处理数据确定损失函数，根据损失函数对原始边端模型的参数进行调整，从而达到训练原始边端模型的目的，上述损失函数可以为：
[0127]
l＝||i
input-i
output
||
[0128]
作为一种可选的实施方式，采用监测到的视频数据集对原始边端模型进行自监督训练，得到原始云端模型，包括：基于原始边端模型识别出监测到的视频数据集的伪标签；将监测到的视频数据集的伪标签生成文本，其中，文本用于描述监测到的视频数据集；基于监测到的视频数据集和文本，将原始边端模型训练为原始云端模型。
[0129]
在该实施例中，可以输入视频数据集，原始边端模型对视频数据集进行监测，得到视频数据集多个维度的标签，该多个维度的标签用于在云端利用自然语言编码器生成文本，同时可以利用图片编码器对视频数据集进行处理得到视频数据集对应的文本，基于得到的两个文本对原始边端模型进行训练，得到原始云端模型，其中，文本可以为自然描述语言，此处不对文本信息的转换做具体限制。
[0130]
举例而言，可以输入一张小车图像至原始边端模型中，则可以输出标签“车辆颜色：黑，车辆品牌：*克，车辆视角：正面”，通过图片编码器和自然语言编码器对输出标签的字段进行处理，分别生成一段自然描述语言：一辆黑色轿车的正面，车辆品牌为*克，通过图片-自然语言的对比训练，得到原始云端模型。
[0131]
在本发明实施例中，在无需人工标注的情况下，通过利用第一时刻监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，利用第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，从而通过利用大量视频数据对原始云端模型和原始边端模型进行协调更新，进而实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
[0132]
作为一种可选的实施方式，基于监测到的视频数据集和所述目标文本，将所述原始边端模型训练为所述原始云端模型，包括：基于监测到的视频数据集的编码向量和目标文本的编码向量对原始边端模型进行对比训练，得到原始云端模型。
[0133]
在该实施例中，可以在边端中通过clip范式，根据监测到的视频数据集的伪标签中的目标文本生成编码向量，且对视频数据集进行处理得到视频数据集对应的编码向量，将上述两个编码向量进行对比训练，通过客户线上场景与生成场景之间的数据更新，将训
练之后得到的模型作为原始云端模型，其中，编码向量可以用于描述图像中物品，可以为自然描述语言、符号等，此处不对编码向量的表现形式做具体限制。
[0134]
可选地，可以利用自然语言编码器将伪标签的字段生成一段自然描述语言，比如，自然描述语言可以为一辆黑色轿车的正面，车辆品牌为*克，其中，自然语言的生成方式可以采用手工规则引擎设定，比如，针对车辆分类任务，假设ma模型输出的伪标签为车辆颜色-红，车辆品牌-*马，车辆款式-x3，那么输出的自然描述语言为一辆红色的*马x3。
[0135]
可选地，可以基于语言图像预训练范式的自监督训练方法，对原始边端模型进行训练，在模型训练时可以包括图片-自然语言对比训练，其中，对图片-自然语言对比训练可以包括对图片编码器和自然语言编码器的训练。
[0136]
本发明实施例还提供了另一种图像处理方法，该方法可以应用于交通道路场景中，比如，可以应用于城市监测场景，且该模型可以用于对城市交通道路中监测到的视频进行识别。
[0137]
图4是根据本发明实施例的一种图像处理方法的流程图，如图4所示，该方法可以包括以下步骤。
[0138]
步骤s402，获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练得到，视频数据集为边端采用不同图像采集设备在第一时刻对交通道路监测而得到，视频数据集包含了行驶通过交通道路的至少一车辆。
[0139]
步骤s404，基于原始云端模型对交通道路中的输入图像进行识别，得到特征向量；
[0140]
步骤s406，基于特征向量训练得到目标云端模型。
[0141]
步骤s408，采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备对交通道路在第三时刻监测到的视频数据集。
[0142]
通过本发明上述步骤s402至步骤s408，获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练得到，视频数据集为边端采用不同图像采集设备在第一时刻对交通道路监测而得到，视频数据集包含了行驶通过交通道路的至少一车辆；基于原始云端模型对交通道路中的输入图像进行识别，得到特征向量；基于特征向量训练得到目标云端模型；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备对交通道路在第三时刻监测到的视频数据集，从而通过利用大量视频数据对原始云端模型和原始边端模型进行协调更新，进而实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
[0143]
作为另一种可选的实施例，图5是根据本发明实施例的一种图像处理方法的虚拟现实设备的硬件环境的示意图。如图5所示，虚拟现实设备504与终端506相连接，终端506与服务器502通过网络进行连接，上述虚拟现实设备504并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端506并不限定于pc、手机、平板电脑等，服务器502可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。
[0144]
可选地，该实施例的虚拟现实设备504包括：存储器、处理器和传输装置。存储器用于存储应用程序，该应用程序可以用于执行：获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集
设备在第一时刻监测而得到；基于原始云端模型对待监测场景中的输入图像进行识别，得到特征向量；基于特征向量训练得到目标云端模型；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集，实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
[0145]
该实施例的终端可以用于执行在虚拟现实(virtual reality，简称为vr)设备或增强现实(augmented reality，简称为ar)设备的呈现画面上展示监测到的视频数据集；在虚拟现实vr设备或增强现实ar设备上展示待监测场景中的输入图像；基于来自边端的原始云端模型对输入图像进行识别，得到特征向量；基于特征向量训练得到目标云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集；驱动vr设备或ar设备展示第三时刻监测到的视频数据集，虚拟现实设备504在接收到监测到的视频数据集之后在目标投放位置显示出来。
[0146]
可选地，该实施例的虚拟现实设备504带有的眼球追踪的头戴式显示器(head mount display，简称为hmd)与眼球追踪模块与上述实施例中的作用相同，也即，hmd头显中的屏幕，用于显示实时的画面，hmd中的眼球追踪模块，用于获取用户眼球的实时运动路径。该实施例的终端通过跟踪系统获取用户在真实三维空间的位置信息与运动信息，并计算出用户头部在虚拟三维空间中的三维坐标，以及用户在虚拟三维空间中的视野朝向。
[0147]
图5示出的硬件结构框图，不仅可以作为上述ar/vr设备(或移动设备)的示例性框图，还可以作为上述服务器的示例性框图，在上述所示的运行环境下，本发明还提供了如图6所示的图像处理方法，该方法可以应用于虚拟现实vr设备或增强现实ar设备中，且该模型可以用于对虚拟现实vr设备或增强现实ar设备中的视频段进行分析需要说明的是，该实施例的图像处理方法可以由图6所示实施例的移动终端执行。
[0148]
图6是根据本发明实施例的另一种图像处理方法的流程图，如图6所示，该方法可以包括以下步骤。
[0149]
步骤s602，在虚拟现实vr设备或增强现实ar设备的呈现画面上展示待监测场景中的输入图像。
[0150]
步骤s604，虚拟显示vr设备或增强现实ar设备发送输入图像至边端，其中，边端模型的原始云端模型对输入图像进行图像识别，并基于识别到的特征向量训练得到目标云端模型，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到。
[0151]
步骤s608，在采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，并基于训练得到目标边端模型更新原始边端模型之后，使得驱动vr设备或ar设备渲染展示第三时刻监测到的视频数据集。
[0152]
可选地，在本实施例中，上述图像处理方法可以应用于由服务器、虚拟现实设备所构成的硬件环境中。在虚拟现实设备或增强现实设备的呈现画面上展示视频，服务器可以
为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等。
[0153]
需要说明的是，该实施例的上述应用在vr设备或ar设备中的图像处理方法可以包括图6所示实施例的方法，以实现驱动vr设备或ar设备展示第三时刻监测到的视频数据集的目的。
[0154]
可选地，该实施例的处理器可以通过传输装置调用上述存储器存储的应用程序以执行上述步骤。传输装置可以通过网络接收服务器发送的媒体文件，也可以用于上述处理器与存储器之间的数据传输。
[0155]
可选地，在虚拟现实设备中，带有眼球追踪的头戴式显示器，该hmd中的屏幕，用于显示展示的视频画面，hmd中的眼球追踪模块，用于获取用户眼球的实时运动路径，跟踪系统，用于追踪用户在真实三维空间的位置信息与运动信息，计算处理单元，用于从跟踪系统中获取用户的实时位置与运动信息，并计算出用户头部在虚拟三维空间中的三维坐标，以及用户在虚拟三维空间中的视野朝向等。
[0156]
在本发明实施例中，虚拟现实设备可以与终端相连接，终端与服务器通过网络进行连接，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端并不限定于pc、手机、平板电脑等，服务器可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。
[0157]
图7是根据本发明实施例的另一种图像处理结果的示意图，如图7所示，驱动vr设备或ar设备展示第三时刻监测到的视频数据集。
[0158]
本发明实施例在虚拟现实vr设备或增强现实ar设备的呈现画面上展示待监测场景中的输入图像；虚拟现实vr设备或增强现实ar设备发送输入图像至边端，其中，边端的原始云端模型对输入图像进行图像识别，并基于识别到的特征向量训练得到目标云端模型，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；在采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，并基于训练得到的目标边端模型更新原始边端模型之后，驱动vr设备或ar设备渲染展示第三时刻监测到的视频数据集，从而通过利用大量视频数据对原始云端模型和原始边端模型进行协调更新，进而实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
[0159]
实施例2
[0160]
下面对该实施例的上述方法的优选实施方式进行进一步介绍，具体以一种基于自监督和多模型蒸馏的大小模型协同进化方法进行说明。
[0161]
城市场景中数以万计的视频点位每天都可以获取大量的视频数据，如何充分感知并理解这些数据是面向城市场景的识别算法中非常重要的一步。
[0162]
在相关技术中，城市场景的监测数据往往存储于客户内网，具有极大隐私性，直接对视频数据进行打标后再进行训练，存在周期过长的问题的同时，也存在一定的数据隐私伦理风险和泄漏风险，同时，由于获取到的数据量过大，往往不能对模型进行及时的更新，也存在一定的滞后性。
[0163]
为解决上述问题，从而可以实现充分利用城市场景海量数据对模型进行更新，本发明实施例提出了一种基于自监督和多模型蒸馏的大小模型协同进化系统，该系统可以包
括边端模型自监督训练模块和云端多模型蒸馏模块，其中，云端多模型蒸馏模块可以包括边端迭代优化模块，通过上述三个模块实现了可以在无需人工标注的情况下，充分利用海量数据对视觉任务的云端大模型和边端小模型进行协同进化，从而实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
[0164]
下面对上述应用于客户线上环境的边端模型自监督训练模块进行进一步介绍。
[0165]
边端模型自监督模块通过构建流式的数据装载(dataloader)，使边端小模型可以源源不断地获取流式数据，基于获取到的流式数据对边端小模型进行自监督预训练，得到最终的边端小模型，其中，流式数据可以包括常见消息中间件(rocketmq)、生产级别消费中间件(kafka)、搜索引擎(elasticsearch)等，可针对不同的来源设计不同的数据提取接口，需要说明的是，此处流式数据的种类仅为举例说明，此处不对流式数据做具体限制。
[0166]
作为一种可选的实施例，对边端小模型进行训练范式可以包括单视觉图像范式和多模态范式。
[0167]
在该实施例中，单视觉范式可以包括对比学习和生成学习。
[0168]
可选地，图8是根据本发明实施例的一种对比学习方法的示意图，如图8所示，对比学习是将数据分别与正例样本和负例样本在训练网络中进行对比，以学习样本的特征表示。
[0169]
可选地，可以对输入图像进行不同增强后送入训练网络，缩小正样本之间的距离，扩大与其他负样本的距离，给定图像数据x，对比学习的目标是学习一个编码器f，使得：
[0170]
d(f(x)，f(x

))＜＜d(f(x)，f(x-))
[0171]
其中，x

是与x相似的正样本；x-是与x不相似的负样本；d()是一个度量函数，用于衡量正负样本之间的相似度，可以为欧式距离，余弦相似度等。
[0172]
可选地，生成学习可以输入待处理数据(i
input
)通过掩码遮盖一些部位，然后引导网络去复原被遮盖的区域，得到输出数据(io
utput
)从而达到训练网络的目的，其损失函数为：
[0173]
l＝||i
input-i
output
||
[0174]
在该实施例中，多模态范式可以采用基于语言图像预训练(contrastive language-image pre-training，简称为clip)的方法，将语言作为监督信息训练图像的特征，图9是根据本发明实施例的一种基于语言图像预训练范式的自监督训练框架的示意图，如图9所示，输入一张汽车小图，基于语言图像预训练范式处理后，可以获取多个维度的标签。
[0175]
举例而言，如图9所示，可以假设已经拥有模型ma(可以为多分类模型)，输入一张小车图像，则可以输出标签“车辆颜色：黑，车辆品牌：*克，车辆视角：正面”，通过clip范式中的图片编码器和自然语言编码器对输出标签的字段进行处理，生成一段自然描述语言：一辆黑色轿车的正面，车辆品牌为*克。
[0176]
下面对多模态范式中的基于语言图像预训练范式的边端模型自监督训练方法进行进一步介绍。
[0177]
图10是根据本发明实施例的一种基于语言图像预训练范式的边端模型自监督训练方法的流程图，如图10所示，基于语言图像预训练范式的边端模型自监督训练方法可以包括如下步骤：
[0178]
步骤s1002，获取小车图像。
[0179]
在该实施例中，不断获取流式数据(dataloader)，得到小车图像，可以将小车图像送入依次送入质量评价模块，过滤大量不符合要求的小图，减少大量无信息量的小图。
[0180]
步骤s1004，通过多分类模型对小车图像进行处理。
[0181]
在该实施例中，将挑选后的小车图像(img
x
)送入多分类模型中，模型输出多标签，将模型输出的标签作为该小车图像的伪标签。
[0182]
步骤s1006，对多分类模型的输出结果进行处理。
[0183]
在该实施例中，可以通过clip范式，根据伪标签的字段生成一段自然描述语言，比如，自然描述语言可以为一辆黑色轿车的正面，车辆品牌为*克。
[0184]
可选地，上述自然语言的生成方式可以采用手工规则引擎设定，比如，针对车辆分类任务，假设ma模型输出的伪标签为车辆颜色-红，车辆品牌-*马，车辆款式-x3，那么输出的自然描述语言为一辆红色的*马x3。
[0185]
在该实施例中，可以基于语言图像预训练范式的自监督训练方法对模型进行训练，在模型训练时可以包括图片-自然语言对比训练，其中，对图片-自然语言对比训练可以包括对图片编码器和自然语言编码器的训练。
[0186]
可选地，使经过图片编码器和自然语言编码器二者之间的向量能相互支撑，拉近二者的距离，从而完成图片-自然语言对比训练。
[0187]
在本发明实施例中，通过边端模型的自监督训练过程，可以得到能表征数据分布的边端小模型。
[0188]
下面对可以应用于公司生产环境的云端多模型蒸馏模块进行进一步介绍。
[0189]
在该实施例中，可以通过多模型蒸馏模块实现更好的对多个场景(比如，可以为场景1、场景2、场景3
……
场景n的城市场景)中的数据分布进行拟合，从而提高模型的泛化能力。
[0190]
图11是根据本发明实施例的一种云端多模型蒸馏模块的示意图，如图11所示，输入图像，在不同场景模型下对输入的图像进行处理，得到特征向量，对四个场景的所有特征向量进行平均池化，融合得到表征图像的特征向量，将融合得到的特征向量作为监督信息对网络进行有监督训练，得到云端大模型 (可以是目标云端模型)。
[0191]
图12是根据本发明实施例的一种云端多模型蒸馏方法的流程图，如图12所示，云端多模型蒸馏方法可以包括以下步骤：
[0192]
步骤s1202，对输入的图像进行多模型推理处理。
[0193]
在该实施例中，可以直接使用无标签数据对云端多模型蒸馏方法进行训练，通过多个场景模型对待识别图像进行处理，得到每个场景下，输入图像对应的特征向量。
[0194]
步骤s1204，获取每个场景下的特征向量，并对多个特征向量进行融合。
[0195]
在该实施例中，获取每个场景下的特征向量，对多个特征向量进行平均池化(即融合)，得到表征该样本的向量f，可以通过以下公式进行计算：
[0196][0197]
举例而言，如图12所示，假设有四个城市场景的回流模型(或模型回流)分别为场景1模型(m1)、场景2模型(m2)、场景3模型(m3)和场景4模型(m4)，待训练的模型为m0，所有
输入的图像均经过四个城市场景模型(四个城市场景的回流模型)，分别生成四段特征向量(f1、f2、f3、f4)，对四段特征向量进行平均池化(即融合)，得到表征该样本的向量f。
[0198]
步骤s1206，将特征向量f作为监督信息进行有监督训练。
[0199]
在该实施例中，将特征向量f作为监督信息对多模型蒸馏框架进行有监督训练，其中，监督过程中的损失函数可以为相对熵损失函数加上对抗损失；对抗损失可以由一个简单的判别网络构成，用来辅助网络生成的数据与原始向量f属同一分布。
[0200]
可选地，训练网络m(多模型蒸馏框架)使其输出与原始特征向量f接近的特征向量，损失函数可以选用kl损失函数，同时构造一个判别网络，辅助网络尽量拟合其他模型的分布，从而得到云端大模型。
[0201]
下面对可以应用于客户线上环境的边端迭代优化模块进行进一步介绍。
[0202]
图13是根据本发明实施例的一种边端模型迭代优化方法的示意图，如图13所示，边端模型迭代可以包括以下两种方式。
[0203]
作为一种可选地实施例，如图13所示，可以基于伪标签训练得到一个强大的网络权重之后，利用云端大模型选取流目标域中的流式数据进行迁移学习，完成基于已有模型和目标域的数据进行迁移适配，将学习完之后的云端大模型对线上的边端小模型进行替换，得到最终的边端小模型，从而完成对边端小模型的更新。
[0204]
作为一种可选地实施例，可以针对流式数据对边端小模型进行微调(finetune)训练，得到云端大模型。
[0205]
可选地，假设边端的原来的边端小模型为m0，经过微调训练得到云端大模型(mn)，其中，mn可以包括骨干(backbone)和头(head)网络，骨干部分的权重可以为通过多模型蒸馏得到。
[0206]
可选地，针对线上任务中的流式数据，可以经过原来的边端小模型得到伪标签po，使用伪标签po对云端大模型进行有监督训练，直至通过客户线上环境的自动评测标准之后，得到云端大模型，用训练后得到的云端大模型对边端小模型进行替换，从而完成云端-边端模型的更新。
[0207]
需要说明的是，边端小模型的迭代优化可以是直接使用得到的云端大模型的权重作为预训练权重，后根据特定任务离线直接进行迁移学习，也可以为使用云端大模型的权重作为固定权重，利用原来的边端小模型产生的伪标签进行训练，两种方法任选其一。
[0208]
在本发明实施例中，提供了一种基于自监督(边缘模型自监督训练)和多模型蒸馏(云端多模型蒸馏)的大小模型协同进化系统，该系统包括边端模型自监督训练模块，云端多模型蒸馏模块，边端迭代优化模块三个模块，其中，在边端模型自监督训练模块中提出了一种基于clip范式的训练框架，通过模型-标签-自然语言构造图片-自然语言对，从而实现了将单模图像数据拓展为多模态数据；云端多模型蒸馏模块可以将多个城市场景得到的云端大模型进行蒸馏操作，萃取出一个更为鲁棒的云端大模型，本发明实施例通过上述三个模块实现了在无需人工标注的情况下充分利用海量数据对视觉任务的云端大模型和边端小模型协同进化。
[0209]
另一种可选实施例中，图14以框图示出了使用上述图1所示的计算机终端10(或移动设备)作为计算环境1401中计算节点的一种实施例。图14是根据本发明实施例的一种计算环境的结构框图，如图14所示，计算环境1401包括运行在分布式网络上的多个(图中采用
1410-1，1410-2，
…
,来示出)计算节点(如服务器)。每个计算节点都包含本地处理和内存资源，终端用户1402可以在计算环境1401中远程运行应用程序或存储数据。应用程序可以作为计算环境1401中的多个服务1420-1,1420-2,1420-3和1420-4进行提供，分别代表服务“a”，“d”，“e”和“h”。
[0210]
终端用户1402可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务，在一些实施例中，可以将终端用户1402的供应和/或请求提供给入口网关1430。入口网关1430可以包括一个相应的代理来处理针对服务1420(计算环境1401中提供的一个或多个服务)的供应和/或请求。
[0211]
服务1420是根据计算环境1401支持的各种虚拟化技术来提供或部署的。在一些实施例中，可以根据基于虚拟机(vm)的虚拟化、基于容器的虚拟化和/或类似的方式提供服务1420。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机，在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时，根据基于容器的虚拟化，可以启动容器来虚拟化整个操作系统(os)，以便多个工作负载可以在单个操作系统实例上运行。
[0212]
在基于容器虚拟化的一个实施例中，服务1420的若干容器可以被组装成一个pod(例如，kubernetes pod)。举例来说，如图14所示，服务1420-2可以配备一个或多个pod 1440-1,1440-2，
…
，1440-n(统称为pod 1440)。每个pod 1440可以包括代理1445和一个或多个容器1442-1,1442-2，
…
，1442-m(统称为容器1442)。pod 1440中一个或多个容器1442处理与服务的一个或多个相应功能相关的请求，代理1445通常控制与服务相关的网络功能，如路由、负载均衡等。其他服务1420也可以陪陪类似于pod 1440的pod。
[0213]
在操作过程中，执行来自终端用户1402的用户请求可能需要调用计算环境1401中的一个或多个服务1420，执行一个服务1420的一个或多个功能坑你需要调用另一个服务1420的一个或多个功能。如图14所示，服务“a”1420-1从入口网关1430接收终端用户1402的用户请求，服务“a”1420-1可以调用服务“d”1420-2，服务“d”1420-2可以请求服务“e”1420-3执行一个或多个功能。
[0214]
上述的计算环境可以是云计算环境，资源的分配由云服务提供上管理，允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能，而不是扩展单个硬件设备来处理潜在的负载。
[0215]
另一种可选实施例中，图15以框图示出了使用上述图1所示的计算机终端10(或移动设备)作为服务网格的一种实施例。图15是根据本发明实施例的一种图像处理方法的服务网格的结构框图，如图15所示，该服务网格1500主要用于方便多个微服务之间进行安全和可靠的通信，微服务是指将应用程序分解为多个较小的服务或者实例，并分布在不同的集群/机器上运行。
[0216]
如图15所示，微服务可以包括应用服务实例a和应用服务实例b，应用服务实例a和应用服务实例b形成服务网格1500的功能应用层。在一种实施方式中，应用服务实例a以容器/进程1508的形式运行在机器/工作负载容器组1514(pod)，应用服务实例b以容器/进程1510的形式运行在机器/工作负载容器组1516(pod)。
[0217]
在一种实施方式中，应用服务实例a可以是商品查询服务，应用服务实例b可以是
商品下单服务。
[0218]
如图15所示，应用服务实例a和网格代理(sidecar)1503共存于机器工作负载容器组614，应用服务实例b和网格代理1505共存于机器工作负载容器1514。网格代理1503和网格代理1505形成服务网格1500的数据平面层(data plane)。其中，网格代理1503和网格代理1505分别以容器/进程1504，容器/进程1504可以接收请求1512，以用于进行商品查询服务，网格代理1506的形式在运行，并且网格代理1503和应用服务实例a之间可以双向通信，网格代理1505和应用服务实例b之间可以双向通信。此外，网格代理1503和网格代理1505之间还可以双向通信。
[0219]
在一种实施方式中，应用服务实例a的所有流量都通过网格代理1503被路由到合适的目的地，应用服务实例b的所有网络流量都通过网格代理1505被路由到合适的目的地。需要说明的是，在此提及的网络流量包括但不限于超文本传输协议(hyper text transfer protocol，简称为http)，表述性状态传递(representational state transfer，简称为rest)，高性能、通用的开源框架(grpc)，开源的内存中的数据结构存储系统(redis)等形式。
[0220]
在一种实施方式中，可以通过为服务网格1500中的代理(envoy)编写自定义的过滤器(filter)来实现扩展数据平面层的功能，服务网格代理配置可以是为了使服务网格正确地代理服务流量，实现服务互通和服务治理。网格代理1503和网格代理1505可以被配置成执行至少如下功能中的一种：服务发现(service discovery)，健康检查(health checking)，路由(routing)，负载均衡(load balancing)，认证和授权(authentication and authorization)，以及可观测性(observability)。
[0221]
如图15所示，该服务网格1500还包括控制平面层。其中，控制平面层可以是由一组在一个专用的命名空间中运行的服务，在机器/工作负载容器组(machine/pod)1502中由托管控制面组件1501来托管这些服务。如图15所示，托管控制面组件1501与网格代理1503和网格代理1505进行双向通信。托管控制面组件1501被配置成执行一些控制管理的功能。例如，托管控制面组件1501接收网格代理1503和网格代理1505传送的遥测数据，可以进一步对这些遥测数据做聚合。这些服务，托管控制面组件1501还可以提供面向用户的应用程序接口(api)，以便较容易地操纵网络行为，以及向网格代理1503和网格代理1505提供配置数据等。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0222]
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0223]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多
情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用使得得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0224]
实施例3
[0225]
根据本发明实施例，还提供了一种用于实施上述图3所示的图像处理方法的图像处理装置。
[0226]
图16是根据本发明实施例的一种图像处理装置的示意图。如图16所示，该图像处理装置1600可以包括：第一获取单元1602、第一识别单元1604、第一训练单元1606和第二训练单元1608。
[0227]
第一获取单元1602，用于获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到。
[0228]
第一识别单元1604，用于基于原始云端模型对待监测场景中的输入图像进行图像识别，得到特征向量。
[0229]
第一训练单元1606，用于基于特征向量训练得到目标云端模型。
[0230]
第二训练单元1608，用于采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集。
[0231]
此处需要说明的是，上述第一获取单元1602、第一识别单元1604、第一训练单元1606和第二训练单元1608对应于实施例1中的步骤s302至步骤s308，四个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端a中。
[0232]
根据本发明实施例，还提供了一种用于实施上述图4所示的图像处理方法的图像处理装置。
[0233]
图17是根据本发明实施例的一种图像处理装置的示意图，该装置应用于边端方法侧。如图17所示，该图像处理装置1700可以包括：第二获取单元1702、第三训练单元1704、第三获取单元1706和更新单元1708。
[0234]
第二获取单元1702，用于获取由不同图像采集设备在第一时刻监测到的视频数据集。
[0235]
第三训练单元1704，用于采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，其中，原始云端模型用于使云端基于待监测场景中的输入图像进行图像的特征向量训练，而得到目标云端模型。
[0236]
第三获取单元1706，用于获取云端采用不同图像采集设备在第二时刻监测到的视频数据集来训练目标云端模型，而得到的目标边端模型。
[0237]
更新单元1708，用于将原始边端模型更新为目标边端模型，其中，目标边端模型用于识别不同图像采集设备在第三时刻监测到的视频数据集。
[0238]
此处需要说明的是，上述第二获取单元1602、第三训练单元1604、第三获取单元
1606和更新单元1608对应于实施例1中的步骤s402至步骤s408，四个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端a中。
[0239]
根据本发明实施例，还提供了一种用于实施上述图5所示的图像处理方法的图像处理装置，该装置可以应用于交通道路中，比如，可以应用于城市监测场景，且该模型可以用于对城市交通道路中监测到的视频进行识别，比如，可以对城市交通道路中监测到的车辆进行识别。此处不对可以识别的对象做具体限制。
[0240]
图18是根据本发明实施例的另一种图像处理装置的示意图。如图18所示，该图像处理装置1800可以包括：第三获取单元1802、第二识别单元1804、第三训练单元1806和第四训练单元1808。
[0241]
第三获取单元1802，用于获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练得到，视频数据集为边端采用不同图像采集设备在第一时刻对交通道路监测而得到，视频数据集包含了行驶通过交通道路的至少一车辆。
[0242]
第二识别单元1804，用于基于原始云端模型对交通道路中的输入图像进行识别，得到特征向量。
[0243]
第三训练单元1806，用于基于特征向量训练得到目标云端模型。
[0244]
第四训练单元1808，用于采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备对交通道路在第三时刻监测到的视频数据集。
[0245]
此处需要说明的是，上述第三获取单元1802、第二识别单元1804、第三训练单元1806和第四训练单元1808对应于实施例1中的步骤s502至步骤s508，四个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端a中。
[0246]
根据本发明实施例，还提供了一种用于实施上述图7所示的图像处理方法的图像处理装置，该装置可以应用于虚拟现实vr设备或增强现实ar设备中，且该模型可以用于对虚拟现实vr设备或增强现实ar设备中待监测的图像进行识别。
[0247]
图19是根据本发明实施例的另一种图像处理装置的示意图。如图19所示，该图像处理装置1800可以包括：呈现单元1902、第三识别单元1904和第五训练单元1906。
[0248]
呈现单元1902，用于在虚拟现实vr设备或增强现实ar设备的呈现画面上展示待监测场景中的输入图像。
[0249]
第三识别单元1904，用于虚拟现实vr设备或增强现实ar设备发送输入图像至边端，其中，边端的原始云端模型对输入图像进行图像识别，并基于识别到的特征向量训练得到目标云端模型，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到。
[0250]
第五训练单元1906，用于在采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，并基于训练得到的目标边端模型更新原始边端模型之后，驱动vr设备或ar设备渲染展示第三时刻监测到的视频数据集。
[0251]
此处需要说明的是，上述呈现单元1902、第三识别单元1904和第五训练单元1906
对应于实施例1中的步骤s602至步骤s606，三个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的计算机终端a中。
[0252]
在该实施例的图像处理装置中，本发明实施例在无需人工标注的情况下，通过利用第一时刻监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，利用第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，从而通过利用大量视频数据对原始云端模型和原始边端模型进行协调更新，进而实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
[0253]
实施例4
[0254]
本发明的实施例可以提供一种图像处理器，该图像处理处理器可以包括计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。
[0255]
可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
[0256]
在本实施例中，上述计算机终端可以执行应用程序的图像处理方法中以下步骤的程序代码：获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；基于原始云端模型对待监测场景中的输入图像进行图像识别，得到特征向量；基于特征向量训练得到目标云端模型；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集。
[0257]
可选地，图20是根据本发明实施例的一种计算机终端的结构框图。如图20所示，该计算机终端a可以包括：一个或多个(图中仅示出一个)处理器2002、存储器2004、以及传输装置2006。
[0258]
其中，存储器可用于存储软件程序以及模块，如本发明实施例中的图像处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及预测，即实现上述的图像处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端a。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0259]
作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；基于原始云端模型对待监测场景中的输入图像进行图像识别，得到特征向量；基于特征向量训练得到目标云端模型；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集。
[0260]
可选地，上述处理器还可以执行如下步骤的程序代码：基于分别与多个待监测场
景对应的原始云端模型，对多个待监测场景中的输入图像进行图像识别，得到多个子特征向量，其中，多个子特征向量与多个待监测场景一一对应；对多个子特征向量进行平均池化，得到特征向量。
[0261]
可选地，上述处理器还可以执行如下步骤的程序代码：基于特征向量和目标损失函数对原始云端模型进行训练，得到目标云端模型。
[0262]
可选地，上述处理器还可以执行如下步骤的程序代码：基于原始边端模型对监测到的视频数据集进行识别，得到识别结果；将识别结果确定为伪标签，且基于伪标签对目标云端模型进行训练，得到目标边端模型；或者基于监测到的视频数据集对目标云端模型的权重进行迁移学习，得到目标边端模型。
[0263]
作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取由不同图像采集设备在第一时刻监测到的视频数据集；采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，其中，原始云端模型用于使云端基于待监测场景中的输入图像进行图像的特征向量训练，而得到目标云端模型；获取云端采用不同图像采集设备在第二时刻监测到的视频数据集来训练目标云端模型，而得到的目标边端模型；将原始边端模型更新为目标边端模型，其中，目标边端模型用于识别不同图像采集设备在第三时刻监测到的视频数据集。
[0264]
可选地，上述处理器还可以执行如下步骤的程序代码：将目标边端模型确定为原始边端模型，将第三时刻监测到的视频数据集确定为第一时刻监测到的视频数据集，返回执行采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型的步骤。
[0265]
可选地，上述处理器还可以执行如下步骤的程序代码：对监测到的视频数据集进行增强处理，得到增强视频数据集；将增强视频数据集作为训练样本对原始边端模型进行自监督训练，得到原始云端模型，其中，所述训练样本中多个正样本之间的距离小于多个负样本之间的距离。
[0266]
可选地，上述处理器还可以执行如下步骤的程序代码：对监测到的视频数据集进行掩码处理，得到掩码视频数据集；基于原始边端模型对掩码视频数据集进行还原处理；基于还原后的掩码视频数据集和监测到的视频数据集对原始边端模型进行训练，得到原始云端模型。
[0267]
可选地，上述处理器还可以执行如下步骤的程序代码：基于原始边端模型识别出监测到的视频数据集的伪标签；将监测到的视频数据集的伪标签生成文本，其中，文本用于描述监测到的视频数据集；基于监测到的视频数据集和文本，将原始边端模型训练为原始云端模型。
[0268]
作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练得到，视频数据集为边端采用不同图像采集设备在第一时刻对交通道路监测而得到，视频数据集包含了行驶通过交通道路的至少一车辆；基于原始云端模型对交通道路中的输入图像进行识别，得到特征向量；基于特征向量训练得到目标云端模型；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备对交通道路在第三时刻监测到的视频数据集。
[0269]
作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在虚拟现实vr设备或增强现实ar设备的呈现画面上展示待监测场景中的输入图像；虚拟现实vr设备或增强现实ar设备发送输入图像至边端，其中，边端的原始云端模型对输入图像进行图像识别，并基于识别到的特征向量训练得到目标云端模型，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；在采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，并基于训练得到的目标边端模型更新原始边端模型之后，驱动vr设备或ar设备渲染展示第三时刻监测到的视频数据集。
[0270]
本发明实施例在无需人工标注的情况下，通过利用第一时刻监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，利用第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，从而通过利用大量视频数据对原始云端模型和原始边端模型进行协调更新，进而实现了对模型进行及时更新的技术效果，解决了对模型更新的效率低的技术问题。
[0271]
本领域普通技术人员可以理解，图20示的结构仅为示意，计算机终端a也可以是智能手机(如android手机、ios手机等)、平板电脑、掌声电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图20并不对上述计算机终端a的结构造成限定。例如，计算机终端a还可包括比图20所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图20所示不同的配置。
[0272]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
[0273]
实施例5
[0274]
本发明的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例一所提供的图像处理方法所执行的程序代码。
[0275]
可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
[0276]
可选地，在本实施例中，上述计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；基于原始云端模型对待监测场景中的输入图像进行图像识别，得到特征向量；基于特征向量训练得到目标云端模型；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备在第三时刻监测到的视频数据集。
[0277]
可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于分别与多个待监测场景对应的原始云端模型，对多个待监测场景中的输入图像进行图像识别，得到多个子特征向量，其中，多个子特征向量与多个待监测场景一一对应；对多个子特征向量进行平均池化，得到特征向量。
[0278]
可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于特征向量和目标损失函数对原始云端模型进行训练，得到目标云端模型。
[0279]
可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于原始边端模型对监测到的视频数据集进行识别，得到识别结果；将识别结果确定为伪标签，且基于伪标签对目标云端模型进行训练，得到目标边端模型；或者基于监测到的视频数据集对目标云端模型的权重进行迁移学习，得到目标边端模型。
[0280]
作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取由不同图像采集设备在第一时刻监测到的视频数据集；采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型，其中，原始云端模型用于使云端基于待监测场景中的输入图像进行图像的特征向量训练，而得到目标云端模型；获取云端采用不同图像采集设备在第二时刻监测到的视频数据集来训练目标云端模型，而得到的目标边端模型；将原始边端模型更新为目标边端模型，其中，目标边端模型用于识别不同图像采集设备在第三时刻监测到的视频数据集。
[0281]
可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：将目标边端模型确定为原始边端模型，将第三时刻监测到的视频数据集确定为第一时刻监测到的视频数据集，返回执行采用监测到的视频数据集对原始边端模型进行训练，得到原始云端模型的步骤。
[0282]
可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：对监测到的视频数据集进行增强处理，得到增强视频数据集；将增强视频数据集作为训练样本对原始边端模型进行自监督训练，得到原始云端模型，其中，所述训练样本中多个正样本之间的距离小于多个负样本之间的距离。
[0283]
可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：对监测到的视频数据集进行掩码处理，得到掩码视频数据集；基于原始边端模型对掩码视频数据集进行还原处理；基于还原后的掩码视频数据集和监测到的视频数据集对原始边端模型进行训练，得到原始云端模型。
[0284]
可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于原始边端模型识别出监测到的视频数据集的伪标签；将监测到的视频数据集的伪标签生成文本，其中，文本用于描述监测到的视频数据集；基于监测到的视频数据集和文本，将原始边端模型训练为原始云端模型。
[0285]
作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取来自边端的原始云端模型，其中，原始云端模型为由视频数据集对原始边端模型训练得到，视频数据集为边端采用不同图像采集设备在第一时刻对交通道路监测而得到，视频数据集包含了行驶通过交通道路的至少一车辆；基于原始云端模型对交通道路中的输入图像进行识别，得到特征向量；基于特征向量训练得到目标云端模型；采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，得到目标边端模型，其中，目标边端模型用于更新原始边端模型，使得边端基于目标边端模型分别识别不同图像采集设备对交通道路在第三时刻监测到的视频数据集。
[0286]
作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在虚拟现实vr设备或增强现实ar设备的呈现画面上展示待监测场景中的输入图
像；虚拟现实vr设备或增强现实ar设备发送输入图像至边端，其中，边端的原始云端模型对输入图像进行图像识别，并基于识别到的特征向量训练得到目标云端模型，原始云端模型为由视频数据集对原始边端模型训练而得到，视频数据集为边端采用不同图像采集设备在第一时刻监测而得到；在采用不同图像采集设备在第二时刻监测到的视频数据集对目标云端模型进行训练，并基于训练得到的目标边端模型更新原始边端模型之后，驱动vr设备或ar设备渲染展示第三时刻监测到的视频数据。
[0287]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0288]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0289]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0290]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0291]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0292]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0293]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

图像处理方法和系统与流程

相关文献

最热文献