一种数据处理方法及其装置与流程

2022-11-23 21:55:36 来源：中国专利 TAG：

技术特征：
1.一种数据处理方法，其特征在于，包括：获取图像以及多个第一信息，每个所述第一信息指示一个对象的类别；通过文本编码器，分别独立处理所述多个第一信息中的每个第一信息，以得到每个所述第一信息对应的第一编码结果；通过图像编码器，处理所述图像，得到第二编码结果；根据所述第一编码结果和所述第二编码结果，从多个所述第一信息指示的多个标签中识别出所述图像中包括的对象的类别。2.根据权利要求1所述的方法，其特征在于，所述分别独立处理所述多个第一信息中的每个第一信息，包括：并行处理所述多个第一信息中的每个第一信息。3.根据权利要求1或2所述的方法，其特征在于，所述第一信息包括指示对应对象的类别的信息、以及用于描述所述类别的特征的信息。4.一种数据处理方法，其特征在于，所述方法包括：获取图像以及多个第一信息，所述第一信息指示所述图像包括的对象的类别；通过文本编码器，分别独立处理所述多个第一信息中的每个第一信息，以得到每个所述第一信息对应的第一编码结果；通过图像编码器，处理所述图像，以得到第二编码结果；根据所述第一编码结果和所述第二编码结果，更新所述文本编码器以及所述图像编码器。5.根据权利要求4所述的方法，其特征在于，所述第一信息，包括：用于指示对象的类别的信息；以及，用于描述所述类别的特征的信息。6.根据权利要求5所述的方法，其特征在于，所述用于描述所述类别的特征的信息为从知识库中确定的，所述知识库中保存有多个类别、以及用于描述每个类别的特征的信息。7.根据权利要求4至6任一所述的方法，其特征在于，所述方法还包括：获取多个第二信息，每个所述第二信息指示所述图像不包括的对象的类别；通过所述文本编码器，分别独立处理所述多个第二信息中的每个第二信息，以得到每个所述第二信息对应的第三编码结果；所述根据所述第一编码结果和所述第二编码结果，包括：根据所述第一编码结果、所述第二编码结果和所述第三编码结果。8.根据权利要求7所述的方法，其特征在于，所述第二信息包括用于指示对象的类别的信息，且所述第二信息指示的类别为从知识库中随机选择的，所述知识库保存有多个类别。9.根据权利要求8所述的方法，其特征在于，所述知识库保存的所述多个类别的数量大于4000。10.根据权利要求4至9任一所述的方法，其特征在于，所述多个第一信息为根据检测(detection)数据集、定位(grounding)数据集或者图像-文本(image-text)数据集得到的。11.根据权利要求4至10任一所述的方法，其特征在于，所述多个第一信息为根据图像-文本(image-text)数据集得到的，所述图像-文本数据集包括所述图像以及所述图像对应的文本；其中，所述多个第一信息为通过视觉语言模型对所述图像以及所述文本进行处理
得到的。12.根据权利要求11所述的方法，其特征在于，所述第一信息包括用于指示对象的类别的信息，所述视觉语言模型用于根据所述图像以及所述文本从知识库提供的多个类别中选择所述图像中所包含的对象的类别。13.一种数据处理装置，其特征在于，包括：获取模块，用于获取图像以及多个第一信息，每个所述第一信息指示一个对象的类别；编码模块，用于通过文本编码器，分别独立处理所述多个第一信息中的每个第一信息，以得到每个所述第一信息对应的第一编码结果；通过图像编码器，处理所述图像，得到第二编码结果；类别识别模块，用于根据所述第一编码结果和所述第二编码结果，从多个所述第一信息指示的多个标签中识别出所述图像中包括的对象的类别。14.根据权利要求13所述的装置，其特征在于，所述编码模块，具体用于：并行处理所述多个第一信息中的每个第一信息。15.根据权利要求13或14所述的装置，其特征在于，所述第一信息包括指示对应对象的类别的信息、以及用于描述所述类别的特征的信息。16.一种数据处理装置，其特征在于，所述装置包括：获取模块，用于获取图像以及多个第一信息，所述第一信息指示所述图像包括的对象的类别；编码模块，用于通过文本编码器，分别独立处理所述多个第一信息中的每个第一信息，以得到每个所述第一信息对应的第一编码结果；通过图像编码器，处理所述图像，以得到第二编码结果；更新模块，用于根据所述第一编码结果和所述第二编码结果，更新所述文本编码器以及所述图像编码器。17.根据权利要求16所述的装置，其特征在于，所述第一信息，包括：用于指示对象的类别的信息；以及，用于描述所述类别的特征的信息。18.根据权利要求17所述的装置，其特征在于，所述用于描述所述类别的特征的信息为从知识库中确定的，所述知识库中保存有多个类别、以及用于描述每个类别的特征的信息。19.根据权利要求16至18任一所述的装置，其特征在于，所述获取模块，还用于获取多个第二信息，每个所述第二信息指示所述图像不包括的对象的类别；所述编码模块，还用于通过所述文本编码器，分别独立处理所述多个第二信息中的每个第二信息，以得到每个所述第二信息对应的第三编码结果；所述根据所述第一编码结果和所述第二编码结果，包括：根据所述第一编码结果、所述第二编码结果和所述第三编码结果。20.根据权利要求19所述的装置，其特征在于，所述第二信息包括用于指示对象的类别的信息，且所述第二信息指示的类别为从知识库中随机选择的，所述知识库保存有多个类别。21.根据权利要求20所述的装置，其特征在于，所述知识库保存的所述多个类别的数量
大于4000。22.根据权利要求16至21任一所述的装置，其特征在于，所述多个第一信息为根据检测(detection)数据集、定位(grounding)数据集或者图像-文本(image-text)数据集得到的。23.根据权利要求16至22任一所述的装置，其特征在于，所述多个第一信息为根据图像-文本(image-text)数据集得到的，所述图像-文本数据集包括所述图像以及所述图像对应的文本；其中，所述多个第一信息为通过视觉语言模型对所述图像以及所述文本进行处理得到的。24.根据权利要求23所述的装置，其特征在于，所述第一信息包括用于指示对象的类别的信息，所述视觉语言模型用于根据所述图像以及所述文本从知识库提供的多个类别中选择所述图像中所包含的对象的类别。25.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一个或多个指令，所述指令在由一个或多个计算机执行时使得所述一个或多个计算机执行权利要求1至12中任一项所述方法的操作。26.一种计算机程序产品，其特征在于，包括计算机可读指令，当所述计算机可读指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至12任一所述的方法。27.一种系统，包括至少一个处理器，至少一个存储器；所述处理器、所述存储器通过通信总线连接并完成相互间的通信；所述至少一个存储器用于存储代码；所述至少一个处理器用于执行所述代码，以执行如权利要求1至12任一所述的方法。

技术总结
一种数据处理方法，应用于人工智能领域，方法包括：获取图像以及多个第一信息，每个第一信息指示一个对象的类别；通过文本编码器，分别独立处理多个第一信息中的每个第一信息，以得到每个第一信息对应的第一编码结果；通过图像编码器，处理图像，得到第二编码结果；根据第一编码结果和第二编码结果，从多个第一信息指示的多个标签中识别出图像中包括的对象的类别。本申请将图像中不同对象的信息分别作为不同的输入数据输入到文本编码器中，文本编码器可以分别独立处理多个第一信息中的每个第一信息，文本编码器在处理每个第一信息时减少了不必要的注意力计算，提高了模型的运行效率。率。率。

技术研发人员：韩建华徐航卢冠松张维许春景
受保护的技术使用者：华为技术有限公司
技术研发日：2022.07.20
技术公布日：2022/11/22

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种算法评测方法、装置、介质及计算机设备与流程

一种数据处理方法及其装置与流程

相关文献

最热文献