视觉语言任务处理系统、训练方法、装置、设备及介质与流程

2021-12-14 20:58:00 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，具体而言，涉及一种视觉语言任务处理系统、视觉语言任务系统的训练方法、装置、设备及可读存储介质。

背景技术：

2.视觉和语言是人工智能的两项基本能力，两者之间的交互支持一系列独特的模拟人类大脑处理信息的能力，如视觉语言(vision-language，vl)理解(例如视觉问答)和vl生成(例如图像描述)。vl技术在机器人视觉、帮助视障人士等方面具有良好的应用前景。
3.受自然语言预训练技术的发展的启发，对vl模型进行预训练以提高模型处理vl任务的性能成为发展趋势。对vl模型进行预训练可将从资源丰富的预训练任务学习到的多模态知识迁移到对资源有限的下游任务的处理中，提高vl模型处理下游vl任务的性能。相关技术中采用由共享的多层变换器(transformer)网络构成的统一的vl编码器-解码器模型，对其进行预训练以使其既可处理视觉语言理解任务，又可处理视觉语言生成任务，预训练后的模型处理vl任务的准确度较低，模型精度较差。
4.如上所述，如何提高视觉语言模型处理任务的准确度成为亟待解决的问题。
5.在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

6.本公开的目的在于提供一种视觉语言任务处理系统、处理视觉语言任务的方法、装置、设备及可读存储介质，至少在一定程度上提高视觉语言模型处理任务的准确度。
7.本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
8.根据本公开的一方面，提供一种视觉语言任务处理系统，包括：目标编码器、文本编码器和文本解码器，所述目标编码器和所述文本编码器分别与所述文本解码器相连接，其中：所述目标编码器用于输入预定图像；对所述预定图像进行编码处理获得目标表示序列；输出所述目标表示序列；所述文本编码器用于输入文本描述；对所述文本描述进行编码处理获得单词表示序列；输出所述单词表示序列；所述文本解码器用于输入所述目标表示序列和所述单词表示序列；对所述目标表示序列和所述单词表示序列进行解码处理获得多模态表示序列；输出所述多模态表示序列，所述多模态表示序列用于处理视觉语言任务。
9.根据本公开的另一方面，提供一种视觉语言任务系统的训练方法，包括：所述视觉语言任务系统包括目标编码器、文本编码器和文本解码器，所述目标编码器和所述文本编码器分别与所述文本解码器相连接；获取预训练图像、与所述预训练图像对应的文本描述和掩码训练图像，所述掩码训练图像通过对所述预训练图像进行遮盖处理获得；将所述掩码训练图像输入所述目标编码器，通过所述目标编码器对所述掩码训练图像进行编码处理获得掩码目标表示序列；将所述文本描述输入所述文本编码器，通过所述文本编码器对所
述文本描述进行编码处理获得单词表示序列；通过所述文本解码器对所述掩码目标表示序列和所述单词表示序列进行解码处理获得多模态表示序列；基于所述多模态表示序列和所述预训练图像对所述目标编码器、所述文本编码器和所述文本解码器进行训练，获得预训练后的目标编码器、预训练后的文本编码器和预训练后的文本解码器以处理视觉语言任务。
10.根据本公开的一实施例，所述方法还包括：对所述文本描述进行遮盖处理获得掩码文本描述；将所述掩码文本描述输入文本编码器，通过所述文本编码器对所述掩码文本描述进行编码处理获得掩码单词表示序列；基于所述多模态表示序列和所述预训练图像对所述目标编码器、所述文本编码器和所述文本解码器进行训练包括：将所述多模态表示序列通过分类器层对所述掩码训练图像进行预测，获得预测目标分类；根据所述预测目标分类和所述预训练图像获得掩码目标分类损失；将所述多模态表示序列通过短语生成器层对所述掩码训练图像进行预测，获得预测短语描述；根据所述预测短语描述和所述预训练图像获得掩码短语生成损失；通过所述文本解码器根据所述掩码目标表示序列和所述掩码单词表示序列对所述掩码训练图像进行预测，获得预测单词序列；根据所述文本描述和所述预测单词序列获得掩码句子生成损失；根据所述掩码目标分类损失、所述掩码短语生成损失和所述掩码句子生成损失对所述目标编码器、所述文本编码器和所述文本解码器进行训练。
11.根据本公开的一实施例，所述方法还包括：将所述预训练图像输入所述目标编码器，通过所述目标编码器对所述预训练图像进行编码处理获得目标表示序列；将所述目标表示序列与所述单词表示序列进行匹配，获得图文匹配损失；所述根据所述掩码目标分类损失、所述掩码短语生成损失和所述掩码句子生成损失对所述目标编码器、所述文本编码器和所述文本解码器进行训练包括：根据所述掩码目标分类损失、所述掩码短语生成损失、所述掩码句子生成损失和所述图文匹配损失对所述目标编码器、所述文本编码器和所述文本解码器进行训练。
12.根据本公开的一实施例，所述根据所述预测目标分类和所述预训练图像获得掩码目标分类损失包括：所述预训练图像进行特征检测获得真实目标分类；对所述预测目标分类和所述真实目标分类的差异进行度量获得所述掩码目标分类损失。
13.根据本公开的一实施例，所述根据所述预测短语描述和所述预训练图像获得掩码短语生成损失包括：将所述预训练图像通过所述短语生成器层进行预测，获得真实短语描述；根据所述预测短语描述和所述真实短语描述获得所述掩码短语生成损失。
14.根据本公开的一实施例，所述通过所述文本解码器根据所述掩码目标表示序列和所述掩码单词表示序列对所述掩码训练图像进行预测，获得预测单词序列包括：通过所述文本解码器根据所述掩码目标表示序列和所述掩码单词表示序列预测第一单词，获得已生成单词序列，所述已生成单词序列中包括所述第一单词；通过所述文本解码器根据所述掩码目标表示序列和所述已生成单词序列预测第二单词；所述预测单词序列包括所述第一单词和所述第二单词。
15.根据本公开的再一方面，提供一种视觉语言任务的处理方法，包括：获取待处理图像及对应的文本描述；将所述待处理图像输入如上所述的视觉语言任务系统中的目标编码器或者如上训练方法训练得到的视觉语言任务系统中的目标编码器；将所述文本描述输入
所述视觉语言任务系统中的文本编码器；得到所述视觉语言任务系统中的文本解码器中输出的多模态表示序列。
16.根据本公开的再一方面，提供一种视觉语言任务系统的训练装置，包括：数据获取模块，用于获取预训练图像、与所述预训练图像对应的文本描述和掩码训练图像，所述掩码训练图像通过对所述预训练图像进行遮盖处理获得；所述视觉语言任务系统包括目标编码器、文本编码器和文本解码器，所述目标编码器和所述文本编码器分别与所述文本解码器相连接；目标编码模块，用于将所述掩码训练图像输入所述目标编码器，通过所述目标编码器对所述掩码训练图像进行编码处理获得掩码目标表示序列；文本编码模块，用于将所述文本描述输入所述文本编码器，通过所述文本编码器对所述文本描述进行编码处理获得单词表示序列；文本解码模块，用于通过所述文本解码器对所述掩码目标表示序列和所述单词表示序列进行解码处理获得多模态表示序列；预训练模块，用于基于所述多模态表示序列和所述预训练图像对所述目标编码器、所述文本编码器和所述文本解码器进行训练，获得预训练后的目标编码器、预训练后的文本编码器和预训练后的文本解码器以处理视觉语言任务。
17.根据本公开的一实施例，所述装置还包括：掩码处理模块，用于对所述文本描述进行遮盖处理获得掩码文本描述；文本编码模块，还用于将所述掩码文本描述输入文本编码器，通过所述文本编码器对所述掩码文本描述进行编码处理获得掩码单词表示序列；所述预训练模块包括：掩码目标分类模块，用于将所述多模态表示序列通过分类器层对所述掩码训练图像进行预测，获得预测目标分类；掩码目标分类损失计算模块，用于根据所述预测目标分类和所述预训练图像获得掩码目标分类损失；掩码短语生成模块，用于将所述多模态表示序列通过短语生成器层对所述掩码训练图像进行预测，获得预测短语描述；掩码短语生成损失计算模块，用于根据所述预测短语描述和所述预训练图像获得掩码短语生成损失；掩码句子生成模块，用于通过所述文本解码器根据所述掩码目标表示序列和所述掩码单词表示序列对所述掩码训练图像进行预测，获得预测单词序列；掩码句子生成损失计算模块，用于根据所述文本描述和所述预测单词序列获得掩码句子生成损失；所述预训练模块，还用于根据所述掩码目标分类损失、所述掩码短语生成损失和所述掩码句子生成损失对所述目标编码器、所述文本编码器和所述文本解码器进行训练。
18.根据本公开的一实施例，所述目标编码模块，还用于将所述预训练图像输入所述目标编码器，通过所述目标编码器对所述预训练图像进行编码处理获得目标表示序列；所述预训练模块还包括：图文匹配损失计算模块，用于将所述目标表示序列与所述单词表示序列进行匹配，获得图文匹配损失；所述预训练模块，还用于根据所述掩码目标分类损失、所述掩码短语生成损失、所述掩码句子生成损失和所述图文匹配损失对所述目标编码器、所述文本编码器和所述文本解码器进行训练。
19.根据本公开的一实施例，所述掩码目标分类损失计算模块，还用于对所述预训练图像进行特征检测获得真实目标分类；对所述预测目标分类和所述真实目标分类的差异进行度量获得所述掩码目标分类损失。
20.根据本公开的一实施例，所述掩码短语生成损失计算模块，还用于将所述预训练图像通过所述短语生成器层进行预测，获得真实短语描述；根据所述预测短语描述和所述真实短语描述获得所述掩码短语生成损失。
21.根据本公开的一实施例，所述掩码句子生成模块，还用于通过所述文本解码器根据所述掩码目标表示序列和所述掩码单词表示序列预测第一单词，获得已生成单词序列，所述已生成单词序列中包括所述第一单词；通过所述文本解码器根据所述掩码目标表示序列和所述已生成单词序列预测第二单词；所述预测单词序列包括所述第一单词和所述第二单词。
22.根据本公开的再一方面，提供一种视觉语言任务模型的训练装置，包括：数据获取模块，用于获取预训练图像、与所述预训练图像对应的文本描述和掩码训练图像，所述掩码训练图像通过对所述预训练图像进行遮盖处理获得；模型获取模块，用于获取视觉语言任务模型，所述视觉语言任务模型包括目标编码器、文本编码器和文本解码器；目标编码模块，用于将所述掩码训练图像输入所述目标编码器，通过所述目标编码器对所述掩码训练图像进行编码处理获得掩码目标表示序列；文本编码模块，用于将所述文本描述输入所述文本编码器，通过所述文本编码器对所述文本描述进行编码处理获得单词表示序列；文本解码模块，用于通过所述文本解码器对所述掩码目标表示序列和所述单词表示序列进行解码处理获得多模态表示序列；模型训练模块，用于基于所述多模态表示序列和所述预训练图像对所述视觉语言任务模型进行训练。
23.根据本公开的再一方面，提供一种设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现如上述任一种方法。
24.根据本公开的再一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上述任一种方法。
25.本公开的实施例提供的视觉语言任务处理系统，通过目标编码器输入预定图像后对预定图像进行编码处理获得目标表示序列，并将目标表示序列输出至与目标编码器相连接的文本解码器，通过文本编码器输入文本描述后对文本描述进行编码处理获得单词表示序列，并将单词表示序列输出至与文本编码器相连接的文本解码器，再通过文本解码器对目标表示序列和单词表示序列进行解码处理获得用于处理视觉语言任务的多模态表示序列，该系统结构设计可一定程度上提高处理视觉语言任务的准确度。
26.应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。
附图说明
27.通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。
28.图1示出本公开实施例中一种系统架构的示意图。
29.图2a示出本公开实施例中一种视觉语言任务处理系统的框图。
30.图2b是根据一示例性实施例示出的一种视觉语言系统的网络结构图。
31.图2c是根据一示例性实施例示出的一种用于视觉语言模型的目标嵌入器的网络结构图。
32.图2d是根据一示例性实施例示出的一种用于视觉语言模型的文本嵌入器的网络结构图。
33.图3示出本公开实施例中一种视觉语言任务系统的训练方法的流程图。
34.图4a示出本公开实施例中一种视觉语言任务模型的预训练方法的流程图。
35.图4b是根据一示例性实施例示出的一种用于预训练视觉语言模型的掩码目标分类任务的流程示意图。
36.图4c是根据一示例性实施例示出的一种用于预训练视觉语言模型的掩码短语生成任务的流程示意图。
37.图4d是根据一示例性实施例示出的一种用于预训练视觉语言模型的掩码句子生成任务的流程示意图。
38.图4e是根据一示例性实施例示出的一种用于预训练视觉语言模型的图文匹配任务的流程示意图。
39.图5是根据一示例性实施例示出的一种视觉语言模型的应用场景图。
40.图6示出本公开实施例中一种视觉语言任务系统的训练装置的框图。
41.图7示出本公开实施例中另一种视觉语言任务系统的训练装置的框图。
42.图8示出本公开实施例中一种电子设备的结构示意图。
具体实施方式
43.现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施例使得本公开将更加全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。
44.此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
45.此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
46.在本公开中，除非另有明确的规定和限定，“连接”等术语应做广义理解，例如，可以是电连接或可以互相通讯；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。
47.随着深度学习技术的发展，视觉语言任务的处理工作产生了质的飞跃。一些相关技术中依靠大量与具体任务相关的注释(例如，图像-问题-答案三元组、图像句子对等等)对此类神经网络模型进行训练，获得处理视觉语言任务性能较好的模型。但当只有有限的注释可用时，该视觉语言神经网络模型的可拓展性和通用性较差。
48.另一些相关技术中采用视觉语言预训练(vl pre-training，vlp)技术，在大规模
视觉语言基准数据集上训练多模态编码器，使其可生成上下文情景相关的表示，并且后续通过视觉语言下游任务进行微调，使预训练完成的多模态编码器能够进行多模态推理，并因此可以自然的适应vl理解任务的处理。但这些基于多模态编码器的模型不适用于处理vl生成任务。
49.另一些相关技术中采用由共享的多层变换器(transformer)网络构成的统一的vl编码器-解码器模型，对其进行预训练以使其既可处理视觉语言理解任务，又可处理视觉语言生成任务，预训练后的模型处理vl任务的准确度较低，模型精度较差。
50.因此，本公开提供了一种可预训练的视觉语言任务处理系统，由文本编码器、目标编码器、文本解码器构成，目标编码器和文本编码器分别对每个模态(视觉模态和语言模态，即图像模态和文本模态)输入进行编码，再由文本解码器利用模态间相互作用进行多模态推理和句子生成，以使系统可处理视觉语言理解和生成任务。本公开还提供了一种基于该系统的预训练方法，从单个词语标签、短语到自然句子，对整个系统模型进行多粒度任务的预训练，使模型在这些不同粒度的任务中可更好的匹配视觉内容与语言表示，以使视觉内容与语言表示在不同的粒度下对齐。
51.图1示出了可以应用本公开的视觉语言任务处理系统、方法或装置的示例性系统架构10。
52.如图1所示，系统架构10可以包括终端设备102、网络104、服务器106和数据库108。终端设备102可以是具有显示屏并且支持输入、输出的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。网络104用以在终端设备102和服务器106之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。服务器106可以是提供各种服务的服务器或服务器集群等。数据库108可以是关系型数据库、非关系型数据库等等。
53.用户可以使用终端设备102通过网络104与服务器106和数据库108交互，以接收或发送数据等。例如用户可以使用终端设备102上传图片，并输入针对该图片的问题，终端设备102通过网络104将图片和问题传输至服务器106进行处理。服务器106也可通过网络104从数据库108接收数据或向数据库108发送数据等，例如模型训练服务器106可从数据库108获得大量训练图像及对应的文本描述，通过训练图像及对应的文本描述训练视觉语言模型，以使视觉语言模型可用于处理接收的图片和问题。后台处理服务器106接收图片和问题后，通过视觉语言模型预测问题的答案，并将如问题答案等信息通过网络104反馈给终端设备102。
54.应该理解，图1中的终端设备、网络、数据库和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、数据库和服务器。
55.图2a是根据一示例性实施例示出的一种视觉语言任务处理系统的框图。如图2a所示的系统例如可以应用于上述系统架构的服务器端，也可以应用于上述系统架构的终端设备。
56.参考图2a，本公开实施例提供的装置20可以包括目标编码器202、文本编码器204和文本解码器206。目标编码器202和文本编码器204分别与文本解码器206相连接。
57.目标编码器202用于输入预定图像；对预定图像进行编码处理获得目标表示序列；输出目标表示序列。目标编码器202输入的预定图像进行操作，预定图像可包括对区域图像
集合，目标编码器202将区域图像集合转换为一系列中间状态表示即目标表示序列，目标表示序列可包括每个区域在原图像中的2维位置信息(如宽、高、与左上角距离等等)。
58.在一些实施例中，例如，在对视觉语言系统进行预训练的任务中，可从大型图像-文本描述基准数据集中获得图像句子对{i，s}，其中初始图像i可通过目标检测器(例如快速循环-卷积神经网络(faster r-cnn)等等)检测其中的目标，将i表示为一组包括n
i
个探测目标的区域图像表示第i个区域图像的d
r
维视觉表示(向量)。另外，可将检测到的目标所在的区域图像的2维位置信息表示为其中(例如d
p
＝5)表示区域图像边界框的几何信息，可包括的左上角、右下角坐标以及图片区域覆盖的面积等等。将和作为预定图像输入目标编码器202，目标编码器202通过融合区域图像特征r
i
和相应的2维位置特征p
i
将每个区域表示为位置感知的区域图像特征
[0059][0060]
其中，和是嵌入矩阵。其中还包括一个特殊的用于指示区域图像序列的开始的目标标记[img]，它的特征r0记为平均池化目标表示因此，目标编码器202的最终输出被表示为区域图像序列即目标表示序列。
[0061]
文本编码器204用于输入文本描述；对文本描述进行编码处理获得单词表示序列；输出单词表示序列。对于与预定图像对应的文本描述，可将其进行分词处理获得单词序列。文本编码器204首先通过引入每个单词的位置信息来增强对输入的单词的表示，以使模态内的上下文信息增强单词表示的位置感知。文本编码器204可由多个堆叠的transformer层构成，利用自注意力机制对包括位置信息的单词序列进行编码，生成增强的单词表示序列。
[0062]
在一些实施例中，例如，每个对于初始图像i对应的句子可将句子中各个单词标记化，将其表示为单词标记序列其中是句子中第j个单词标记的独热编码，n
s
为句子中单词数量。对应单词标记序列，可通过两个用于指示句子的开始和结束特殊的单词标记[cls]和[sep]来扩展，其独热编码可表示为w0和。在每个单词标记中加入(在句子中的)位置特征，得到位置感知的单词标记它是通过在独热编码w
j
中对应嵌入序数j(为句子中的第几个单词)获得：
[0063][0064]
其中，和是嵌入矩阵。之后，整个单词标记序列被馈送到文本编码器204的m个堆叠的transformer层中。可将第m个变换器层输出的中间态单词表示记为层输出的中间态单词表示记为其中m∈[1，m]。每个transformer层
对上一个transformer层的输出执行自注意，利用来自的模态内上下文信息来增强每个单词表示
[0065][0066]
文本编码器204最终输出的增强的单词表示序列可记为表示所有单词标记之间的模内交互作用。
[0067]
文本解码器206用于输入目标表示序列和单词表示序列；对目标表示序列和单词表示序列进行解码处理获得多模态表示序列；输出多模态表示序列，多模态表示序列用于处理视觉语言任务。文本解码器从目标编码器202和文本编码器204分别收集经过增强的目标表示序列和单词表示序列，将目标表示序列和单词表示序列同时馈入多个堆叠的互注意的transformer层中，每个互注意力的transformer层都通过互注意机制来利用两种模态间的交互作用，从而获得加强了每种模态的表示的多模态表示序列。
[0068]
在一些实施例中，例如，文本解码器206从目标编码器202和文本编码器204分别收集经过增强的目标表示序列和单词表示序列并将它们同时输入k层堆叠的互注意的transformer层中，其中，对于第k(k∈[1，k])个transformer层，令与分别表示第k个互注意的transformer层输出的中间态的目标表示和单词表示，每个互注意力的transformer层都实现为两个并行的transformer子层(transformer
s
→
i
，transformer
i
→
s
)，可通过来自另一模态的模态间上下文信息增强该模态的区域/单词表示：
[0069][0070][0071]
通过此方式利用互注意机制将两种模态的表示相混合，我们得到了最终输出的用于多模态推理的目标多模态表示以及单词多模态表示此外，根据每个输入单词标记的多模态表示，文本解码器可学习自回归地预测下一个单词，从而逐个单词地输出句子。句子生成方法可参考图4a和图4d，此处不予详述。
[0072]
本公开的实施例提供的视觉语言任务处理系统，通过目标编码器输入预定图像后对预定图像进行编码处理获得目标表示序列，并将目标表示序列输出至与目标编码器相连接的文本解码器，通过文本编码器输入文本描述后对文本描述进行编码处理获得单词表示序列，并将单词表示序列输出至与文本编码器相连接的文本解码器，再通过文本解码器对目标表示序列和单词表示序列进行解码处理获得用于处理视觉语言任务的多模态表示序列，该系统结构设计以双流方式处理图像和对应文本，可更为精细地对系统进行训练，可一
定程度上提高处理视觉语言任务的准确度。
[0073]
图2b是根据一示例性实施例示出的一种视觉语言系统的网络结构图。预定图像通过目标嵌入器2022提取区域特征，经过目标编码器202中一层目标变换器层2024后将位置增强的目标表示序列输入文本解码器206，文本描述通过文本嵌入器2042获得单词特征，输入文本编码器204经过多层自注意力的文本变换器层2044进行增强获得单词表示序列，文本解码器206从目标编码器202和文本编码器204分别收集经过增强的目标表示序列和单词表示序列以生成多模态表示序列。
[0074]
图2c是根据一示例性实施例示出的一种用于视觉语言模型的目标嵌入器的网络结构图。输入的预定图像通过循环-卷积神经网络20222进行特征提取获得区域特征，获得区域的二维位置20224特征向量后，分别通过第一全连接层20226和第二全连接层20228后进行特征融合，将融合后的特征通过第一归一化层202210进行归一化输出区域图像特征，用于输入目标变换器层2024。
[0075]
图2d是根据一示例性实施例示出的一种用于视觉语言模型的文本嵌入器的网络结构图。单词标记和单词位置向量分别输入第三全连接层20242和第四全连接层20244后进行特征融合，将融合后的特征通过第二归一化层202210进行归一化输出单词特征，用于输入文本变换器层2044。
[0076]
图3是根据一示例性实施例示出的一种视觉语言任务系统的训练方法的流程图。如图3所示的方法例如可以应用于上述系统架构的服务器端，也可以应用于上述系统架构的终端设备。
[0077]
参考图3，本公开实施例提供的方法30可以包括以下步骤。
[0078]
在步骤s302中，获取预训练图像、与预训练图像对应的文本描述和掩码训练图像，掩码训练图像通过对预训练图像进行遮盖处理获得。预训练图像可为将上述图像进行目标检测后获得的区域图像。掩码训练图像可通过随机遮罩区域图像获得，例如以15％、18、或20％的概率进行随机遮罩，将每个遮罩的区域的特征被替换为特殊标记[mask]。
[0079]
视觉语言任务系统包括目标编码器、文本编码器和文本解码器，目标编码器和文本编码器分别与文本解码器相连接。视觉语言任务系统的结构的具体实施方式请参照图2a至图2d，此处不再赘述。
[0080]
在步骤s304中，将掩码训练图像输入目标编码器，通过目标编码器对掩码训练图像进行编码处理获得掩码目标表示序列。将掩码训练图像作为输入目标编码器的预定图像，具体实施方式可参照图2。
[0081]
在步骤s306中，将文本描述输入文本编码器，通过文本编码器对文本描述进行编码处理获得单词表示序列。具体实施方式亦可参照图2。
[0082]
在步骤s308中，通过文本解码器对掩码目标表示序列和单词表示序列进行解码处理获得多模态表示序列。具体实施方式亦可参照图2。
[0083]
在步骤s310中，基于多模态表示序列和预训练图像对目标编码器、文本编码器和文本解码器进行训练，获得预训练后的目标编码器、预训练后的文本编码器和预训练后的文本解码器以处理视觉语言任务。可通过多粒度的视觉语言预训练任务进行训练，例如，掩码目标分类任务，通过目标编码器输入具有掩码的区域图像的集合，文本解码器通过多模态表示预测在遮罩区域中的目标；掩码短语生成任务，文本解码器重建描述掩码区域图像
的短语；图像句子匹配任务，通过使文本解码器输出的区域图像和句子彼此对应，使整个模型在句子水平上实现了视觉与语言对齐；掩码句子生成任务，为了模拟句子生成的过程，文本解码器根据输入的非掩码区域图像和所有“过去”的单词，自回归地重建了输入句子的每个单词。具体的任务实施方式可参照图4a至图4e，此处不予详述。
[0084]
根据本公开实施例提供的处理视觉语言任务的方法，通过目标编码器对预训练图像进行遮盖处理获得的掩码训练图像进行编码处理获得掩码目标表示序列，通过文本编码器对文本描述进行编码处理获得单词表示序列，通过文本解码器对掩码目标表示序列和单词表示序列进行解码处理获得多模态表示序列，基于多模态表示序列和预训练图像对目标编码器、文本编码器和文本解码器进行训练，获得预训练后的目标编码器、预训练后的文本编码器和预训练后的文本解码器以处理视觉语言任务，从而可实现更为精细地对系统进行训练，可一定程度上提高处理视觉语言任务的准确度。
[0085]
图4a是根据一示例性实施例示出的一种视觉语言任务模型的预训练方法的流程图。如图4a所示的方法例如可以应用于上述系统架构的服务器端，也可以应用于上述系统架构的终端设备。
[0086]
参考图4a，本公开实施例提供的方法40可以包括以下步骤。
[0087]
在步骤s402中，获取预训练图像、与预训练图像对应的文本描述、掩码训练图像和掩码文本描述，掩码训练图像通过对预训练图像进行遮盖处理获得，掩码文本描述通过对文本描述进行遮盖处理获得。掩码文本描述的获得方法与对掩码训练图像类似，可通过随机遮罩单词标记获得，例如以15％、18、或20％的概率进行随机遮罩，将每个遮罩的单词标记被替换为特殊标记[mask]。
[0088]
在步骤s4042中，将掩码训练图像输入目标编码器，通过目标编码器对掩码训练图像进行编码处理获得掩码目标表示序列。
[0089]
在步骤s4044中，将文本描述输入文本编码器，通过文本编码器对文本描述进行编码处理获得单词表示序列。
[0090]
在步骤s4046中，将掩码文本描述输入文本编码器，通过文本编码器对掩码文本描述进行编码处理获得掩码单词表示序列。
[0091]
在步骤s4048中，将预训练图像输入目标编码器，通过目标编码器对预训练图像进行编码处理获得目标表示序列。
[0092]
在步骤s4062中，通过文本解码器对掩码目标表示序列和单词表示序列进行解码处理获得多模态表示序列。
[0093]
在步骤s4064中，通过文本解码器根据掩码目标表示序列和掩码单词表示序列对掩码训练图像进行预测，获得预测单词序列。可通过文本解码器根据掩码目标表示序列和掩码单词表示序列预测第一单词，获得已生成单词序列，已生成单词序列中包括第一单词；通过文本解码器根据掩码目标表示序列和已生成单词序列预测第二单词；预测单词序列包括第一单词和第二单词。
[0094]
在步骤s4082中，将多模态表示序列通过分类器层对掩码训练图像进行预测，获得预测目标分类。
[0095]
在步骤s4084中，根据预测目标分类和预训练图像获得掩码目标分类损失。可对预训练图像进行特征检测获得真实目标分类，对预测目标分类和真实目标分类的差异进行度
woman
…”
和带有掩码的图像标记分别输入视觉语言任务处理系统的20的文本编码器和图像编码器，再通过文本解码器进行多模态表示后通过短语生成器层2082输出预测的掩码区域的短语描述“smiling woman with white hair”。
[0106]
在步骤s4089中，根据文本描述和预测单词序列获得掩码句子生成损失。为了模仿预训练期间句子生成的过程，引入了掩码句子生成任务以使文本解码器根据输入的区域图像逐词地重建整个句子。具体而言，可在第j个解码时间步，根据输入图像i和所有“过去”的单词预测句子中的第j个单词w
j
。可在文本编码器的transformer层和文本解码器的互注意transformer层中引入一个“注意掩码”，可防止所有“未来”的字词都被关注。因此，给定具有注意掩码的区域图像序列和单词标记序列，将输出的多模态表示w
j-1
用于预测下一个单词w
j
。其目标函数可以表示为联合负对数概率，以根据所有“过去”单词s
0：j-1
和输入图像i重构序列的单词：
[0107][0108]
式中表示掩码句子生成损失。
[0109]
在一些实施例中，例如，图4d是根据一示例性实施例示出的一种用于预训练视觉语言模型的掩码句子生成任务的流程示意图。如图4d所示，带有掩码的单词标记序列“a smiling woman[mask]
…”
和带有掩码的图像标记分别输入视觉语言任务处理系统的20的文本编码器和图像编码器，再通过文本解码器重建输入的句子“a smiling woman stroking her dog”。
[0110]
获得上述三种任务的损失后，可根据掩码目标分类损失、掩码短语生成损失和掩码句子生成损失对目标编码器、文本编码器和文本解码器进行训练。
[0111]
在步骤s40102中，将目标表示序列与单词表示序列进行匹配，获得图文匹配损失。一些视觉-语言理解任务(例如视觉问题回答、基于文本描述的图像检索等等)依赖对整体图像-句子关系的理解。为了使整个模型可理解整体的多模态关系，可通过图文匹配任务对整个模型进行预训练，在句子级别追求视觉-语言的对准。具体地，给定图像句子对，可将带有空间标记[img]和[cls]的多模态表示作为图像和句子的整体表示进行输出。根据整体图像和句子表示之间的逐元素乘积，可采用二分类器预测分数该分数表示输入句子与图像在语义上的匹配程度。可通过将配对的图像或句子替换来自其他配对的图像句子对中的图像或句子来生成不匹配图像句子对。图文匹配损失的具体形式可表示为：
[0112][0113]
式中，y∈{0，1}是真实标签，指示输入图像和句子是否匹配。
[0114]
在一些实施例中，例如，图4e是根据一示例性实施例示出的一种用于预训练视觉语言模型的图文匹配任务的流程示意图。如图4e所示，将单词标记序列“the football player
…”
和图像标记分别输入视觉语言任务处理系统的20的文本编码器和图像编码器获得文本多模态表示和图像多模态表示，再将文本多模态表示和图像多模态表示进行进行匹配后通过二分类器获得匹配结果，图中的匹配结果为0，即完全不匹配。
[0115]
在步骤s4012中，根据掩码目标分类损失、掩码短语生成损失、掩码句子生成损失和图文匹配损失对目标编码器、文本编码器和文本解码器进行训练。预训练的总体目标可将四个多粒度视觉语言任务的损失与变换器构成的双向编码器表示(bidirectional encoder representation from transformers，bert)模型中的掩码语言建模目标集成在一起：
[0116][0117]
根据本公开实施例提供的视觉语言模型的预训练方法，基于图像的多粒度语言表示，设计了从视觉内容的单个标签、短语到自然句子分层多粒度视觉语言任务，通过将视觉内容与这些不同粒度的语言表示进行对齐来预训练视觉语言模型，使预训练的视觉语言模型具有多粒度视觉语言基础的处理能力，实现了提高模型进行视觉语言理解、生成任务中的多模态推理处理的准确度，提升了预训练后的视觉语言模型的性能。
[0118]
图5是根据一示例性实施例示出的一种视觉语言模型的应用场景图。如图5所示，首先通过图像句子对数据集对整个视觉语言模型(视觉语言任务处理系统20)进行预训练：图像的目标区域分别通过目标检测器504和短语生成器502获得单个(词)的标签和短语描述，分别利用区域-目标标签、区域-短语描述和图像-句子描述分层多粒度地执行多个视觉语言任务，获得预训练后的视觉语言模型。
[0119]
例如，可利用包含330万个图像句子对的基准概念文本描述数据集对模型进行预训练上进行，该数据集为从数十亿个网页中自动收集获得的。每个图像的描述文本都是基于html网页上的原始交替文件以编程方式创建的。在预训练过程中，采用的已训练好的faster r-cnn对数据集中图像进行目标检测，可选择最多100个检测密度大于0.2的图像区域作为输入的区域图像。每个输入区域图像表示形式都是2048维向量。对于掩码短语生成任务，可利用基于lstm的短语生成器，该短语生成器可通过visual genome中的区域短语对完成预训练。在文本编码器中，变换器堆叠层数m设为6。文本解码器也包括k＝6个互注意的变换器层。将一次训练的数据量设置为512，将学习率设置为0.0001，最大迭代次数设为10次。
[0120]
如图5所示，可通过下游任务对预训练后的视觉语言模型进行微调。在处理下游任务时，可获取待处理图像及对应的文本描述，将待处理图像输入视觉语言模型的目标编码器，将文本描述输入视觉语言模型中的文本编码器，得到视觉语言模型中的文本解码器中输出的多模态表示序列，以进行后续下游任务。视觉语言理解下游任务506可包括视觉问答任务5062、基于描述的图像检索任务5064和视觉常识推理任务5066，视觉语言生成任务508可包括图像描述任务5082。
[0121]
例如，在视觉问答任务5062中，视觉语言模型针对图像预测给定的自然语言问题的答案。采用vqa 2.0数据集来微调预训练后的视觉语言模型，其中包含有关coco数据集中图像的110万个问题。在微调过程中遵循“人脸分割”的原则，将此任务定义为多标签分类问题。特别地，通过将输入的图像-问题对馈入模型，根据增加了空间标记[img]和[cls]的最终输出的多模态特征来执行逐元素乘积以训练对整体的图像-问题进行表示。通过将整体图像-问题表示嵌入3,129种可能的答案中，可以进一步利用两层多层感知器(multi-layer perceptron,mlp)来预测答案。在微调阶段，基于交叉熵损失来优化关于模型的输出答案预
测。一次训练的数据量大小为512，学习率设为0.00004，在20次微调后停止微调程序。
[0122]
在基于描述的图像检索任务5064中，基于从图像池中搜索给定描述内容的图像的目标，采用包含来自flickr的31000个图像的数据集，其中每个图像都配有5个人工注释的句子。利用拆分方法将该任务表述为一个排序问题，根据学习的图像句子匹配分数对图像进行排序。对于每个匹配的图像句子对，我们通过随机采样和实例挖掘，用不相关的其他配对的图像句子对中的图像或句子对应替换该配对的图像或句子，来构造四个不匹配的图像句子对。在微调期间，我们将每个匹配或不匹配的图像句子对馈入预训练后的视觉语言模型并获得匹配分数，通过三元组排序损失来优化整个模型，使匹配对的匹配分数强制大于每个不匹配对的分数。将一次训练的数据量大小设置为192，将学习率设置为0.00004，最大迭代次数为20次。
[0123]
在视觉常识推理任务5066中，需要处理两个任务：视觉问题回答(q
→
a)和答案解释(qa
→
r)，这要求模型预测答案或判断选择原理的正确性。每个问题都设置为多项选择任务。此外，视觉常识推理任务5066设置一个整体(q
→
ar)任务，模型从四个答案选择中选择正确的答案，然后为所选的答案从四个理由选择中选择正确的理由。视觉常识推理基准数据集可用于此任务的评估，该数据集包括来自110000电影场景的290000多选择问答。在微调期间，将问题和每个可能的响应(答案或基本原理)串联为文本输入，并将其与图像一起输入到模型中。在增加了空间标记[img]和[cls]的最终输出多模态特征之间的逐元素乘积之上，利用线性层来预测每个可能响应的分数，基于交叉熵损失对全部的预测(即四个响应选择的所有分数)进行训练，一次训练的数据量大小设为64，学习率设置为0.00004，最大迭代次数设为20。
[0124]
在图像描述任务5082中，基于自动回归生成描述输入图像的内容的自然句子，使用图像文本描述测试基准coco数据集对模型进行微调和评估。coco包含123287张图像，并且每个图像都用5个句子进行注释。在这里我们使用广义卡帕西(karpathy)来评估，其中包括113287张用于训练的图像，5000张用于验证的图像，5000张用于测试的图像。在微调过程中，基于交叉熵损失来优化整个架构。一次训练的数据量大小为128，学习率设置为0.000005，最大迭代次数设为30次。可使用自我批评的训练策略进一步进行训练，使用cider奖励实现序列层次的优化结果，其中学习率设置为0.00001，最大迭代次数设为30次。
[0125]
图6是根据一示例性实施例示出的一种视觉语言任务系统的训练装置的框图。视觉语言任务系统包括目标编码器、文本编码器和文本解码器，目标编码器和文本编码器分别与文本解码器相连接。如图6所示的装置例如可以应用于上述系统架构的服务器端，也可以应用于上述系统架构的终端设备。
[0126]
参考图6，本公开实施例提供的装置60可以包括数据获取模块602、目标编码模块604、文本编码模块606、文本解码模块608和预训练模块610。
[0127]
数据获取模块602可用于获取预训练图像、与预训练图像对应的文本描述和掩码训练图像，掩码训练图像通过对预训练图像进行遮盖处理获得。
[0128]
目标编码模块604可用于将掩码训练图像输入目标编码器，通过目标编码器对掩码训练图像进行编码处理获得掩码目标表示序列。
[0129]
文本编码模块606可用于将文本描述输入文本编码器，通过文本编码器对文本描述进行编码处理获得单词表示序列。
[0130]
文本解码模块608可用于通过文本解码器对掩码目标表示序列和单词表示序列进行解码处理获得多模态表示序列。
[0131]
预训练模块610可用于基于多模态表示序列和预训练图像对目标编码器、文本编码器和文本解码器进行训练，获得预训练后的目标编码器、预训练后的文本编码器和预训练后的文本解码器以处理视觉语言任务。
[0132]
图7是根据一示例性实施例示出的另一种视觉语言任务系统的训练装置的框图。视觉语言任务系统包括目标编码器、文本编码器和文本解码器，目标编码器和文本编码器分别与文本解码器相连接。如图7所示的装置例如可以应用于上述系统架构的服务器端，也可以应用于上述系统架构的终端设备。
[0133]
参考图7，本公开实施例提供的装置70可以包括数据获取模块702、掩码处理模块703、目标编码模块704、文本编码模块706、文本解码模块708和预训练模块710，其中预训练模块710包括：掩码目标分类模块7102、掩码目标分类损失计算模块7104、掩码短语生成模块7106、掩码短语生成损失计算模块7108、掩码句子生成模块7110、掩码句子生成损失计算模块7112、图文匹配损失计算模块7114。
[0134]
数据获取模块702可用于获取预训练图像、与预训练图像对应的文本描述、掩码训练图像和掩码文本描述。
[0135]
掩码处理模块703可用于对预训练图像进行遮盖处理获得掩码训练图像。
[0136]
掩码处理模块703还可用于对文本描述进行遮盖处理获得掩码文本描述。
[0137]
目标编码模块704可用于将掩码训练图像输入目标编码器，通过目标编码器对掩码训练图像进行编码处理获得掩码目标表示序列。
[0138]
目标编码模块704还可用于将预训练图像输入目标编码器，通过目标编码器对预训练图像进行编码处理获得目标表示序列。
[0139]
文本编码模块706可用于将文本描述输入文本编码器，通过文本编码器对文本描述进行编码处理获得单词表示序列。
[0140]
文本编码模块706还可用于将掩码文本描述输入文本编码器，通过文本编码器对掩码文本描述进行编码处理获得掩码单词表示序列。
[0141]
文本解码模块708可用于通过文本解码器对掩码目标表示序列和单词表示序列进行解码处理获得多模态表示序列。
[0142]
预训练模块710可用于基于多模态表示序列和预训练图像对目标编码器、文本编码器和文本解码器进行训练，获得预训练后的目标编码器、预训练后的文本编码器和预训练后的文本解码器以处理视觉语言任务。
[0143]
预训练模块710还可用于根据掩码目标分类损失、掩码短语生成损失和掩码句子生成损失对目标编码器、文本编码器和文本解码器进行训练。
[0144]
预训练模块710还可用于根据掩码目标分类损失、掩码短语生成损失、掩码句子生成损失和图文匹配损失对目标编码器、文本编码器和文本解码器进行训练。
[0145]
掩码目标分类模块7102可用于将多模态表示序列通过分类器层对掩码训练图像进行预测，获得预测目标分类。
[0146]
掩码目标分类损失计算模块7104可用于根据预测目标分类和预训练图像获得掩码目标分类损失。
[0147]
掩码目标分类损失计算模块7104还可用于对预训练图像进行特征检测获得真实目标分类；对预测目标分类和真实目标分类的差异进行度量获得掩码目标分类损失。
[0148]
掩码短语生成模块7106可用于将多模态表示序列通过短语生成器层对掩码训练图像进行预测，获得预测短语描述。
[0149]
掩码短语生成损失计算模块7108可用于根据预测短语描述和预训练图像获得掩码短语生成损失。
[0150]
掩码短语生成损失计算模块7108还可用于将预训练图像通过短语生成器层进行预测，获得真实短语描述；根据预测短语描述和真实短语描述获得掩码短语生成损失。
[0151]
掩码句子生成模块7110可用于通过文本解码器根据掩码目标表示序列和掩码单词表示序列对掩码训练图像进行预测，获得预测单词序列。
[0152]
掩码句子生成模块7110还可用于通过文本解码器根据掩码目标表示序列和掩码单词表示序列预测第一单词，获得已生成单词序列，已生成单词序列中包括第一单词；通过文本解码器根据掩码目标表示序列和已生成单词序列预测第二单词；预测单词序列包括第一单词和第二单词。
[0153]
掩码句子生成损失计算模块7112可用于根据文本描述和预测单词序列获得掩码句子生成损失。
[0154]
图文匹配损失计算模块7114可用于将目标表示序列与单词表示序列进行匹配，获得图文匹配损失。
[0155]
本公开实施例提供的装置中的各个模块的具体实现可以参照上述方法中的内容，此处不再赘述。
[0156]
图8示出本公开实施例中一种电子设备的结构示意图。需要说明的是，图8示出的设备仅以计算机系统为示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0157]
如图8所示，设备800包括中央处理单元(cpu)801，其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram 803中，还存储有设备800操作所需的各种程序和数据。cpu801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0158]
以下部件连接至i/o接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分808；包括硬盘等的存储部分808；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器88也根据需要连接至i/o接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器88上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。
[0159]
特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(cpu)801执行时，执行本公开的系统中限定的上述功能。
[0160]
需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0161]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0162]
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括数据获取模块、目标编码模块、文本编码模块、文本解码模块和预训练模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，数据获取模块还可以被描述为“向所连接的服务器端获取用于预训练的数据的模块”。
[0163]
作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取预训练图像、与预训练图像对应的文本描述和掩码训练图像，掩码训练图像通过对预训练图像进行遮盖处理获得；将掩码训练图像输入目标编码器，通过目标编码器对掩码训练图像进行编码处理获得掩码目标表示序列；将文本描述输入文本编码器，通过文本编码器对文本描述进行编码处理获得单词表示序列；通过文本解码器对掩码目标表示序列和单词表示序列进行解码处理获得多模态表示序列；基于多模态表示序列和预训练图像对目标编码器、文本编码器和文本解码器进行训练，获得预训练后的目标编码器、预训练后的文本编码器和预训练后的文本解码器以处理视觉语言任务。
[0164]
以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：视觉语言模型获得及任务处理方法、装置、设备及介质与流程

视觉语言任务处理系统、训练方法、装置、设备及介质与流程

相关文献

最热文献