模型确定方法、装置、电子设备和存储器与流程

2022-02-20 20:53:30 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，尤其涉及计算机视觉和深度学习领域，可应用于图像处理、图像识别等场景，具体涉及一种模型确定方法、装置、电子设备和存储器。

背景技术：

2.目前，在图文预训练中，通常采用对比损失(loss)来训练得到初始化模型，但是这需要采用大量的计算资源来训练模型，并且需要消耗大量的时间，使得初始化模型的训练指标不高。

技术实现要素：

3.本公开提供了一种模型确定方法、装置、电子设备和存储器。
4.根据本公开的一方面，提供了一种模型确定方法。该方法可以包括：获取图像样本和文本样本，其中，文本样本中的文本用于对图像样本中的目标图像进行文字描述；将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列；对第一队列和第二队列进行训练，得到第一目标模型；将第一目标模型确定为第二目标模型的初始化模型。
5.根据本公开的一方面，还提供了另一种模型确定方法。该方法可以包括：向服务器发送模型训练请求，其中，模型训练请求包括图像样本和文本样本，文本样本中的文本用于对图像样本中的目标图像进行文字描述；接收服务器响应模型训练请求而发送的初始化模型，其中，初始化模型为服务器将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列，对第一队列和第二队列进行训练得到。
6.根据本公开的一方面，提供了一种图像处理方法。该方法可以包括：获取待处理图像；将待处理图像输入至第二目标模型中，其中，第二目标模型为由本公开实施例的模型确定方法获得；获取第二目标模型的处理结果。
7.根据本公开的另一方面，还提供了一种模型确定装置。该装置可以包括：第一获取单元，用于获取图像样本和文本样本，其中，文本样本中的文本用于对图像样本中的目标图像进行文字描述；存储单元，用于将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列；训练单元，用于对第一队列和第二队列进行训练，得到第一目标模型；确定单元，用于将第一目标模型确定为第二目标模型的初始化模型。
8.根据本公开的另一方面，还提供了另一种模型确定装置。该装置可以包括：发送单元，用于向服务器发送模型训练请求，其中，模型训练请求包括图像样本和文本样本，文本样本中的文本用于对图像样本中的目标图像进行文字描述；接收单元，用于接收服务器响应模型训练请求而发送的初始化模型，其中，初始化模型为服务器将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列，对第一队列和所述第二队列进行训练得到。
9.根据本公开的另一方面，还提供了另一种图像处理装置。该装置可以包括：第二获
取单元，用于获取待处理图像；输入单元，用于将待处理图像输入至第二目标模型中，其中，第二目标模型为由本公开实施例的模型确定方法获得；第三获取单元，用于获取第二目标模型的处理结果。
10.根据本公开的另一方面，还提供了一种电子设备。该电子设备可以包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的模型确定方法。
11.根据本公开的另一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例的模型确定方法。
12.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
13.附图用于更好地理解本方案，不构成对本公开的限定。其中：
14.图1a是根据本公开实施例的一种模型确定方法的流程图；
15.图1b是根据本公开实施例的另一种模型确定的方法的流程图；
16.图1c是根据本公开实施例的一种图像处理方法的流程图；
17.图2是根据本公开实施例的一种基于队列技术的图文预训练系统的示意图；
18.图3是根据本公开实施例的一种deit模型结构的示意图；
19.图4a是根据本公开实施例的一种队列模块的示意图；
20.图4b是根据本公开实施例的一种图像特征和文本特征进行匹配的示意图；
21.图5a是根据本公开实施例的一种模型确定装置的示意图；
22.图5b是根据本公开实施例的另一种模型确定装置的示意图；
23.图5c是根据本公开实施例的一种图像处理装置的示意图；
24.图6是根据本公开实施例的一种电子设备的示意性框图。
具体实施方式
25.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
26.图1a是根据本公开实施例的一种模型确定方法的流程图。如图1a所示，该方法可以包括以下步骤：
27.步骤s102，获取图像样本和文本样本，其中，文本样本中的文本用于对图像样本中的目标图像进行文字描述。
28.在本公开上述步骤102提供的技术方案中，文本(text)样本中的文本(文本数据)用于对图像(image)样本中的目标图像(图像数据)进行文字描述。
29.该实施例的模型确定方法为针对图文预训练的模型确定方法。图文预训练需要大量的数据，该实施例可以获取图像样本和文本样本以作为训练样本，该文本样本与图像样
本是相对应的，其中，文本样本中可以包括大量文本，图像样本可以包括大量图像，该图像可以包括图片，每个文本可以用于对图像样本中大量图像的目标图像进行文字描述，也即，文本样本中的每个文本与图像样本中的目标图像是一一对应的，该文本样本中的每个文本和对应的目标图像也可以称为图像文本对。
30.可选地，该实施例可以通过互联网爬虫来爬取上述图像样本和文本样本。
31.可选地，该实施例的上述图像样本和文本样本可以无需人工标注和清洗，以节约人工成本。
32.步骤s104，将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列。
33.在本公开上述步骤104提供的技术方案中，获取图像样本和文本样本之后，将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列，其中，第一队列和第二队列可以统称为图文双队列。
34.由于图文预训练中的对比loss非常依赖其挖掘信息负对的能力，为了从每个最小批(minibatch)中收集到足够的信息负对，该实施例设置了双队列模块，其中包括第一队列和第二队列。该实施例可以先获取图像样本的图像特征，可以将图像样本输入至图像编码器(image encoder)，通过该图像编码器从图像样本中提取出第一图像特征，比如，该图像特征可以为i1、i2……in
，进而将其存储至第一队列中，也即，该实施例的第一队列为图像特征的队列。可选地，该实施例的第一队列存储的图像特征的数量是有限的，当第一队列不足以存储新的图像特征时，可以在第一队列中删除最早存储的图像特征，以腾出空间来存储新的图像特征，从而通过第一队列实现了记录和更新图像特征的目的，以提高初始化模型的训练速度和模型指标(训练指标)，该模型指标为用于表示初始化模型的训练效果的指标。
35.可选地，该实施例的上述图像编码器可以使用数据高效图像(deit)模型进行第一图像特征的提取，也即，deit将变形模型(transformer)从自然语言处理(natural language processing，简称为nlp)中应用到了计算机视觉(comouter vision，简称为cv)。
36.该实施例还可以获取文本样本的文本特征，可以是将文本样本输入至文本编码器(text encoder)，通过该文本编码器从文本样本中提取出文本特征，该文本特征可以为t1、t2……
tn，进而将其存储至第二队列中，也即，该实施例的第二队列为文本特征的队列。可选地，该实施例的第二队列存储的文本特征的数量是有限的，当第二队列不足以存储新的文本特征时，可以在第二队列中删除最早存储的文本特征，以腾出空间来存储新的文本特征，从而通过第二队列实现了记录和更新文本特征的目的，以提高初始化模型的训练速度和模型指标。
37.可选地，该实施例的上述文本编码器可以使用roberta模型进行文本特征的提取，其中，roberta模型是在语言表示模型(bert)的基础上进行的升级，包括在模型的具体细节层面，改进了优化函数；在训练策略层面，改用了动态掩码的方式来训练模型，证明了下一语句预测模型(next sentence prediction，简称为nsp)训练策略的不足，采用了更大的批尺寸(batch size)；另外，在数据层面，一方面使用了更大的数据集，另一方面是使用字节编码对(byte-pair encoding，简称为bpe)来处理文本数据。
38.步骤s106，对第一队列和第二队列进行训练，得到第一目标模型。
39.在本公开上述步骤106提供的技术方案中，在将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列之后，对第一队列和第二队列进行训练，得到第一目标模型。
40.在该实施例中，可以对第一队列和第二队列进行训练，可选地，对第一队列、图像样本中的当前批次的图像特征、第二队列、文本样本中的当前批次的文本特征通过对比学习模型进行对比学习训练，来等效增大批尺寸(batchsize)，从而在节约计算资源的同时，也可以提高初始化模型的模型指标。其中，当前批次是指当前对图像样本中的图像特征进行批量训练的一个批次。
41.步骤s108，将第一目标模型确定为第二目标模型的初始化模型。
42.在本公开上述步骤108提供的技术方案中，在对第一队列和第二队列进行训练，得到第一目标模型之后，可以将第一目标模型确定为第二目标模型的初始化模型。
43.在该实施例中，将第一目标模型确定为第二目标模型的初始化模型，该初始化模型用于训练得到第二目标模型，该第二目标模型可以是图像检检测模型、图像分割模型、图像分类模型等。
44.需要说明的是，该实施例的上述第二目标模型为图像检测模型、图像分割模型、图像分类模型仅为本公开实施例的一种举例，并不代表本公开实施例的第二目标模型仅为图像检测模型、图像分割模型、图像分类模型，任何可以通过对初始化模型进行训练所得到的模型都在该实施例的范围之内，此处不再一一举例说明。
45.通过本技术上述步骤s102至步骤s108，获取图像样本和文本样本，其中，文本样本中的文本用于对图像样本中的目标图像进行文字描述；将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列；对第一队列和第二队列进行训练，得到第一目标模型；将第一目标模型确定为第二目标模型的初始化模型。也就是说，该实施例的预训练采用了双队列分别保存图像特征和文本特征，并将其用于初始化模型的训练，可以大量节约计算资源，解决了初始化模型训练的效率低的技术问题，达到了提高初始化模型训练的效率的技术效果。
46.下面对该实施例的上述方法进行进一步介绍。
47.作为一种可选的实施方式，步骤s106，对第一队列和第二队列进行训练，得到第一目标模型包括：基于第一队列和第二队列确定负样本；对负样本进行训练，得到第一目标模型。
48.在该实施例中，在实现对第一队列和第二队列进行训练，得到第一目标模型时，可以基于第一队列和第二队列获取负样本，进而对负样本进行训练，可以使其参与损失计算，从而得到第一目标模型，大量节约了计算资源，进而提高初始化模型的训练速度和训练指标，其中，该训练指标为用于表示初始化模型的训练效果的指标。
49.作为一种可选的实施方式，负样本包括第一负样本和第二负样本，其中，基于第一队列和第二队列确定负样本包括：基于第一队列和文本特征确定第一负样本；基于第二队列和图像特征确定第二负样本。
50.在该实施例中，在将图像样本中的图像特征存储至第一队列之后，可以基于第一队列和文本特征确定第一负样本，可以是将第一队列和文本样本中的目标批(batch)样本中文本特征组成第一负样本，上述负样本包括该第一负样本。可选地，在将文本样本中的文
本特征存储至第二队列中，可以是将第二队列和图像样本中目标批样本中图像特征组成第二负样本，上述负样本包括第二负样本，该第二负样本和第一负样本参与loss计算。由于负样本的数量非常影响初始化模型的训练效果，从而通过上述方法大大增加负样本的数目，可以提高初始化模型的训练速度和模型指标。
51.作为一种可选的实施方式，基于第一队列和文本特征确定第一负样本包括：基于第一队列和文本样本中当前批次样本的文本特征确定第一负样本。
52.在该实施例中，在实现基于第一队列和文本特征确定第一负样本时，可以是获取文本样本中当前批次样本的文本特征，也即，获取当前batch中的文本特征，然后将第一队列和当前批次样本的文本特征组成第一负样本，以增加负样本的数目。
53.作为一种可选的实施方式，基于第二队列和图像特征确定第二负样本包括：基于第二队列和图像样本中当前批次样本的图像特征确定第二负样本。
54.在该实施例中，在实现基于第二队列和图像特征确定第二负样本时，可以是获取文本样本中当前批次样本的文本特征，也即，获取当前batch中的图像特征，然后将第二队列和当前批次样本的图像特征组成第二负样本，以增加负样本的数目。
55.作为一种可选的实施方式，对负样本进行训练，得到第一目标模型包括：对负样本中多个图像特征和多个文本特征进行匹配，得到多个匹配结果和多个未匹配结果，其中，匹配结果包括互相匹配成功的图像特征和文本特征，未匹配结果包括互相匹配失败的图像特征和文本特征；基于多个匹配结果和多个未匹配结果确定模型参数；基于模型参数确定第一目标模型。
56.在该实施例中，在实现对负样本进行训练，得到第一目标模型时，可以是分别对负样本中多个图像特征和多个文本特征进行匹配，比如，该图像特征可以为i1、i2……in
，文本特征可以为t1、t2……
tn，分别对上述i1、i2……in
以及t1、t2……
tn进行匹配，得到多个匹配结果和多个未匹配结果，匹配结果可以包括互相匹配成功的图像特征和文本特征，比如，i1·
t1、i2·
t2……in
·
tn，而未匹配结果可以包括互相匹配失败的图像特征和文本特征，比如，i1·
t2、i1·
t3……
i1·
tn、i2·
t1、i2·
t3……
i2·
tn等。
57.在确定出上述多个匹配结果和多个未匹配结果之后，可以基于多个匹配结果和多个未匹配结果确定模型参数。可选地，该实施例使用损失函数(infonce loss)利用多个匹配结果和多个未匹配结果来进行实现，比如，通过下述公式进行实现：
[0058][0059]
其中，xi用于表示网络输出结果属于第i类别的概率，xj用于表示网络输出结果属于第j类别的概率，可选地，在该实施例中，上述exp(xi)可以用于表示多个图像特征和多个文本特征进行匹配的匹配结果，而∑
j exp(xj)可以用于表示多个图像特征和多个文本特征之间的不匹配结果。
[0060]
因而，该实施例在加入第一队列和第二队列之后，相当于增加infonceloss的负样本，从而可以大量节约计算资源。
[0061]
在确定模型参数之后，该实施例可以通过该模型参数来生成第一目标模型。
[0062]
可选地，该实施例的上述对比学习模型可以主要使用infonce loss，来生成第一
目标模型。
[0063]
作为一种可选的实施方式，图像样本包括图像噪声数据和/或文本样本包括文本噪声数据。
[0064]
在该实施例中，图文预训练需要大量数据，获取图像样本和文本样本是容许一定的噪声数据的，图像样本可以包括图像噪声数据，文本样本可以包括第二文本噪声数据，也即，该实施例可以不用对图像样本中的图像噪声数据和文本样本中的文本噪声数据进行特别处理，以节约人工成本。
[0065]
作为一种可选的实施方式，图像样本为未标注图像样本和/或文本样本为未标注文本样本。
[0066]
在该实施例中，可以采用大量无标注的文本样本和图像样本作为训练样本，无需人工标注和清洗，以节约人工成本，进而将大量无标注的文本样本通过文本编码器提取出文本特征，将其存储至第二队列，将大量无标注的图像样本通过图像编码器提取出图像特征，将其存储至第一队列，以对第一队列和第二队列进行训练，得到初始化模型。
[0067]
图1b是根据本公开实施例的另一种模型确定的方法的流程图。如图1b所示，该方法可以包括以下步骤：
[0068]
步骤s1002，向服务器发送模型训练请求，其中，模型训练请求包括图像样本和文本样本，文本样本中的文本用于对图像样本中的目标图像进行文字描述。
[0069]
在本公开上述步骤1002提供的技术方案中，为了能够训练得到一个出来精度较高的初始化模型，需要采用大量的图像样本和文本样本进行训练，整个训练过程的数据量和运算量较大。为了减少用户设备(比如，智能手机、平板电脑、笔记本电脑、掌上电脑、个人计算机等)的资源消耗，可以由服务进行模型的训练，用户设备中仅部署训练好的模型即可，以方便用户使用。
[0070]
在该实施例中，上述模型训练请求可以根据用户的模型使用需求生成，该模型训练请求中包括需要处理的图像样本和文本样本，还可以包括预期达到的处理结果等。
[0071]
可选地，在该实施例中，可以在用户设备上提供一个图形用户界面，用户在图形用户界面的输入区域内输入模型训练请求，从而用户设备可以通过网络将模型训练请求发送至服务器。为了更加有针对性，服务器可以针对用户的类型，给用户提供不同的模型训练方案，由用户在输入区域内进行选择，从而用户设备可以根据用户的旋转结果生成模型训练请求，并通过网络发送给服务器。
[0072]
步骤s1004，接收服务器响应模型训练请求而发送的初始化模型，其中，初始化模型为服务器将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列，对第一队列和第二队列进行训练得到。
[0073]
在本公开上述步骤1004提供的技术方案中，服务器响应模型训练请求，可以是服务器先获取图像样本的图像特征，可以将图像样本输入至图像编码器，通过该图像编码器从图像样本中提取出第一图像特征，进而将其存储至第一队列中。可选地，当第一队列不足以存储新的图像特征时，服务器可以在第一队列中删除最早存储的图像特征，以腾出空间来存储新的图像特征，从而通过第一队列实现了记录和更新图像特征的目的，以提高初始化模型的训练速度和模型指标。
[0074]
该实施例的服务器还可以获取文本样本的文本特征，服务器可以是将文本样本输
入至文本编码器，通过该文本编码器从文本样本中提取出文本特征，进而将其存储至第二队列中。可选地，当第二队列不足以存储新的文本特征时，服务器可以在第二队列中删除最早存储的文本特征，以腾出空间来存储新的文本特征，从而通过第二队列实现了记录和更新文本特征的目的，以提高初始化模型的训练速度和模型指标。
[0075]
在服务器将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列之后，服务器可以对第一队列和第二队列进行训练，可以是对第一队列、图像样本中的当前批次的图像特征、第二队列、文本样本中的当前批次的文本特征通过对比学习模型进行对比学习训练，来等效增大批尺寸(batchsize)，从而得到初始化模型，这样在节约计算资源的同时，也可以提高初始化模型的模型指标。
[0076]
进一步地，为了大幅度减少用户设备的运算负担，可以直接将训练好的初始化模型部署在服务器中，用户设备通过特定接口连接服务器，通过网络向服务器发送模型获取请求，用户设备通过网络获取服务器响应模型获取请求而发送的初始化模型，将其作为第二目标模型的初始化模型，实现了模型预训练目的。
[0077]
图1c是根据本公开实施例的一种图像处理方法的流程图。如图1c所示，该方法可以包括以下步骤：
[0078]
步骤s10002，获取待处理图像。
[0079]
在本公开上述步骤10002提供的技术方案中，待处理图像可以为需要待进行图像处理的图像，比如，为需待进行图像检测、图像分割、图像分类、图像识别等处理的图像，该处理类型可以根据图像应用场景来进行灵活确定，比如，根据道路场景、教育场景、植被生长预测场景、天气预测场景等来灵活确定，此处对其不做具体限制。
[0080]
可选地，该实施例可以通过图像采集设备来采集待处理图像，比如，通过在一定空间部署的摄像头来采集待处理图像。
[0081]
步骤s10004，将待处理图像输入至第二目标模型中，其中，第二目标模型为由本公开实施例的模型确定方法获得。
[0082]
在本公开上述步骤10004提供的技术方案中，可以将采集到的待处理图像输入至第二目标模型中，可选地，该实施例的第二目标模型通过对初始化模型进行训练得到，而该初始化模型可以为将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列，对第一队列和第二队列进行训练得到，其中，文本样本中的文本用于对图像样本中的目标图像进行文字描述，比如，该初始化模型可以为循环神经网络模型，此处不做具体限制。
[0083]
可选地，在该实施例中，在实现对初始化模型进行训练，得到第二目标模型时，可以是预先采集大量的样本数据，该样本数据可以包括大量的图像样本，可以对其进行标注，得到多个标签，该标签可以为与图像检测、图像分割、图像分类、图像识别等图像处理相关的标签。然后通过样本数据和对应的标签对初始化模型进行训练，得到第二目标模型。
[0084]
可选地，该实施例在样本数据中，可以是通过卷积神经网络对每个样本数据提取特征，来得到包括多个特征的特征向量，比如，该特征向量包括与上述标签相关的特征，通过特征向量和对应的标签对初始化模型进行训练，可以得到目标参数，该目标参数可以是模型的优化参数，可以通过该目标参数和初始化模型来确定第二目标模型。
[0085]
可选地，该实施例可以按照分布一致性算法、去噪等算法对样本数据进行预处理，
再从预处理后的数据中进行特征提取、特征变换、特征归一、特征组合等得到用于训练初始化模型的特征。可选地，该实施例还可以进一步通过优化算法、假设函数、损失函数、决策边界、收敛速度、迭代策略等对特征进行进一步处理，通过处理后的特征对初始化模型进行训练，得到第二目标模型。
[0086]
可选地，该实施例在第二目标模型之后，还可以对第二目标模型进行交叉验证、评估目标、过拟合、欠拟合等评价，从而确定最终的第二目标模型，以通过第二目标模型实现对输入图像的图像检测、图像分割、图像分类、图像识别等处理。
[0087]
步骤s10006，获取第二目标模型的处理结果。
[0088]
在本公开上述步骤10006提供的技术方案中，第二目标模型可以对待处理图像进行处理，比如，对第二目标模型进行图像检测、图像分割、图像分类、图像识别等处理，得到处理结果，该处理结果可以包括图像检测结果、图像分割结果、图像分类结果、图像识别结果等，进行对其进行输出，比如，通过图形用户界面显示图像检测结果、图像分割结果、图像分类结果、图像识别结果等，以对其进行进一步分析。
[0089]
在该实施例中，预训练采用基于队列技术的图文预训练优化，保存图像和文本特征，并用于infonceloss的计算。在加入图文双队列以后，相当于增加infonceloss的负样本，也即，双队列技术等效增大batchsize，从而可以大量节约计算资源，并且可以提供初始化模型的模型指标，解决了初始化模型训练的效率低的技术问题，达到了提高初始化模型训练的效率的技术效果。
[0090]
下面结合优选的实施方式对本公开实施例的上述技术方案进行进一步地举例说明。
[0091]
在相关技术中，图文预训练需要大量的图文样本和大量的计算资源。图文预训练可以采用对比loss进行训练，其中，负样本的数量非常影响模型的效果，因而，batchsize越大，则模型的效果越好。但是，batchsize增大，则意味着需要更大的显存。并且相关技术中的图文预训练需要大量的gpu等计算资源，训练时间很长，预训练模型指标较低，需要优化方案以持续提升模型指标。
[0092]
另外，相关技术中的图文预训练采用的大量的计算资源训练模型，如大量的图像处理器(tpu)、分布式等，而且相关技术的预训练需要消耗大量的时间，训练过程也非常漫长，模型的指标有待提高。
[0093]
针对以上问题，该实施例采样双队列技术等效增大batchsize，在节约训练资源的同时也可以提高模型指标。下面对该实施例的上述方法进行进一步介绍。
[0094]
图2是根据本公开实施例的一种基于队列技术的图文预训练系统的示意图。如图2所示，搜集大量的图像样本和文本样本(noisy product image-text data)，其中，图像样本包括图片，文本样本包括与图片对应的文本数据。该实施例的图文预训练需要大量数据，并且可以容许一定的噪声。该实施例可以采用大量无标注的文本样本和图像样本作为训练样本，无需人工标注和清洗，将图像样本输入至文本编码器，以提取出图像样本的图像特征，将图像特征存储至图像特征队列，将对应的文本样本输入至图像编码器，以提取出文本样本的文本特征，将文本特征存储至文本特征队列，进而对图像特征队列、当前batch中的图像特征、文本特征队列、当前batch中的文本特征通过对比学习模型进行对比学习，从而得到初始化模型。
[0095]
在该实施例中，上述文本编码器模块使用roberta模型进行文本特征的提取，roberta模型是在bert模型的基础上进行的升级。图像编码器使用deit模型进行图像特征提取，如图3所示，其中，图3是根据本公开实施例的一种deit模型结构的示意图，通过输入数据类别令牌(class token)、块令牌(patch tokens)、蒸馏令牌(distinguish token)，经过自注意力机制(self attention)和全连接网络(ffn)的处理，所得到的输出结果可以用于得到图像特征。该实施例的deit将transformer从nlp中应用到了计算机视觉。
[0096]
在该实施例中，图文预训练中的对比loss非常依赖其挖掘信息负对的能力，为了从每个minibatch中收集到足够的信息负对，本公开增加了两个队列，分别用于存储图像特征和文字特征。整个训练过程中，实例的embedding实际上以一个相对缓慢的速度进行变化。基于这种现象，本公开提出了一个跨批处理内存模块来记录和更新最近的小批处理的深层特性，从而可以跨小批处理挖掘信息实例，提高训练速度和模型指标。其中，最近的小批处理指的是队列的长度是一定的，如果当前存储的特征量达到队列的长度时，则队列中最早存储的特征就会被丢掉，以存储新的特征。
[0097]
图4a是根据本公开实施例的一种队列模块的示意图。如图4a所示，该实施例的队列模块包含图像特征队列和文本特征队列，其中，图像特征队列用于存储经编码器(encoder)处理后得到的图像样本的特征，其中可以包括负图像样本(negative images)的特征和当前批次的图像(image)样本的图像特征，文本特征队列用于存储经由编码器处理得到的文本样本的特征，其中可以包括负文本样本(texts images)的特征和当前批次中的文本(text)样本的图像特征。可选地，图形特征队列和当前batch中的文本特征组成负样本，文本特征队列和当前batch中的图像特征组成负样本，这两部分负样本参与loss计算，如此可以大大增加负样本数目，进而提高了初始化模型的训练速度和训练指标。
[0098]
该实施例的对比学习模块可以主要使用infonce loss，其计算公式如下：
[0099][0100]
其中，xi用于表示网络输出结果属于第i类别的概率，xj用于表示网络输出结果属于第j类别的概率，上述exp(xi)可以用于表示图像特征和文本特征相匹配的匹配结果，而∑
j exp(xj)可以用于表示图像特征和文本特征匹配失败的匹配结果。如图4b所示。其中，图4b是根据本公开实施例的一种图像特征和文本特征进行匹配的示意图。如图4所示，通过图像编码器对输入的图像样本提取出图像特征i1、i2……in
，通过文本编码器对输入的文本样本提取出文本特征t1、t2……
tn，对图像特征i1、i2……in
和t1、t2……
tn分别进行互相匹配，得到匹配结果，其中，对角线上的匹配结果为文本特征和图像特征匹配成功的结果，而除对角线之外的匹配结果，为文本特征和图像特征匹配失败的匹配结果。
[0101]
该实施例的infonce loss结合上面的队列模块，等效增加了负样本的数量，可以提高初始化模型的训练指标。
[0102]
该实施例的预训练采用了基于队列技术的图文预训练优化方法，利用双队列分别保存图像样本的图像特征和文本样本的文本特征，并将其用于infoncenceloss的计算。需要说明的是，该实施例在加入图文双队列以后，相当于增加了infonceloss的负样本，从而可以大量节约计算资源，并且可以提高初始化模型的模型指标。
[0103]
本公开实施例还提供了一种用于执行图1a所示实施例的模型确定方法的模型确定装置。
[0104]
图5a是根据本公开实施例的一种模型确定装置的示意图。如图5a所示，该模型确定装置50可以包括：第一获取单元51、存储单元52、训练单元53和确定单元54。
[0105]
第一获取单元51，用于获取图像样本和文本样本，其中，文本样本中的文本用于对图像样本中的目标图像进行文字描述。
[0106]
存储单元52，用于将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列。
[0107]
训练单元53，用于对第一队列和第二队列进行训练，得到第一目标模型。
[0108]
确定单元54，用于将第一目标模型确定为第二目标模型的初始化模型。
[0109]
可选地，训练单元包括：确定模块，用于基于第一队列和第二队列确定负样本；训练模块，用于对负样本进行训练，得到第一目标模型。
[0110]
可选地，负样本包括第一负样本和第二负样本，其中，确定模块包括：第一确定子模块，用于基于第一队列和文本特征确定第一负样本；第二确定子模块，用于基于第二队列和图像特征确定第二负样本。
[0111]
可选地，第一确定子模块用于通过以下步骤来基于第一队列和文本特征确定第一负样本：基于第一队列和文本样本中当前批次样本的文本特征确定第一负样本。
[0112]
可选地，第二确定子模块用于通过以下步骤来基于第二队列和图像特征确定第二负样本：基于第二队列和图像样本中当前批次样本的图像特征确定第二负样本。
[0113]
可选地，训练模块包括：匹配子模块，用于对负样本中多个图像特征和多个文本特征进行匹配，得到多个匹配结果和多个未匹配结果，其中，匹配结果包括互相匹配成功的图像特征和文本特征，未匹配结果包括互相匹配失败的图像特征和文本特征；第三确定子模块，用于基于多个匹配结果和多个未匹配结果确定模型参数；第四确定子模块，用于基于模型参数确定第一目标模型。
[0114]
可选地，图像样本包括图像噪声数据和/或文本样本包括文本噪声数据。
[0115]
可选地，图像样本为未标注图像样本和/或文本样本为未标注文本样本。
[0116]
本公开实施例还提供了一种用于执行图1b所示实施例的模型确定方法的模型确定装置。
[0117]
图5b是根据本公开实施例的另一种模型确定装置的示意图。如图5b所示，该模型确定装置500可以包括：发送单元502和接收单元504。
[0118]
发送单元502，用于向服务器发送模型训练请求，其中，所述模型训练请求包括图像样本和文本样本，所述文本样本中的文本用于对所述图像样本中的目标图像进行文字描述。
[0119]
接收单元504，用于接收所述服务器响应所述模型训练请求而发送的初始化模型，其中，所述初始化模型为所述服务器将所述图像样本中的图像特征存储至第一队列，且将所述文本样本中的文本特征存储至第二队列，对所述第一队列和所述第二队列进行训练得到。
[0120]
本公开实施例还提供了一种用于执行图1c所示实施例的图像处理方法的图像处理装置。
[0121]
图5c是根据本公开实施例的一种图像处理装置的示意图。如图5c所示，该图像处理装置5000可以包括：第二获取单元5001、输入单元5002和第三获取单元5003。
[0122]
第二获取单元5001，用于获取待处理图像。
[0123]
输入单元5002，用于将待处理图像输入至第二目标模型中，其中，第二目标模型为由本公开实施例的模型确定方法获得。
[0124]
第三获取单元5003，用于获取第二目标模型的处理结果。
[0125]
在该实施例中，预训练采用了双队列分别保存图像特征和文本特征，并将其用于初始化模型的训练，可以大量节约计算资源，解决了初始化模型训练的效率低的技术问题，达到了提高初始化模型训练的效率的技术效果。
[0126]
需要说明的是，上述各个单元和模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述单元和模块均位于同一处理器中；或者，上述各个单元和模块以任意组合的形式分别位于不同的处理器中。
[0127]
本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
[0128]
根据本公开的实施例，本公开还提供了一种电子设备。该电子设备可以包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的模型确定方法。
[0129]
可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
[0130]
根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例的模型确定方法。
[0131]
可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：
[0132]
s1，获取图像样本和文本样本，其中，文本样本中的文本用于对图像样本中的目标图像进行文字描述；
[0133]
s2，将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列；
[0134]
s3，对第一队列和第二队列进行训练，得到第一目标模型；
[0135]
s4，将第一目标模型确定为第二目标模型的初始化模型。
[0136]
可选地，在本实施例中，上述非易失性存储介质还可以被设置为存储用于执行以下步骤的计算机程序：
[0137]
s1，向服务器发送模型训练请求，其中，模型训练请求包括图像样本和文本样本，文本样本中的文本用于对图像样本中的目标图像进行文字描述；
[0138]
s2，接收服务器响应模型训练请求而发送的初始化模型，其中，初始化模型为服务器将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列，对第一队列和第二队列进行训练得到。
[0139]
可选地，在本实施例中，上述非易失性存储介质还可以被设置为存储用于执行以下步骤的计算机程序：
[0140]
s1，获取待处理图像；
[0141]
s2，将待处理图像输入至第二目标模型中，其中，第二目标模型为由本公开实施例的模型确定方法获得；
[0142]
s3，获取第二目标模型的处理结果。
[0143]
可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0144]
根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现以下步骤：
[0145]
s1，获取图像样本和文本样本，其中，文本样本中的文本用于对图像样本中的目标图像进行文字描述；
[0146]
s2，将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列；
[0147]
s3，对第一队列和第二队列进行训练，得到第一目标模型；
[0148]
s4，将第一目标模型确定为第二目标模型的初始化模型。
[0149]
可选地，上述计算机程序在被处理器执行时还可以实现以下步骤：
[0150]
s1，向服务器发送模型训练请求，其中，模型训练请求包括图像样本和文本样本，文本样本中的文本用于对图像样本中的目标图像进行文字描述；
[0151]
s2，接收服务器响应模型训练请求而发送的初始化模型，其中，初始化模型为服务器将图像样本中的图像特征存储至第一队列，且将文本样本中的文本特征存储至第二队列，对第一队列和第二队列进行训练得到。
[0152]
可选地，上述计算机程序在被处理器执行时还可以实现以下步骤：
[0153]
s1，获取待处理图像；
[0154]
s2，将待处理图像输入至第二目标模型中，其中，第二目标模型为由本公开实施例的模型确定方法获得；
[0155]
s3，获取第二目标模型的处理结果。
[0156]
可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。
[0157]
该实施例的用于实施本公开的模型确定方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程模型确定装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0158]
图6是根据本公开实施例的一种电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片
式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0159]
如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序，来执行各种适当的动作和处理。在ram 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0160]
设备600中的多个部件连接至i/o接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0161]
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如模型确定方法。例如，在一些实施例中，模型确定方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram 603并由计算单元601执行时，可以执行上文描述的模型确定方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型确定方法。
[0162]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0163]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程模型确定装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0164]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0165]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0166]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0167]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
[0168]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0169]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于实时地质信息的泥水盾构掘进参数预测方法与流程

模型确定方法、装置、电子设备和存储器与流程

相关文献

最热文献