模型的训练方法、装置、电子设备以及存储介质与流程

2022-08-28 08:51:27 来源：中国专利 TAG：

1.本技术涉及机器学习技术领域，更具体地，涉及一种模型的训练方法、装置、电子设备以及存储介质。

背景技术：

2.视觉语义理解是一系列计算机视觉任务的总称，它要求理解计算机视觉内容中所包含的信息并按要求输出，其中，图像多标签分类、人物交互识别、图文检索、看图说话等任务都属于该范畴。但是，目前的视觉语义理解的识别准确性较差。

技术实现要素：

3.鉴于上述问题，本技术提出了一种模型的训练方法、装置、电子设备以及存储介质，以解决上述问题。
4.第一方面，本技术实施例提供了一种模型的训练方法，所述方法包括：
5.获取训练文本和训练图像，其中，所述训练文本用于描述所述训练图像中的内容；对所述训练文本进行解析，获取所述训练文本中的特征信息，其中，所述特征信息包括标签信息、属性信息以及关系信息中的至少一种；将所述训练文本和所述训练图像输入初始模型的主干网络，并将所述特征信息输入所述初始模型的检测头，对所述初始模型进行训练，获得视觉语义理解模型。
6.第二方面，本技术实施例提供了一种模型的训练装置，所述装置包括：信息获取模块，用于获取训练文本和训练图像，其中，所述训练文本用于描述所述训练图像中的内容；信息解析模块，用于对所述训练文本进行解析，获取所述训练文本中的特征信息，其中，所述特征信息包括标签信息、属性信息以及关系信息中的至少一种；模型训练模块，用于将所述训练文本和所述训练图像输入初始模型的主干网络，并将所述特征信息输入所述初始模型的检测头，对所述初始模型进行训练，获得视觉语义理解模型。
7.第三方面，本技术实施例提供了一种电子设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。
8.第四方面，本技术实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。
9.本技术实施例提供的模型的训练方法、装置、电子设备以及存储介质，获取训练文本和训练图像，其中，训练文本用于描述训练图像中的内容，对训练文本进行解析，获取训练文本中的特征信息，其中，该特征信息包括标签信息、属性信息以及关系信息中的至少一种，将训练文本和训练图像输入初始模型的主干网络，并将特征信息输入初始模型的检测头，对初始模型进行训练，获得视觉语义理解模型，从而通过解析训练文本的特征信息作为模型的检测头的输入，以实现在模型训练过程中对关键信息进行监督，可以提升模型训练的可控性和准确性。
附图说明
10.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
11.图1示出了本技术一实施例提供的模型的训练方法的流程示意图；
12.图2示出了本技术实施例提供的模型的主干网络的示意图；
13.图3示出了本技术一实施例提供的模型的训练方法的流程示意图；
14.图4示出了本技术一实施例提供的模型的训练方法的流程示意图；
15.图5示出了本技术一实施例提供的模型的训练方法的流程示意图；
16.图6示出了本技术实施例提供的视觉语义理解模型的框架的示意图；
17.图7示出了本技术一实施例提供的模型的训练装置的模块框图；
18.图8示出了本技术实施例用于执行根据本技术实施例的模型的训练方法的电子设备的框图；
19.图9示出了本技术实施例的用于保存或者携带实现根据本技术实施例的模型的训练方法的程序代码的存储单元。
具体实施方式
20.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。
21.视觉语义理解是一系列计算机视觉任务的总称，它要求计算机理解视觉内容中所包含的信息(物体、场景、属性、关系等)并按要求输出。图像多标签分类、人物交互识别、图文检索、看图说话等任务都属于该范畴。目前，视觉语义理解技术存在以下两个问题：
22.第一、效率问题。从模型与任务的对应关系上，目前的技术可以分为两类：
23.a)一个模型只能解决一种任务。解决多个任务都需要分别训练多个模型。
24.b)一个模型以“预训练微调”的方式解决多个下游任务。本质上仍然是每个任务需要训练一套不同的模型参数。
25.因此，目前的技术需要大量算力和不同任务类型的标注数据来支持。
26.第二、可控性问题。目前的技术存在不可控的问题：
27.a)结果不可控。常用粗粒度文本和图像进行训练，但没有对文本和图像的局部之间进行对齐，难以确保关键信息的准确性。
28.b)过程不可控。模型的训练和推理都是端到端的，过程中没有可用于诊断模型性能的信息，若结果不理性难以定位问题，难以进行有效迭代。
29.针对上述问题，发明人经过详细的研究发现，并提出了本技术实施例提供的模型的训练方法、装置、电子设备以及存储介质，通过解析训练文本的特征信息作为模型的检测头的输入，以实现在模型训练过程中对关键信息进行监督，可以提升模型训练的可控性和准确性。其中，具体的模型的训练方法在后续的实施例中进行详细的说明。
30.下面将针对可用于本技术实施例提供的词进行解释说明。
31.标签(tag)，表示物体、场景、动作等内容的词，如“person”、“sky”、“eating”等；
32.属性(attribute)，表示颜色、数量、材质等形容标签状态的词，如“red”、“several”、“wooden”；
33.关系(relation)，表示动词、方位词等表示从属关系的词等，如“ride”、“on top of”、“belong to”；
34.图像多标签分类(image tagging)，表示识别图像中存在的一个或多个标签。这里的标签是广义的，包括前面的标签、属性和部分关系；
35.人物交互识别(human object interaction recognition或hoi recognition)，表示识别图像中存在的一个或多个动作短语，可以理解成relation tag的组合，如“ride horse”，“eat pizza”等；
36.图文检索(image-text retrieval)，表示给定图像，从文本的集合中返回相关的文本，按照相关程度从高到低排列，或者，给定文本，从图像的集合中返回相关的图像，按照相关程度从高到低排列；
37.看图说话(image caption)，表示给定图像，生成描述图像内容的语句。
38.请参阅图1，图1示出了本技术一实施例提供的模型的训练方法的流程示意图。该方法用于通过解析训练文本的特征信息作为模型的检测头的输入，以实现在模型训练过程中对关键信息进行监督，可以提升模型训练的可控性和准确性。在具体的实施例中，该模型的训练方法应用于如图7所示的模型的训练装置200以及配置有模型的训练装置200的电子设备100(图8)。可以理解的，该电子设备可以包括智能手机、平板电脑、穿戴式电子设备、服务器等，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述模型的训练方法具体可以包括以下步骤：
39.步骤s110：获取训练文本和训练图像，其中，所述训练文本用于描述所述训练图像中的内容。
40.在本实施例中，可以获取训练文本和训练图像，其中，该训练文本用于描述该训练图像中的内容。例如，该训练文本可以包括“a man is eating pizza”，该训练图像可以包括满汉全席的图片，且该满汉全席的图片中包括一个在吃披萨的男人。
41.在一些实施方式中，该训练文本的数量为多个，该训练图像的数量为多个，且多个训练文本和多个训练图像存在对应关系，其中，该对应关系可以包括一个训练文本对应一个训练图像，一个训练文本对应多个训练图像，或者多个训练文本对应一个训练图像等，在此不做限定。作为一种方式，该训练文本的数量和训练图像的数量可以根据训练需求进行设定，在此不做限定。
42.在一些实施方式中，可以通过网络的方式从服务器获取训练文本和训练图像，例如，可以通过无线网络从服务器获取训练文本和训练图像，可以通过有线网络从服务器获取训练文本和训练图像，可以通过数据网络从服务器获取训练文本和训练图像等；可以通过网络的方式从其他设备获取训练文本和训练图像，例如，可以通过无线网络从其他设备获取训练文本和训练图像，可以通过有线网络从其他设备获取训练文本和训练图像，可以通过数据网络从其他设备获取训练文本和训练图像等；也可以直接从电子设备的本地获取训练文本和训练图像等，在此不做限定。
43.作为一种方式，针对非隐私文本和非隐私图像，如公开的文本和图像，电子设备可以自动从网络中采集文本作为训练文本以及采集图像作为训练图像，还可以自动从电子设
备本地获取文本作为训练文本以及获取图像作为训练图像。或者，电子设备可以根据用户下发的任务指令，从网络中采集文本作为训练文本以及采集图像作为训练图像，还可以根据用户下发的任务指令从电子设备本地采集文本作为训练文本以及采集图像作为训练图像。
44.作为再一种方式，针对隐私文本和隐私图像，如加密的文本和图像，则可以在获得授权的基础上，电子设备再自动从网络中采集文本作为训练文本以及采集图像作为训练图像，还可以自动从电子设备本地获取文本作为训练文本以及获取图像作为训练图像。或者，在获得授权的基础上，电子设备再根据用户下发的任务指令，从网络中采集文本作为训练文本以及采集图像作为训练图像，还可以根据用户下发的任务指令从电子设备本地获取文本作为训练文本以及获取图像作为训练图像。
45.步骤s120：对所述训练文本进行解析，获取所述训练文本中的特征信息，其中，所述特征信息包括标签信息、属性信息以及关系信息中的至少一种。
46.在本实施例中，在获得训练文本的情况下，则可以对训练文本进行解析，获取该训练文本中的特征信息，其中，该特征信息包括标签信息、属性信息以及关系信息中的至少一种。作为一种可实施的方式，在获得训练文本的情况下，则可以通过句子解析工具(如scene graph parser)解析该训练文本的成本，获得该训练文本中的特征信息。可以理解的是，该特征信息(标签信息、属性信息、关系信息)都是从已有的训练文本中自动解析获得的，无需额外进行数据标注，可以以相对更少的算力和数据完成更多的视觉语义理解任务，具有高效性。
47.在一些实施方式中，在获得训练文本的情况下，解析训练文本的文本成分，根据解析到的文本成分，从训练图像中确定文本成分对应的词与词之间的关系相关的信息，然后可以从训练图像中获得标签信息(实词)、属性信息(修饰标签信息的词)、关系信息(关系词)等，在此不做限定。
48.在一些实施方式中，在获取训练文本和训练图像的情况下，则可以对训练文本是否满足第一预设条件进行检测，以及对训练图像是否满足第二预设条件进行检测，其中，在检测到训练文本满足第一预设条件且训练图像满足第二预设条件的情况下，则可以对训练文本进行解析，以获取该训练文本中的特征信息。作为一种可实施的方式，在检测到训练文本的文本内容完整的情况下，则可以确定训练文本满足第一预设条件，在检测到训练图像的图像内容完整的情况下，则可以确定训练图像满足第二预设条件。作为又一种可实施的方式，在检测到训练文本的文本内容不包括为违规文本的情况下，则可以确定训练文本满足第一预设条件，在检测到训练图像的图像内容不包括违规图像的情况下，则可以确定训练图像满足第二预设条件。
49.步骤s130：将所述训练文本和所述训练图像输入初始模型的主干网络，并将所述特征信息输入所述初始模型的检测头，对所述初始模型进行训练，获得视觉语义理解模型。
50.在本实施例中，可以选取初始模型进行训练，例如，可以选取卷积神经网络(convolutional neural networks，cnn)作为初始模型进行训练。其中，该初始模型可以包括主干网络(backbone)和检测头(head)，其中，该主干网络的输入可以包括训练文本和训练图像，该主干网络的输出可以作为检测头的输入，检测头的输入还可以包括标签信息、属性信息、关系信息，检测头的输出可以包括视觉语义理解结果。作为一种方式，该主干网络
可以有多层相同的transformer编码器堆叠而成。
51.在一些实施方式中，在获得训练文本的标签信息、属性信息以及关系信息的情况下，则可以将训练文本、训练图像、标签信息、属性信息以及关系信息一起输入初始模型，以对初始模型进行训练。作为一种可实施的方式，可以将训练文本和训练图像输入初始模型的主干网络参与前向计算，将标签信息、属性信息以及关系信息输入初始模型的检测头，作为真值参与损失函数计算，从而可以训练获得视觉语义理解模型。
52.在一些实施方式中，针对主干网络，输入的训练文本经过分词成为长度为m的token序列，输入的训练图像先经过卷积神经网络，然后被划分为n个视觉token，将这些token排列在一起输入主干网络(如图2所示，图中省略了position embedding和segment embedding)，这些token中，有两个特殊的token：[img]和[gls]，[img]表示图像本身，它对应的embedding是图像的全局卷积特征，[gls]加在文本开头，其作用和在bert中相同。其中，该主干网络的输出部分为m n 2个隐层向量，可以看作结合了上下文的特征向量。
[0053]
在一些实施方式中，在获得主干网络输出的特征向量的情况下，则可以将该特征向量作为检测头的输入参数输入该初始模型的检测头，以获得该检测头基于输入的特征向量输出的特征信息，然后将检测头基于输入的特征向量输出的特征信息与作为真值的特征信息进行损失函数计算，以优化训练的模型获得视觉语义理解模型。
[0054]
在一些实施方式中，在训练获得视觉语义理解模型的情况下，则可以将该视觉语义理解模型上传至云端，该云端可以与多个电子设备通信。在电子设备存在视觉语义理解的任务时，可以将待推理文本和待推理图像发送至云端，以指示云端通过视觉语义理解模型对待推理文本和待推理图像进行推理，以获得其对应的推理结果，并将该推理结果反馈至电子设备。基于此，通过将视觉语义理解模型存储在云端的方式，可以释放电子设备的存储空间，减轻电子设备的存储压力。
[0055]
在一些实施方式中，在训练获得视觉语义理解模型的情况下，则可以将该视觉语义理解模型移植至电子设备。在电子设备存在视觉语义理解任务时，可以将待推理文本和待推理图像输入本地的视觉语义理解模型，以获得该视觉语义理解模型输出的推理结果。基于此，通过将视觉语义理解模型移植至电子设备的方式，可以弱化网络对视觉语义理解任务的影响，即，即使在没有网络的情况下，依然可以正常的执行视觉语义理解任务。
[0056]
在一些实施方式中，在获得视觉语义理解模型的情况下，还可以对该视觉语义理解模型的准确性进行验证，并判断该视觉语义理解模型基于输入数据的输出信息是否满足预设要求，当该视觉语义理解模型基于输入数据的输出信息不满足预设要求时，可以重新采集训练数据集对初始模型进行训练，或者再获取多个训练数据集对视觉语义理解模型进行校正，使得误差尽量接近0。
[0057]
本技术一实施例提供的模型的训练方法，获取训练文本和训练图像，其中，训练文本用于描述训练图像中的内容，对训练文本进行解析，获取训练文本中的特征信息，其中，该特征信息包括标签信息、属性信息以及关系信息中的至少一种，将训练文本和训练图像输入初始模型的主干网络，并将特征信息输入初始模型的检测头，对初始模型进行训练，获得视觉语义理解模型，从而通过解析训练文本的特征信息作为模型的检测头的输入，以实现在模型训练过程中对关键信息进行监督，可以提升模型训练的可控性和准确性。
[0058]
请参阅图3，图3示出了本技术一实施例提供的模型的训练方法的流程示意图。下
面将针对图3所示的流程进行详细的阐述，所述模型的训练方法具体可以包括以下步骤：
[0059]
步骤s210：获取训练文本和训练图像，其中，所述训练文本用于描述所述训练图像中的内容。
[0060]
步骤s220：对所述训练文本进行解析，获取所述训练文本中的特征信息，其中，所述特征信息包括标签信息、属性信息以及关系信息中的至少一种。
[0061]
其中，步骤s210-步骤s220的具体描述请参阅步骤s110-步骤s120，在此不再赘述。
[0062]
步骤s230：确定训练任务，并确定与所述训练任务对应的所述初始模型的检测头。
[0063]
在本实施例中，视觉语义理解所包含的训练任务可以包括mlm训练任务、多标签分类训练任务、人物交互识别训练任务、itm训练任务。其中，mlm(masked language modeling)是指根据上下文信息和视觉信息预测被掩盖的文本，itm(image-text matching)是指判断一张图像和一条文本是否匹配。在本实施例中，初始模型的检测头可以包括全连接层 softmax组成的检测头，可以包括sigmoid组成的检测头等。
[0064]
在一些实施方式中，电子设备可以预先设置并存储有第一映射关系表，该第一映射关系表可以包括多个训练任务、多个检测头以及多个训练任务和多个检测头的对应关系，其中，该对应关系可以包括一个训练任务可以对应一个检测头，或者，多个训练任务可以对应一个检测头等，在此不做限定。因此，在本实施例中，可以确定所需的训练任务，并基于该第一映射关系表确定与该训练任务对应的初始模型的检测头。
[0065]
在一些实施方式中，可以获取推理需求，基于推理需求确定训练任务。例如，若推理需求为多标签分类推理需求，则可以确定其训练任务为多标签分类训练任务；若推理需求为任务交互识别推理若需求，则可以确定其训练任务为人物交互识别训练任务；若推理需求为图文检索推理需求，则可以确定其训练任务为itm训练任务；若推理需求为看图说话推理需求，则可以确定其训练任务为mlm训练任务等，在此不做限定。
[0066]
在一些实施方式中，可以获取训练需求，基于训练需求确定训练任务。其中，该训练需求可以由用户选择进行设置，也可以由电子设备或服务器自动设置，在此不做限定。
[0067]
其中，该训练任务的数量可以为一个，也可以为多个，在此不做限定。
[0068]
在一些实施方式中，若该训练任务为mlm训练任务、多标签分类训练任务、或者人物交互识别训练任务，则可以确定与训练任务对应的全连接层和softmax层作为初始模型的检测头。作为一种可实施的方式，mlm训练任务、多标签分类训练任务、或者人物交互识别训练任务都相当于多分类问题，需要接一个输出维度等同于类别数的全连接层，后接softmax层。
[0069]
在一些实施方式中，若该训练任务为itm训练任务，则确定与训练任务对应的sigmoid层作为初始模型的检测头。作为一种可实施的方式，itm训练任务本质是二分类，需要输出一个值，可以后接sigmoid层。
[0070]
步骤s240：将所述训练文本和所述训练图像输入所述初始模型的主干网络，并将所述特征信息输入与所述训练任务对应的所述初始模型的检测头，对所述初始模型进行训练，获得所述视觉语义理解模型。
[0071]
在一些实施方式中，在获得训练文本的标签信息、属性信息以及关系信息的情况下，则可以将训练文本和训练图像输入初始模型的主干网络，并将标签信息、属性信息以及关系信息输入与训练任务对应的初始模型的检测头，以对初始模型进行训练，获得视觉语
义理解模型。
[0072]
例如，假设训练任务包括训练任务1、训练任务2以及训练任务3，且训练任务1对应的初始模型的检测头为检测头1，训练任务2对应的初始模型的检测头为检测头2，训练任务3对应的初始模型的检测头3。那么，当训练任务为训练任务1时，则可以将训练文本和训练图像输入初始模型的主干网络，并将特征信息输入检测头1，对初始模型进行训练，获得视觉语义理解模型；当训练任务包括训练任务2和训练任务3时，则可以将训练文本和训练图像输入初始模型的主干网络，并将特征信息输入检测头2和检测头3，对初始模型进行训练，获得视觉语义理解模型。
[0073]
可以理解的，本实施例针对不同的训练任务，可以利用同一个主干网络以及适配不同训练任务的检测头进行组合训练，获得视觉语义理解模型。因此，在利用训练获得的视觉语义理解模型进行任务的推理时，主干网络是通用的，且检测头可以根据不同的推理任务进行选择设置，因此，可以实现训练后的视觉语义理解模型进行多种任务的推理。
[0074]
本技术一实施例提供的模型的训练方法，获取训练文本和训练图像，其中，训练文本用于描述训练图像中的内容，对训练文本进行解析，获取该训练文本中的特征信息，该特征信息包括标签信息、属性信息以及关系信息中的至少一种，确定训练任务，并确定训练任务对应的初始模型的检测头，将训练文本和训练图像输入初始模型的主干网络，并将特征信息输入与训练任务对应的初始模型的检测头，对初始模型进行训练，获得视觉语义理解模型。相较于图1所示的模型的训练方法，本实施例还根据不同的训练任务，设置不同的检测头进行模型的训练，以获得统一的视觉语义理解模型，可以兼具实用性和学术意义。
[0075]
请参阅图4，图4示出了本技术一实施例提供的模型的训练方法的流程示意图。下面将针对图4所示的流程进行详细的阐述，所述模型的训练方法具体可以包括以下步骤：
[0076]
步骤s310：获取训练文本和训练图像，其中，所述训练文本用于描述所述训练图像中的内容。
[0077]
步骤s320：对所述训练文本进行解析，获取所述训练文本中的特征信息，其中，所述特征信息包括标签信息、属性信息以及关系信息中的至少一种。
[0078]
其中，步骤s310-步骤s320的具体描述请参阅步骤s110-步骤s120，在此不再赘述。
[0079]
步骤s330：确定训练任务，并确定与所述训练任务对应的所述初始模型的检测头的输入参数。
[0080]
在本实施例中，初始模型的检测头的输入参数可以包括与之连接的主干网络的输出参数中的部分或全部参数。例如，主干网络的输出参数包括m n 2([img]和[gls])个隐层向量(token)，初始模型的检测头的输入参数可以包括被掩盖掉的token对应的隐层向量、[img]对应的隐层向量，[gls]对应的隐层向量等，在此不做限定。
[0081]
在一些实施方式中，电子设备可以预先设置并存储有第二映射关系表，该第二映射关系表可以包括多个训练任务、多个输入参数以及多个训练任务和多个训练参数的对应关系，其中，该对应关系可以包括一个训练任务可以对应一个输入参数，或者，多个训练任务可以对应一个检测头等，在此不做限定。因此，在本实施例中，可以确定所需的训练任务，并基于第二映射关系表确定与该训练任务对应的初始模型的检测头的输入参数。
[0082]
在一些实施方式中，若训练任务为mlm训练任务，则确定与训练任务对应的初始模型的检测头的输入参数为被掩盖掉的token对应的隐层向量。作为一种可实施的方式，mlm
训练任务属于token层级的分类，因此，输入初始模型的检测头的是被掩盖掉的token对应的隐层向量。
[0083]
在一些实施方式中，若训练任务为多标签分类训练任务或者人物交互识别训练任务，则确定与训练任务对应的初始模型的检测头的输入参数为训练图像对应的隐层向量。作为一种可实施的方式，多标签分类训练任务和人物交互识别训练任务属于sequence层级的分类，因此，多标签分类训练任务或者任务交互识别训练任务输入检测头的是[img]对应的隐层向量。
[0084]
在一些实施方式中，若训练任务为itm训练任务，则确定与训练任务对应的初始模型的检测头的输入参数为训练文本的隐层向量。作为一种可实施的方式，itm训练任务属于sequence层级的分类，因此，itm训练任务输入检测头的是[gls]对应的隐层向量。
[0085]
步骤s340：将所述训练文本和所述训练图像输入初始模型的主干网络，获得所述主干网络输出的多个隐层向量。
[0086]
在本实施例中，在获得训练文本和训练图像的情况下，则可以将训练文本和训练图像输入初始模型的主干网络，获得该主干网络输入的多层隐层向量。
[0087]
作为一种方式，在将训练文本和训练图像输入主干网络的情况下，输入的训练文本经过分词成为长度为m的token序列，输入的训练图像先经过卷积神经网络，然后被划分为n个视觉token，将这些token排列在一起输入主干网络，其中，这些token中，有两个特殊的token：[img]和[gls]。基于输入的token，该主干网络的输出部分为m n 2个隐层向量。
[0088]
步骤s350：从所述多个隐层向量中，确定与所述输入参数对应的隐层向量。
[0089]
在本实施例中，在获得主干网络输出的多个隐层向量的情况下，则可以从多个隐层向量中，确定与输入参数对应的隐层向量。作为一种方式，在获得主干网络输出的多个隐层向量的情况下，则可以遍历该多个隐层向量，以从多个隐层向量中，确定与输入参数对应的隐层向量。作为又一种方式，在获得主干网络输出的多个隐层向量的情况下，则可以随机从多个隐层向量中抽取隐层向量，确定其是否为输入参数对应的隐层向量，直到从中确定对应的隐层向量。
[0090]
其中，在确定训练任务为itm训练任务，输入参数为[gls]对应的隐层向量的情况下，则可以从多个隐层向量中获取[gls]对应的隐层向量；在确定训练任务为多标签分类训练任务或者人物交互识别训练任务的情况下，输入参数为[img]对应的隐层向量，则可以从多个隐层向量中获取[img]对应的隐层向量；在确定训练任务为mlm训练任务的情况下，则可以从多个隐层向量中获取被掩盖掉的token对应的隐层向量。
[0091]
步骤s360：将与所述输入参数对应的隐层向量输入所述初始模型的检测头，对所述初始模型进行训练，获得所述视觉语义理解模型。
[0092]
在本实施例中，在确定输入参数对应的隐层向量的情况下，则可以将输入参数对应的隐层向量输入该初始模型的检测头，以通过对初始模型的检测头进行训练的方式，对初始模型进行训练，获得视觉语义理解模型。
[0093]
在一些实施方式中，在确定输入参数对应的隐层向量的情况下，则可以将输入参数对应的隐层向量和特征信息(标签信息、属性信息以及关系信息)输入初始模型的检测头，以对初始模型进行训练，获得视觉语义理解模型。
[0094]
在一些实施方式中，可以将从训练文本中提取到的特征信息作为真值，在确定输
入参数对应的隐层向量的情况下，则可以将输入参数对应的隐层向量输入该初始模型的检测头，以获得该初始模型的检测头输出的特征信息，然后基于作为真值的特征信息与初始模型的检测头输出的特征信息，对初始模型进行优化，以获得视觉语义理解模型。
[0095]
本技术一实施例提供的模型的训练方法，获取训练文本和训练图像，其中，训练文本用于描述训练图像中的内容，对训练文本进行解析，获取训练文本中的特征信息，其中，该特征信息包括标签信息、属性信息以及关系信息中的至少一种，确定训练任务，并确定与训练任务对应的初始模型的检测头的输入参数，将训练文本和训练图像输入初始模型的主干网络，获得主干网络输出的多个隐层向量，从多个隐层向量中，确定与输入参数对应的隐层向量，将与输入参数对应的隐层向量输入初始模型的检测头，对初始模型进行训练，获得视觉语义理解模型。相较于图1所示的模型的训练方法，本实施例还根据不同的训练任务，设置不同的输入参数进行模型的训练，以获得统一的视觉语义理解模型，可以兼具实用性和学术意义。
[0096]
请参阅图5，图5示出了本技术一实施例提供的模型的训练方法的流程示意图。下面将针对图5所示的流程进行详细的阐述，所述模型的训练方法具体可以包括以下步骤：
[0097]
步骤s410：获取训练文本和训练图像，其中，所述训练文本用于描述所述训练图像中的内容。
[0098]
步骤s420：对所述训练文本进行解析，获取所述训练文本中的特征信息，其中，所述特征信息包括标签信息、属性信息以及关系信息中的至少一种。
[0099]
步骤s430：将所述训练文本和所述训练图像输入初始模型的主干网络，并将所述特征信息输入所述初始模型的检测头，对所述初始模型进行训练，获得视觉语义理解模型。
[0100]
其中，步骤s410-步骤s130的具体描述请参阅步骤s110-步骤s130，在此不再赘述。
[0101]
步骤s440：获取待推理文本和待推理图像，其中，所述待推理文本用于描述所述待推理图像中的内容。
[0102]
在本实施例中，可以获取待推理文本和待推理图像，其中，该待推理文本用于描述该待推理图像中的内容。例如，该待推理文本可以包括“there is a woman on the beach”，该待推理图像可以包括海滩。
[0103]
在一些实施方式中，该待推理文本和待推理图像的数量可以为一个或多个，在此不做限定。
[0104]
在一些实施方式中，可以通过网络的方式从服务器获取待推理文本和待推理图像，例如，可以通过无线网络从服务器获取待推理文本和待推理图像，可以通过有线网络从服务器获取待推理文本和待推理图像，可以通过数据网络从服务器获取待推理文本和待推理图像等；可以通过网络的方式从其他设备获取待推理文本和待推理图像，例如，可以通过无线网络从其他设备获取待推理文本和待推理图像，可以通过有线网络从其他设备获取待推理文本和待推理图像，可以通过数据网络从其他设备获取待推理文本和待推理图像等；也可以直接从电子设备的本地获取待推理文本和待推理图像等，在此不做限定。
[0105]
步骤s450：确定待推理任务。
[0106]
在一些实施方式中，待推理任务可以包括多标签分类推理任务、人物交互识别推理任务、图文检索推理任务以及看图说话推理任务中的至少一种。
[0107]
在一些实施方式中，可以获取推理需求，基于推理需求确定待推理任务。例如，若
推理需求为多标签分类推理需求，则可以确定其待推理任务为多标签分类推理任务；若推理需求为任务交互识别推理若需求，则可以确定其待推理任务为人物交互识别推理任务；若推理需求为图文检索推理需求，则可以确定其待推理任务为图文检索推理任务；若推理需求为看图说话推理需求，则可以确定其待推理任务为看图说话推理任务等，在此不做限定。
[0108]
作为一种可实施的方式，视觉语义理解模型在训练完成后可以移植至电子设备，相应地，电子设备可以提供多种待推理任务的选择，则电子设备可以基于用户输入的任务选择指令，从多种待推理任务中确定此时需要执行的待推理任务。例如，电子设备可以显示待推理任务的选择控件，用户可以通过操作选择控件的方式，触发任务选择指令，相应地，电子设备可以响应于该任务选择指令，从多种待推理任务中确定此时需要执行的待推理任务。又例如，电子设备可以接收用户输入的语音信息，并对语音信息进行解析获得语音信息中携带的任务选择指令，，相应地，电子设备可以响应于该任务选择指令，从多种待推理任务中确定此时需要执行的待推理任务。
[0109]
作为一种可实施的方式，视觉语义理解模型在训练完成后可以移植至电子设备，相应地，电子设备可以根据所处的场景，从多种待推理任务中确定此时需要执行的待推理任务。例如，可以获取电子设备所处的位置，基于电子设备所处的位置，从多种待推理任务中确定此时需要执行的待推理任务。又例如，可以获取电子设备的周围图像，基于电子设备的周围图像，从多种待推理任务中确定此时需要执行的待推理任务。
[0110]
步骤s460：将所述待推理文本和所述待推理图像输入所述视觉语义理解模型，获得所述视觉语义理解模型输出的与所述待推理任务相关的推理结果。
[0111]
在本实施例中，在确定待推理任务的情况下，则可以将待推理文本和待推理图像输入该视觉语义理解模型，获得该视觉语义理解模型输出的与该推理任务相关的推理结果。作为一种可实施的方式，在确定待推理任务的情况下，则可以将待推理文本和待推理图像输入视觉语义理解模型中的主干网络，获得该视觉语义理解模型中的主干网络输出的对应的隐层向量，然后将该主干网络输出的对应的隐层向量输入视觉语义理解模型中与待推理任务对应的检测头，获得视觉语义理解模型中与待推理任务对应的检测头输出的与该待推理任务相关的推理结果。
[0112]
在一些实施方式中，若待推理任务为多标签分类推理任务，则可以将待推理文本和待推理图像输入视觉语义理解模型，获得视觉语义理解模型输出的与多标签分类推理任务相关的推理结果。作为一种方式，可以将待推理文本和待推理图像输入视觉语义理解模型中的主干网络，获得该视觉语义理解模型中的主干网络输出的对应的隐层向量，将主干网络输出的对应的隐层向量中的[img]对应的隐层向量输入视觉语义理解模型中的全连接层和softmax层，获得与多标签分类推理任务相关的推理结果。
[0113]
在一些实施方式中，若待推理任务为人物交互识别推理任务，则可以将待推理文本和待推理图像输入视觉语义理解模型，获得视觉语义理解模型输出的与人物交互识别推理任务相关的推理结果。作为一种方式，可以将待推理文本和待推理图像输入视觉语义理解模型中的主干网络，获得该视觉语义理解模型中的主干网络输出的对应的隐层向量，将主干网络输出的对应的隐层向量中的[img]对应的隐层向量输入视觉语义理解模型中的全连接层和softmax层，获得与人物交互识别推理任务相关的推理结果。
[0114]
在一些实施方式中，若待推理任务为图文检索任务，则可以将待推理文本和待推理图像输入视觉语义理解模型，获得视觉语义理解模型输出的与图文检索任务相关的推理结果。作为一种方式，可以将待推理文本和待推理图像输入视觉语义理解模型中的主干网络，获得该视觉语义理解模型中的主干网络输出的对应的隐层向量，将主干网络输出的对应的隐层向量中的[cls]对应的隐层向量输入视觉语义理解模型中的sigmoid层，获得与图文检索推理任务相关的推理结果。其中，对于图文检索推理任务，可以将[img]和[cls]所对应的隐层向量分别当作图像和文本的全局特征，用这些特征来计算图像和文本两两之间的距离，随后根据距离排序得到检索结果。
[0115]
在一些实施方式中，若待推理任务为看图说话推理任务，则可以将待推理文本和待推理图像输入视觉语义理解模型，获得视觉语义理解模型输出的与看图说话推理任务相关的推理结果。作为一种方式，可以将待推理文本和待推理图像输入视觉语义理解模型中的主干网络，获得该视觉语义理解模型中的主干网络输出的对应的隐层向量，将主干网络输出的对应的隐层向量中的被掩盖掉的token对应的隐层向量输入视觉语义理解模型中的全连接层和softmax层，获得与看图说话推理任务相关的推理结果。其中，对于看图说话推理任务，用mlm训练任务的检测头来预测下一个词，起始时，输入一个表示句子开头的特殊标志，预测得到第一个词，接下去每次输入已得到的词序列，预测下一个词，如此循环，直到视觉语义理解模型输出表示句子结尾的特殊标志。
[0116]
请参阅图6，图6示出了本技术实施例提供的视觉语义理解模型的框架的示意图。如图6所示，该视觉语义理解模型可以通过不同的训练任务进行训练获得，以及可以在训练完成后用于执行不同推理任务。其中，在获得图像和文本的情况下，可以对文本进行解析获得文本中的标签、属性、关系，然后将图像、文本、标签、属性、关系一起输入模型进行训练，如进行mlm训练任务、itm训练任务、多标签分类训练任务、人物交互识别训练任务等。后续，可以利用训练好的视觉语义理解模型，针对输入的图形和文本执行推理任务，如执行多标签分类推理任务、人物交互识别推理任务、图文检索推理任务、看图说话推理任务等。
[0117]
本技术一实施例提供的模型的训练方法，获取训练文本和训练图像，其中，训练文本用于描述训练图像中的内容，对训练文本进行解析，获取训练文本中的特征信息，其中，特征信息包括标签信息、属性信息以及关系信息中的至少一种，将训练文本和训练图像输入初始模型的主干网络，并将特征信息输入初始模型的检测头，对初始模型进行训练，获得视觉语义理解模型，获取待推理文本和待推理图像，其中，待推理文本用于描述待推理图像中的内容，确定待推理任务，将待推理文本和待推理图像输入视觉语义理解模型，获得视觉语义理解模型输出的与待推理任务相关的推理结果。相较于图1所示的模型的训练方法，本实施例还通过视觉语义理解模型，对所选择的待推理任务进行推理以获得推理结果，从而可以提升模型的适用范围，提升用户的使用体验。
[0118]
请参阅图7，图7示出了本技术一实施例提供的模型的训练装置的模块框图。下面将针对图7所示的框图进行阐述，所述模型的训练装置200包括：信息获取模块210、信息解析模块220以及模型训练模块230，其中：
[0119]
信息获取模块210，用于获取训练文本和训练图像，其中，所述训练文本用于描述所述训练图像中的内容。
[0120]
信息解析模块220，用于对所述训练文本进行解析，获取所述训练文本中的特征信
息，其中，所述特征信息包括标签信息、属性信息以及关系信息中的至少一种。
[0121]
模型训练模块230，用于将所述训练文本和所述训练图像输入初始模型的主干网络，并将所述特征信息输入所述初始模型的检测头，对所述初始模型进行训练，获得视觉语义理解模型。
[0122]
进一步地，所述模型训练模块230包括：检测头确定子模块和第一模型训练子模块，其中：
[0123]
检测头确定子模块，用于确定训练任务，并确定与所述训练任务对应的所述初始模型的检测头。
[0124]
进一步地，所述检测头确定子模块包括：第一检测头确定单元和第二检测头确定单元，其中：
[0125]
第一检测头确定单元，用于若所述训练任务为mlm训练任务、多标签分类训练任务或者人物交互识别训练任务，则确定与所述训练任务对应的全连接层和softmax层作为所述初始模型的检测头。
[0126]
第二检测头确定单元，用于若所述训练任务为itm训练任务，则确定与所述训练任务对应的sigmoid层作为所述初始模型的检测头。
[0127]
第一模型训练子模块，用于将所述训练文本和所述训练图像输入所述初始模型的主干网络，并将所述特征信息输入与所述训练任务对应的所述初始模型的检测头，对所述初始模型进行训练，获得所述视觉语义理解模型。
[0128]
进一步地，所述模型训练模块230包括：输入参数确定子模块、隐层向量获得子模块、隐层向量筛选子模块以及第二模型训练子模块，其中：
[0129]
输入参数确定子模块，用于确定训练任务，并确定与所述训练任务对应的所述初始模型的检测头的输入参数。
[0130]
进一步地，所述输入参数确定子模块包括：第一输入参数确定单元、第二输入参数确定单元以及第三输入参数确定单元，其中：
[0131]
第一输入参数确定单元，用于若所述训练任务为mlm训练任务，则确定与所述训练任务对应的所述初始模型的检测头的输入参数为被掩盖掉的token对应的隐层向量。
[0132]
第二输入参数确定单元，用于若所述训练任务为多标签分类训练任务或人物交互识别训练任务，则确定与所述训练任务对应的所述初始模型的检测头的输入参数为所述训练图像对应的隐层向量。
[0133]
第三输入参数确定单元，用于若所述训练任务为itm训练任务，则确定与所述训练任务对应的所述初始模型的检测头的输入参数为所述训练文本的隐层向量。
[0134]
隐层向量获得子模块，用于将所述训练文本和所述训练图像输入初始模型的主干网络，获得所述主干网络输出的多个隐层向量。
[0135]
隐层向量筛选子模块，用于从所述多个隐层向量中，确定与所述输入参数对应的隐层向量。
[0136]
第二模型训练子模块，用于将与所述输入参数对应的隐层向量输入所述初始模型的检测头，对所述初始模型进行训练，获得所述视觉语义理解模型。
[0137]
进一步地，所述模型的训练装置200还包括：推理信息获取模块、待推理任务确定模块以及推理结果获得模块，其中：
[0138]
推理信息获取模块，用于获取待推理文本和待推理图像，其中，所述待推理文本用于描述所述待推理图像中的内容。
[0139]
待推理任务确定模块，用于确定待推理任务。
[0140]
推理结果获得模块，用于将所述待推理文本和所述待推理图像输入所述视觉语义理解模型，获得所述视觉语义理解模型输出的与所述待推理任务相关的推理结果。
[0141]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0142]
在本技术所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。
[0143]
另外，在本技术各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。
[0144]
请参阅图8，其示出了本技术实施例提供的一种电子设备100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本技术中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。
[0145]
其中，处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(digital signal processing，dsp)、现场可编程门阵列(field－programmable gate array，fpga)、可编程逻辑阵列(programmable logic array，pla)中的至少一种硬件形式来实现。处理器110可集成中央处理器(central processing unit，cpu)、图形处理器(graphics processing unit，gpu)和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责待显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。
[0146]
存储器120可以包括随机存储器(random access memory，ram)，也可以包括只读存储器(read-only memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
[0147]
请参阅图9，其示出了本技术实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
[0148]
计算机可读存储介质300可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地，计算机可读存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储
介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。
[0149]
综上所述，本技术实施例提供的模型的训练方法、装置、电子设备以及存储介质，获取训练文本和训练图像，其中，训练文本用于描述训练图像中的内容，对训练文本进行解析，获取训练文本中的特征信息，其中，该特征信息包括标签信息、属性信息以及关系信息中的至少一种，将训练文本和训练图像输入初始模型的主干网络，并将特征信息输入初始模型的检测头，对初始模型进行训练，获得视觉语义理解模型，从而通过解析训练文本的特征信息作为模型的检测头的输入，以实现在模型训练过程中对关键信息进行监督，可以提升模型训练的可控性和准确性。
[0150]
最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：工单分配方法、装置、设备和存储介质与流程

模型的训练方法、装置、电子设备以及存储介质与流程

相关文献

最热文献