基于图片的问答处理方法、装置、可读介质及电子设备与流程

2021-12-08 00:26:00 来源：中国专利 TAG：

1.本技术涉及信息处理技术领域，具体而言，涉及一种基于图片的问答处理方法、装置、可读介质及电子设备。

背景技术：

2.视觉问答(visual question answering，vqa)指的是设计一个模型，在给定一张图片的情况下，该模型利用注意力机制可以自动回答和图片内容相关的问题。
3.然而，相关视觉问答技术中注意力机制完全由模型自己学习，缺少适当的引导，无监督的注意力机制受限于数据集偏见，模型关注的区域和人关注的区域差异较大，即关注到错误的图片区域，关注错误会导致模型的泛化能力较差，可解释性较差，进而导致问答准确率低。

技术实现要素：

4.本技术的实施例提供了一种基于图片的问答处理方法、装置、可读介质及电子设备，进而至少在一定程度上能够提高图片问答的准确率。
5.本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。
6.根据本技术实施例的一个方面，提供了一种基于图片的问答处理方法，包括：获取目标图片以及所述目标图片对应的问题语句；对所述目标图片进行特征提取，得到所述目标图片的第一图像特征，并对所述问题语句进行特征提取，得到所述问题语句的第一文本特征；基于所述第一文本特征的注意力机制，生成所述第一文本特征对应的第二文本特征，并基于所述第二文本特征的注意力机制，生成所述第一图像特征对应的第二图像特征；将所述第二文本特征和所述第二图像特征进行特征合并，得到联合特征，并根据所述联合特征，生成所述问题语句的答案。
7.根据本技术实施例的一个方面，提供了一种基于图片的问答处理装置，包括：获取单元，配置为获取目标图片以及所述目标图片对应的问题语句；提取单元，配置为对所述目标图片进行特征提取，得到所述目标图片的第一图像特征，并对所述问题语句进行特征提取，得到所述问题语句的第一文本特征；生成单元，配置为基于所述第一文本特征的注意力机制，生成所述第一文本特征对应的第二文本特征，并基于所述第二文本特征的注意力机制，生成所述第一图像特征对应的第二图像特征；合并单元，配置为将所述第二文本特征和所述第二图像特征进行特征合并，得到联合特征，并根据所述联合特征，生成所述问题语句的答案。
8.在本技术的一些实施例中，基于前述方案，所述生成单元包括：第一线性变换子单元，配置为利用多个分配权重分别对所述第一文本特征进行线性变换，得到多个第一特征矩阵，其中，一个第一特征矩阵对应于一个所述分配权重；第一生成子单元，配置为基于各个第一特征矩阵的注意力机制，生成所述各个第一特征矩阵对应的第二特征矩阵，以得到
多个第二特征矩阵；第一拼接子单元，配置为将所述多个第二特征矩阵进行拼接，得到拼接后的特征矩阵，并将所述拼接后的特征矩阵映射为与所述第一文本特征相同的维度，得到所述第一文本特征对应的第二文本特征。
9.在本技术的一些实施例中，基于前述方案，所述第一生成子单元配置为：对所述各个第一特征矩阵与所述各个第一特征矩阵的转置矩阵进行相似度计算，得到所述各个第一特征矩阵对应所述转置矩阵的注意力权重因子；将所述注意力权重因子进行归一化处理，得到对应的注意力权重；利用所述注意力权重对所述各个第一特征矩阵中包含的特征点进行加权求和计算，得到所述各个第一特征矩阵对应的第二特征矩阵。
10.在本技术的一些实施例中，基于前述方案，所述生成单元包括：第二线性变换子单元，配置为利用多个分配权重分别对所述第二文本特征和所述第一图像特征进行线性变换，得到多个第三特征矩阵和多个第四特征矩阵，其中，一个所述分配权重对应于一个第三特征矩阵和一个第四特征矩阵；第二生成子单元，配置为基于各个第三特征矩阵的注意力机制，生成与所述各个第三特征矩阵相关联的第四特征矩阵所对应的第五特征矩阵，以得到多个第五特征矩阵，其中，与所述各个第三特征矩阵相关联的第四特征矩阵是与所述各个第三特征矩阵对应的分配权重相同的第四特征矩阵；第二拼接子单元，配置为将所述多个第五特征矩阵进行拼接，得到拼接后的特征矩阵，并将所述拼接后的特征矩阵映射为与所述第一图像特征相同的维度，得到所述第一图像特征对应的第二图像特征。
11.在本技术的一些实施例中，基于前述方案，所述第二生成子单元配置为：对所述各个第三特征矩阵以及所述相关联的第四特征矩阵的转置矩阵进行相似度计算，得到所述各个第三特征矩阵对应所述转置矩阵的注意力权重因子；将所述注意力权重因子进行归一化处理，得到对应的注意力权重；利用所述注意力权重对所述相关联的第四特征矩阵中包含的特征点进行加权求和计算，得到与所述各个第三特征矩阵相关联的第四特征矩阵所对应的第五特征矩阵。
12.在本技术的一些实施例中，基于前述方案，所述合并单元包括：输入子单元，配置为将所述联合特征输入分类模型，所述分类模型是根据联合损失函数训练得到的，所述联合损失函数是根据所述分类模型的输出结果与期望输出结果之间的损失值，以及样本图片中的目标区域对应的注意力权重构建得到的，所述目标区域是根据所述样本图片对应的样本问题在所述样本图片中确定出的区域；确定子单元，配置为获取所述分类模型输出的所述问题语句针对各个答案的预测概率，并根据所述预测概率，确定所述问题语句的答案。
13.在本技术的一些实施例中，基于前述方案，所述确定子单元配置为：获取所述预测概率中的最大预测概率所对应的答案；将所述最大预测概率所对应的答案作为所述问题语句的答案。
14.在本技术的一些实施例中，基于前述方案，所述装置还包括：输入单元，配置为将所述样本图片以及所述样本问题输入所述分类模型，得到所述分类模型的输出结果，所述输出结果中包含有所述样本问题针对各个答案的输出概率；构建单元，配置为根据所述样本问题的标注答案以及所述输出概率构建第一损失函数，并根据所述目标区域对应的注意力权重构建第二损失函数；训练单元，配置为根据所述第一损失函数和所述第二损失函数构建所述联合损失函数，并基于所述联合损失函数训练所述分类模型，得到训练好的分类模型。
15.在本技术的一些实施例中，基于前述方案，所述构建单元配置为：根据所述样本问题的标注答案，生成针对各个答案的标注概率；对所述样本问题针对各个答案的输出概率进行对数运算，得到针对各个答案的运算结果；根据针对各个答案的标注概率与针对各个答案的运算结果的乘积之和，确定所述第一损失函数。
16.在本技术的一些实施例中，基于前述方案，所述构建单元配置为：计算所述目标区域对应的注意力权重与预设阈值之间的差值；根据计算得到的差值，构建所述第二损失函数。
17.在本技术的一些实施例中，基于前述方案，所述训练单元配置为：计算预设调整因子与所述第二损失函数的乘积，得到运算结果；对所述运算结果与所述第一损失函数进行相加，得到相加结果，将所述相加结果作为所述联合损失函数。
18.在本技术的一些实施例中，基于前述方案，所述输入单元配置为：对所述样本图片进行特征提取，以获取所述样本图片的第一样本图像特征，并对所述样本问题进行特征提取，以获取所述样本问题的第一样本文本特征；基于所述第一样本文本特征的注意力机制，生成所述第一样本文本特征对应的第二样本文本特征，并基于所述第二样本文本特征的注意力机制，生成所述第一样本图像特征对应的第二样本图像特征；将所述第二样本文本特征和所述第二样本图像特征进行特征合并，得到联合样本特征，并将所述联合样本特征输入所述分类模型。
19.在本技术的一些实施例所提供的技术方案中，首先可以获取目标图片以及目标图片对应的问题语句；然后，对目标图片进行特征提取，得到目标图片的第一图像特征，并对问题语句进行特征提取，得到问题语句的第一文本特征；进而，基于第一文本特征的注意力机制，生成第一文本特征对应的第二文本特征，并基于第二文本特征的注意力机制，生成第一图像特征对应的第二图像特征；最后，将第二文本特征和第二图像特征进行特征合并，得到联合特征，并根据联合特征，生成问题语句的答案。本技术实施例的技术方案基于注意力机制，捕捉了第一文本特征中各个词向量之间的内部关联性，得到了第二文本特征，同时，基于注意力机制，捕捉了第一图像特征和第二文本特征之间的关联性，得到了第二图像特征，使得第二图像特征包括了目标图片和问题语句之间的关联性，进而使得在后续生成问题语句的答案的过程中，根据第二文本特征和第二图像特征能够得到更加精确的结果，提高了图片问答的准确率。
20.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
21.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：
22.图1示出了可以应用本技术实施例的技术方案的一个示例性系统架构的示意图；
23.图2示出了根据本技术的一个实施例的基于图片的问答处理方法的流程图；
24.图3示出了根据本技术的一个实施例的生成第二文本特征的流程图；
25.图4示出了根据本技术的一个实施例的生成第二特征矩阵的流程图；
26.图5示出了根据本技术的一个实施例的生成第二图像特征的流程图；
27.图6示出了根据本技术的一个实施例的生成第五特征矩阵的流程图；
28.图7示出了根据本技术的一个实施例的生成问题语句的答案的流程图；
29.图8示出了根据本技术的一个实施例的目标区域的示意图；
30.图9示出了根据本技术的一个实施例的分类模型训练的流程图；
31.图10示出了根据本技术的一个实施例的构建第一损失函数的流程图；
32.图11示出了根据本技术的一个实施例的构建第二损失函数的流程图；
33.图12示出了根据本技术的一个实施例的分类模型训练的流程图；
34.图13示出了根据本技术的一个实施例的基于图片的问答处理方法的逻辑图；
35.图14示出了根据本技术的一个实施例的基于图片的问答处理方法的效果对比图；
36.图15示出了根据本技术的一个实施例的基于图片的问答处理装置的框图；
37.图16示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
38.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本技术将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。
39.此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本技术的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本技术的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
40.需要说明的是，本技术的说明书和权利要求书及上述附图中使用的术语仅用于描述实施例，并不旨在限制本技术的范围。应该理解的是，术语“包括”、“包含”、“具有”等在本文中使用时指定存在所陈述的特点、整体、步骤、操作、元件、组件和/或其群组，但并不排除存在或添加其他特点、整体、步骤、操作、元件、组件和/或其群组中的一个或多个。
41.将进一步理解的是，尽管术语“第一”、“第二”、“第三”等可以在本文中用于描述各种元件，但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件和另一个元件。例如，在不脱离本发明的范围的情况下，第一元件可以被称为第二元件。类似地，第二元件可以被称为第一元件。如本文所使用的，术语“和/或”包含关联的列出的项目中的一个或多个的任何和所有组合。
42.附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
43.附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。
44.需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对
象的关联关系，表示可以存在三种关系，例如，a和/或b可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
45.随着人工智能(artificial intelligence，ai)技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
46.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。
47.机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
48.应理解，本技术提供的技术方案可以应用于基于人工智能的视觉问答场景，视觉问答是计算机视觉化、自然语言处理和机器学习的积极跨学科性研究领域。给定图像以及与图像相关的自然语言问题，视觉问答使用自然语句回答问题。视觉问答不仅是构建人工智能的基本步骤，也对许多应用(例如图像检索、盲人导航和儿童早教)极为重要。视觉问答是一项有挑战的任务，因为它要求复杂的计算视觉技术以深层理解图像，还要求先进的自然语言处理技术以提取问题含义，并且要求统一框架来有效地整合视觉信息和语义信息。
49.目前，视觉问答的方案包括用于视觉问答的深度模块化共同注意网络(deep modular co
‑
attention networks for visual question answering，mcan)和视觉计数的调制卷积(modulated convolutions for visual counting and beyond，movie)。
50.其中，mcan是2019年提出的视觉问答解决方案，首先，模型分别对问题和图片进行处理，抽取相应的文本特征和视觉特征；其次，文本特征和视觉特征都经过一个注意力机制模块，其中文本是自注意力机制，图像是引导注意力机制；最后，结合本文特征和图像特征，生成问题的答案。movie是2020年提出的视觉问答解决方案，模型同样分别对图片和文本抽取特征，区别在于抽取后的文本特征，直接稠密的拼接到每个图形特征上，然后再进入注意力机制模块。其优点在于能让每个图像区域对应的特征都能融合问题特征，在计数类问题上有明显的指标提升。
51.然而，当前视觉问答方法存在以下问题：(1)注意力机制完全由模型自己学习，缺少适当的引导；(2)无监督的注意力机制受限于数据集偏见，模型关注的区域和人关注的区域差异较大，即关注到错误的图片区域；(3)注意力机制的关注错误会导致模型的泛化能力较差，且可解释性较差。
52.基于此，本技术实施例提出了一种基于图片的问答处理方法，首先获取目标图片以及目标图片对应的问题语句，然后对目标图片进行特征提取，得到目标图片的第一图像
特征，并对问题语句进行特征提取，得到问题语句的第一文本特征，进而基于第一文本特征的注意力机制，生成第一文本特征对应的第二文本特征，基于第二文本特征的注意力机制，生成第一图像特征对应的第二图像特征，最后将第二文本特征和第二图像特征进行特征合并，得到联合特征，并根据联合特征，生成问题语句的答案。本技术实施例的技术方案，基于注意力机制，捕捉了第一文本特征中各个词向量之间的内部关联性，得到了第二文本特征，同时，基于注意力机制，捕捉了第一图像特征和第二文本特征之间的关联性，得到了第二图像特征，使得第二图像特征包括了目标图片和问题语句之间的关联性，进而使得在后续生成问题语句的答案的过程中，根据第二文本特征和第二图像特征能够得到更加精确的结果，提高了图片问答的准确率。
53.为了便于理解，本技术实施例提出了一种基于图片的问答处理方法，该方法应用于图1所示的系统架构，请参阅图1，系统架构100可以包括终端设备101、网络102、服务器103、目标图片104以及目标图片对应的问题语句105。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括但不限于：无线网络、有线网络，有线网络包括但不限于以下至少之一：广域网、城域网、局域网。无线网络包括但不限于以下至少之一：蓝牙、wi
‑
fi、近场通信(near field communication，简称nfc)、蜂窝移动通信网络。用户可以使用终端101通过网络102与服务器103进行交互，以接收或发送消息等。
54.终端设备101可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如pc(personal computer，个人计算机)、手机、智能手机、pda(personal digital assistant，个人数字助手)、可穿戴设备、掌上电脑ppc(pocket pc)、平板电脑、智能车机、智能电视、智能音箱等。
55.服务器103可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
56.本领域技术人员应能理解上述终端设备101和服务器103仅为举例，其他现有的或今后可能出现的终端设备或服务器如可适用于本技术，也应包含在本技术保护范围以内，并在此以引用方式包含于此。
57.应该理解，图1中的终端设备101、网络102和服务器103的数目是示意性的。根据实现需要，可以具有任意数目的终端设备101、网络102和服务器103。比如服务器103可以是多个服务器组成的服务器集群等。
58.在本技术的一个实施例中，用户可以通过终端设备101上的应用程序上传目标图片104和问题语句105，并通过终端设备101和服务器103之间的网络102将目标图片104和问题语句105发送到服务器103。相应的，服务器103在接收到目标图片104和问题语句105后，对目标图片104进行特征提取，得到目标图片104的第一图像特征，并对问题语句105进行特征提取，得到问题语句105的第一文本特征，然后服务器103基于第一文本特征的注意力机制，生成第一文本特征对应的第二文本特征，并基于第二文本特征的注意力机制，生成第一图像特征对应的第二图像特征，最后服务器103将第二文本特征和第二图像特征进行特征合并，得到联合特征，并根据联合特征，生成问题语句105的答案。
59.本技术实施例所提供的基于图片的问答处理方法一般由服务器103执行，服务器
103用于接收终端设备101所上传的目标图片104和问答语句105，并基于目标图片104生成问答语句105的答案，相应地，基于图片的问答处理装置一般设置于服务器103中。但本领域技术人员容易理解的是，本技术实施例所提供的基于图片的问答处理方法也可以由终端设备101执行，相应地，基于图片的问答处理装置也可以设置于终端设备101中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，终端设备101用于接收用户上传的目标图片104和问答语句105，进而基于目标图片104生成问答语句105的答案。
60.以下对本技术实施例的技术方案的实现细节进行详细阐述：
61.图2示出了根据本技术的一个实施例的基于图片的问答处理方法的流程图，该基于图片的问答处理方法可以由服务器来执行，该服务器可以是图1中所示的服务器103。参照图2所示，该基于图片的问答处理方法至少包括以下步骤：
62.步骤s210、获取目标图片以及目标图片对应的问题语句；
63.步骤s220、对目标图片进行特征提取，得到目标图片的第一图像特征，并对问题语句进行特征提取，得到问题语句的第一文本特征；
64.步骤s230、基于第一文本特征的注意力机制，生成第一文本特征对应的第二文本特征，并基于第二文本特征的注意力机制，生成第一图像特征对应的第二图像特征；
65.步骤s240、将第二文本特征和第二图像特征进行特征合并，得到联合特征，并根据联合特征，生成问题语句的答案。
66.下面对这些步骤进行详细描述。
67.步骤s210、获取目标图片以及目标图片对应的问题语句。
68.具体地，服务器可以获取目标图片，其中，目标图片可以通过大规模知识库或者图片数据库获取，也可以直接从互联网、区块链或者分布式文件系统中获取，本技术实施例中对此不进行限定。这里目标图片可以是单独的图片，也可以是视频中的一帧。
69.在本技术实施例中，服务器不仅获取目标图片，还获取目标图片对应的问题语句。在该应用场景下，服务器获取目标图片的同时，还会获取问题语句，问题语句与目标图片之间具有较强的关联性。
70.例如，假设目标图片的内容是一张桌子上放了三个苹果，则目标图片对应的问题语句可以是“桌子上有几个苹果”。
71.步骤s220、对目标图片进行特征提取，得到目标图片的第一图像特征，并对问题语句进行特征提取，得到问题语句的第一文本特征。
72.其中，特征是某一类对象区别于其他类对象的相应特点或特性，或是这些特点和特性的集合，特征是通过测量或处理能够抽取的数据，特征提取的主要目的是降维，且其主要思想是将原始图像样本投影到一个低维特征空间，得到最能反应图像样本本质或进行图像样本区分的低维图像样本特征。
73.具体而言，对于图片而言，每一幅图片都具有能够区别于其他类图片的自身特征，有些是可以直观地感受到的自然特征，如亮度、边缘、纹理和色彩等；有些则是需要通过变换或处理才能得到的，如矩、直方图以及主成份等，在本技术实施例中，第一图像特征可以通过特征向量表达式进行表达，如，f＝{x1，x2
…
xn}，常见的图片特征提取方法包括：(1)几何法特征提取，几何法是建立在图片纹理基元理论基础上的一种纹理特征分析方法。(2)模型法特征提取，模型法以图片的构造模型为基础，采用模型的参数作为纹理特征，例如卷积
神经网络模型。(3)信号处理法特征提取，纹理特征的提取与匹配主要有：灰度共生矩阵、自回归纹理模型、小波变换等。
74.对于问题语句而言，问题语句的第一文本特征目的是将文本表达为可以让计算机来理解的形式，即将文本向量化，第一文本特征的提取也可以通过相应的文本提取算法模型来实现，例如，嵌入式网络模型。
75.步骤s230、基于第一文本特征的注意力机制，生成第一文本特征对应的第二文本特征，并基于第二文本特征的注意力机制，生成第一图像特征对应的第二图像特征。
76.注意力(attention)机制的本质来自于人类视觉注意力机制，视觉注意力机制是人类视觉所特有的大脑信号处理机制，人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。注意力机制可以包括自注意力机制(self
‑
attention mechanism)，自注意力机制的特点在于无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构。
77.在本技术实施例中，对第一文本特征可以应用自注意力机制，通过自注意力机制捕捉第一文本特征中各个词向量的内部关联性，该关联性可以为注意力权重，将注意力权重分配到第一文本特征中各个词向量上，生成第一文本特征对应的第二文本特征，第二文本特征中包括了问题语句中各个词向量之间的内部关联度。
78.同时，在生成第二文本特征之后，基于注意力机制，捕捉第二文本特征与第一图像特征之间的关联性，该关联性可以为注意力权重，通过将注意力权重分配到对应的第一图像特征，即得到第一图像特征对应的第二图像特征，使得第二图像特征包括了目标图片和问题语句之间的关联性。
79.步骤s240、将第二文本特征和第二图像特征进行特征合并，得到联合特征，并根据联合特征，生成问题语句的答案。
80.在本实施例中，应用注意力机制得到第二文本特征和第二图像特征之后，此时还可以将第二文本特征和第二图像特征进行特征拼接，得到联合特征，例如，第二文本特征和第二图像特征分别为256维的特征向量，将各个特征首尾进行拼接，可以得到512维的联合特征，特征拼接具体可以通过concat函数实现，concat函数用于连接两个或多个数组。
81.特征拼接后，可以得到一个联合特征，使得后续的输入的数量降低。例如，后续获取问题语句的答案时，可以输入一个联合特征，相较于分别输入2个特征，减少了输入量。
82.在进行特征合并得到联合特征之后，则可以基于联合特征对问题语句进行分类处理，得到问题语句的答案。
83.在一种可能的实施方式中，基于联合特征对问题语句进行分类处理可以是基于联合特征，从预设类别标签库中查找与联合特征相匹配的类别标签，然后，将相匹配的类别标签作为问题语句的答案，其中，相匹配的类别标签可以是与联合特征的相似度值大于或者等于预设相似度值对应的类别标签。
84.基于以上实施例的技术方案，基于注意力机制，捕捉了第一文本特征中各个词向量之间的内部关联性，得到了第二文本特征，同时，基于注意力机制，捕捉了第一图像特征和第二文本特征之间的关联性，得到了第二图像特征，使得第二图像特征包括了目标图片和问题语句之间的关联性，进而使得在后续生成问题语句的答案的过程中，根据第二文本
特征和第二图像特征能够得到更加精确的结果。
85.在本技术的一个实施例中，如图3所示，基于第一文本特征的注意力机制，生成第一文本特征对应的第二文本特征可以具体包括步骤s310
‑
步骤s330，详细说明如下：
86.步骤s310、利用多个分配权重分别对第一文本特征进行线性变换，得到多个第一特征矩阵，其中，一个第一特征矩阵对应于一个分配权重。
87.本实施例中，对第一文本特征可以应用自注意力机制，具体地，首先可以利用多个分配权重分别对第一文本特征进行线性变换，得到多个第一特征矩阵，其中，一个第一特征矩阵对应于一个分配权重。
88.需要说明的是，第一特征矩阵是一个三元组(q,k,v)，其中，q、k、v分别表示查询(query)、键(key)和值(value)，q、k、v的维度相同，正因为第一特征矩阵可以是一个三元组，因而，分配权重同样是一个三元组(w
q
，w
k
，w
v
)。
89.例如，假设第一文本特征为t，则利用第j个分配权重对第一文本特征x进行线性变换得到第j个第一特征矩阵(q
j
,k
j
,v
j
)可以表示为：
90.步骤s320、基于各个第一特征矩阵的注意力机制，生成各个第一特征矩阵对应的第二特征矩阵，以得到多个第二特征矩阵。
91.在对第一文本特征进行线性变化得到各个第一特征矩阵之后，进一步，可以基于各个第一特征矩阵的注意力机制，生成各个第一特征矩阵对应的第二特征矩阵，从而得到多个第二特征矩阵。本步骤的实现方式与上述步骤s230的实现过程类似，本技术实施例在此不再详述。
92.步骤s330、将多个第二特征矩阵进行拼接，得到拼接后的特征矩阵，并将拼接后的特征矩阵映射为与第一文本特征相同的维度，得到第一文本特征对应的第二文本特征。
93.最后，可以将多个第二特征矩阵拼接起来，然后将拼接后的特征矩阵映射为与第一文本特征相同的维度，从而可以得到第一文本特征对应的第二文本特征。
94.可选的，在一种实现方式中，如图4所示，步骤s320可以具体包括步骤s410
‑
步骤s430，具体说明如下：
95.步骤s410中，对各个第一特征矩阵与各个第一特征矩阵的转置矩阵进行相似度计算，得到各个第一特征矩阵对应转置矩阵的注意力权重因子。
96.在本技术实施例中，基于各个第一特征矩阵的注意力机制可以理解为各个第一特征矩阵对应自身的注意力权重因子，注意力机制函数的本质可以被描述为一个查询(query)到一系列(键key
‑
值value)对的映射。
97.在计算基于各个第一特征矩阵的注意力的第二特征矩阵时可以主要分为三步，第一步是是将query(第一特征矩阵中的q)和key(第一特征矩阵中的k)的转置矩阵进行相似度计算得到注意力权重因子，常用的相似度函数有点积，拼接，感知机等；第二步可以使用softmax函数对这些注意力权重因子进行归一化，得到注意力权重；最后将注意力权重和相应的键值value(第一特征矩阵中的v)进行加权求和，得到第二特征矩阵。
98.步骤s420中，将注意力权重因子进行归一化处理，得到对应的注意力权重。
99.如前所述，在计算基于各个第一特征矩阵的注意力的第二特征矩阵时主要包括三
步，在通过步骤s410得到注意力权重因子之后，在本步骤中，将注意力权重因子归一化处理，可以利用sigmoid函数或者softmax函数进行，作用是将变量映射到[0，1]之间。
[0100]
步骤s430、利用注意力权重对各个第一特征矩阵中包含的特征点进行加权求和计算，得到各个第一特征矩阵对应的第二特征矩阵。
[0101]
最后，将归一化处理后的注意力权重和相应的键值value(第一特征矩阵中的v)中包含的特征点进行加权求和得到第二特征矩阵，此时第二特征矩阵结合了问题语句自身各个特征之间的关联性，使得在后续预测或分类操作时可以获得更精确的结果。
[0102]
在本技术的一个实施例中，如图5所示，基于第二文本特征的注意力机制，生成第一图像特征对应的第二图像特征可以具体包括步骤s510
‑
步骤s530，详细说明如下：
[0103]
步骤s510、利用多个分配权重分别对第二文本特征和第一图像特征进行线性变换，得到多个第三特征矩阵和多个第四特征矩阵，其中，一个分配权重对应于一个第三特征矩阵和一个第四特征矩阵。
[0104]
除了对第一文本特征应用自注意力机制，同时，可以基于第二文本特征的注意力机制，生成第一图像特征对应的第二图像特征，使得第二图像特征中包含有目标图片和问题语句之间的关联性。
[0105]
具体地，第二图像特征的生成过程可以是首先利用多个分配权重分别对第二文本特征和第一图像特征进行线性变换，得到多个第三特征矩阵和多个第四特征矩阵，其中，一个分配权重对应于一个第三特征矩阵和一个第四特征矩阵。
[0106]
需要说明的是，第三特征矩阵可以用q表示，q表示查询(query)，第四特征矩阵则表示为k和v，k和v分别表示键(key)和值(value)，q、k和v的维度相同，分配权重可以是一个三元组(w
q
，w
k
，w
v
)。
[0107]
例如，假设第二文本特征为x，第一图像特征为i，则利用第j个分配权重分别对第二文本特征x和第一图像特征i进行线性变换，可以得到第j个第三特征矩阵表示为第j个第四特征矩阵可以表示为：
[0108]
步骤s520、基于各个第三特征矩阵的注意力机制，生成与各个第三特征矩阵相关联的第四特征矩阵所对应的第五特征矩阵，以得到多个第五特征矩阵，其中，与各个第三特征矩阵相关联的第四特征矩阵是与各个第三特征矩阵对应的分配权重相同的第四特征矩阵。
[0109]
进一步，可以基于各个第三特征矩阵的注意力机制，生成与各个第三特征矩阵相关联的第四特征矩阵所对应的第五特征矩阵，以得到多个第五特征矩阵，其中，与各个第三特征矩阵相关联的第四特征矩阵是与各个第三特征矩阵对应的分配权重相同的第四特征矩阵。
[0110]
例如，基于第j个第三特征矩阵，生成第j个第四特征矩阵所对应的第五特征矩阵。本步骤的实现方式与上述步骤230的实现过程类似，本技术实施例在此不再详述。
[0111]
步骤s530、将多个第五特征矩阵进行拼接，得到拼接后的特征矩阵，并将拼接后的特征矩阵映射为与第一图像特征相同的维度，得到第一图像特征对应的第二图像特征。
[0112]
最后，可以将多个第五特征矩阵拼接起来，然后将拼接后的特征矩阵映射为与第一图像特征相同的维度，从而可以得到第一图像特征对应的第二图像特征。
[0113]
可选的，在一种实现方式中，如图6所示，步骤s520可以具体包括步骤s610
‑
步骤s630，具体说明如下：
[0114]
在步骤s610中，对各个第三特征矩阵以及相关联的第四特征矩阵的转置矩阵进行相似度计算，得到各个第三特征矩阵对应转置矩阵的注意力权重因子。
[0115]
在本技术实施例中，基于第三特征矩阵的注意力可以理解为第四特征矩阵对应第三特征矩阵的注意力权重因子，注意力机制函数的本质可以被描述为一个查询(query)到一系列(键key
‑
值value)对的映射。
[0116]
在计算基于第三特征矩阵的注意力的第五特征矩阵时主要分为三步，第一步是将query(第三特征矩阵q)和key(相关联的第四特征矩阵中的k)的转置矩阵进行相似度计算得到注意力权重因子，常用的相似度函数有点积，拼接，感知机等；第二步可以使用softmax函数对这些注意力权重因子进行归一化，得到注意力权重；第三步可以将注意力权重和相应的键值value(相关联的第四特征矩阵中的v)进行加权求和，得到第五特征矩阵。
[0117]
在步骤s620中，将注意力权重因子进行归一化处理，得到对应的注意力权重。
[0118]
在该步骤中，将注意力权重因子归一化处理，可以利用sigmoid函数或者softmax函数进行，作用是将变量映射到[0，1]之间。
[0119]
步骤s630、利用注意力权重对相关联的第四特征矩阵中包含的特征点进行加权求和计算，得到与各个第三特征矩阵相关联的第四特征矩阵所对应的第五特征矩阵。
[0120]
最后，将归一化处理后的注意力权重和相应的键值value(第四特征矩阵中的v)中包含的特征点进行加权求和得到第五特征矩阵，此时第五特征矩阵结合了目标图片和问题语句的关联性，使得在后续预测或分类操作时可以获得更精确的结果。
[0121]
在本技术的一个实施例中，基于联合特征对问题语句进行分类处理的方式可以是通过分类模型完成分类处理，如图7所示，在该实施例中，根据联合特征，生成问题语句的答案的步骤可以具体包括步骤s710
‑
步骤s720，说明如下：
[0122]
步骤s710、将联合特征输入分类模型，分类模型是根据联合损失函数训练得到的，联合损失函数是根据分类模型的输出结果与期望输出结果之间的损失值，以及样本图片中的目标区域对应的注意力权重构建得到的，目标区域是根据样本图片对应的样本问题在样本图片中确定出的区域。
[0123]
具体而言，在获得联合特征之后，可以将联合特征输入至分类模型汇总，通过分类模型进行分类处理。其中，分类模型是根据联合损失函数训练得到的，其可根据输入的联合特征输出问题语句针对各个答案的预测概率，各个答案可以是模型训练时预设好的，每一种答案可以视为一个类别，例如，红色、两个、男、帽子、天空、动物、跳舞等。
[0124]
在采用分类模型进行分类处理之前，需根据联合损失函数对分类模型进行训练。联合损失函数的构建包括两个部分：一是分类模型的输出结果与期望输出结果之间的损失值，二是样本图片中的目标区域对应的注意力权重，样本图片是用于训练分类模型的图片，目标区域是根据样本图片对应的样本问题在样本图片中确定出的区域。
[0125]
可选的，在一种实施方式中，在确定目标区域时，可以首先从样本问题中提取出关键词，然后根据关键词在样本图片中确定与关键词匹配的区域，将匹配的区域作为目标区域。匹配的含义可以是样本图片中图像特征信息与关键词的相似度大于预设阈值，也即是说，若样本图片中存在某一区域的图像特征信息与关键词的相似度大于预设阈值，则认为
该区域是与关键词匹配的区域。
[0126]
如图8所示，示意性地示出了一张样本图片，其中，样本图片对应的样本问题是“谁系了围巾”，根据样本问题中的关键词“谁”和“围巾”，可以在样本图片中确定出目标区域807177，其对应关键词“围巾”以及目标区域807173，其对应关键词“谁”。
[0127]
请继续参见图7，在步骤s720中，获取分类模型输出的问题语句针对各个答案的预测概率，并根据预测概率，确定问题语句的答案。
[0128]
具体地，将联合特征输入分类模型之后，分类模型可以输出问题语句针对各个答案的预测概率，进一步，则可以根据输出的预测概率，确定出问题语句的答案。
[0129]
在一种可能的实现方式中，根据输出的预测概率确定问题语句的答案的方式可以是根据预测概率以及相应的权重，计算问题语句针对各个答案的预测值，然后将最大的预测值对应的答案作为问题语句的答案。其中，预测概率相应的权重可以是根据实际经验确定得出的。
[0130]
在另一种可能的实现方式中，根据输出的预测概率确定问题语句的答案的方式还可以是获取预测概率中的最大预测概率所对应的答案，然后，将最大预测概率所对应的答案作为问题语句的答案。
[0131]
在本技术的一个实施例中，图9示出了分类模型的训练方法的流程图，如图9所示，分类模型的训练方法可以具体包括步骤s910
‑
步骤s930，详细说明如下：
[0132]
步骤s910、将样本图片以及样本问题输入分类模型，得到分类模型的输出结果，输出结果中包含有样本问题针对各个答案的输出概率。
[0133]
具体实施时，可以通过获取样本图片和样本问题，以对分类模型进行训练。其中，样本问题是样本图片对应的问题语句，样本图片与样本问题具有强关联性。
[0134]
在获取到样本图片以及样本问题之后，可以将样本图片和样本问题输入至分类模型，分类模型可以根据输入的样本图片和样本问题输出样本问题针对各个答案的输出概率。
[0135]
步骤s920、根据样本问题的标注答案以及输出概率构建第一损失函数，并根据目标区域对应的注意力权重构建第二损失函数。
[0136]
在获得样本问题针对各个答案的输出概率之后，可以根据样本问题的标注答案和输出概率构建一个损失函数，也即第一损失函数，并根据目标区域对应的注意力权重构建第二损失函数。
[0137]
需要说明的是，目标区域对应的注意力权重的计算方式与上述步骤s510
‑
步骤s530中提及到的注意力权重的计算方式类似，故不再赘述。
[0138]
在本技术的一个实施例中，如图10所示，根据样本问题的标注答案和输出概率构建第一损失函数的步骤可以具体包括步骤s1010
‑
步骤s1030，详细说明如下：
[0139]
在步骤s1010中，根据样本问题的标注答案，生成针对各个答案的标注概率。
[0140]
可以理解的是，在将样本图片和样本问题输入分类模型之后，分类模型可以输出样本问题针对各个答案的输出概率。其中，各个答案是预先设置好的，举例说明，假设预先设置的答案包括四个，则通过分类模型可以输出得到样本问题分别属于这四个答案的输出概率。
[0141]
同理，由于样本问题对应有标注答案，标注答案也是预先设置的答案中的一个，那
么根据样本问题的标注答案，也就可以生成样本问题针对各个答案的标注概率。
[0142]
例如，样本问题表示为s，预先设置的答案包括包括a1、b1、c1和d1，样本问题的标注答案为b1，则可以生成样本问题针对各个答案的标注概率分别为0，1，0，0。
[0143]
在步骤s1020中，对样本问题针对各个答案的输出概率进行对数运算，得到针对各个答案的运算结果。
[0144]
在构建第一损失函数时，除了生成样本问题针对各个答案的标注概率之外，同时，可以对样本问题针对各个答案的输出概率进行对数运算，得到针对各个答案的运算结果。
[0145]
在步骤s1030中，根据针对各个答案的标注概率与针对各个答案的运算结果的乘积之和，确定第一损失函数。
[0146]
在获得标注概率以及运算结果之后，则可以根据针对各个答案的标注概率与针对各个答案的运算结果的乘积之和，确定第一损失函数。第一损失函数loss1的表达式可以如公式(1)所示：
[0147][0148]
其中，x
i
为第i个标注概率，y
i
为第i个运算结果。
[0149]
为了便于理解，现举例说明，假设样本问题表示为s，预先设置的答案包括包括a1、b1、c1和d1，样本问题的标注答案为b1，生成样本问题针对各个答案的标注概率分别为0，1，0，0，分类模型输出的样本问题s分别属于这四个答案的输出概率分别为0.2，0.1，0.5和0.2，则可以计算第一损失函数loss1＝
‑
(0
×
log0.2 1
×
log0.1 0
×
log0.5 0
×
log0.2)＝0.5。
[0150]
在本技术的一个实施例中，如图11所示，根据目标区域对应的注意力权重构建第二损失函数的步骤可以具体包括步骤s1110
‑
步骤s1120，具体说明如下：
[0151]
在步骤s1110中，计算目标区域对应的注意力权重与预设阈值之间的差值。
[0152]
在本实施例中，根据目标区域对应的注意力权重构建第二损失函数时，可以预先计算目标区域对应的注意力权重与预设阈值之间的差值，其中，预设阈值可以是通过实验数据得出的，例如，预设阈值为0.8。
[0153]
在步骤s1120中，根据计算得到的差值，构建第二损失函数。
[0154]
进一步，可以根据计算得到的差值，构建第二损失函数。第二损失函数loss2的表达式可以如公式(2)所示：
[0155]
loss2＝max{(p
‑
a),0}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(2)
[0156]
其中，p为预设阈值，a为目标区域对应的注意力权重。
[0157]
请继续参见图9，在步骤s930中，根据第一损失函数和第二损失函数构建联合损失函数，并基于联合损失函数训练分类模型，得到训练好的分类模型。
[0158]
进一步，在构建得到第一损失函数和第二损失函数之后，计算机设备可以根据第一损失函数和第二损失函数构建联合损失函数，按照最小化联合损失函数的方向调整分类模型的模型参数，通过更新模型参数缩小联合损失函数，不断优化统计分类模型的模型参数，采用最小化原则确定使联合损失函数最小的模型参数，得到训练好的分类模型。
[0159]
在一些实施例中，根据第一损失函数和第二损失函数构建联合损失函数的步骤可以具体包括：首先，计算预设调整因子与第二损失函数的乘积，得到运算结果；然后，对运算
[0175]
s2、基于第一文本特征的注意力机制，生成第二文本特征，并基于第二文本特征的注意力机制，生成第二图像特征。
[0176]
在通过步骤s1导入目标图片和问题语句之后，则可以分别对问题语句和目标图片的特征提取，分别得到第一文本特征t和第一图像特征i。
[0177]
进一步，对第一文本特征t可以应用自注意力机制，生成第二文本特征x，同时，在生成第二文本特征x之后，基于注意力机制，捕捉第二文本特征x与第一图像特征i之间的关联性，该关联性可以为注意力权重，通过将注意力权重分配到对应的第一图像特征i，即得到第一图像特征i对应的第二图像特征y，使得第二图像特征y包括了目标图片和问题语句之间的关联性。
[0178]
s3、合并得到联合特征，基于联合特征进行分类，得到答案。
[0179]
在应用注意力机制得到第二文本特征和第二图像特征之后，可以将第二文本特征和第二图像特征进行特征合并。
[0180]
为了便于特征合并，在特征合并之前，可以通过例如多层神经网络(multi
‑
layer perceptron，mlp)进行特征维度压缩，分别得到压缩后的第二文本特征和压缩后的第二图像特征后续，则可以对压缩后的第二文本特征和压缩后的第二图像特征进行特征合并，得到联合特征。
[0181]
在得到联合特征之后，则可以基于联合特征对问题语句“what animal is in the box？”进行分类，得到问题语句what animal is in the box？的答案，完成图片问答。
[0182]
基于本技术实施例提供的基于图片的问答处理方法，进行了三组实验，为了便于介绍，请参阅图14，图14为采用本技术提供的方法与现有技术中mcan在注意力机制关注区域和回答上的一个对比示意，图片中的矩形框表示的是注意力机制关注区域。
[0183]
由图14可见，在第一幅图片中，针对第一幅图片对应的问题“靠近路灯的人行道是由什么材料砌成的”，现有技术由于关注到了错误的区域(路灯所在区域)，导致给出了错误的回答“金属”，而本技术关注到了正确的区域(靠近路灯的人行道的区域)，进而给出了正确的回答“混凝土”；在第二幅图片中，针对第二幅图片对应的问题“正在吃树叶的动物是什么”，现有技术同样关注到了错误的区域(包含有斑马的区域)，进而给出了错误的回答“斑马”，而本技术关注到了正确的区域(长颈鹿所在区域)，进而给出了正确的回答“长颈鹿”；在第三幅图片中，针对第三幅图片对应的问题“帽子是哪个公司的”，现有技术关注到了多个区域，给出了错误的回答“耐克”，而本技术关注到了正确的区域(帽子所在区域)，进而给出了正确的回答“阿迪达斯”。
[0184]
可见，采用本技术提供的方法对三个问题都给出了正确的回答，且注意力机制关注区域正确，而mcan方法均关注到了错误的区域，因而给出了错误的回答，通过对比可以得出，采用本技术提供的基于图片的问答处理方法可以提高图片问答的准确率。
[0185]
以下介绍本技术的装置实施例，可以用于执行本技术上述实施例中的基于图片的问答处理方法。对于本技术装置实施例中未披露的细节，请参照本技术上述的基于图片的问答处理方法的实施例。
[0186]
图15示出了根据本技术的一个实施例的基于图片的问答处理装置的框图，参照图15所示，根据本技术的一个实施例的基于图片的问答处理装置1500，包括：获取单元1502、提取单元1504、生成单元1506和合并单元1508。
[0187]
其中，所述获取单元1502，配置为获取目标图片以及所述目标图片对应的问题语句；所述提取单元1504，配置为对所述目标图片进行特征提取，得到所述目标图片的第一图像特征，并对所述问题语句进行特征提取，得到所述问题语句的第一文本特征；所述生成单元1506，配置为基于所述第一文本特征的注意力机制，生成所述第一文本特征对应的第二文本特征，并基于所述第二文本特征的注意力机制，生成所述第一图像特征对应的第二图像特征；所述合并单元1508，配置为将所述第二文本特征和所述第二图像特征进行特征合并，得到联合特征，并根据所述联合特征，生成所述问题语句的答案。
[0188]
在本技术的一些实施例中，所述生成单元1506包括：第一线性变换子单元，配置为利用多个分配权重分别对所述第一文本特征进行线性变换，得到多个第一特征矩阵，其中，一个第一特征矩阵对应于一个所述分配权重；第一生成子单元，配置为基于各个第一特征矩阵的注意力机制，生成所述各个第一特征矩阵对应的第二特征矩阵，以得到多个第二特征矩阵；第一拼接子单元，配置为将所述多个第二特征矩阵进行拼接，得到拼接后的特征矩阵，并将所述拼接后的特征矩阵映射为与所述第一文本特征相同的维度，得到所述第一文本特征对应的第二文本特征。
[0189]
在本技术的一些实施例中，所述第一生成子单元配置为：对所述各个第一特征矩阵与所述各个第一特征矩阵的转置矩阵进行相似度计算，得到所述各个第一特征矩阵对应所述转置矩阵的注意力权重因子；将所述注意力权重因子进行归一化处理，得到对应的注意力权重；利用所述注意力权重对所述各个第一特征矩阵中包含的特征点进行加权求和计算，得到所述各个第一特征矩阵对应的第二特征矩阵。
[0190]
在本技术的一些实施例中，所述生成单元1506包括：第二线性变换子单元，配置为利用多个分配权重分别对所述第二文本特征和所述第一图像特征进行线性变换，得到多个第三特征矩阵和多个第四特征矩阵，其中，一个所述分配权重对应于一个第三特征矩阵和一个第四特征矩阵；第二生成子单元，配置为基于各个第三特征矩阵的注意力机制，生成与所述各个第三特征矩阵相关联的第四特征矩阵所对应的第五特征矩阵，以得到多个第五特征矩阵，其中，与所述各个第三特征矩阵相关联的第四特征矩阵是与所述各个第三特征矩阵对应的分配权重相同的第四特征矩阵；第二拼接子单元，配置为将所述多个第五特征矩阵进行拼接，得到拼接后的特征矩阵，并将所述拼接后的特征矩阵映射为与所述第一图像特征相同的维度，得到所述第一图像特征对应的第二图像特征。
[0191]
在本技术的一些实施例中，所述第二生成子单元配置为：对所述各个第三特征矩阵以及所述相关联的第四特征矩阵的转置矩阵进行相似度计算，得到所述各个第三特征矩阵对应所述转置矩阵的注意力权重因子；将所述注意力权重因子进行归一化处理，得到对应的注意力权重；利用所述注意力权重对所述相关联的第四特征矩阵中包含的特征点进行加权求和计算，得到与所述各个第三特征矩阵相关联的第四特征矩阵所对应的第五特征矩阵。
[0192]
在本技术的一些实施例中，所述合并单元1508包括：输入子单元，配置为将所述联合特征输入分类模型，所述分类模型是根据联合损失函数训练得到的，所述联合损失函数是根据所述分类模型的输出结果与期望输出结果之间的损失值，以及样本图片中的目标区域对应的注意力权重构建得到的，所述目标区域是根据所述样本图片对应的样本问题在所述样本图片中确定出的区域；确定子单元，配置为获取所述分类模型输出的所述问题语句
针对各个答案的预测概率，并根据所述预测概率，确定所述问题语句的答案。
[0193]
在本技术的一些实施例中，所述确定子单元配置为：获取所述预测概率中的最大预测概率所对应的答案；将所述最大预测概率所对应的答案作为所述问题语句的答案。
[0194]
在本技术的一些实施例中，所述装置还包括：输入单元，配置为将所述样本图片以及所述样本问题输入所述分类模型，得到所述分类模型的输出结果，所述输出结果中包含有所述样本问题针对各个答案的输出概率；构建单元，配置为根据所述样本问题的标注答案以及所述输出概率构建第一损失函数，并根据所述目标区域对应的注意力权重构建第二损失函数；训练单元，配置为根据所述第一损失函数和所述第二损失函数构建所述联合损失函数，并基于所述联合损失函数训练所述分类模型，得到训练好的分类模型。
[0195]
在本技术的一些实施例中，所述构建单元配置为：根据所述样本问题的标注答案，生成针对各个答案的标注概率；对所述样本问题针对各个答案的输出概率进行对数运算，得到针对各个答案的运算结果；根据针对各个答案的标注概率与针对各个答案的运算结果的乘积之和，确定所述第一损失函数。
[0196]
在本技术的一些实施例中，所述构建单元配置为：计算所述目标区域对应的注意力权重与预设阈值之间的差值；根据计算得到的差值，构建所述第二损失函数。
[0197]
在本技术的一些实施例中，所述训练单元配置为：计算预设调整因子与所述第二损失函数的乘积，得到运算结果；对所述运算结果与所述第一损失函数进行相加，得到相加结果，将所述相加结果作为所述联合损失函数。
[0198]
在本技术的一些实施例中，所述输入单元配置为：对所述样本图片进行特征提取，以获取所述样本图片的第一样本图像特征，并对所述样本问题进行特征提取，以获取所述样本问题的第一样本文本特征；基于所述第一样本文本特征的注意力机制，生成所述第一样本文本特征对应的第二样本文本特征，并基于所述第二样本文本特征的注意力机制，生成所述第一样本图像特征对应的第二样本图像特征；将所述第二样本文本特征和所述第二样本图像特征进行特征合并，得到联合样本特征，并将所述联合样本特征输入所述分类模型。
[0199]
图16示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
[0200]
需要说明的是，图16示出的电子设备的计算机系统1600仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
[0201]
如图16所示，计算机系统1600包括中央处理单元(central processing unit，cpu)1601，其可以根据存储在只读存储器(read
‑
only memory，rom)1602中的程序或者从存储部分1608加载到随机访问存储器(random access memory，ram)1603中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在ram 1603中，还存储有系统操作所需的各种程序和数据。cpu 1601、rom 1602以及ram 1603通过总线1604彼此相连。输入/输出(input/output，i/o)接口1605也连接至总线1604。
[0202]
以下部件连接至i/o接口1605：包括键盘、鼠标等的输入部分1606；包括诸如阴极射线管(cathode ray tube，crt)、液晶显示器(liquid crystal display，lcd)等以及扬声器等的输出部分1607；包括硬盘等的存储部分1608；以及包括诸如lan(local area network，局域网)卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至i/o接口1605。可拆卸介质
1611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1610上，以便于从其上读出的计算机程序根据需要被安装入存储部分1608。
[0203]
特别地，根据本技术的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1609从网络上被下载和安装，和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(cpu)1601执行时，执行本技术的系统中限定的各种功能。
[0204]
需要说明的是，本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory，eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read
‑
only memory，cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0205]
附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0206]
描述于本技术实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0207]
作为另一方面，本技术还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设
备执行时，使得该电子设备实现上述实施例中所述的方法。
[0208]
应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0209]
通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本技术实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd
‑
rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
[0210]
本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
[0211]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于核密度估计的负荷预测信息价值率评估方法及系统与流程

基于图片的问答处理方法、装置、可读介质及电子设备与流程

相关文献

最热文献