一种视觉问答分析方法、装置、系统及可读存储介质与流程

2022-02-22 17:59:06 来源：中国专利 TAG：

1.本发明涉及计算机视觉技术领域，特别是涉及一种视觉问答分析方法、装置、系统及计算机可读存储介质。

背景技术：

2.视觉问答指的是，给定一张图像和一个与该图像有关的自然语言问题，计算机能产生一个正确的回答。这个领域融合了cv及nlp的相关技术，计算机需要学会理解图像和文本，是近年来新兴的研究领域。vizwiz是德克萨斯大学奥斯汀分校发布的回答盲人视觉问答的项目，是一个真实的盲人用户收集的数据集，能够真实反映用户的真实需求，也能反映理论在现实落地中的很多琐碎细小问题。vizwiz数据集收集过程为盲人使用vizwiz软件拍一张照片，并记录一个关于它的口头问题，这个问题被上传到众包网站然后收集答案。过去几年，计算机视觉涌现出了多种vqa数据集，他们都是人工创建设置的，这项技术将为他们的生活带来极大的便利，帮助他们改善视力缺陷、打破社交障碍。
3.当前主流技术是基于top-down及bottom-up两种attention机制，前者指的是人会被视觉中的显著突出物体给吸引，是由图像这种底层信息到上层语义的；而后者指的是人在进行某项任务的时候，紧密关注和该任务相关的部分，是由上游任务去关注到图像。现有技术中的是采用lxmert网络(如图1所示)，对输入的图像和问题文本进行分析，得到预测的答案空间，但是由于其所采用的答案空间集合中的答案空间没有考虑ocr(optical character recognition，光学字符识别)信息，但通常对于含有ocr信息的图像来说，答案大部分都在ocr信息中，因此现有技术中的方法会导致分类结果不准确，影响视觉问答结果的准确度。
4.鉴于此，如何提供一种解决上述技术问题的视觉问答分析方法、装置、系统及计算机可读存储介质成为本领域技术人员需要解决的问题。

技术实现要素：

5.本发明实施例的目的是提供一种视觉问答分析方法、装置、系统及计算机可读存储介质，在使用过程中能够提高分类结果的准确性以及视觉问答结果的准确度。
6.为解决上述技术问题，本发明实施例提供了一种视觉问答分析方法，包括：
7.获取图像和问题文本信息，并将所述图像和所述问题文本信息作为输入；
8.判断所述图像中是否存在ocr信息，若存在，则采用字符识别网络对所述图像进行字符识别，得到多个字符结果及与每个字符结果各自对应的置信度得分；
9.根据每个字符结果、各自对应的置信度得分以及预先建立的答案空间集合，得到与每个所述字符结合各自对应的相关答案空间及对应的分类概率值；
10.根据各个所述分类概率值，从各个所述相关答案空间中确定出目标答案空间。
11.可选的，所述根据每个字符结果、各自对应的置信度得分以及预先建立的答案空间集合，得到与每个所述字符结合各自对应的相关答案空间及对应的分类概率值的过程
为：
12.针对每个所述字符结果，从预先建立的答案空间集合中匹配出与所述字符结果对应的多个相关答案空间及与每个所述相关答案空间对应的相似度；
13.根据所述字符结果的置信度得分以及每个所述相关答案空间的相似度，得到每个所述相关答案空间各自的分类概率值，以得到与每个所述字符结果对应的各个相关答案空间的分类概率值。
14.可选的，在所述判断所述图像中是否存在ocr信息之前，还包括：
15.判断所述图像是否偏转，若是，则对所述图像进行旋转处理，得到正向图像；
16.则，所述判断所述图像中是否存在ocr信息为：
17.判断所述正向图像中是否存在ocr信息。
18.可选的，在所述获取图像和问题文本信息之后，还包括：
19.对所述图像进行识别，得到对应的物体信息和属性信息；
20.将所述物体信息和所述属性信息以文本的形式与所述问题文本信息进行整合，得到文本信息；
21.则，将所述图像和所述问题文本信息作为输入为：
22.将所述图像和所述文本信息作为输入。
23.可选的，所述根据各个所述分类概率值，从各个所述相关答案空间中确定出目标答案空间的过程为：
24.将各个所述分类概率值最大的相关答案空间作为目标答案空间。
25.可选的，还包括：
26.采用预先建立的lxmert网络对输入的所述图像和所述问题文本信息进行分析，得到多个预测答案空间以及与每个所述预测答案空间各自对应的分类概率值；
27.所述根据各个所述分类概率值，从各个所述相关答案空间中确定出目标答案空间的过程为：
28.从各个所述相关答案空间和各个所述预测答案空间中选择出分类概率值最大的答案空间作为目标答案空间。
29.本发明实施例还提供了一种视觉问答分析装置，包括：
30.获取模块，用于获取图像和问题文本信息，并将所述图像和所述问题文本信息作为输入；
31.判断模块，用于判断所述图像中是否存在ocr信息，若存在，则触发识别模块；
32.所述识别模块，用于采用字符识别网络对所述图像进行字符识别，得到多个字符结果及与每个字符结果各自对应的置信度得分；
33.分析模块，用于根据每个字符结果、各自对应的置信度得分以及预先建立的答案空间集合，得到与每个所述字符结合各自对应的相关答案空间及对应的分类概率值；
34.筛选模块，用于根据各个所述分类概率值，从各个所述相关答案空间中确定出目标答案空间。
35.可选的，所述分析模块包括：
36.匹配单元，用于针对每个所述字符结果，从预先建立的答案空间集合中匹配出与所述字符结果对应的多个相关答案空间及与每个所述相关答案空间对应的相似度；
37.计算单元，用于根据所述字符结果的置信度得分以及每个所述相关答案空间的相似度，得到每个所述相关答案空间各自的分类概率值，以得到与每个所述字符结果对应的各个相关答案空间的分类概率值。
38.本发明实施例还提供了一种视觉问答分析系统，包括：
39.存储器，用于存储计算机程序；
40.处理器，用于执行所述计算机程序时实现如上述所述视觉问答分析方法的步骤。
41.本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述视觉问答分析方法的步骤。
42.本发明实施例中提供了一种视觉问答分析方法、装置、系统及计算机可读存储介质，该方法包括：获取图像和问题文本信息，并将图像和问题文本信息作为输入；判断图像中是否存在ocr信息，若存在，则采用字符识别网络对图像进行字符识别，得到多个字符结果及与每个字符结果各自对应的置信度得分；根据每个字符结果、各自对应的置信度得分以及预先建立的答案空间集合，得到与每个字符结合各自对应的相关答案空间及对应的分类概率值；根据各个分类概率值，从各个相关答案空间中确定出目标答案空间。
43.可见，本发明实施例中在进行视觉问答时，将获取的图像和问题文本信息作为输入，并在图像中包括ocr信息时，采用字符识别网络对该图像进行字符识别，得到多个字符识别结果及各自对应的置信度得分，然后再根据每个字符结果、各自对应的置信度得分以及预先建立的答案空间集合，得到与每个字符结合各自对应的相关答案空间及对应的分类概率值，并根据各个分类概率值，从各个相关答案空间中确定出最终的目标答案空间；本发明在使用过程中能够提高分类结果的准确性以及视觉问答结果的准确度。
附图说明
44.为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
45.图1为现有技术中的lxmert网络的结构示意图；
46.图2为本发明实施例提供的一种视觉问答分析方法的流程示意图；
47.图3为本发明实施例提供的一种视觉问答分析装置的结构示意图。
具体实施方式
48.本发明实施例提供了一种视觉问答分析方法、装置、系统及计算机可读存储介质，在使用过程中能够提高分类结果的准确性以及视觉问答结果的准确度。
49.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
50.请参照图2，图2为本发明实施例提供的一种视觉问答分析方法的流程示意图。该
方法包括：
51.s110：获取图像和问题文本信息，并将图像和问题文本信息作为输入；
52.需要说明的是，在用户需要进行视觉问答时，输入图像和问题文本，系统将获取到的图像和问题文本信息作为输入，输入至分析模型中。
53.s120：判断图像中是否存在ocr信息，若存在，则进入s130；
54.s130：采用字符识别网络对图像进行字符识别，得到多个字符结果及与每个字符结果各自对应的置信度得分；
55.具体的，分析模型可以先判断该图像中是否存在ocr信息，并且在该图像中存在ocr信息时，可以采用字符识别网络(例如stage网络)对该图像中的字符进行识别，得到多个字符识别结果，以及与每个字符识别结果各自对应的置信度得分。例如，对于一张带有可口可乐的图像，可能输出的字符结果可能包括：“coco cola”、“cola”或者“coca cola”，并且针对这几个字符结果均会得到给出一个置信度得分。
56.s140：根据每个字符结果、各自对应的置信度得分以及预先建立的答案空间集合，得到与每个字符结合各自对应的相关答案空间及对应的分类概率值；
57.需要说明的是，本发明实施例中预先建立答案空间集合，然后在得到每个字符结果后，具体可以针对每个字符结果，从预先建立的答案空间集合中匹配出与字符结果对应的多个相关答案空间及与每个相关答案空间对应的相似度，然后再根据字符结果的置信度得分以及每个相关答案空间的相似度，得到每个相关答案空间各自的分类概率值，以得到与每个字符结果对应的各个相关答案空间的分类概率值。
58.也即，针对每个字符结果，从答案空间集合中可能会匹配出多个相关答案空间，并且针对每个相关答案空间得到一个相似度，然后将该字符结果的置信度得分与对应的相关答案空间的相似度相乘，即可得到该相关答案空间的分类概率值，从而可以得到与每个字符结果对应的、每个相关答案空间的分类概率值。其中，可以按照s(pred,ans)＝lcs(pred,ans)/(ld(pred,ans) lcs(pred,ans))来计算字符结果与相关答案空间的相似度，其中，lcs(pred,ans)为字符结果与对应的相关答案空间中的字符串之间最长的公共子序列，ld(pred,ans)为将字符串a变为字符串b所需的最少编辑次数，s(pred,ans)为相似度。其中，字符串a为字符结果中的字符串时，字符串b为相关答案空间中的字符串；字符串a为相关答案空间中的字符串时，字符串b为字符结果中的字符串。
59.s150：根据各个分类概率值，从各个相关答案空间中确定出目标答案空间。
60.具体的，在得到每个相关答案空间的分类概率值后，根据每个分类概率值从各个相关答案空间中筛选出目标答案空间，并将所述目标答案空间的答案进行输出。
61.进一步的，上述s150中根据各个分类概率值，从各个相关答案空间中确定出目标答案空间的过程为：
62.将各个分类概率值最大的相关答案空间作为目标答案空间。
63.也即，可以直接从各个分类概率值中确定出最大的分类概率值，并将与该最大的分类概率值对应的相关答案空间作为目标答案空间。
64.进一步的，为了避免因字符结果识别出错导致的最终结果错误的现象发生，该方法还可以包括：
65.采用预先建立的lxmert网络对输入的图像和问题文本信息进行分析，得到多个预
测答案空间以及与每个预测答案空间各自对应的分类概率值；
66.具体的，lxmert网络是一个双流的bert网络(nlp领域经典网络)，该网络结构输入由两部分组成，图像和文本。图像特征来源于目标检测网络提取的特征，本方案中每张图片固定产生36个目标检测框，每个目标检测框的维度是2048维，因此每张图像会产生36*2048维度的特征向量，文本模块采用的是bert的预训练权重，文本模块经过词嵌入后每个句子会产生n*768维的特征向量，n表示最大句子长度，本方案中n＝40。在分别得到图像和文本特征后，各自输入相应的编码器网络结构，该编码器网络结构是transformer(bert网络的核心网络模块)结构的组合，在经过相应的编码器网络结构后，文本和网络模块进行融合，输入跨模态的网络结构，最后将得到的特征向量用于分类，得到每个预测答案空间以及与每个预测答案空间各自对应的分类概率值。
67.另外，在判断图像中不存在ocr信息时，可以采用传统的方法进行分析，具体可以采用lxmert网络对输入的图像和问题文本信息进行分析，得到多个预测答案空间以及与每个预测答案空间各自对应的分类概率值，然后从每个预测答案空间中选择出分类概率值最大的一个预测答案空间作为最终的答案空间。
68.则，上述s150中根据各个分类概率值，从各个相关答案空间中确定出目标答案空间的过程，具体可以为：
69.从各个相关答案空间和各个预测答案空间中选择出分类概率值最大的答案空间作为目标答案空间。
70.也即，本发明实施例中是从各个预测答案空间以及各个相关答案空间中选择出分类概率值最大的一个答案空间作为最终的目标答案空间，从而可以提高输出结构的准确度。
71.进一步的，在上述s120中判断图像中是否存在ocr信息之前，该方法还可以包括：
72.判断图像是否偏转，若是，则对图像进行旋转处理，得到正向图像；则，判断图像中是否存在ocr信息为：
73.判断正向图像中是否存在ocr信息。
74.也即，由于盲人拍摄图像时具有随机性，并不知道拍摄角度是否是正确的方向，因此为了提高识别精确度，本发明实施例中还可以先对图像是否发生了偏转进行判断，当图像没有发生偏转时，可以直接判断该图像中是否存在ocr信息，当图像发生了偏转时，可以对该图像进行旋转，将该图像转正，从而得到正向图像，然后进一步判断该正向图像中是否存在ocr信息。
75.其中，在实际应用中可以预先建立图像旋转识别模型，然后通过该图像旋转识别模型对图像是否发生旋转进行识别，并且在发送旋转时，将该图像调整至正向，其中，在建立图像旋转识别模型时，可以先从训练集中选择一定量的图片(例如选择5000张图片)，并且针对每个图片进行不同方向的标定，如正向、旋转90
°
、旋转180
°
、旋转270
°
等方向分别进行标定，得到新的训练集，然后进行模型训练得到图像旋转识别模型。
76.进一步的，在上述s110中获取图像和问题文本信息之后，该方法还可以包括：
77.对图像进行识别，得到对应的物体信息和属性信息；
78.将物体信息和属性信息以文本的形式与问题文本信息进行整合，得到文本信息；
79.则，将图像和问题文本信息作为输入为：
80.将图像和文本信息作为输入。
81.需要说明的是，本发明实施例中为了进一步提高识别精确度，可以在获取图像和问题文本信息后，对图像进行识别，然后得到图像中的物体信息和属性信息，例如，可以通过faster rcnn检测网络对图像进行分析，得到分类结果为物体分类和属性分类，例如，通过对图像识别分析得到的物体是狗，物体的属性是黄色，则可以将“yellow dogs”的文本信息添加至问题文本信息“what is this”的前面或后面，构成一个新的文本信息，然后将该文本信息和图像作为输入，输入至分析模型中。
82.可见，本发明实施例中在进行视觉问答时，将获取的图像和问题文本信息作为输入，并在图像中包括ocr信息时，采用字符识别网络对该图像进行字符识别，得到多个字符识别结果及各自对应的置信度得分，然后再根据每个字符结果、各自对应的置信度得分以及预先建立的答案空间集合，得到与每个字符结合各自对应的相关答案空间及对应的分类概率值，并根据各个分类概率值，从各个相关答案空间中确定出最终的目标答案空间；本发明在使用过程中能够提高分类结果的准确性以及视觉问答结果的准确度。
83.在上述实施例的基础上，本发明实施例还提供了一种视觉问答分析装置，具体请参照图3，该装置包括：
84.获取模块21，用于获取图像和问题文本信息，并将图像和问题文本信息作为输入；
85.判断模块22，用于判断图像中是否存在ocr信息，若存在，则触发23识别模块；
86.识别模块23，用于采用字符识别网络对图像进行字符识别，得到多个字符结果及与每个字符结果各自对应的置信度得分；
87.分析模块24，用于根据每个字符结果、各自对应的置信度得分以及预先建立的答案空间集合，得到与每个字符结合各自对应的相关答案空间及对应的分类概率值；
88.筛选模块25，用于根据各个分类概率值，从各个相关答案空间中确定出目标答案空间。
89.进一步的，分析模块包括：
90.匹配单元，用于针对每个字符结果，从预先建立的答案空间集合中匹配出与字符结果对应的多个相关答案空间及与每个相关答案空间对应的相似度；
91.计算单元，用于根据字符结果的置信度得分以及每个相关答案空间的相似度，得到每个相关答案空间各自的分类概率值，以得到与每个字符结果对应的各个相关答案空间的分类概率值。
92.需要说明的是，本发明实施例提供的视觉问答分析装置具有与上述实施例所提供的视觉问答分析方法相同的有益效果，并且对于本发明实施例所涉及到的视觉问答分析方法的具体介绍请参照上述实施例，本发明在此不再赘述。
93.在上述实施例的基础上，本发明实施例还提供了一种视觉问答分析系统，该系统包括：
94.存储器，用于存储计算机程序；
95.处理器，用于执行计算机程序时实现如上述视觉问答分析方法的步骤。
96.例如，本发明实施例中的处理器具体可以用于实现获取图像和问题文本信息，并将图像和问题文本信息作为输入；判断图像中是否存在ocr信息，若存在，则采用字符识别网络对图像进行字符识别，得到多个字符结果及与每个字符结果各自对应的置信度得分；
根据每个字符结果、各自对应的置信度得分以及预先建立的答案空间集合，得到与每个字符结合各自对应的相关答案空间及对应的分类概率值；根据各个分类概率值，从各个相关答案空间中确定出目标答案空间。
97.在上述实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述视觉问答分析方法的步骤。
98.该计算机可读存储介质可以包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(randomaccess memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
99.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
100.还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
101.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：自动化部署方法、装置、系统及存储介质与流程

一种视觉问答分析方法、装置、系统及可读存储介质与流程

相关文献

最热文献