一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像问答的方法及装置

2022-04-30 09:52:46 来源:中国专利 TAG:


1.本发明涉及计算机视觉和自然语言处理技术领域,尤其涉及图像问答的方法及装置。


背景技术:

2.视觉问答(visual question answering,vqa)作为一类结合计算机视觉和自然语言处理的交互系统,旨在提供一种交互式的问答模式,根据输入的图片和相应的问题,智能地预测出问题的相应答案。目前,尽管视觉问答已经取得了一些成果,但大多围绕自然图像展开,而遥感图像的应用场景与自然图像不同。自然图像存在景深差异,人们往往关注于图像中的显著性目标,但遥感图像中各个目标处于同一景深下,现有的视觉问答的技术未能较为准确的回答遥感影像的问题。
3.目前关于遥感图像的视觉问答的相关研究较少,亟需一种可以实现遥感图像的视觉问答的方法。


技术实现要素:

4.本发明提供了一种图像问答的方法、装置、计算机可读存储介质及电子设备,基于图像的区域和问题之间的关系和图像特征,对图像中和问题相关的区域进行理解分析,从而可较为准确的解答图像的问题。
5.第一方面,本发明提供了一种图像问答的方法,包括:
6.确定图像;
7.确定所述图像的问题对应的问题向量;
8.对所述问题向量进行文本特征提取,确定所述问题向量对应的文本特征;
9.对所述图像进行图像特征提取,确定所述图像对应的图像特征;
10.对所述文本特征和所述图像特征进行融合,确定融合特征;其中,所述融合特征指示了所述图像中的不同区域和所述问题的相关性;
11.基于所述融合特征和所述图像特征进行分类以理解所述图像中和所述问题相关的区域的语义,确定所述图像对应的问题的答案。
12.第二方面,本发明提供了一种图像问答的装置,包括:
13.图像确定模块,用于确定图像;
14.向量确定模块,用于确定所述图像的问题对应的问题向量;
15.文本特征提取模块,用于对所述问题向量进行文本特征提取,确定所述问题向量对应的文本特征;
16.图像特征提取模块,用于对所述图像进行图像特征提取,确定所述图像对应的图像特征;
17.融合模块,用于对所述文本特征和所述图像特征进行融合,确定融合特征;其中,所述融合特征指示了所述图像中和所述问题相关的区域的特征;
18.答案预测模块,用于基于所述融合特征和所述图像特征进行分类以理解所述图像中和所述问题相关的区域的语义,确定所述图像对应的问题的答案。
19.第三方面,本发明提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
20.第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
21.本发明提供了一种图像问答的以问题为导向的遥感图像视觉问答方法、装置、计算机可读存储介质及电子设备,该方法通过确定图像的问题对应的问题向量;然后,对问题向量进行文本特征提取,确定问题向量对应的文本特征;然后,对图像进行图像特征提取,确定图像对应的图像特征;然后,对文本特征和图像特征进行融合,确定融合特征,融合特征指示了问题和图像中不同区域之间的关系;然后,基于融合特征和图像特征进行分类,理解图像中和问题相关的区域的语义,确定图像对应的问题的答案。综上所述,通过本发明的技术方案,基于图像的区域和问题之间的关系和图像特征,对图像中和问题相关的区域进行理解分析,从而可较为准确的解答图像的问题。
22.上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
23.为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
24.图1为本发明实施例提供的一种问答模型训练的流程示意图;
25.图2为本发明实施例提供的一种问答模型的处理图像和问题文本的流程示意图;
26.图3为本发明实施例提供的一种图像特征提取模块的结构示意图;
27.图4为本发明实施例提供的一种图像问答的方法的流程示意图;
28.图5为本发明实施例提供的一种图像问答的装置的结构示意图;
29.图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
30.为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
31.如图1所示,为本发明实施例提供的一种问答模型训练的流程示意图。本实施例中,如图2所示,问答模型包括图像特征提取模型、文本特征提取模型、语义分析模型、融合模型和答案预测模型,所述问答模型训练的流程包括以下步骤:
32.步骤101、构建图像库、问题库和答案库。
0.009701、-0.2122。
43.在实际应用中,考虑到问题的长短不一,统一起见,我们将问题的长度统一设置为定值,比如,18,不够18个单词的问题,用0值进行补齐,这样就保证了所有问题向量的长度一致。
44.步骤103、对于问题向量库的各向量,将问题向量代入文本特征提取模型中进行文本特征提取,确定文本特征提取模型输出的问题向量对应的文本特征。
45.其中,文本特征包含问题向量对应的图像的语义的信息。
46.作为一种可行的实现方式,文本特征提取模型可以为两层lstm(long short-term memory,长短期记忆网络)。
47.步骤104、对于问题向量库的各向量,对问题向量对应的文本特征进行语义分析,确定多个尺度各自对应的语义权重。
48.需要说明的是,对于图像来说,提取图像的特征,可以得到多个尺度下的多个特征。考虑到不同尺度的特征表现的信息的差异,为了使得特征可以更好的表现其和问题之间的关系,对问题向量对应的文本特征进行语义分析,确定多个尺度各自对应的语义权重,后续即可基于语义权重赋予不同尺度的特征不同的权重得到图像特征,以使图像特征和问题关联。
49.在一个例子中,通过语义分析模型对图像对应的文本特征进行语义分析,确定多个尺度各自对应的语义权重。其中,语义权重指示了文本特征对应的问题和不同尺度下的特征的关系。
50.步骤105、对于图像库的各图像,将图像代入图像特征提取模型中进行图像特征提取,确定图像特征提取模型输出的多个尺度下的多个特征;基于多个尺度各自对应的语义权重和多个特征,确定图像特征。
51.其中,图像特征包含了和问题的语义相关的特征。
52.作为一种可行的实现方式,图像特征包括尺度相同的多个特征。其中,图像特征可以体现出不同尺度的特征和问题之间的关系,从而便于更为准确的确定出图像中与问题相关的区域的语义。
53.在一个例子中,对于多个尺度,基于尺度对应的语义权重对该尺度对应的特征进行加权,当该尺度不满足预设尺度时,对加权后的特征进行采样,确定满足预设尺度的特征;当特征的尺度满足预设尺度时,将加权后的特征作为满足预设尺度的特征。应当理解的,通过语义权重赋予不同尺度的特征不同的权重,实现特征和问题的关联,后续即可基于问题指导图像特征的特征融合以实现对图像中问题相关的区域的语义的理解。
54.在一个例子中,如图3所示,图像特征提取模型可以为vgg模型。
55.下面以vgg16模型和图像库中大小为448
×
448
×
3像素为例进行举例说明。
56.在实际应用中,可以选择vgg16模型,在imagenet上预训练该模型,得到训练好的vgg16模型。其中,imagenet是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像url被imagenet手动注释,以指示图片中的对象;在至少一百万的图像中,还提供了边界框。
57.如图2所示,对于图像库中的各图像,将图像输入到在训练好的vgg16模型中,然后从中分别抽取第一尺度的特征(224
×
224
×
64像素)、第二尺度的特征(112
×
112
×
256像
素)和第三尺度的特征(56
×
56
×
512像素),这三种尺度的第一特征可以表示不同的信息,通常,尺度越小越能表示图像的全局信息,比如,第一尺度的特征可以更好的表现图像的局部信息,第三尺度的特征可以更好的表现图像的全局信息。这里,全局信息用于表示图像的场景。第一尺度的特征包括64个224
×
224的图,第二尺度的特征包括256个112
×
112的图,第三尺度的特征包括512个56
×
56的图。
58.之后,对于第一尺度的特征,通过第一尺度对应的语义权重对64个224
×
224的图分别进行加权,之后用下采样对加权后的图进行下采样处理,确定采样后的特征,采样后的特征包括64个56*56的图。第二尺度的特征、第三尺度的特征的处理类同,最后获得的图像特征,图像特征包括832个56
×
56的图。
59.步骤106、对于问题向量库中的各问题向量,通过融合模型,对该问题向量对应的图像特征和文本特征进行融合,确定该问题向量对应的融合特征,融合特征指示了问题向量对应的问题和图像中不同区域之间的相关性。
60.作为一种可行的实现方式,通过融合模型对文本特征和图像特征进行融合,确定融合特征。
61.融合模型采用注意力机制的原理融合不同模态的特征。具体而言,注意力机制将文本特征视作一个查询,去作用图像特征中的关键区域,即先将图像特征拉伸为向量,然后该向量与向量表现的文本特征进行连接后进行非线性激活,将非线性激活后的结果进行图像还原,得到注意力结果,即融合特征。
62.在一个例子中,将图像特征拉伸为第一向量;对第一向量和文本特征进行向量拼接,确定第二向量;对第二向量进行矩阵化,确定融合特征;其中,融合特征的尺度和图像特征的尺度相同。
63.以上述图像特征包括832个56
×
56的特征为例进行描述,将832个56
×
56的特征拉伸为第一向量,第一向量和文本特征进行向量拼接后得到第二向量;对第二向量进行非线性激活后得到一个56
×
56的融合特征。
64.需要说明的是,融合模型基于融合特征指示的问题向量对应的问题和图像中不同区域之间的相关性,从而使得答案预测模型关注图像中问题相关的区域。
65.另外,在一些可能的情况,可以对融合特征和图像进行可视化,从而较好的观察融合模型是否理解了问题和图像的内容的关系。
66.步骤107、对于问题向量库中的各问题向量,将对应的融合特征和图像特征输入答案预测模型中进行分类,确定答案预测模型输出的答案库中各答案各自的概率;基于答案库中各答案各自的概率,确定问题向量对应的答案。
67.作为一种可行的实现方式,如图3所示,将融合特征和图像特征输入答案预测模型中进行分类和非线性激活,确定概率分布,概率分布指示了答案库中各答案各自的概率;之后,对其排序取最高值,便能得到最终的答案。
68.需要理解的是,答案预测模型可以根据问题和图像的区域之间的关系,快速定位到图像中的关键区域,并给出相应答案。比如对于局部目标的问题,“图像中有多少个储油罐”,分类模型能够快速定位到储油罐上;而对于场景理解的问题,比如“这张图拍摄的什么场景”,答案预测模型能够更多的关注到图像中的建筑物和道路上来,并得到答案“居民区”。
69.值得注意的是,图像特征可以体现出特征和问题之间的关系,答案预测模型对图像特征进行处理,从而实现基于问题指导图像特征的特征融合,最终实现对图像中问题相关的区域的语义的准确的理解。
70.另外,在一些可能的情况,可以对问题向量对应的问题和答案可视化,从而较好的观察答案预测模型的预测效果。
71.步骤108、对于问题向量库中的各问题向量对应的答案和答案库中各问题向量对应的答案,对图像特征提取模型、文本特征提取模型、融合模型和答案预测模型进行训练。
72.基于问题向量库中的各问题向量对应的答案和答案库中各问题向量对应的答案,结合预设的损失函数,确定损失值;基于损失值和损失函数对图像特征提取模型、文本特征提取模型、融合模型和答案预测模型的参数进行更新。应当理解,训练方法为现有技术中的常规方法,本实施例对此不再赘述。
73.通过以上技术方案可知,本实施例存在的有益效果是:
74.第一方面,可进行问答的问题类型更加多样。现有的遥感影像问答数据集,场景大多比较单一,主要涉及居民区街景图和农田,故问题的设计只能沿着这两类场景而展开。而本发明的数据集则是完全手工标记,场景类型更加多样,问题更加丰富,基于该数据集训练出的问答模型会更加智能。
75.第二方面,增加了以问题导向的图像特征融合机制。问题中往往会包含涉及到图像的场景理解或者局部的目标的语义信息,因此加入了以问题的语义为导向的图像特征融合机制,更好的关注与问题的语义相关的图像特征,提高模型问答的精度。
76.第三方面,注意力机制可使得答案预测模型关注的问题相关的图像区域,且可视化模型对图像和问题的理解程度。
77.进一步的,发明人对本发明实施例提供的模型效果进行了验证。具体的实验过程如下。
78.1.实验条件
79.本发明是在中央处理器为i5-9400f 2.9ghz cpu、gtx 1660t 6g gpu、内存16g、windows 10操作系统上,运用python语言编程实现。模型中还涉及到了深度学习框架,本实验所采用的深度学习框架为tensorflow 1.14。实验中使用的数据均为人工标记。
80.2.实验内容
81.模型精度的评定,采用方式是计算正确预测答案占所有答案的比例。相应的模型参数设置如下:
82.训练过程中,batch size(批次大小)设置为8,训练100个epoch(周期),为了防止过拟合设置dropout为0.5,优化器选择adamoptimizer,学习率设置为0.0005。输入图像大小为448
×
448
×
3像素,输入的问题单词长度设置为18。先将问题单词编码为向量,然后将输入的单词和问题向量分别输入到vgg16和lstm中,获得56
×
56
×
832的图像特征和2048维的问题特征。
83.为验证本发明的有效性,我们将发表在ieee tgrs期刊上“lobry s.,marcos d.,murray j.and tuia d.“rsvqa:visual question answering for remote sensing data”ieee transactions on geoscience and remote sensing,2020.”,同样做遥感影像视觉问答的模型rsvqa进行比较,该模型较为简单,图像特征提取模块采用resnet-152网络,文
本特征提取采用skip thought,特征直接相乘获得融合特征。而本发明实施例所提出的模型引入了问题导向,以指导不同尺度图像特征的融合,提取的图像特征包含和问题语义相关的视觉特征,更适合于遥感图像的视觉问答,最终模型的精度为比较结果如下表1:
[0084][0085][0086]
表1
[0087]
从表1可见,相较于rsvqa,本发明实施例所提出的模型精度更高,由于引入了问题导向以指导图像特征融合,因此更能有效获得和问题语义相关的视觉特征,这样问答的精度更高,且问答的类型更加丰富。更适合于遥感影像的视觉问答。
[0088]
如图4所示,为本发明实施例提供的一种图像问答的方法。本发明实施例所提供的方法可应用在电子设备上,具体可以应用于服务器或一般计算机上。本实施例中,所述方法具体包括以下步骤:
[0089]
步骤401、确定图像。
[0090]
在实际应用中,会设计好图像库、问题库和答案库。对应的,该图像为图像库中相关的图像,或者,存在问题库中的问题和答案库中存在该问题的答案的图像。
[0091]
作为一种可行的实现方式,图像可以为遥感图像,比如可以为居民区图像、农田图像、森林图像等,本实施例对此不做限定,具体可结合实际需求确定。
[0092]
步骤402、确定图像的问题对应的问题向量。
[0093]
在实际应用中,基于设计好的问题库和答案库,确定词向量库,基于词向量库中的词向量将图像的问题编码为问题向量。详细内容参见上文,此处不做过多赘述。
[0094]
示例地,图像的问题可以为局部问题,通常为图像中的目标相关的问题。
[0095]
示例地,图像的问题可以为全局问题,通常为图像整体表达的内容相关问题。比如,图像的场景是什么,图像中的植被处于什么季节。
[0096]
步骤403、对问题向量进行文本特征提取,确定问题向量对应的文本特征。
[0097]
作为一种可行的实现方式,通过图像特征模型提取图像的图像特征,将图像特征模型的输出的多个尺度各自的特征作为图像特征。
[0098]
详细内容参见上文,此次不做过多赘述。
[0099]
步骤404、对图像进行图像特征提取,确定图像对应的图像特征。
[0100]
作为一种可行的实现方式,对图像进行图像特征提取,确定不同尺度的多个第一特征;对文本特征进行语义分析,确定多个第一特征各自对应的语义权重;基于多个第一特征各自对应的语义权重和多个第一特征,确定图像特征。该实现方式中由于引入了问题导向以指导特征的关注重点,因此更能有效获得和问题相关的图像特征。其中,图像特征指示了不同尺度的特征和问题之间的关系,比如,尺度的语义权重越大则说明该尺度下的特征和问题之间的相关性越高,从而便于更为准确的确定出图像中与问题相关的区域的语义。
[0101]
在一个例子中,图像特征包括满足预设尺度的多个第二特征。具体可通过如下实现方式确定图像特征:
[0102]
对于多个第一特征的各图,基于第一特征对应的语义权重对第一特征进行加权,当第一特征的尺度不满足预设尺度时,对加权后的第一特征进行采样,确定满足预设尺度的第二特征;当第一特征的尺度满足预设尺度时,将加权后的第一特征作为第二特征。
[0103]
在实际应用中,将图像输入到图像特征提取模型中,即可确定图像特征提取模型输出的图像特征。
[0104]
详细内容参见上文,此次不做过多赘述。
[0105]
步骤405、对文本特征和图像特征进行融合,确定融合特征,融合特征指示了图像中不同区域和问题之间的相关性。
[0106]
本步骤,通过对文本特征和图像特征的分析,从而寻找图像中的区域和问题之间的关系,后续可针对相关的区域的内容理解问题的答案。
[0107]
作为一种可行的实现方式,将图像特征拉伸为第一向量;基于第一向量和文本特征进行向量拼接,确定第二向量;对第二向量进行矩阵化,确定融合特征;其中,融合特征的尺度和图像特征的尺度相同。
[0108]
详细内容参见上文,此次不做过多赘述。
[0109]
步骤406、基于融合特征和图像特征进行分类以理解图像中和问题相关的区域的语义,确定图像对应的问题的答案。
[0110]
本步骤,通过图像中的区域和问题之间的关系,后续可针对图像中问题相关的区域进行分析理解,从而可较为准确的回答问题。
[0111]
在实际应用中,会建立答案库,答案库中每个答案具有不同的答案编号。
[0112]
作为一种可行的实现方式,基于图像特征进行分类,确定图像中不同区域的语义;基于融合特征对图像中不同区域的语义进行关注以理解图像中和问题相关的区域的语义,确定图像对应的问题的答案。
[0113]
在一个例子中,将融合特征和图像特征输入答案预测模型中进行分类后对分类结果进行非线性激活,确定概率分布,概率分布指示了答案库中各答案编号各自对应的概率;基于概率分布确定图像对应的问题的答案,比如,对预设多个答案编号各自对应的概率进行排序取最高值,便能答案在答案库中的编码,基于答案库中该编号对应的答案,得到图像对应的问题的答案。
[0114]
通过以上技术方案可知,本实施例存在的有益效果是:
[0115]
可将文本特征和图像特征进行融合,确定图像中的不同区域和问题之间的关系,基于该关系进行答案预测,从而提高问答的准确性。
[0116]
基于与本发明方法实施例相同的构思,请参考图5,本发明实施例还提供了一种图像问答的装置,包括:
[0117]
图像确定模块501,用于确定图像;
[0118]
向量确定模块502,用于确定所述图像的问题对应的问题向量;
[0119]
文本特征提取模块503,用于对所述问题向量进行文本特征提取,确定所述问题向量对应的文本特征;
[0120]
图像特征提取模块504,用于对所述图像进行图像特征提取,确定所述图像对应的图像特征;
[0121]
融合模块505,用于对所述文本特征和所述图像特征进行融合,确定融合特征;其
中,所述融合特征指示了所述图像中和所述问题相关的区域的特征;
[0122]
答案预测模块506,用于基于所述融合特征和所述图像特征进行分类以理解所述图像中和所述问题相关的区域的语义,确定所述图像对应的问题的答案。
[0123]
作为一种可行的实现方式,所述图像特征提取模块504,包括:第一特征确定单元、语义分析单元和第二特征单元;其中,
[0124]
所述第一图确定单元,用于对所述图像进行图像特征提取,确定不同大小的多个第一特征;
[0125]
所述语义分析单元,用于对所述文本特征进行语义分析,确定所述多个第一特征各自对应的语义权重;
[0126]
所述第二特征确定单元,用于基于所述多个第一特征各自对应的语义权重和所述多个第一特征,确定图像特征。
[0127]
作为一种可行的实现方式,所述图像特征包括满足预设尺度的多个第二特征,所述第二特征确定单元,包括:加权采样子单元;其中,
[0128]
所述加权采样子单元,用于对于所述多个第一特征的各图,基于所述第一特征对应的语义权重对所述第一特征进行加权,当第一特征的尺度不满足预设尺度时,对加权后的第一特征进行采样,确定满足预设尺度的第二特征;当第一特征的尺度满足预设尺度时,将加权后的第一特征作为第二特征。
[0129]
作为一种可行的实现方式,所述答案预测模块506,包括:图像理解单元和答案理解单元;其中,
[0130]
所述图像理解单元,用于基于所述图像特征进行分类,确定所述图像中不同区域的语义;
[0131]
所述答案理解单元,用于基于所述融合特征对所述图像中不同区域的语义进行关注以理解所述图像中和所述问题相关的区域的语义,确定所述图像对应的问题的答案。
[0132]
作为一种可行的实现方式,所述融合模块505,包括:拉伸单元、拼接单元和矩阵子单元;其中,
[0133]
所述拉伸单元,用于将所述图像特征拉伸为第一向量;
[0134]
所述拼接单元,用于对所述第一向量和所述文本特征进行向量拼接,确定第二向量;
[0135]
所述矩阵化单元,用于对所述第二向量进行矩阵化,确定融合特征;其中,所述融合特征的尺度为第二预设尺度。
[0136]
作为一种可行的实现方式,所述问题为全局问题或局部问题。
[0137]
作为一种可行的实现方式,所述局部问题指示了所述图像中的目标,所述全局问题指示了所述图像的场景。
[0138]
作为一种可行的实现方式,所述装置还包括问答模型确定模块;其中,
[0139]
所述问答模型确定模块,用于确定问答模型,所述问答模型包括图像特征提取模型、文本特征提取模型、融合模型和答案预测模型;其中,所述图像特征提取模型用于对所述图像进行图像特征提取,确定所述图像对应的图像特征;所述文本特征提取模型用于对所述问题向量进行文本特征提取,确定所述问题向量对应的文本特征;所述融合模型用于对所述文本特征和所述图像特征进行融合,确定融合特征;其中,所述融合特征指示了所述
图像中和所述问题相关的区域的特征;所述答案预测模型用于对所述融合特征中所述问题相关的区域进行检测,确定所述图像对应的问题的答案。
[0140]
作为一种可行的实现方式,所述装置还包括标注答案确定模块和训练模块;其中,
[0141]
所述标注答案确定模块,用于确定所述图像的问题对应的标注答案;
[0142]
所述训练模块,用于基于所述图像的问题对应的答案和标注答案之间的误差,对所述问答模型进行训练。
[0143]
图6是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器601以及存储有执行指令的存储器602,可选地还包括内部总线603及网络接口604。其中,存储器602可能包含内存6021,例如高速随机存取存储器(random-access memory,ram),也可能还包括非易失性存储器6022(non-volatile memory),例如至少1个磁盘存储器等;处理器601、网络接口604和存储器602可以通过内部总线603相互连接,该内部总线603可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等;内部总线603可以分为地址总线、数据总线、控制总线等,为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。当然,该电子设备还可能包括其他业务所需要的硬件。当处理器601执行存储器602存储的执行指令时,处理器601执行本发明任意一个实施例中的方法,并至少用于执行如图1或图4所示的方法。
[0144]
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成一种图像问答的装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任实施例中提供的一种图像问答的方法。
[0145]
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0146]
本发明实施例还提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行执行指令时,所述处理器执行本发明任意一个实施例中提供的方法。该电子设备具体可以是如图6所示的电子设备;执行指令是一种图像问答的装置所对应计算机程序。
[0147]
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
[0148]
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0149]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0150]
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献