图像描述信息的生成方法及其系统、电子设备及存储介质与流程

2022-10-12 14:15:58 来源：中国专利 TAG：

1.本发明涉及人工智能领域，具体而言，涉及一种图像描述信息的生成方法及其系统、电子设备及存储介质。

背景技术：

2.随着人工智能技术的快速发展，深度学习技术正在凭借结构复杂的神经网络，以学习能力可随着数据规模的增加而不断提升其性能，以及可以直接从海量数据中提取特征等技术优势，为各行各业提供智能创新场景，如图像描述生成场景。
3.相关技术中，针对图像描述生成这一任务，往往采用encoder-decoder模型(编码器-解码器模型)框架作为底层架构来构建描述生成模型。图像描述生成任务分为encoder和decoder两部分，即使用cnn(卷积神经网络)网络对输入图片进行解析、物体识别，并将图像信息编码，传入decoder解码器中，解码器内使用基于rnn(循环神经网络)网络(如，lstm(长短时记忆神经网络)、bilstm(双向长短时记忆神经网络)等神经网络)的网络模型对图片编码信息解码，并生成对应的文字描述。
4.当前的图像描述方法虽然可以将图片内所含行为信息与物体信息表达出来，但具有如下缺陷：(1)情感分析歧义：由于大部分形容词没有极性，只有搭配名词才会出现极性，因此，会存在逻辑歧义，例如，对于“大”这个形容词，“屏幕大”则倾向为正面表述，但“噪音大”，却倾向为负面表示；对于“高”这个形容词，“性价比高”，则为正面表述，但“油价高”，则为负面表述等。(2)语义混乱、缺失：由于单张图片缺少上下文信息参考，所以往往在生成图片描述的时候会发生主次对象颠倒、动作归属错误的问题，例如，小马骑人、天空在海洋里、人在马肚子里行走等不符合逻辑的错误描述。
5.因此，亟需找到能够解决由于图像描述生成的文本逻辑混乱、翻译语句不符合语言语法规则，导致生成的描述需要反复修改，造成效率低下、精准度低的问题的有效解决方案。
6.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

7.本发明实施例提供了一种图像描述信息的生成方法及其系统、电子设备及存储介质，以至少解决相关技术中生成的图像描述信息存在逻辑混乱以及情感分析容易出现歧义的技术问题。
8.根据本发明实施例的一个方面，提供了一种图像描述信息的生成方法，包括：接收待处理图像，并对所述待处理图像进行分割，得到多张分割后的子图像；基于所述子图像以及每张所述子图像对应的图像序列信息，构建初始特征向量；向所述初始特征向量注入预设权重信息，得到权重特征向量；对所述权重特征向量进行解码，生成候选信息序列，并解析所述候选信息序列，得到多个图像描述信息，其中，每个所述图像描述信息对应有一个信息评估分值；选取最高评估分值表征的图像描述信息作为所述待处理图像的目标图像描述
信息。
9.可选地，在接收待处理图像之后，还包括：获取预设图像信息，其中，所述预设图像信息包括下述至少之一：颜色、边界、灰度；基于所述预设图像信息，对所述待处理图像进行预处理。
10.可选地，对所述待处理图像进行分割，得到多张分割后的子图像的步骤，包括：对所述待处理图像进行识别，得到目标信息，其中，所述目标信息包括下述至少之一：物体、场景；基于所述目标信息，对所述待处理图像进行分割，得到多张分割后的所述子图像。
11.可选地，在向所述初始特征向量注入预设权重信息，得到权重特征向量之后，还包括：在所述待处理图像为连续图像集合中的某一中间图像的情况下，接收前一图像的编码信息，其中，所述中间图像为所述连续图像集合中除了开始图像的任何一张图像，所述前一图像为在所述连续图像集合的时间序列上，相对于所述待处理图像所处时间的前一时间的图像；将所述编码信息注入到所述权重特征向量，得到目标权重特征向量。
12.可选地，在将所述编码信息注入到所述权重特征向量，得到目标权重特征向量之后，还包括：基于预设降维策略，对所述目标权重特征向量进行降维，得到降维特征向量；判断所述降维特征向量是否存在相似分类关系，得到判断结果，其中，所述相似分类关系是指存在权重值相等的图像描述信息；在所述判断结果指示所述降维特征向量存在相似分类关系的情况下，将所述前一图像中的图像描述信息作为所述待处理图像中的图像描述信息。
13.可选地，在解析所述候选信息序列，得到多个图像描述信息之后，还包括：基于预设评估策略，对所述多个图像描述信息进行评估，得到每个所述图像描述信息对应的信息评估分值；对所述信息评估分值进行排序，得到排序结果；基于所述排序结果，选择位于预设位数之前的所有所述信息评估分值为目标评估分值；在所述待处理图像不是所述连续图像集合中最后一张图像的情况下，将所述目标评估分值指示的图像描述信息的编码信息传入下一张图像的图像描述信息生成过程中。
14.根据本发明实施例的另一方面，还提供了一种图像描述信息的生成系统，包括：图像信息解析模块，用于接收待处理图像，并对所述待处理图像进行分割，得到多张分割后的子图像，基于所述子图像以及每张所述子图像对应的图像序列信息，构建初始特征向量，将所述初始特征向量传送至图像信息编码模块；图像信息编码模块，与所述图像信息解析模块连接，用于接收所述初始特征向量，并向所述初始特征向量注入预设权重信息，得到权重特征向量，将所述权重特征向量传送至信息编码处理模块；语法检查评估模块，与所述图像信息编码模块以及图像描述生成模块连接，用于向所述图像信息编码模块传输所述预设权重信息，并接收所述图像描述生成模块传送的图像描述信息，对所述图像描述信息进行评估，将得到的信息评估分值返回至所述图像描述生成模块；信息编码处理模块，与所述图像信息编码模块连接，用于接收所述权重特征向量，并对所述权重特征向量进行解码，生成候选信息序列，并将所述候选信息序列传送至所述图像描述生成模块；图像描述生成模块，与所述信息编码处理模块连接，用于接收所述候选信息序列，并解析所述候选信息序列，得到多个图像描述信息，选取最高评估分值表征的图像描述信息作为所述待处理图像的目标图像描述信息，其中，每个所述图像描述信息对应有一个信息评估分值。
15.可选地，所述语法检查评估模块包括：权重信息处理单元，用于接收所述预设权重信息，其中，所述预设权重信息至少包括：动作权重信息、位置权重信息、主从权重信息；继
承信息处理单元，用于在所述待处理图像为连续图像集合中的某一中间图像的情况下，接收前一图像的编码信息，并将所述编码信息注入到所述权重特征向量，其中，所述中间图像为所述连续图像集合中除了开始图像的任何一张图像，所述前一图像为在所述连续图像集合的时间序列上，相对于所述待处理图像所处时间的前一时间的图像；图像描述评估单元，用于基于预设评估策略，对所述图像描述信息进行评估，得到每个所述图像描述信息对应的信息评估分值。
16.根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述所述的图像描述信息的生成方法。
17.根据本发明实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述所述的图像描述信息的生成方法。
18.在本公开中，接收待处理图像，并对待处理图像进行分割，得到多张分割后的子图像，基于子图像以及每张子图像对应的图像序列信息，构建初始特征向量，向初始特征向量注入预设权重信息，得到权重特征向量，对权重特征向量进行解码，生成候选信息序列，并解析候选信息序列，得到多个图像描述信息，选取最高评估分值表征的图像描述信息作为待处理图像的目标图像描述信息。在本技术中，可通过向得到的初始特征向量注入预设权重信息，以构建权重特征向量，然后对权重特征向量进行解码，生成候选信息序列，并解析候选信息序列，得到多个图像描述信息，之后通过对图像描述信息进行评估，选择评估分值最高的图像描述信息为待处理图像的目标图像描述信息，不仅可以有效避免生成的图像描述信息存在逻辑混乱以及情感分析歧义的缺陷，还可以提高生成效率以及生成精准度，进而解决了相关技术中生成的图像描述信息存在逻辑混乱以及情感分析容易出现歧义的技术问题。
附图说明
19.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
20.图1是根据本发明实施例的一种可选的图像描述信息的生成方法的流程图；
21.图2是根据本发明实施例的一种可选的图像描述信息的生成系统的示意图；
22.图3是根据本发明实施例的一种可选的图像信息解析模块1结构的示意图；
23.图4是根据本发明实施例的一种可选的图像信息编码模块2结构的示意图；
24.图5是根据本发明实施例的一种可选的语法检查评估模块3结构的示意图；
25.图6是根据本发明实施例的一种可选的信息编码处理模块4结构的示意图；
26.图7是根据本发明实施例的一种可选的图像描述生成模块5结构的示意图；
27.图8是根据本发明实施例的一种可选的图像描述生成处理流程的示意图；
28.图9是根据本发明实施例的一种用于图像描述信息的生成方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
29.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
30.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
31.为便于本领域技术人员理解本发明，下面对本发明各实施例中涉及的部分术语或名词做出解释：
32.卷积神经网络(convolutional neural networks，简称cnn)，是一类包含卷积计算且具有深度结构的前馈神经网络(feedforword neural networks),是深度学习的代表算法之一。卷积神经网络具有表征学习(representatiuon learning)能力，能够按其阶层结构对输入信息进行平移不变分类。
33.循环神经网络(recurrent neural network，简称rnn)，是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接为递归神经网络(recursive neural network)。
34.长短时记忆神经网络(long short-term memory，简称lstm)，是一种时间循环神经网络，用于解决一般的rnn存在的问题，一般的rnn都具有一种重复神经网络模块并以链式形式相连。
35.双向长短时记忆神经网络(bidirectional long short-term memory，简称bilstm)，该网络由前向lstm与后向lstm组合而成，用于深层次编码信息提取。
36.注意力机制(attention机制)，即一种能让模型对重要信息重点关注并充分学习、提取其中信息的技术，注意力机制适用于任何序列模型中。
37.编码器-解码器(encoder-decoder)网络模型，是深度学习中常见的一种模型框架，编码器和解码器部分可以是任意的文字、语音、图像和视频等，模型则可以采用cnn、rnn、brnn(双向循环神经网络)和gru(循环神经网络)等多种结构，为多种网络模型提供end-to-end(端对端)学习框架。
38.高维数据可视化，当对高维数据进行数据分析的时候，因数据无法在高维空间被清晰分类而使用数据降维算法，以此让数据在低维空间的特征分布清晰可见。
39.双语互译质量辅助工具(bilingual evaluation understudy，简称bleu)，一种用于机器翻译结果的评价指标，其总体思想为准确率。
40.图像描述生成(image caption)，可让算法根据输入的一幅图或一个视频自动生成对应的描述性文字，描述文字为完整的一段话或一句话，以描述当前图片发生的事、存在
的物体等。
41.需要说明的是，本公开中的图像描述信息的生成方法及其系统可用于人工智能领域在生成图像描述信息的情况下，也可用于除人工智能领域之外的任意领域在生成图像描述信息的情况下，本公开中对图像描述信息的生成方法及其系统的应用领域不做限定。
42.需要说明的是，本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。例如，本系统和相关用户或机构间设置有接口，在获取相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取相关信息。
43.本发明下述各实施例可应用于各种生成图像描述信息的系统/应用/设备中。本发明下述各实施例中的图像描述生成作为深度学习在图像理解与动态目标检测的新兴场景，能够在新闻稿生成、视频字幕处理和残疾人辅助阅读(比如，聋哑人看电影)等方面均有技术应用。
44.本发明通过权重信息注入机制，能够对生活中常见的逻辑动作、场景、位置等信息进行权重处理(例如，“人骑马”比“马骑人”更合理，因此“人骑马”的权重更高；“太阳在地平线上”比“太阳在地平线下”更容易发生，因此“太阳在地平线上”的权重更高)，并将权重信息注入编码信息中，可以有效避免偏离逻辑的图像描述信息生成。通过编码继承机制，能够对视频、一系列连续图片描述生成任务等提供一种上下文参考，通过使用上文编码信息作为本次描述生成信息的参考，可以解决权重信息注入机制处理不了的主次问题(例如，图像描述是“男生抱起了女生”，但“女生抱起男生”也具有相同权重，但通过继承的编码信息得知，是“男生抱起了女生”，则本幅画面在抱起动作权重中偏向参考“男生抱起女生”这一编码结果，即本发明若通过向量空间降维发现存在相似分类关系，则确定本次图像描述信息与上次图像描述信息相似)，并将生成结果继承于下一次图像描述任务中。
45.通过评价机制，能够对生成的描述信息使用预设评估方法(如，采用bleu进行评估)进行打分，使得生成信息质量得以保证，并且该评估方法的参考(reference)库可以通过人工导入和自身循环积累，为整套图像描述生成系统提供了自学习能力，保障了生成的描述信息质量。
46.本发明基于上述机制，可以使图像描述生成的信息具有更高质量、更加符合自然语言语法规则，并能够有效减少人为修订次数，从而提升了图像描述信息生成效率以及精准度。
47.下面结合各个实施例来详细说明本发明。
48.实施例一
49.根据本发明实施例，提供了一种图像描述信息的生成方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
50.图1是根据本发明实施例的一种可选的图像描述信息的生成方法的流程图，如图1所示，该方法包括如下步骤：
51.步骤s101，接收待处理图像，并对待处理图像进行分割，得到多张分割后的子图
像。
52.步骤s102，基于子图像以及每张子图像对应的图像序列信息，构建初始特征向量。
53.步骤s103，向初始特征向量注入预设权重信息，得到权重特征向量。
54.步骤s104，对权重特征向量进行解码，生成候选信息序列，并解析候选信息序列，得到多个图像描述信息，其中，每个图像描述信息对应有一个信息评估分值。
55.步骤s105，选取最高评估分值表征的图像描述信息作为待处理图像的目标图像描述信息。
56.通过上述步骤，可以接收待处理图像，并对待处理图像进行分割，得到多张分割后的子图像，基于子图像以及每张子图像对应的图像序列信息，构建初始特征向量，向初始特征向量注入预设权重信息，得到权重特征向量，对权重特征向量进行解码，生成候选信息序列，并解析候选信息序列，得到多个图像描述信息，选取最高评估分值表征的图像描述信息作为待处理图像的目标图像描述信息。在本发明实施例中，可通过向得到的初始特征向量注入预设权重信息，以构建权重特征向量，然后对权重特征向量进行解码，生成候选信息序列，并解析候选信息序列，得到多个图像描述信息，之后通过对图像描述信息进行评估，选择评估分值最高的图像描述信息为待处理图像的目标图像描述信息，不仅可以有效避免生成的图像描述信息存在逻辑混乱以及情感分析歧义的缺陷，还可以提高生成效率以及生成精准度，进而解决了相关技术中生成的图像描述信息存在逻辑混乱以及情感分析容易出现歧义的技术问题。
57.下面结合上述各步骤对本发明实施例进行详细说明。
58.步骤s101，接收待处理图像，并对待处理图像进行分割，得到多张分割后的子图像。
59.可选的，对待处理图像进行分割，得到多张分割后的子图像的步骤，包括：对待处理图像进行识别，得到目标信息，其中，目标信息包括下述至少之一：物体、场景；基于目标信息，对待处理图像进行分割，得到多张分割后的子图像。
60.在本发明实施例中，可以通过图像信息解析模块接收待处理图像，之后，对该待处理图像进行识别，依据识别到的目标信息(包括：物体、场景等)，将该待处理图像中的物体、场景等信息进行分割，得到多张分割后的子图像。
61.可选的，在接收待处理图像之后，还包括：获取预设图像信息，其中，预设图像信息包括下述至少之一：颜色、边界、灰度；基于预设图像信息，对待处理图像进行预处理。
62.在本发明实施例中，可以先根据需要使用的模型的识别要求，获取预设图像信息(包括：颜色、边界、灰度等信息)，然后，按照预设图像信息，对待处理图像进行预处理，即按照颜色、边界、灰度等信息，对待处理图像进行裁剪、灰阶或颜色等画面信息提取，使该待处理图像其符合需要使用的模型的识别要求。
63.步骤s102，基于子图像以及每张子图像对应的图像序列信息，构建初始特征向量。
64.在本发明实施例中，可以使用基于cnn网络训练的模型对分割后的子图像进行信息识别，并依据识别得到的每张子图像对应的图像序列信息以及每张子图像，构建初始特征向量，得到初始向量空间。
65.步骤s103，向初始特征向量注入预设权重信息，得到权重特征向量。
66.在本发明实施例中，可以通过图像信息编码模块接收语法检查评估模块提供的预
设权重信息(例如，物体与动作权重信息，如“人牵着狗”比“狗牵着人”的权重高)，并将预设权重信息注入到初始特征向量(即初始向量空间中的每个图像序列信息的具体目标子序列中)，从而得到权重特征向量(将为初始向量空间注入权重信息，得到权重向量空间)。
67.可选的，在向初始特征向量注入预设权重信息，得到权重特征向量之后，还包括：在待处理图像为连续图像集合中的某一中间图像的情况下，接收前一图像的编码信息，其中，中间图像为连续图像集合中除了开始图像的任何一张图像，前一图像为在连续图像集合的时间序列上，相对于待处理图像所处时间的前一时间的图像；将编码信息注入到权重特征向量，得到目标权重特征向量。
68.在本发明实施例中，在待处理图像为连续图像集合中的某一中间图像(该中间图像为连续图像集合中除了开始图像的任何一张图像，前一图像为在连续图像集合的时间序列上，相对于待处理图像所处时间的前一时间的图像，即该待处理图像时视频或一系列图像中的某一张图像)的情况下，可以通过语法检查评估模块接收前一图像的编码信息，并将该编码信息传输到信息编码处理模块，这样信息编码处理模块就可以一上一张图像的编码信息作为上文参考，将该编码信息注入到权重特征向量，得到目标权重特征向量(该目标权重特征向量包括本次图像的编码信息，并可以将本次图像的编码信息传递给下一张图像的描述信息生成过程中)，如此，能够实现在流式图像处理中(即视频或一系列图像中的某一张图像处理中)上下文信息的提取与传承，并提供部分语法规约参考的作用。
69.可选的，在将编码信息注入到权重特征向量，得到目标权重特征向量之后，还包括：基于预设降维策略，对目标权重特征向量进行降维，得到降维特征向量；判断降维特征向量是否存在相似分类关系，得到判断结果，其中，相似分类关系是指存在权重值相等的图像描述信息；在判断结果指示降维特征向量存在相似分类关系的情况下，将前一图像中的图像描述信息作为待处理图像中的图像描述信息。
70.在本发明实施例中，信息编码处理模块在将编码信息注入到权重特征向量之后，可以基于预设降维策略(如pca(principal component analysis)降维)，对目标权重特征向量进行降维，得到降维特征向量，如果经高维空间降维后，发现存在相似分类关系，则判定待处理图像中的图像描述信息与上次图像描述信息相似，并参考上此语法编码结构(即判断降维特征向量是否存在相似分类关系，得到判断结果，该相似分类关系是指存在权重值相等的图像描述信息，在判断结果指示降维特征向量存在相似分类关系的情况下，将前一图像中的图像描述信息作为待处理图像中的图像描述信息)。例如，当图像描述是“男生抱起了女生”，但“女生抱起男生”也具有相似权重，但通过继承信息得知，是“男生抱起了女生”，则当前图像在抱起动作权重中偏向参考“男生抱起女生”这一编码结果。
71.步骤s104，对权重特征向量进行解码，生成候选信息序列，并解析候选信息序列，得到多个图像描述信息，其中，每个图像描述信息对应有一个信息评估分值。
72.在本发明实施例中，可以基于rnn的bilstm网络模型对权重特征向量进行识别解码，并生成对应的一组候选信息序列，之后，可以采用bilstm模型，对候选信息序列进行解析，生成多个图像描述信息，并输出到语法检查评估模块进行评估，从而可以使得每个图像描述信息对应有一个信息评估分值。
73.可选的，在解析候选信息序列，得到多个图像描述信息之后，还包括：基于预设评估策略，对多个图像描述信息进行评估，得到每个图像描述信息对应的信息评估分值；对信
息评估分值进行排序，得到排序结果；基于排序结果，选择位于预设位数之前的所有信息评估分值为目标评估分值；在待处理图像不是连续图像集合中最后一张图像的情况下，将目标评估分值指示的图像描述信息的编码信息传入下一张图像的图像描述信息生成过程中。
74.在本发明实施例中，可以采用预设评估策略(如bleu评估)，对多个图像描述信息进行评估，得到每个图像描述信息对应的信息评估分值，之后，对信息评估分值进行排序，选择位于预设位数之前(例如，分数最高的前三名)的所有信息评估分值为目标评估分值，并且在待处理图像不是连续图像集合中最后一张图像的情况下，将目标评估分值指示的图像描述信息的编码信息传入下一张图像的图像描述信息生成过程中，作为上下文参考。
75.步骤s105，选取最高评估分值表征的图像描述信息作为待处理图像的目标图像描述信息。
76.在本发明实施例中，可以将最高评估分值表征的图像描述信息作为待处理图像的最终图像描述信息，并进行展示。
77.本发明实施例中，提供了一种带有语法检查以及评估的图像描述信息生成方法，能够解决当前的生成方法虽然可以根据图片所含信息形成文字描述，但因缺少语法检查与语法参考导致的情感分析歧义与语义混乱、缺失等问题，并且，能够使生成的图像描述信息具有更高质量、更加符合自然语言语法规则，也可以减少人为修订次数，从而提升了图像描述信息生成效率以及精准度。
78.实施例二
79.图2是根据本发明实施例的一种可选的图像描述信息的生成系统的示意图，如图2所示，该生成系统可以包括：图像信息解析模块1，图像信息编码模块2，语法检查评估模块3，信息编码处理模块4，图像描述生成模块5，其中，
80.图像信息解析模块1，用于接收待处理图像，并对待处理图像进行分割，得到多张分割后的子图像，基于子图像以及每张子图像对应的图像序列信息，构建初始特征向量，将初始特征向量传送至图像信息编码模块；
81.图像信息编码模块2，与图像信息解析模块连接，用于接收初始特征向量，并向初始特征向量注入预设权重信息，得到权重特征向量，将权重特征向量传送至信息编码处理模块；
82.语法检查评估模块3，与图像信息编码模块以及图像描述生成模块连接，用于向图像信息编码模块传输预设权重信息，并接收图像描述生成模块传送的图像描述信息，对图像描述信息进行评估，将得到的信息评估分值返回至图像描述生成模块；
83.信息编码处理模块4，与图像信息编码模块连接，用于接收权重特征向量，并对权重特征向量进行解码，生成候选信息序列，并将候选信息序列传送至图像描述生成模块；
84.图像描述生成模块5，与信息编码处理模块连接，用于接收候选信息序列，并解析候选信息序列，得到多个图像描述信息，选取最高评估分值表征的图像描述信息作为待处理图像的目标图像描述信息，其中，每个图像描述信息对应有一个信息评估分值。
85.在本发明实施例中，图像信息解析模块1与图像信息编码模块2相连；图像信息编码模块2与语法检查评估模块3、信息编码处理模块4相连；语法检查评估模块3与信息编码处理模块4、图像信息编码模块2以及图像描述生成模块5相连；信息编码处理模块4与图像描述生成模块5相连，各模块的具体功能如下：
86.图像信息解析模块1，为encoder编码器部分，可以由cnn网络组成，可用于对输入图片与训练图片进行解析，并按照颜色、边界和灰度等图像信息对图像进行分割处理，最后将分析处理后的图像传递给图像信息编码模块2。
87.图像信息编码模块2，为encoder编码器部分，可以由cnn网络组成，可用于将图像按照解析后的分割信息进行编码，并形成包含图像信息的特征向量。
88.语法检查评估模块3，可用于将预先定义的带权重的语法信息(即权重信息，例如，“人骑马”的动作权重高，但“马骑人”的动作权重低，以语法信息来减少语义逻辑错误))向量注入图像信息编码模块2产生的向量空间中，并接收上一张图像(如果具有上一张图像)的编码信息，并注入信息编码处理模块中作为参考，同时，会对图像描述生成模块产生的图像描述信息进行评估，并给出评估分数，将分数最高的前预设名(如，前三名)的编码信息输送至下一张图像(如果具有下一张图像)评估中作为参考。
89.信息编码处理模块4，可以基于rnn网络模型的bilstm组成(为decoder解码器部分)，可用于对图像信息编码模块2编码生成的特征向量进行解码，并生成对应候选信息序列，同时从语法检查评估模块3中接收上一图像的编码信息作为生成候选信息序列的参考，最终将生成的候选信息序列传入图像描述生成模块5。
90.图像描述生成模块5，可以基于rnn网络模型的bilstm组成，可用于将候选信息序列解析为图像描述信息，并将图像描述信息传回语法检查评估模块3进行评估，并生成对应评估分数，将最高评估分数表征的图像描述信息作为最终图像描述进行展示。
91.图3是根据本发明实施例的一种可选的图像信息解析模块1结构的示意图，如图3所示，图像信息解析模块1包括：图像画面处理单元11、图像画面分割单元12、图像信息识别单元13，其中，
92.图像画面处理单元11可以将输入图像按照预设裁剪信息、灰阶信息和颜色信息等图像信息进行提取，使输入图像符合所需要使用的模型的识别要求。
93.图像画面分割单元12可以将处理过后的输入图像进行目标信息(包括：物体、场景等信息)识别，将图像中的物体、场景等信息进行分割。
94.图像信息识别单元13可以使用基于cnn网络训练的模型对分割后的图像进行信息识别，并将识别后的图像序列信息递送图像信息编码模块2。
95.图4是根据本发明实施例的一种可选的图像信息编码模块2结构的示意图，如图4所示，图像信息编码模块2包括：图像信息接收单元21、权重信息处理单元22、模型编码单元23，其中，
96.图像信息接收单元21可以接收图像信息解析模块1提供的识别后的图像序列信息。
97.权重信息处理单元22可以接收语法检查评估模块3提供的物体与动作权重信息(如，“人牵着狗高”的权重比“狗牵着人”的权重高)，并将权重信息注入图像序列信息的具体目标子序列中。
98.模型编码单元23可以将cnn模型识别后的加权图像信息进行编码，即可以通过动作、位置权重与图像序列信息，将图像编码为权重特征向量。
99.可选的，语法检查评估模块包括：权重信息处理单元，用于接收预设权重信息，其中，预设权重信息至少包括：动作权重信息、位置权重信息、主从权重信息；继承信息处理单
元，用于在待处理图像为连续图像集合中的某一中间图像的情况下，接收前一图像的编码信息，并将编码信息注入到权重特征向量，其中，中间图像为连续图像集合中除了开始图像的任何一张图像，前一图像为在连续图像集合的时间序列上，相对于待处理图像所处时间的前一时间的图像；图像描述评估单元，用于基于预设评估策略，对图像描述信息进行评估，得到每个图像描述信息对应的信息评估分值。
100.本实施例中，图5是根据本发明实施例的一种可选的语法检查评估模块3结构的示意图，如图5所示，语法检查评估模块3包括：权重信息处理单元31、继承信息处理单元32、图像描述评估单元33，其中，
101.权重信息处理单元31可用于接收预先定义的权重信息，该权重信息内包括：动作权重、位置权重与主次权重等权重信息，可以按照该动作、位置和主次等现实生活中越常见则权重越高的规则生成权重信息，并注入图像序列信息中。
102.继承信息处理单元32可用于接收上一幅图像(如有上一幅图像)的编码信息，并将其注入信息编码处理模块4，为当前图像的信息编码提供上下文参考，之后也可以将本次编码信息继承到下次信息编码(如有下一幅图像)处理中，作为上下文参考，从而可以实现在流式图像处理中上下文信息的提取与传承，并提供部分语法规约参考。
103.图像描述评估单元33可以对生成的图像描述信息进行评估(如bleu评估)，可以采用bleu-4(一种评估方式)评估，评估的参考(reference)库支持人工导入，以及保留历次生成的最佳图像描述进行自我积累迭代的结果，并生成评估评分返回到图像描述生成模块5中。
104.图6是根据本发明实施例的一种可选的信息编码处理模块4结构的示意图，如图6所示，信息编码处理模块4包括：继承信息接收单元41、图像信息接收单元42、图像信息编码单元43，其中，
105.继承信息处理单元41可以接收语法检查评估模块3发出的上一幅图像(如有上一幅图像)的编码信息，并将编码信息注入图像特征向量空间中，经高维空间降维后(如采用pca降维方法)，当发现存在相似分类关系时，则认定与上次图像描述结果相似，并参考上句语法编码结构。例如，面对权重信息处理单元31无法甄别的场景中：图像描述是“男生抱起了女生”，但“女生抱起男生”也具有相似权重，但通过继承信息得知，是“男生抱起了女生”，则本幅图像在抱起动作权重中偏向参考“男生抱起女生”这一编码结果。
106.图像信息接收单元42可以接收包含图像特征的权重特征向量。
107.图像信息编码单元43可以采用基于rnn的bilstm网络模型对权重特征向量进行识别解码，并生成对应的一组候选信息序列。
108.图7是根据本发明实施例的一种可选的图像描述生成模块5结构的示意图，如图7所示，图像描述生成模块5包括：信息序列接收单元51、图像描述生成单元52、图像描述展示单元53其中：
109.信息序列接收单元51可以接收信息编码处理模块4输出的候选信息序列。
110.图像描述生成单元52可以使用bilstm模型，对候选信息序列生成图像描述信息，并输出到语法检查评估模块3进行评估。
111.图像描述展示单元53可以对评估得分最高的图像描述生成信息进行展示。
112.图8是根据本发明实施例的一种可选的图像描述生成处理流程的示意图，如图8所
示，包括如下流程：
113.步骤s801：将图像输入至图像信息解析模块1。
114.步骤s802：输出分割识别后图像解析信息，并将该图像解析信息输入至图像信息编码模块2。
115.步骤s803：语法检查评估模块3接收继承编码信息。
116.步骤s804：语法检查评估模块3向图像信息编码模块2输出权重信息。
117.步骤s805：图像信息编码模块2输出权重编码信息。
118.步骤s806：语法检查评估模块3向信息编码处理模块4输出继承编码信息。
119.步骤s807：语法检查评估模块3向评估结果中输出当前编码信息。
120.步骤s808：信息编码处理模块4输出图像描述序列信息。
121.步骤s809：语法检查评估模块3向图像描述生成模块5输出评估结果。
122.步骤s810：图像描述生成模块5输出最高分的图像描述信息作为最终结果并展示。
123.根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述的图像描述信息的生成方法。
124.根据本发明实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器和存储器，存储器用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的图像描述信息的生成方法。
125.图9是根据本发明实施例的一种用于图像描述信息的生成方法的电子设备(或移动设备)的硬件结构框图。如图9所示，电子设备可以包括一个或多个(图中采用902a、902b，
……
，902n来示出)处理器902(处理器902可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器904。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。
126.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
127.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
128.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
129.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
130.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以
是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
131.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
132.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于视频结构化技术的时空数据沉浸式交互的方法与系统与流程

图像描述信息的生成方法及其系统、电子设备及存储介质与流程

相关文献

最热文献