一种基于编码器-双解码器的图像中文描述生成方法与流程

2022-03-05 00:01:58 来源：中国专利 TAG：

技术特征：
1.一种基于编码器-双解码器的图像中文描述生成方法，其特征在于，包括以下步骤：s1、获取数据集，所述数据集包括图像描述数据集和对应的背景语料数据集；s2、对数据集进行数据预处理，将预处理后的数据集划分为训练集、验证集和测试集；s3、构建编码器-双解码器模型，并设定相应的模型参数以及超参数，之后基于训练集和验证集，对编码器-双解码器模型进行训练；基于测试集对训练后的编码器-双解码器模型进行测试，以得到图像描述生成模型；s4、将待描述图像输入图像描述生成模型，输出得到待描述图像对应的标题字段以及描述文本。2.根据权利要求1所述的一种基于编码器-双解码器的图像中文描述生成方法，其特征在于，所述步骤s1中图像描述数据集具体为ai-challenger图像描述数据集，所述步骤s1中背景语料数据集具体为wiki2019zh。3.根据权利要求1所述的一种基于编码器-双解码器的图像中文描述生成方法，其特征在于，所述步骤s2具体包括以下步骤：s21、对图像描述数据集进行图像格式处理以及图像增强处理；对背景语料数据集进行清洗及分词标注处理；s22、按照设定的比例将预处理后的数据集划分为训练集、验证集和测试集。4.根据权利要求3所述的一种基于编码器-双解码器的图像中文描述生成方法，其特征在于，所述步骤s21中对背景语料数据集进行清洗及分词标注处理的具体过程为：首先对句子进行清洗，利用自建的停用词表去除停用词例如句号，逗号、空白字符；之后建立分词词图，获得最大的切分组合；再对中文、英文和数字进行区分并分开处理，最后对分词进行输出和标注。5.根据权利要求3所述的一种基于编码器-双解码器的图像中文描述生成方法，其特征在于，所述步骤s22中设定的比例具体为8:1:1。6.根据权利要求1所述的一种基于编码器-双解码器的图像中文描述生成方法，其特征在于，所述步骤s3具体包括以下步骤：s31、构建编码器-双解码器模型，其中，编码器用于提取图像中的信息以及信息之间的关联，双解码器用于读取来自编码器输出的信息、并输出对应的描述；s32、基于训练集和验证集，对编码器-双解码器模型进行训练；s33、基于测试集对训练后的编码器-双解码器模型进行测试，并根据设定的评估指标对测试结果进行评估，若评估通过，则当前训练后的编码器-双解码器模型即为图像描述生成模型，否则返回步骤s32。7.根据权利要求6所述的一种基于编码器-双解码器的图像中文描述生成方法，其特征在于，所述步骤s31中编码器采用transformer结构，所述双解码器包括依次连接的title-decoder和text-decoder，所述编码器分别与title-decoder、text-decoder相连接，所述title-decoder和text-decoder均采用lstm网络实现。8.根据权利要求7所述的一种基于编码器-双解码器的图像中文描述生成方法，其特征在于，所述步骤s33中对训练后的编码器-双解码器模型进行测试时，所述text-decoder的输入包括编码器输出信息、从title-decoder输出中提取得到的关键词信息、来自背景语料库中的信息在attention机制下对于描述文本的整体扩写。
9.根据权利要求6所述的一种基于编码器-双解码器的图像中文描述生成方法，其特征在于，所述步骤s33中设定的评估指标包括但不限于bleu、meteor、rouge、cider、spice。10.根据权利要求8所述的一种基于编码器-双解码器的图像中文描述生成方法，其特征在于，所述步骤s4具体包括以下步骤：s41、输入待描述图像，编码器采用多级自注意力机制提取出图像特征信息；s42、编码器将提取到的所有图像特征信息输入title-decoder中，输出得到待描述图像对应的标题字段；s43、从title-decoder输出的标题字段中提取出关键词信息，结合编码器提取的图像特征信息，共同输入text-decoder中，输出得到待描述图像对应的文本信息；s44、整合title-decoder和text-decoder的输出，以作为待描述图像所包含信息的描述。

技术总结
本发明涉及一种基于编码器-双解码器的图像中文描述生成方法，包括：获取数据集，包括图像描述数据集和对应的背景语料数据集；对数据集进行数据预处理，将预处理后的数据集划分为训练集、验证集和测试集；构建编码器-双解码器模型，并设定模型参数以及超参数，基于训练集和验证集，对编码器-双解码器模型进行训练；基于测试集对训练后的编码器-双解码器模型进行测试，以得到图像描述生成模型；将待描述图像输入图像描述生成模型，输出得到待描述图像对应的标题字段以及描述文本。与现有技术相比，本发明能够充分利用编码器获取的特征信息、能够对图像包含的信息进行丰富描述，具有准确率高、语句含义丰富通顺、图像与文本相关性强的优点。优点。优点。

技术研发人员：陈海光刘明星齐子锋黄继风
受保护的技术使用者：上海师范大学
技术研发日：2021.11.26
技术公布日：2022/3/3

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于脑电信号类多光谱图像序列的身份识别方法与流程

一种基于编码器-双解码器的图像中文描述生成方法与流程

相关文献

最热文献