一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于编码器-双解码器的图像中文描述生成方法与流程

2022-03-05 00:01:58 来源:中国专利 TAG:

技术特征:
1.一种基于编码器-双解码器的图像中文描述生成方法,其特征在于,包括以下步骤:s1、获取数据集,所述数据集包括图像描述数据集和对应的背景语料数据集;s2、对数据集进行数据预处理,将预处理后的数据集划分为训练集、验证集和测试集;s3、构建编码器-双解码器模型,并设定相应的模型参数以及超参数,之后基于训练集和验证集,对编码器-双解码器模型进行训练;基于测试集对训练后的编码器-双解码器模型进行测试,以得到图像描述生成模型;s4、将待描述图像输入图像描述生成模型,输出得到待描述图像对应的标题字段以及描述文本。2.根据权利要求1所述的一种基于编码器-双解码器的图像中文描述生成方法,其特征在于,所述步骤s1中图像描述数据集具体为ai-challenger图像描述数据集,所述步骤s1中背景语料数据集具体为wiki2019zh。3.根据权利要求1所述的一种基于编码器-双解码器的图像中文描述生成方法,其特征在于,所述步骤s2具体包括以下步骤:s21、对图像描述数据集进行图像格式处理以及图像增强处理;对背景语料数据集进行清洗及分词标注处理;s22、按照设定的比例将预处理后的数据集划分为训练集、验证集和测试集。4.根据权利要求3所述的一种基于编码器-双解码器的图像中文描述生成方法,其特征在于,所述步骤s21中对背景语料数据集进行清洗及分词标注处理的具体过程为:首先对句子进行清洗,利用自建的停用词表去除停用词例如句号,逗号、空白字符;之后建立分词词图,获得最大的切分组合;再对中文、英文和数字进行区分并分开处理,最后对分词进行输出和标注。5.根据权利要求3所述的一种基于编码器-双解码器的图像中文描述生成方法,其特征在于,所述步骤s22中设定的比例具体为8:1:1。6.根据权利要求1所述的一种基于编码器-双解码器的图像中文描述生成方法,其特征在于,所述步骤s3具体包括以下步骤:s31、构建编码器-双解码器模型,其中,编码器用于提取图像中的信息以及信息之间的关联,双解码器用于读取来自编码器输出的信息、并输出对应的描述;s32、基于训练集和验证集,对编码器-双解码器模型进行训练;s33、基于测试集对训练后的编码器-双解码器模型进行测试,并根据设定的评估指标对测试结果进行评估,若评估通过,则当前训练后的编码器-双解码器模型即为图像描述生成模型,否则返回步骤s32。7.根据权利要求6所述的一种基于编码器-双解码器的图像中文描述生成方法,其特征在于,所述步骤s31中编码器采用transformer结构,所述双解码器包括依次连接的title-decoder和text-decoder,所述编码器分别与title-decoder、text-decoder相连接,所述title-decoder和text-decoder均采用lstm网络实现。8.根据权利要求7所述的一种基于编码器-双解码器的图像中文描述生成方法,其特征在于,所述步骤s33中对训练后的编码器-双解码器模型进行测试时,所述text-decoder的输入包括编码器输出信息、从title-decoder输出中提取得到的关键词信息、来自背景语料库中的信息在attention机制下对于描述文本的整体扩写。
9.根据权利要求6所述的一种基于编码器-双解码器的图像中文描述生成方法,其特征在于,所述步骤s33中设定的评估指标包括但不限于bleu、meteor、rouge、cider、spice。10.根据权利要求8所述的一种基于编码器-双解码器的图像中文描述生成方法,其特征在于,所述步骤s4具体包括以下步骤:s41、输入待描述图像,编码器采用多级自注意力机制提取出图像特征信息;s42、编码器将提取到的所有图像特征信息输入title-decoder中,输出得到待描述图像对应的标题字段;s43、从title-decoder输出的标题字段中提取出关键词信息,结合编码器提取的图像特征信息,共同输入text-decoder中,输出得到待描述图像对应的文本信息;s44、整合title-decoder和text-decoder的输出,以作为待描述图像所包含信息的描述。

技术总结
本发明涉及一种基于编码器-双解码器的图像中文描述生成方法,包括:获取数据集,包括图像描述数据集和对应的背景语料数据集;对数据集进行数据预处理,将预处理后的数据集划分为训练集、验证集和测试集;构建编码器-双解码器模型,并设定模型参数以及超参数,基于训练集和验证集,对编码器-双解码器模型进行训练;基于测试集对训练后的编码器-双解码器模型进行测试,以得到图像描述生成模型;将待描述图像输入图像描述生成模型,输出得到待描述图像对应的标题字段以及描述文本。与现有技术相比,本发明能够充分利用编码器获取的特征信息、能够对图像包含的信息进行丰富描述,具有准确率高、语句含义丰富通顺、图像与文本相关性强的优点。优点。优点。


技术研发人员:陈海光 刘明星 齐子锋 黄继风
受保护的技术使用者:上海师范大学
技术研发日:2021.11.26
技术公布日:2022/3/3
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献