一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种跨媒体图像检索方法及系统与流程

2021-10-24 12:42:00 来源:中国专利 TAG:图像处理 图像 检索 方法 跨媒体


1.本发明涉及图像处理领域,具体涉及一种跨媒体图像检索方法及系统。


背景技术:

2.目前的图像主旨提取算法的技术方案主要是通过cnn提取图像特征,再利用lstm生成句子。
3.cnn是在许多领域中采用的一类可学习的体系结构,例如图像识别,图像注释,图像检索。cnn通常由几层组成,每层都包含线性和非线性运算符,它们以端对端的方式共同学习以解决特定任务。用于图像分类的cnn体系结构包括几个卷积层,然后是一个或多个完全连接的层,cnn的输出是最后一个完全连接层的输出,输出节点的数量等于图像类的数量。
4.经过训练可以解决给定任务的cnn也可以适用于解决其他任务。从头开始训练整个cnn并不总是可能的,因为拥有足够大小的数据集相对很少。通常使用在非常大的数据集上进行预训练的cnn。例如,imagenet数据集包含120万张具有1000个类别的图像。
5.然后,将预训练的网络用作感兴趣任务的初始化或固定特征提取器。如果将网络用作特征提取器,则经过预训练的cnn会执行所有多层操作,并且在输入图像的情况下,特征向量是最后一个网络层之一的输出。
6.现有技术的信息通常集中在实体的类别或属性,对于实体之间的关系没有明确的显现,检索效率相对较低。图像主旨提取算法也往往集中在特定的区域,缺乏对于全局的考虑。


技术实现要素:

7.为解决现有技术中存在的信息通常集中在实体的类别或属性,对于实体之间的关系没有明确的显现,检索效率相对较低的问题,本发明提出了一种跨媒体图像检索方法,包括:
8.获取数据库中所有图片和待检索的文本标题;
9.将所述图片输入到预先构建的图片标题生成模型,得到所述图片对应的文本标题,并将所述图片与所述图片对应的文本标题以对的形式更新数据库中原始图片;
10.采用文本匹配的检索方法从更新后的数据库中检索所述待检索的文本标题对应的图片;
11.其中,所述图片标题生成模型是基于卷积神经网络

循环神经网络进行训练,并采用强化学习方法对所述图片标题生成模型的参数优化后得到。
12.优选的,所述图片标题生成模型的构建,包括:
13.收集图片,并对所述图片进行文本标题描述得到各图片对应的文本标题;
14.将图片和图片对应的文本标题构建训练集;
15.将训练集中所有图片输入到卷积神经网络进行图像特征提取,并将提取的图像特
征输入到循环神经网络中;
16.由所述循环神经网络输出每张图片对应的文本标题,并基于生成的每张图片对应的文本标题与所述训练集中的文本标题的差异优化所述循环神经网络中的参数,得到训练好的图片标题生成模型。
17.优选的,所述将训练集中所有图片输入到卷积神经网络进行图像特征提取,包括:
18.将训练集中所有图片输入到卷积神经网络中,由卷积神经网络中的区域提议网络生成候选框,并对所述候选框进行裁剪过滤后通过softmax函数判断像素点属于前景或背景;
19.采用卷积神经网络中的包围框回归模型修正所述候选框;
20.将修正后的候选框映射到卷积神经网络的最后一层卷积特征图上;
21.通过对属于前景的修正后的候选框中的区域进行池化,使每个层级生成固定尺寸的特征图;
22.采用分类概率损失函数计算softmax函数判断候选框中像素点属于前景或背景与所述训练集中图片对应的文本标题的候选框中像素点属于前景或背景不一致的概率损失,并采用边框回归损失函数计算修正后的候选框四角坐标与训练集中图片对应的文本标题的候选框四角坐标的差异导致的边框回归损失;
23.以概率损失和边框回归损失最小为目标优化所述卷积神经网络参数;
24.对特征图中不同层级的关键特征进行特征融合和池化,得到图像特征;
25.其中,所述关键特征包括图片中物体的类别信息和位置信息。
26.优选的,所述由所述循环神经网络输出每张图片对应的文本标题,包括:
27.由所述循环神经网络的注意力lstm层将输入的同一图片的图像特征进行归一化处理得到各图像特征之间的注意力权重,并将所述各图像特征之间的注意力权重输入到attend模块对图像特征赋予权重,输出带有权重的图像特征作为语言lstm层的输入,输出同一图片中的图像特征对应的单词概率;由同一图片的所有图像特征对应的单词概率组成概率分布序列,选择概率最高的分布从预训练词典中查找对应的单词得到所述图片对应的文本标题。
28.优选的,所述基于生成的每张图片对应的文本标题与所述训练集中的文本标题的差异优化所述循环神经网络中的参数,得到训练好的图片标题生成模型,包括:
29.根据生成的每张图片对应的文本标题与训练集中的文本标题的相似度采用cider评价指标计算奖励;
30.将所述奖励最大时对应的所述循环神经网络的参数作为图片标题生成模型中循环神经网络的参数,得到训练好的图片标题生成模型。
31.优选的,所述采用文本匹配的检索方法从更新后的数据库中检索所述待检索的文本标题对应的图片之后还包括:
32.将待检索的文本标题与对应的图片以对的形式存储于更新后的数据库中。
33.基于同一发明构思本发明还提供了一种跨媒体图像检索系统,包括:
34.数据获取模块,用于获取数据库中所有图片和待检索的文本标题;
35.标题生成模块,用于将所述图片输入到预先构建的图片标题生成模型,得到所述图片对应的文本标题,并将所述图片与所述图片对应的文本标题以对的形式更新数据库中
原始图片;
36.图片检索模块,用于采用文本匹配的检索方法从更新后的数据库中检索所述待检索的文本标题对应的图片;
37.其中,所述图片标题生成模型是基于卷积神经网络

循环神经网络进行训练,并采用强化学习方法对所述图片标题生成模型的参数优化后得到。
38.优选的,所述图片标题生成模型的构建,包括:
39.收集图片,并对所述图片进行文本标题描述得到各图片对应的文本标题;
40.将图片和图片对应的文本标题构建训练集;
41.将训练集中所有图片输入到卷积神经网络进行图像特征提取,并将提取的图像特征输入到循环神经网络中;
42.由所述循环神经网络输出每张图片对应的文本标题,并基于生成的每张图片对应的文本标题与所述训练集中的文本标题的差异优化所述循环神经网络中的参数,得到训练好的图片标题生成模型。
43.优选的,所述标题生成模块,包括:
44.注意力lstm层,用于将输入的同一图片的图像特征进行归一化处理得到各图像特征之间的注意力权重,并将所述各图像特征之间的注意力权重输入到attend模块对图像特征赋予权重;
45.attend模块,用于将各图像特征之间的注意力权重赋值给各图像特征,输出带有权重的图像特征,并将带有权重的图像特征输入到语言lstm层;
46.语言lstm层,用于基于带有权重的图像特征输出同一图片的各图像特对应的单词概率,由同一图片的所有图像特征对应的单词概率组成概率分布序列,选择概率最高的分布从预训练词典中查找对应的单词,得到所述图片的文本标题。
47.与现有技术相比,本发明的有益效果为:
48.1、本发明提出了一种跨媒体图像检索方法及系统,包括:获取数据库中所有图片和待检索的文本标题;将所述图片输入到预先构建的图片标题生成模型,得到所述图片对应的文本标题,并将所述图片与所述图片对应的文本标题以对的形式更新数据库中原始图片;采用文本匹配的检索方法从更新后的数据库中检索所述待检索的文本标题对应的图片;其中,所述图片标题生成模型是基于卷积神经网络

循环神经网络进行训练,并采用强化学习方法对所述图片标题生成模型的参数优化后得到。本发明的技术方案采用卷积神经网络—循环神经网络进行训练,得到了实体之间的关系,并采用强化学习方法对图片标题生成模型的参数进行优化,提高了检索的效率。
49.2、本发明以概率损失和边框回归损失最小为目标优化所述卷积神经网络参数,使得图像特征提取更加精准。
附图说明
50.图1为本发明的一种跨媒体图像检索方法详细步骤流程图;
51.图2为本发明的一种跨媒体图像检索方法步骤流程图;
52.图3为本发明的图像标题生成的卷积神经网络—循环神经网络图像处理示意图;
53.图4为本发明的卷积神经网络结构示意图;
54.图5为本发明的循环神经网络结构示意图。
具体实施方式
55.本发明旨在对现有技术进行改进,提出了一个基于注意力机制和神经网络训练的图像文本提取算法,构建一套完整的基于注意力机制和神经网络的图像主旨提取解决方案,实现系统对于全局的考虑,以及实体之间的关系,目的是提升数据检索效率、加强数据的全面性、减少人工工作量、提升检索与分析性能。
56.对于图像信息的提取尚不完善,本发明利用人工智能技术从图片库中的图片高效提取文本信息,并完成后续的检索任务。
57.本发明具体步骤流程如图1所示,通过卷积神经网络对图片库中的每张图片提取特征,同时在之后引入注意力机制,构建不同区域特征之间的加权联系。在解码时,运用强化学习技术来解决交叉熵梯度下降不可微的问题。将图像与提取出的文本一一关联,并用文本得分作为检索的依据。后续的检索主要基于文本信息的匹配进行。
58.实施例1:一种跨媒体图像检索方法,如图2所示,包括:
59.s1获取数据库中所有图片和待检索的文本标题;
60.s2将所述图片输入到预先构建的图片标题生成模型,得到所述图片对应的文本标题,并将所述图片与所述图片对应的文本标题以对的形式更新数据库中原始图片;
61.s3采用文本匹配的检索方法从更新后的数据库中检索所述待检索的文本标题对应的图片;
62.其中,所述图片标题生成模型是基于卷积神经网络

循环神经网络进行训练,并采用强化学习方法对所述图片标题生成模型的参数优化后得到。
63.对于步骤s1具体如下:
64.数据集收集
65.针对特定的应用场景,收集大量拍摄的图片,并人工对所有图片进行标题的标注,得到图片对应的文本标题。
66.对于步骤s2具体如下:
67.图像标题生成的cnn

rnn网络结构,如图3所示:
68.由收集的数据集中的所有图片和图片对应的文本标题构建训练集;
69.将收集的数据集中的所有图片输入到卷积神经网络中进行特征提取,并基于数据集中所有图片对应的图片标题对卷积神经网络的参数进行训练,在一定数量的迭代后获得符合实际应用需求的图片标题生成模型。
70.其中,强化学习主要用于优化解码过程,在流程图中不便画出。其原理是将模型生成的标题与训练集中图片对应的文本标题的差异程度作为优化目标进行图片标题生成模型参数优化。
71.alexnet(krizhevsky等人,2012年)是第一种在以前的图像分类任务上表现出优于先前方法的性能的cnn架构,googlenet(szegedy等人,2015年),残差网络resnet(he等人,2016年),和efficientnet(google,2018年)。resnet架构已证明在ilsvrc 2015(imagenet大规模视觉识别挑战)验证集中非常有效,其top

1识别精度约为80%,事实证明,使用cnn作为特征提取方法在许多模式识别应用中非常有效。
72.由于cnn作为特征提取在许多模式识别应用中出色的性能,我们是使用的基于cnn的功能已通过利用深度残差架构获得。剩余架构基于这样的思想,即网络的每一层都参考层输入学习剩余功能,而不是学习未参考功能。已有研究证明了这样的架构更容易优化,并且当深度显著增加时,它也获得了准确性。我们的参考网络架构基于resnet

50,它代表了深度和性能之间的良好折衷。全连接层中神经元的激活被用作检索食物图像的特征。
73.图像特征提取骨干网络采用速度较快,准确率较高的卷积神经网络如图4所示,具体方案如下:
74.(1)获取图片;
75.(2)将获取的图片输入到卷积神经网络中,通过步骤(3)至(6)进行特征提取;
76.(3)用卷积神经网络中的区域提议网络先生成一堆候选框,对候选框进行裁剪过滤后通过softmax判断这些提议点属于前景或者背景,即一个二分类问题,这里的提议点可为像素点;同时,网络的另一分支包围框回归模型修正候选框,形成较精确的提议区域的作用;
77.(4)把提议框映射到卷积神经网络的最后一层卷积特征图上;
78.(5)通过对感兴趣的区域进行池化,使每个层级生成固定尺寸的特征图,这里感兴趣的区域是指提议点属于前景的提议区域;
79.(6)利用分类概率损失和边框回归损失对分类概率和边框回归联合训练。
80.在(3)中提到网络含有两个分支,分类概率损失指的是通过网络对于图像中提议点的前/后景的二分类和真实值的区别进行优化,边框回归损失则指的是,网络预测的候选边框和真实的边框会存在差异,通过边框四角坐标的差异与边框大小的差异来衡量网络生成候选边框的能力,用这种差异来优化网络,其中这里的真实值与真实的边框通过图片对应的图片标题可以得到。
81.通过联合训练可以得到合适的卷积神经网络参数,利用该卷积神经网络可以高效提取图像的关键特征并数字化,这些关键特征中包含了图片中主要物体的类别信息和位置信息,同时,对特征图中不同层级的特征进行特征融合和池化,得到的特征向量中包含的区域内部的颜色,纹理等信息。
82.利用该卷积神经网络可以高效提取图像的关键特征,并数字化该部分主要由卷积神经网络模块进行。
83.文本解码骨干网络即循环神经网络如图5所示,在这里我们主要采用长短时记忆网络解码器:
84.普通的神经网络假设输入和输入之间是相互独立的,但是很多时候人类理解事物都是基于上下文的。对于循环神经网络而言,同一层之间的神经元也存在连接,上一个时刻的状态能够影响下一个时刻的状态。但是当网络结构太深时,基于连乘的梯度反向传播方案会造成梯度爆炸或者梯度消失,使得训练的效果不佳。
85.长短时记忆网络的优势在于它能够解决带来问题的长时依赖的影响。长短时记忆网络的核心是三个门控网络:
86.遗忘门:控制从单元的状态中遗弃什么信息;
87.输入门:控制让新的信息加入单元状态的权重;
88.输出门:根据单元当前状态控制输出值。
89.lstm模型的核心是一个记忆细胞c,它对到此步骤为止观察到的每个输入步骤进行知识编码。细胞的行为是由“门”控的——在每层应用乘法,控制值被保持或清零。特别是,使用了三个门来控制是否忘记当前单元格值(遗忘门f),读取输入(输入门i),输出细胞值(输出门o)。
90.在训练时,将每个单词表示为维度等于字典大小的一个独热向量st。用s0来表示一个特殊的开始词,用sn来表示一个特殊的停止词,它表示句子的开始和结束。特别是通过发出停止词,lstm发出一个完整的句子已经生成的信号。图像和单词都被映射到同一个空间,图像通过图像特征提取网络视觉化,单词通过单词嵌入。图像i只在t=

1时输入一次,以通知lstm图像的内容。
91.循环神经网络这里具体采用注意力控制网络:
92.注意力控制网络采用了两层lstm,下层的是注意力lstm,用来确立对于各个特征之间的注意力权重,上层的是语言lstm,用来生成单词概率,两层中间的attend模块能够展现自顶向下的信息关注,这种软注意更加注重全局信息,也就是在不同物体上分配不同权重的注意力。
93.将卷积神经网络提取的图像特征输入到注意力控制网络,由注意力控制网络的注意力lstm层确立同一图片中各个图像特征之间的注意力权重,并将各个图像特征的注意力权重输入到attend模块,由attend模块输出带有权重的图像特征,作为语言lstm层的输入,并由lstm层输出由所述图片中所有图像特征对应单词概率组成的概率分布序列选择概率最高的分布从预训练词典中查找相应的单词,得到所述图片对应的文本标题。
94.将概率分布序列中的序列生成看作为强化学习问题。字幕系统传统上使用交叉熵损失进行训练,为了直接优化n指标并解决偏差问题,可以使用的强化学习方法来构建生成模型。循环模型(lstm)可以被视为与外部“环境”(文字和图像特征)交互的“代理”。可以定义一个策略,它会导致一个“动作”,即对下一个单词的预测。在每个操作之后,代理(lstm)更新其内部“状态”(lstm的单元和隐藏状态,注意权重等)。在生成序列结束(即上面提到的终止符)令牌时,代理会获得到一个“奖励”,例如生成的句子的分数指标。通过将生成的序列与相应的真实序列进行比较,通过评价指标计算奖励。学习的目标是将消极的期望回报最小化,这里真实序列是图片对应的文本标题生成的。
95.标题生成模型
96.在训练完成后,就能够得到标题生成模型。输入任意的图片,模型可以给出该图片的文本标题描述。
97.生成模型的机制:利用卷积神经网络从图像中提取图像特征,即将图像转化为数学的高维向量表示。将图像特征的高维向量表示输入到包括语言模型的循环神经网络中,这里的循环神经网络采用长短时记忆网络解码器,利用长短时记忆网络解码器的图像特征对应的单词生成概率分布序列,再选取概率最高的分布从预训练词典中查找相应的单词填充。
98.最后决定生成结果主要有两种方法:
99.第一个是抽样,我们根据p1对第一个单词进行抽样,然后提供相应的嵌入作为输入并抽样p2,继续这样做,直到我们抽样得到特殊的句子结尾标记或某个最大长度。
100.第二种是波束搜索(beam search):迭代地将k个最佳句子的集合作为生成大小为
t 1的句子的候选句子,并只保留其中的最佳k个句子。
101.基于文本匹配的检索tf

idf方法:
102.在文本相似度的计算过程中,对特征项权重进行的计算是一个极为重要的步骤,它的效率将直接影响到文本相似度计算的效率。计算特征项的标准就是通过对特征项的权值高低进行判断,现在常用以下几种方法对特征项权重进行计算:
103.(1)tf权重计算法(term frequency)一般而言,文本中的特征项出现频率越高,其在文本中的地位越高(停用词除外)。这种方法通常用在单文本权值计算中。
104.(2)df权重计算法(document frequency)当文本容量很大时,为了通过特征项区分不同的文本,常釆用特征项在所有文档中出现的频率来表示特征项的权重。
105.(3)eof权重计算法(inverse document frequency)前面谈到了df权重计算法,idf权重计算法与之刚好相反,因为当一个词(如停用词)在文本集中的很多文本都出现,该词的区分能力也在减弱,应该降低其权值。
106.(4)tf

idf权重计算方法(term frequency

inverse document frequency)向量空间模型中最常用的权重计算方法之一。tf

idf权重在计算过程中同时考虑了特征项对单个文本的影响力以及其对整个文本集中的影响力,这两个问题可以分别通过tf值和idf值来解决。
107.(5)ig权重计算方法(information gain);信息增益法是根据特征项提供的用于区分文本的信息量的数量,来对其文本重要程度进行判断的,常被应用于文本分类。
108.(6)ml权重计算方法(mutual information):互信息衡量了类与特征词之间的关联性,作为一种分析方法,互信息经常被用于计算机语言学模型中。
109.(7)chi权重计算方法(chi

square statistic):该统计量可以度量特征项t与类c之间的统计相关性。
110.我们选用tf

idf权重计算方法。tf的含义是词频(term frequency),指的是单词在文本中出现的频率。
111.idf指的是逆向文件频率(inverse document frequency),idf的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t具有很好的类别区分能力。某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到。
112.td

idf方法是将待检索内容的td得分和idf得分相乘,按照数据库中图像标题的匹配程度给出检索结果。
113.利用标题生成模型,给数据库中的所有图片自动加上标题,就可以利用该检索方法进行无标注图片的自动检索。这样就不再需要对数据库中的新增图片进行人为的分类,标注等操作了。
114.基于文本图像特征匹配的检索方法
115.利用预训练的模型进行文本和图像的特征抽取,同时利用神经网络将它们转移到同一维度。再利用余弦相似度等方法计算匹配得分,对匹配得分排序获取检索结果,这种方案能够实现文本搜图片和图片搜文本。
116.本发明在现有基线系统的标准上提升主旨提取的性能,从而提高整个检索系统的精确性。
117.实施例2
118.基于同一发明构思的本发明还提供了一种跨媒体图像检索系统,包括:数据获取模块,用于获取数据库中所有图片和待检索的文本标题;
119.标题生成模块,用于将所述图片输入到预先构建的图片标题生成模型,得到所述图片对应的文本标题,并将所述图片与所述图片对应的文本标题以对的形式更新数据库中原始图片;
120.图片检索模块,用于采用文本匹配的检索方法从更新后的数据库中检索所述待检索的文本标题对应的图片;
121.其中,所述图片标题生成模型是基于卷积神经网络

循环神经网络进行训练,并采用强化学习方法对所述图片标题生成模型的参数优化后得到。
122.优选的,所述图片标题生成模型的构建,包括:
123.收集图片,用于对所述图片进行文本标题描述得到各图片对应的文本标题;
124.将图片和图片对应的文本标题构建训练集;
125.将训练集中所有图片输入到卷积神经网络进行图像特征提取,并将提取的图像特征输入到循环神经网络中;
126.由所述循环神经网络输出每张图片对应的文本标题,并基于生成的每张图片对应的文本标题与所述训练集中的文本标题的差异优化所述循环神经网络中的参数,得到训练好的图片标题生成模型。
127.优选的,所述标题生成模块,包括:
128.注意力lstm层,用于将输入的图像特征进行归一化处理得到各图像特征之间的注意力权重,并将所述各图像特征之间的注意力权重输入到attend模块对图像特征赋予权重;
129.attend模块,用于将各图像特征之间的注意力权重赋值给各图像特征,输出带有权重的图像特征,并将带有权重的图像特征输入到语言lstm层;
130.语言lstm层,用于基于带有权重的图像特征输出个图像特对应的单词概率;
131.标题组成子模块,用于由每张图片中所有图像特征对应的单词概率最大的单词按照时序组成所述图片对应的文本标题。
132.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
133.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
134.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
135.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
136.以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜