一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的学术图像复用检测方法

2022-12-07 19:27:49 来源:中国专利 TAG:


1.本发明属于图像复用检测技术领域,特别是涉及一种基于强化学习的学术图像复用检测方法。


背景技术:

2.近年来,图像造假时有发生,利用图像编辑软件对图像内容进行修饰之后进行图像复用,当这些图像出现在新闻报道、学术期刊上时,将会带来严重后果。因此,对图像复用检测技术的研究具有重要意义。学术图像存在各领域内图像形式接近、领域间形式差异明显的特点,并且一个领域的图像风格会随研究热点变化等条件进行迁移,因此学术图像的复用检测方法需要一种自适应的持续学习能力,以应对不同领域、不同时间的学术图像复用检测任务。
3.目前,常规的图像复用检测方法包括使用sift、surf等特征点提取图像特征,并对特征点使用固定流程和参数进行简单比对完成。中国发明专利cn113392856a公开了一种图像伪造检测装置和方法,通过特征匹配点占特征点的比例判断是否存在图像伪造,但是该方法特征匹配部分设计比较简单,不能有效过滤低质量特征点匹配,导致误检率较高,并且其参数设定依赖用户经验,无法针对输入数据特点选择最优匹配策略,同时其不能适应学术图像中各种领域之间的差异以及随时间的风格迁移。
4.综上,现有的图像复用检测方法参数固定僵化,对于不同类别的图像使用完全相同的参数进行计算,无法适应类别间特点的差异性;此外,无学习能力,不能在使用中根据用户反馈的信息做出调整以持续改进性能或适应新数据的特点。


技术实现要素:

5.本发明的目的在于克服现有技术的缺点与不足,提供一种基于强化学习的学术图像复用检测方法,目的在于可以主动地、批量地筛查学术期刊中包含旋转、翻转、缩放等在内的图像复用行为,根据图像类别不同分别采取最佳策略进行检测。除此之外,本发明还可以在实际使用中根据用户反馈信息动态调整算法,以应对数据特点的迁移和新的数据类别。本发明采用如下技术方案:一种基于强化学习的学术图像复用检测方法,包括以下步骤:s1,构建强化学习模型,所述强化学习模型包括样本选择模块和参数调整模块,迭代训练所述样本选择模块和参数调整模块;s2,使用sift特征提取方法对原图像和目标图像的sift特征进行检测和提取,得到原图像和目标图像的特征点图;s3,初始化有效匹配比例阈值r和特异性参数t,输入原图像和目标图像的特征点图,判断是否需要进行参数调整,是则利用步骤s1训练好的强化学习模型优化调整t和r,否则直接进入步骤s4;s4,依次采用正向匹配和反向匹配对特征点图进行特征点匹配检测,利用特异性
参数t进行判断筛选,保留两次匹配中共同的特征匹配点对,得到最终的特征匹配点对集合;s5:对特征匹配点对集合进行特征过滤,去除图像边缘周围的匹配点、离散的匹配点以及重复的匹配点,并统计最终保留的匹配点对数量;判断特征匹配点对数量占特征点总数的比例是否大于等于有效匹配比例阈值r,如果满足,则在图像中绘制匹配点,并以直线连接,输出有效特征点匹配图;如果不满足,则直接结束。
6.进一步,所述步骤s1,所述样本选择模块包括actor-sample网络和critic-sample网络,参数调整模块包括actor-param网络和critic-param网络。
7.进一步,所述步骤s1,所述迭代训练所述样本选择模块和参数调整模块,包括以下子步骤:s11,读取图像数据,计算图像sift特征,构建训练数据集;s12,使用图像sift特征构造样本选择特征状态s-sample和动作空间a-sample;s13,actor-sample网络根据s-sample和a-sample选择部分样本s用于下一步标注;s14,critic-sample网络根据s-sample和动作a
sample
给出对样本s的价值评价q-sample;s15,人工标注选择的部分样本s;s16,使用标注后的样本s训练参数调整模块;s17,使用奖励函数计算样本选择奖励值reward-sample,并使用reward-sample和q-sample更新actor-sample和critic-sample网络参数;s18,判断标注预算是否耗尽,若否,则回到步骤s12,若是,则训练结束。
8.进一步,所述样本选择特征状态s-sample由图像样本对的特征点图、特征点匹配结果以及相应的图像检测结果拼接得到;所述动作空间a-sample由图像样本对的特征点图、特征点匹配结果、相应的图像检测结果和图像样本对与有标注集中样本对的特征点匹配结果直方图的kl散度直方图拼接得到。
9.进一步,所述价值评价q-sample;其中q
sample
为critic-sample网络,s
sample
为样本选择模块中对于当前状态的描述,a
sample
为在一轮迭代中actor-sample可能选择的所有样本对的集和,θ
critic-sample
为当前critic-sample网络参数;所述奖励值reward-sample通过奖励函数获得:其中为选出的未标注样本数量,为检测结果,为人工标注真值。
10.进一步,所述步骤s16训练参数调整模块包括以下子步骤:s16-1,读取初始化匹配参数t、r;s16-2,将标注后的样本s加入有标注集d
l
,并使用d
l
准备训练数据;
s16-3,使用训练样本的特征点数据和标注构造参数调整状态s-param和动作空间a-param;s16-4,actor-param网络根据s-param和a-param选择参数改进量δt和δr;s16-5,critic-param网络给出对δt和δr的价值评价q-param;s16-6,使用δt和δr更新t、r得到新匹配参数t-new、r-new;s16-7,使用参数t-new、r-new对训练数据进行特征匹配;s16-8,根据匹配结果计算参数调整奖励值reward-param,更新actor-param和critic-param网络参数;s16-9,判断是否达到最大迭代次数,若否,则回到步骤s16-4,若是,则训练结束。
11.进一步,所述参数调整状态s-param由图像样本对的特征点图、特征点匹配结果以及相应的图像检测结果、人工标注真值拼接得到;所述动作空间a-param为本轮参数调整中匹配参数t、r的改变量的所有可能取值。
12.进一步,所述奖励值reward-param通过奖励函数获得:其中m=1,表示样本的检测结果空间为{0,1},ⅱ(
·
)是示性函数,是检测结果的确信度softmax结果。
13.进一步,所述步骤s4,包括以下子步骤:s41:特征匹配,遍历每一个特征,计算其与剩余特征之间的距离,取欧式距离最小和第二小的特征向量,距离分别记为d1和d2,根据lowe’s算法,如果d1《d2*t,则认为这两个特征高度相似,保留该特征匹配点对,否则不保留;s42:反向匹配,交换检测的图像对顺序,遍历每一个特征,计算其与剩余特征之间的距离,取欧式距离最小和第二小的特征向量,距离分别记为d1和d2,根据lowe’s算法,如果d1《d2*t,则认为这两个特征高度相似,保留该特征匹配点对,否则不保留;s43,删除两次匹配中不相同的特征点,仅保留其交集。
14.本发明与现有技术相比所具有的有益效果:本发明通过程序运行可自动完成对大量学术图像进行检测,检测过程中不需要人工参与。
15.本发明采用双向匹配机制进行特征点筛选,相较于其它基于特征点匹配的检测算法,鲁棒性更好,特征点匹配置信度更高,检测结果查准率更高。
16.本发明可以主动地、批量式地完成对大量学术图像的检测,不需要用户事先挑选可能存在问题的图像后再手动上传进行检测。且不局限于两张图像的对比,对于任何一篇论文,都可以对该论文中的所有图像进行盲查。
17.本发明可以根据输入图像类别使用不同检测策略,可以在多种类别图像混合的场景下展现出优良的性能。
18.本发明可以在使用中通过主动向用户接收反馈标注,动态地持续学习以提升检测性能,可自动适应不同的实际应用场景。此外,本发明在应对输入数据特点随时间逐渐改变
的场景时也具有明显优势。
附图说明
19.图1 是本发明基于强化学习的学术图像复用检测方法的流程图。
20.图2 是本发明主动强化学习的流程图。
21.图3 是本发明主动强化学习的模型图。
22.图4是本发明样本选择状态表示。
23.图5是本发明样本选择动作表示。
24.图6是参数调整模块的训练流程图。
25.图7是本发明参数调整状态表示。
26.图8是本发明双向匹配过程示意图。
具体实施方式
27.下面结合附图对本发明进行进一步说明。
28.本发明提供一种基于强化学习的学术图像复用检测方法,用于学术图像的自适应复用检测。首先使用强化学习模型迭代地选择训练样本标注并对特征匹配参数进行调整,之后接收进行复用检测的图像,使用sift(scale-invariant feature transform,尺度不变特征变换)特征提取技术得到其特征点图,最后使用得到的最优匹配参数和双向匹配策略的特征匹配方法对特征点进行匹配、判定匹配结果并输出特征点匹配图。如图1所示,具体包括以下步骤:s1:构建强化学习模型,所述强化学习模型包括样本选择模块和参数调整模块,迭代训练所述样本选择模块和参数调整模块;当检测判定两张图像是否为复用关系时,对其所包含特征点进行匹配检测,本过程需要使用两个关键参数:有效匹配比例阈值r和特异性参数t,这两个参数的选择直接影响匹配结果并决定了复用检测的性能。现有检测技术在算法验证完成投入使用后其参数完全固定,如果使用中发现输入图像特点与预期不匹配或发生变化,只能依靠大量人力、算力进行手动测试调参,这个过程中还可能涉及到大量的样本标注工作,效率较低。为此通过采用强化学习模型,将新数据中对改进算法性能价值最大的样本选出,由人工标注真值,并根据新的标注数据对参数进行优化。
29.强化学习模型由样本选择和参数调整两个相对独立的子模块组成,其中,样本选择模块包括actor-sample网络和critic-sample网络,参数调整模块包括actor-param网络和 critic-param网络,如图2和图3所示,迭代训练所述样本选择模块和参数调整模块:s11,读取图像数据,计算图像sift特征,构建训练数据集;具体的,训练使用的数据集由四部分组成:无标注集du、状态表示集ds和奖励生成集dr。其中状态表示集ds和奖励生成集dr中的图像经过专家鉴别判断并给出了两两之间的复用关系标注,无标注集du为未经专家鉴别判断过的原始图像。无标注集du用作选择标注样本的候选池,状态表示集ds用于强化学习网络中的状态构建,奖励生成集dr用于产生强化学习算法的奖励。所有数据集上的图像di在使用前经特征提取得到特征点图xi,如下式所示,其中f
sift
为特征提取;
sample网络得到输出动作a
sample
:其中π
sample
为actor-sample的策略函数,θ
actor-sample
为当前actor-sample网络参数,,每一个表示第k个候选池的选择结果,根据a
sample
可以唯一确定本轮选出的样本s。
33.s14,critic-sample根据s-sample和动作a
sample
给出对样本s的价值评价q-sample;其中q
sample
为critic-sample网络,θ
critic-sample
为当前critic-sample网络参数。
34.s15,人工标注选择的部分样本s;s16,使用标注后的样本s训练参数调整模块;s17,使用奖励函数计算样本选择奖励值reward-sample,并使用reward-sample和q-sample更新actor-sample和critic-sample网络参数;具体的,样本选择模块应将注意力集中在最可能检测错误的样本上,因此奖励函数定义为其中为选出的未标注样本数量,为检测结果,为人工标注获得的真值。对于一个样本xi,若人工标注结果与检测结果相同,则对奖励结果贡献为0,而不相同的结果会获得一定的奖励。critic-sample网络对参数θ
critic-sample
的更新中使用了td-error的方式,使用最小化均方误差作为损失函数:式,使用最小化均方误差作为损失函数:其中q

为critic-sample目标网络,π

为actor-sample目标网络,θq′
为critic-sample目标网络的参数,ri为第i轮训练中奖励函数r1(s, a)的结果,这样可以使网络参数学习过程更加稳定,易于收敛。
35.actor-sample网络参数θa使用梯度下降法更新。
36.目标网络q

与π

使用硬更新的方式进行参数更新,每经过c轮训练,使用当前网络参数对目标网络参数进行替换:参数对目标网络参数进行替换:其中c为目标网络更新间隔,推荐设置为200。
37.s18,判断标注预算是否耗尽,若否,则回到步骤s12,若是,则训练结束。
38.进一步的,如图6所示,步骤s16训练参数调整模块分为以下子步骤:
s16-1,读取初始化匹配参数t、r;s16-2,将标注后的样本s加入有标注集d
l
,并使用d
l
准备训练数据;具体的,使用的数据为有标注集d
l
中的样本对与其标注组成,数据格式如下式所示:其中n
l
表示有标注集的大小。
39.s16-3,使用训练样本的特征点数据和标注构造参数调整状态s-param和动作空间a-param;具体的,在参数调整模块中,状态表示同样使用状态表示集中的样本构造,除与样本选择模块中相似部分外,为了使actor-param可以额外利用人工给出的标注信息,s-param还需额外包含人工给出的标注结果,如图7所示。
40.actor-param学习的目标是最优参数调整策略,所以将动作空间定义为其中m为调整的参数总数,bi表示第i个参数每次调整的最大步幅。
41.s16-4,actor-param根据s-param和a-param选择参数改进量δt和δr;具体的,actor-param根据当前状态s-param得到动作其中γ为范围限定函数,。
42.s16-5,critic-param给出对δt和δr的价值评价q-param;s16-6,使用δt和δr更新t、r得到新匹配参数t-new、r-new;s16-7,使用参数t-new、r-new对训练数据进行特征匹配;s16-8,根据匹配结果计算参数调整奖励值reward-param,更新actor-param和critic-param网络参数;具体的,参数调整模块需要输出使检测模块在当前有标注样本上表现更好的参数变化。因此奖励函数使用交叉熵函数定义为:其中m=1,表示样本的检测结果空间为{0,1},ⅱ(
·
)是示性函数,是检测结果的确信度softmax结果。actor-param与critic-param参数更新部分与样本选择模块相同,在此不进行赘述。
43.s16-9,判断是否达到最大迭代次数,若否,则回到步骤s16-4,若是,则训练结束。
44.s2:使用sift特征提取方法对原图像和目标图像的sift特征进行检测和提取,得
到原图像和目标图像的特征点图;使用sift方法对输入图像的关键特征进行检测和提取,sift特征具有尺度不变性,可以有效抵抗对图像的旋转、翻折、拉伸、缩放等操作。
45.s3:初始化有效匹配比例阈值r和特异性参数t,输入原图像和目标图像的特征点图,判断是否需要进行参数调整,是则利用步骤s1训练好的强化学习模型优化调整t和r,否则直接进入步骤s4。
46.s4:依次采用正向匹配和反向匹配对特征点图进行特征点匹配检测,利用特异性参数t进行判断筛选,保留两次匹配中共同的特征匹配点对,得到最终的特征匹配点对集合。
47.具体的,正向匹配,即遍历每一个特征,计算其与剩余特征之间的距离,取欧式距离最小和第二小的特征向量,距离分别记为d1和d2,根据lowe’s算法,如果d1《d2*t,则认为这两个特征高度相似,保留该特征匹配点对,否则不保留;反向匹配,即交换检测的图像对顺序,遍历每一个特征,计算其与剩余特征之间的距离,取欧式距离最小和第二小的特征向量,距离分别记为d1和d2,根据lowe’s算法,如果d1《d2*t,则认为这两个特征高度相似,保留该特征匹配点对,否则不保留。筛选正向匹配与反向匹配保留的特征匹配点对,仅保留两次匹配中共同的特征匹配点对。
48.本发明创新性地引入双向匹配的机制,对于一对原图像和目标图像,在完成正向匹配后,交换输入的图像的顺序,接着反向进行一次特征匹配过程并取两次匹配交集作为最终结果,过程如图8所示。当原图像中特征点向目标图像中特征点尝试匹配时,因使用了lowe’s算法所以消除了原图像特征点到目标图像特征点的一对多匹配,但仍可能有多个原图像中特征点匹配到目标图像中同一特征点。在引入双向匹配机制后,在目标图像向原图像的反向匹配过程中,同样由于lowe’s算法,不会出现一对多匹配,这实际上消除了潜在的原图像到目标图像的多对一匹配。在进行双向匹配后,留下的匹配特征点对对于两幅图中其它特征点都具有较好的特异性,因而大幅提高了匹配结果的可靠程度,因而对后续产生的检测结果性能有客观的提升效果。
49.s5:对特征匹配点对集合进行特征过滤,去除图像边缘周围的匹配点、离散的匹配点以及重复的匹配点,并统计最终保留的匹配点对数量。判断特征匹配点对数量占特征点总数的比例是否大于等于有效匹配比例阈值r,如果满足,则在图像中绘制匹配点,并以直线连接,输出有效特征点匹配图;如果不满足,则直接结束。
50.以上所述仅为本发明的具体实施方式,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献