一种视觉注视点提取的方法与流程

2022-02-20 01:11:35 来源：中国专利 TAG：

1.本发明涉及机器学习技术领域，具体涉及一种视觉注视点提取的方法。

背景技术：

[0002]“视觉注意”是智能系统维护自身目的的自主行为，这是注意问题的本质。注意能力是感知外界信息后，对巨量信息作出的第一反应。外来刺激的信息是否符合系统的目的就必然成为决定系统是否注意这个信息的依据，与目标相关的信息需关注。在机器学习领域范畴，有寻求合适的数学模型，模拟人类视觉系统的选择性注意功能的方法。
[0003]
目前形成以下三种图像显著性部分提取数学模型：a.基于空间的视觉注意模型：它是一种自底向上的数据驱动模型，仅受感知数据的驱动将人的视点指导到场景中的显著区域，该区域通常与周围具有较强的对比度。该模型的思路为，根据输入的图像，首先通过滤波算法提取特征(颜色，亮度，运动，纹理等)，对特征图进行分析融合得到兴趣图，最后通过一定的竞争机制，从兴趣图中多个待注意的候选区域中选出唯一的注意目标。b.基于对象的视觉注意模型：是一种自顶向下的任务导向驱动模型，由人的“认知因素”决定，比如知识、预期和当前的目标。模型思路为，对输入图像进行高斯金字塔的多尺度处理，形成粗尺度、较粗尺度、细尺度场景图分组，计算每个分组和子组的显著性，展开注意力竞争，模型自然地实现了层次化的选择关注方式，实现注意力的转移。c.自顶向下结合自底向上视觉聚焦方法：人类视觉系统指导注意力分配因素由这两个部分结合共同作用于视觉聚焦结果。近年来提出多种可计算的用以模拟人类的视觉注意机制这些模型包括：基于认知、贝叶斯、决策论、信息论、图模型、频域分析和基于模式分类的视觉注意模型。视觉注意计算建模取得巨大进展，并应用于目标检测与识别、视频质量评估。
[0004]
视觉聚焦机制研究领域中颇具影响力这些算法虽然在相关实验中取得了一定效果，但是视觉注意模型难以模拟客观世界复杂场景中物体的显著性，如场景中吸引人们的关注点有视觉颜色、纹理、声音、味觉等，各模型的计算速度、执行效果、鲁棒性与人眼视觉系统还存在一定差距。尤其是自顶而下的有人类认知先验知识及情感心理因素决定的任务导向驱动模型的视觉聚焦技术应用效果差。所以对视觉注意建模方法的研究多集中于由数据驱动的自底向上的视觉注意过程，而基于任务驱动的自顶向下的视觉注意难以建模及分析，因此相关研究方法与理论较为有限。但渗透人的先验知识、预判意识的自顶向下的任务驱动视觉注意模型更符合人类视觉聚焦机制。如何进一步模拟视觉信息感知过程中显著性特征提取的注意区域选择机制，建立更符合人眼视觉特征的计算与分析模型，改善机器人视觉系统信息处理的效率是追求目标。

技术实现要素：

[0005]
针对现有技术的不足，本发明旨在提供一种视觉注视点提取的方法，应用深度学习技术中特征提取的强大能力结合强化学习技术中和环境交互能力实现完成视觉聚焦功能。
[0006]
为了实现上述目的，本发明采用如下技术方案：
[0007]
一种视觉注视点提取的方法，具体过程为：
[0008]
(1)对于原始图像x，利用感知器提取聚焦图像块s
t
；
[0009]
(2)然后利用cnn评价网络输出聚焦图像块s
t
的分类可能性预测；
[0010]
(3)采用聚焦图像块s
t
的分类可能性pc的信息熵h(pc)评判聚焦图像块与周边图像的区别度，信息熵h(pc)的计算公式如下：
[0011][0012]
c表示聚焦图像块s
t
的类别；
[0013]
(4)将信息熵作为环境的反馈，反馈回路采用强化学习计算每一次动作的积累回报，智能体agent的积累回报指导寻找下一个聚焦图像块的位置。
[0014]
进一步地，步骤(4)中，智能体agent采用基于值函数方法中异策略时间差分学习算法的q-learning算法迭代计算；策略是指状态到动作的映射，根据值函数改变策略，建立强化学习目标函数寻求最优的参数θ，使积累回报期望最大，π
θ
表示策略；根据强化学习结果即得到最优策略，指导在目前状态si下该采取的动作ai，即下一步移动的聚焦方位；输出下一步聚焦的位置l
t 1
，进入提取下一个聚焦图像块的循环；目前状态s
t
即指当前的聚焦图像块，感知器提取的每一个聚焦图像块记为(s0,s1,s2...s
t
....s
t
)，一条轨迹t 1步完成；r为对决策者的回报，t为步数。
[0015]
进一步地，步骤(1)中，感知器提取聚焦图像块的过程为：通过函数映射获取聚焦图像块p(s
t
,l
t
)。
[0016]
进一步地，步骤(2)中，利用cnn评价网络输出聚焦图像块s
t
的分类可能性预测的过程为：
[0017]
1)确定聚焦图像块类别c；
[0018]
2)聚焦图像块分类可能性预测概率pc＝p(c|s
t
)，cnn输出是一个softmax层，不一定每一步有输出，可设定k步后输出一个分类可能性预测概率；采用使pc为最大值时的c作为输入聚焦图像块的类别，即聚焦图像块的类别
[0019]
本发明的有益效果在于：本发明方法中，将采集的一帧图像或一段视频(连续的多帧图像)，经过基于强化学习的视觉聚焦方法选取图像空间某一聚焦图像块，然后通过一系列的聚焦图像块的理解获得对环境视场的理解，在此基础上结合机器人主观任务需求，可以驱动视觉系统仿生眼运动到某一姿态，达到模仿人眼聚焦凝视感兴趣区域的目的。
附图说明
[0020]
图1为本发明方法的流程示意图。
具体实施方式
[0021]
以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实
施例。
[0022]
现有视觉聚焦模型在处理速度和执行效果上仍远远弱于人眼的视觉注意过程，本实施例方法从机器学习角度出发，采用深度学习和强化学习技术并结合实现视觉聚焦点选择与转移的问题。
[0023]
人类视觉看东西时从场景(视频序列)中聚焦一个个关注点，输出一系列的聚焦区域的图像块。区域的选择是序贯决策问题，可以采用马尔科夫决策过程框架表述。模拟人类看东西方式机器人视觉系统按照时间顺序处理输入，一次处理图片中不同的位置，逐渐将这些部分的信息结合起来，来建立一个该场景的理解或者环境的动态间隔表示。一方面可以减少非必要信息的干扰，降低噪声的影响，然后还可以减少计算量。
[0024]
由于深度强化学习具备解决复杂问题的通用智能，采用强化学习定义问题和优化目标，深度学习解决特征提取、状态表示、策略表示等问题，会获得比传统数学建模方法更好的预期效果。基于视觉聚焦的任务驱动可以看作是一个控制问题。
[0025]
本实施例提供的一种视觉注视点提取的方法，具体过程如图1所示：
[0026]
(1)对于原始图像x，利用感知器提取聚焦图像块s
t
；
[0027]
(2)然后利用cnn评价网络输出聚焦图像块s
t
的分类可能性预测；
[0028]
(3)采用聚焦图像块s
t
的分类可能性pc的信息熵h(pc)评判聚焦图像块s
t
与周边图像的区别度，信息熵h(pc)的计算公式如下：
[0029][0030]
c表示聚焦图像块s
t
的类别。
[0031]
(4)将信息熵作为环境的反馈，反馈回路采用强化学习计算每一次动作的积累回报，agent的积累回报指导寻找下一个聚焦图像块的位置。
[0032]
需要说明的是，agent中采用基于值函数方法中异策略时间差分学习算法的q-learning算法迭代计算，策略是指状态到动作的映射，根据值函数改变策略，建立强化学习目标函数寻求最优的参数θ，使积累回报期望最大，π
θ
表示策略。
[0033]
根据强化学习结果即得到最优策略，指导在目前状态s
t
(即当前的聚焦图像块)下该采取的动作ai，即下一步移动的聚焦方位，输出下一步聚焦的位置l
t 1
，进入提取下一个聚焦图像块的循环。
[0034]
需要说明的是，决策过程用元组(s,a,p,r,t)描述，其中，状态s表示在不同时刻采集的聚焦图像块，感知器提取的聚焦图像块记为(s0,s1,s2...s
t
....s
t
)，一条轨迹t 1步完成。动作a为智能体在场景中移动的方位(可采用地图方位表示的方法或钟表点位表示法)；状态转移概率p＝p(s
t 1
|s
t
,a)，r为对决策的观测回报，t为步数。
[0035]
进一步地，感知器提取聚焦图像块的过程为：通过函数映射获取聚焦图像块p(s
t
,l
t
)，l
t
为聚焦的位置。类似于视网膜变分变率成像效果，注视点附近高分辨率成像，周边第分辨率成像。
[0036]
进一步地，利用cnn评价网络输出聚焦图像块s
t
的分类可能性预测的过程为：
[0037]
1)确定聚焦图像块的类别c；
[0038]
2)聚焦图像块分类可能性预测概率pc＝p(c|s
t
)，采用使pc为最大值时的c作为聚
焦图像块的类别，即聚焦图像块的类别
[0039]
进一步地，回报值r的计算如下式所示：
[0040][0041]
y*是聚焦图像块的标签，即类别。h(x
t
)是聚焦图像块属于类别c的概率pc的信息熵。
[0042]
q(s
t
,a
t
)
←
q(s
t
,a
t
) α[r γmaxq(s
t 1
,a
t 1
)-q(s
t
,a
t
)
[0043]
q(s,a)＝fq(s
t
,θq),θq是q网络的参数，q网络是cnn深度学习网络。
[0044]
采用随机梯度下降法最优化q网络的损失函数cost function。
[0045]
对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于托盘空间规划结果的码垛方法、装置及电子设备与流程

一种视觉注视点提取的方法与流程

相关文献

最热文献