基于注意力机制的图像处理方法、装置及设备

2022-05-06 10:59:37 来源：中国专利 TAG：

1.本发明涉及图像处理技术领域，尤其涉及一种基于注意力机制的图像处理方法、装置及设备。

背景技术：

2.人类视觉系统可以自然高效地找到复杂场景中的重要的区域，受到这种现象的启发，注意力机制被引入到计算机视觉系统中。注意力机制已经在计算机视觉的各种任务(如：图像识别、目标检测、语义分割、动作识别、图像生成、三维视觉等)中取得了巨大的成功。
3.目前，视觉中的深度注意力网络通常是基于自注意力机制的，自注意力机制来源于自然语言处理，其首先用于机器翻译任务。由自注意力机制搭建成的深度神经网络被叫做transformer，在视觉中，transformer先将图像看成一维的序列，然后对图像序列通过堆叠的自注意力机制进行建模，并得到最终的处理结果。
4.由于图像具有自身的二维结构，而自注意力机制将图像看成一维结构进行处理，所以其忽略了图像的结构信息，导致图像处理的输出精度相对较低。

技术实现要素：

5.本发明提供一种基于注意力机制的图像处理方法、装置及设备，用以解决现有技术中只能处理图像的一维结构的缺陷，实现通过对二维结构的处理，能够更准确地根据图像结构信息提高图像处理的精度。
6.本发明提供一种基于注意力机制的图像处理方法，包括：
7.获取待处理图像数据；
8.输入所述待处理图像数据至图像处理模型，得到图像处理结果，所述图像处理模型是通过对注意力网络进行训练得到的，所述注意力网络是基于注意力模块构建的，所述注意力模块用于处理二维结构的图像数据。
9.根据本发明提供的一种基于注意力机制的图像处理方法，所述注意力模块包括普通卷积层、分组卷积层、分组空洞卷积层和矩阵逐元素层。
10.根据本发明提供的一种基于注意力机制的图像处理方法，所述图像处理模型包括图像分类模型、图像分割模型或图像检测模型；
11.所述输入所述待处理图像数据至图像处理模型，得到图像处理结果，包括：
12.输入所述待处理图像数据至所述图像分类模型时，输出图像分类结果；或；
13.输入所述待处理图像数据至所述图像分割模型时，输出图像分割结果；或；
14.输入所述待处理图像数据至所述图像检测模型时，输出图像检测结果。
15.根据本发明提供的一种基于注意力机制的图像处理方法，所述获取待处理图像数据之前，还包括：
16.获取样本图像数据，并对每个样本图像数据标记标签，构建第一训练样本集；
17.基于所述第一训练样本集和注意力网络，得到图像分类模型。
18.根据本发明提供的一种基于注意力机制的图像处理方法，所述获取待处理图像数据之前，还包括：
19.获取样本图像数据，并对每个样本图像数据中的每个像素标记标签，构建第二训练样本集；
20.基于所述第二训练样本集和注意力网络，得到图像分割模型。
21.根据本发明提供的一种基于注意力机制的图像处理方法，所述获取待处理图像数据之前，还包括：
22.获取样本图像数据，并对每个样本图像数据中的每个物体检测框标记标签，构建第三训练样本集；
23.基于所述第三训练样本集和注意力网络，得到图像检测模型。
24.根据本发明提供的一种基于注意力机制的图像处理方法，所述输入所述待处理图像数据至所述图像处理模型之前，还包括：
25.基于反向传播算法，对所述图像处理模型进行优化。
26.根据本发明提供的一种基于注意力机制的图像处理方法，所述获取待处理图像数据之后，还包括：
27.通过神经网络组件对所述待处理图像数据进行特征提取，以利用提取后的特征输入图像处理模型进行图像处理，所述神经网络组件包括多层感知机、卷积层和归一化层中的至少一种。
28.本发明还提供一种基于注意力机制的图像处理装置，包括：
29.获取模块，用于获取待处理图像数据；
30.处理模块，用于输入所述待处理图像数据至图像处理模型，得到图像处理结果，所述图像处理模型是通过对注意力网络进行训练得到的，所述注意力网络是基于注意力模块构建的，所述注意力模块用于处理二维结构的图像数据。
31.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于注意力机制的图像处理方法的步骤。
32.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于注意力机制的图像处理方法的步骤。
33.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于注意力机制的图像处理方法的步骤。
34.本发明提供的一种基于注意力机制的图像处理方法、装置及设备，方法通过获取待处理图像数据；输入所述待处理图像数据至图像处理模型，得到图像处理结果，所述图像处理模型是通过对注意力网络进行训练得到的，所述注意力网络是基于注意力模块构建的，所述注意力模块用于处理二维结构的图像数据，由于图像处理模型是基于能够直接处理二维图像结构的注意力网络训练得到，使得图像处理模型对待处理图像进行识别时，无需再将二维图像压缩为一维序列进行处理，从而能够增加对图像自身结构的识别，有效地提高图像处理的精度。
附图说明
35.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
36.图1是本发明提供的基于注意力机制的图像处理方法的流程示意图；
37.图2是图1中的注意力模块的流程示意图；
38.图3是图1中的注意力模块的原理示意图；
39.图4是本发明提供的基于注意力机制的图像处理装置的结构示意图；
40.图5是本发明提供的电子设备的结构示意图。
具体实施方式
41.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
42.下面结合图1-图5描述本发明的一种基于注意力机制的图像处理方法、装置及设备。
43.图1是本发明提供的基于注意力机制的图像处理方法的流程示意图；图2是图1中的注意力模块的流程示意图；图3是图1中的注意力模块的原理示意图。
44.如图1所示，本发明实施例提供的一种基于注意力机制的图像处理方法，包括以下步骤：
45.101、获取待处理图像数据。
46.具体的，定义需要进行图像处理的为待处理图像，具体的获取待处理图像的方式不进行具体限定，可以是摄像头也可以是其他的图像采集设备，能够准确地获取到待处理图像即可。
47.102、输入待处理图像数据至图像处理模型，得到图像处理结果，图像处理模型是通过对注意力网络进行训练得到的，注意力网络是基于注意力模块构建的，注意力模块用于处理二维结构的图像数据。
48.具体的，在获取到待处理图像数据之后，将其直接输入至图像处理模型中进行数据处理，便会得到对应的处理结果。而图像处理模型的具体处理内容则是根据实际需求所确定的，例如待处理图像需要进行图像分类，则图像处理模型可以是图像分类模型，对待处理图像进行分类处理，当需要进行分割时，图像处理模型则可以是图像分割模型，对待处理图像进行分割处理，当需要进行检测时，图像处理模型则可以是图像检测模型，对待处理图像进行图像检测处理。也就是在获取到待处理图像数据之后，还包括获取处理任务，处理任务指的是需要对待处理图像进行那种具体的操作，例如可以是分类、分割或者是检测等等，分类则例如在无人售货超市中准确地实现不同商品的分类，分割则例如图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程，例如识别图像中某个特定的区域，检测则是准确的识别出图像内容，例如人脸识别等。当然，也可以是
其他的处理，本实施例中以分类、分割和检测为例进行说明。
49.通过针对不同的处理任务匹配不同的图像处理模型，能够准确快速的完成图像处理。其中，图像处理模型是通过对注意力网络进行训练得到的，注意力网络为直接处理二维结构图像数据的注意力模块所构建的。而注意力模块则包括普通卷积层、分组卷积层、分组空洞卷积层和矩阵逐元素层，其中，普通卷积层用于获取通道间关系，分组卷积层用于聚合邻域信息，分组空洞卷积层用于捕获长距离依赖，矩阵逐元素层用于对输入进行注意力变换。除了注意力模块之外，搭建完成的网络仍然依赖其他的神经网络常用组件如多层感知机、卷积层、归一化层、全连接层和非线性激活层等等，有了上述层后，便成功地搭建一个完整的神经网络对图像进行具体的处理了，可以是对图像数据进行特征提取，得到图像数据特征，以供训练好的图像数据处理模型对图像数据特征进行处理。
50.其中，注意力模块的具体构成过程如图2和图3所示，给定一个特定的输入特征f∈rc×h×w。其中c表示通道数量，h表示特征图的高度，w表示特征图的宽度。将其依次经过一个bn层，分组卷积(group convolution)，分组空洞卷积(dilation convolution)和一个1x1普通卷积，得到注意力模块，dw-conv表示分组卷积，dw-d-conv表示分组空洞卷积。具体公式如下所示：
51.attention_map＝conu1×1(conv
dilation
conu
group(
f))
52.output＝attention_map x f
53.其中，attention_map表示注意力模块，conv1×1表示1x1普通卷积，conv
dilation
表示分组空洞卷积，conv
group
(f)表示分组卷积。该公式的原理如图3所示，其原理为对稠密计算的稀疏分解，用三个简单、计算量小的部分代替计算量大的组件，这样的好处是可以在尽量保持精度的情况下，提升运行效率并减少内存的消耗。从而使得注意力模块便可以处理二维图像数据，即图2中所示的2d图像数据。
54.由于具体的图像分类模型、图像分割模型和图像检测模型为训练好的神经网络模型，因此只需将待处理的图像数据输入即可，便可以得到具体的分类、分割或者是检测的处理结果。
55.而具体的，在获取待处理图像数据和处理任务之前，首先进行图像处理模型的训练，训练好的图像数据处理模型可对图像数据进行不同的处理，通过在模型训练过程中采用不同的训练样本集，从而实现不同的处理结果，本发明以图像数据的分类处理、分割处理和图像检测进行说明。
56.图像分类模型的训练过程则包括：获取样本图像数据，并对每个样本图像数据标记标签，构建第一训练样本集；基于第一训练样本集和注意力网络，得到图像分类模型。图像分割模型的训练过程则包括：获取样本图像数据，并对每个样本图像数据中的每个像素标记标签，构建第二训练样本集；基于第二训练样本集和注意力网络，得到图像分割模型。图像检测模型的训练过程则可以包括：获取样本图像数据，并对每个样本图像数据中的每个物体检测框标记标签，构建第三训练样本集；基于第三训练样本集和注意力网络，得到图像检测模型。通过收集一个图像样本数据集，并且根据预设处理模式，为图像样本数据打上标签，在训练过程中，由于使用不同标签标记方法，使得训练所用的样本训练集是不同的，最终通过注意力网络训练得到的图像数据处理模型的功能也不同，从而通过对图像数据进行分类、分割和目标检测处理等。
57.本实施例提供的一种基于注意力机制的图像处理方法，通过获取待处理图像数据；输入所述待处理图像数据至图像处理模型，得到图像处理结果，所述图像处理模型是通过对注意力网络进行训练得到的，所述注意力网络是基于注意力模块构建的，所述注意力模块用于处理二维结构的图像数据，由于图像处理模型是基于能够直接处理二维图像结构的注意力网络训练得到，使得图像处理模型对待处理图像进行识别时，无需再将二维图像压缩为一维序列进行处理，从而能够增加对图像自身结构的识别，有效地提高图像处理的精度。
58.进一步的，本实施例中在输入待处理图像数据至图像处理模型之前，还包括：基于反向传播算法，对图像处理模型进行优化，得到优化后的图像数据处理模型，以通过所述优化后的图像数据处理模型，对所述图像数据进行处理。通过反向传播算法，对注意力网络进行优化，并返回优化后的权重；然后，使用优化后的权重，通过注意力网络对图像数据进行处理，从而处理得到更为准确的图像数据处理结果。
59.基于同一总的发明构思，本技术还保护一种基于注意力机制的图像处理装置，下面对本发明提供的基于注意力机制的图像处理装置进行描述，下文描述的基于注意力机制的图像处理装置与上文描述的基于注意力机制的图像处理方法可相互对应参照。
60.图4是本发明提供的基于注意力机制的图像处理装置的结构示意图。
61.如图4所示，本实施例提供的一种基于注意力机制的图像处理装置，包括：
62.获取模块41，用于获取待处理图像数据；
63.处理模块42，用于输入所述待处理图像数据至图像处理模型，得到图像处理结果，所述图像处理模型是通过对注意力网络进行训练得到的，所述注意力网络是基于注意力模块构建的，所述注意力模块用于处理二维结构的图像数据。
64.本实施例提供的一种基于注意力机制的图像处理装置，通过获取待处理图像数据；输入所述待处理图像数据至图像处理模型，得到图像处理结果，所述图像处理模型是通过对注意力网络进行训练得到的，所述注意力网络是基于注意力模块构建的，所述注意力模块用于处理二维结构的图像数据，由于图像处理模型是基于能够直接处理二维图像结构的注意力网络训练得到，使得图像处理模型对待处理图像进行识别时，无需再将二维图像压缩为一维序列进行处理，从而能够增加对图像自身结构的识别，有效地提高图像处理的精度。
65.进一步的，在上述实施例的基础上，本实施例中的所述注意力模块包括普通卷积层、分组卷积层、分组空洞卷积层和矩阵逐元素层。
66.进一步的，在上述实施例的基础上，本实施例中所述图像处理模型包括图像分类模型、图像分割模型或图像检测模型，处理模块42，具体用于：
67.输入所述待处理图像数据至所述图像分类模型时，输出图像分类结果；或；
68.输入所述待处理图像数据至所述图像分割模型时，输出图像分割结果；或；
69.输入所述待处理图像数据至所述图像检测模型时，输出图像检测结果。
70.进一步的，在上述实施例的基础上，本实施例中还包括模型训练模块，具体用于：
71.获取样本图像数据，并对每个样本图像数据标记标签，构建第一训练样本集；
72.基于所述第一训练样本集和注意力网络，得到图像分类模型。
73.进一步的，在上述实施例的基础上，本实施例中还包括模型训练模块，具体用于：
74.获取样本图像数据，并对每个样本图像数据中的每个像素标记标签，构建第二训练样本集；
75.基于所述第二训练样本集和注意力网络，得到图像分割模型。
76.进一步的，在上述实施例的基础上，本实施例中还包括模型训练模块，具体用于：
77.获取样本图像数据，并对每个样本图像数据中的每个物体检测框标记标签，构建第三训练样本集；
78.基于所述第三训练样本集和注意力网络，得到图像检测模型。
79.进一步的，在上述实施例的基础上，本实施例中还包括模型优化模块，用于：
80.基于反向传播算法，对所述图像处理模型进行优化。
81.进一步的，本实施例中还包括特征提取模块，用于：
82.通过神经网络组件对所述待处理图像数据进行特征提取，以利用提取后的特征输入图像处理模型进行图像处理，所述神经网络组件包括多层感知机、卷积层和归一化层中的至少一种。
83.图5是本发明提供的电子设备的结构示意图。
84.如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行基于注意力机制的图像处理方法，该方法包括：获取待处理图像数据；输入所述待处理图像数据至图像处理模型，得到图像处理结果，所述图像处理模型是通过对注意力网络进行训练得到的，所述注意力网络是基于注意力模块构建的，所述注意力模块用于处理二维结构的图像数据。
85.此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
86.另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于注意力机制的图像处理方法，该方法包括：获取待处理图像数据；输入所述待处理图像数据至图像处理模型，得到图像处理结果，所述图像处理模型是通过对注意力网络进行训练得到的，所述注意力网络是基于注意力模块构建的，所述注意力模块用于处理二维结构的图像数据。
87.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于注意力机制的图像处理方法，该方法包括：获取待处理图像数据；输入所述待处理图像数据至图像处理模型，得到图像处理结果，所述图像处理模型是通过对注意力网络进行训练得到的，所述注意力网
络是基于注意力模块构建的，所述注意力模块用于处理二维结构的图像数据。
88.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
89.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
90.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于注意力机制的图像处理方法、装置及设备

相关文献

最热文献