一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种图像处理方法、装置、计算机设备及存储介质与流程

2021-10-29 20:17:00 来源:中国专利 TAG:互联网 图像处理 装置 计算机 方法


1.本技术涉及互联网技术领域,尤其涉及一种图像处理方法、装置、计算机设备及存储介质。


背景技术:

2.随着互联网技术的不断发展与演化,图像处理与人们的日常生活息息相关,已经被广泛应用于文字识别、医学图像处理、遥感图像的处理等诸多领域。
3.目前,图像处理的实现方式主要是基于人工识别,具体来说,当获取到需要进行图像识别的待处理图像时,由人工对待处理图像进行分析,根据以往的经验和公知常识等信息,最终识别出待处理图像对应的图像识别结果。现有方式基于人工分析识别出来的图像识别结果可能会受用户主观影响,因此不够准确。


技术实现要素:

4.本技术实施例提出了一种图像处理方法、装置、计算机设备以及存储介质,可以确定包括原始图像特征、图像区域特征和位置特征的目标图像特征,提高了目标图像特征的准确性,进一步提高了对象识别结果的准确性。
5.本技术实施例一方面提供了一种图像处理方法,包括:
6.获取包含目标对象的待处理图像;
7.提取所述待处理图像的原始图像特征,原始图像特征包括n个原始特征图,任一原始特征图包括k个特征图像素,n个原始特征图中同一位置的特征图像素对应所述待处理图像的一个图像区域,n和k是正整数;
8.基于注意力机制和所述n个原始特征图确定所述待处理图像中k个图像区域的k个图像区域特征;
9.分别获取每个图像区域在原始图像特征中的位置特征,并将所述原始图像特征、所述k个图像区域特征和k个位置特征叠加为所述待处理图像的目标图像特征;
10.对所述目标图像特征进行识别处理,得到所述目标对象的对象识别结果。
11.本技术实施例一方面提供了一种图像处理装置,包括:
12.获取单元,用于获取包含目标对象的待处理图像;
13.提取单元,用于提取所述待处理图像的原始图像特征,原始图像特征包括n个原始特征图,任一原始特征图包括k个特征图像素,n个原始特征图中同一位置的特征图像素对应所述待处理图像的一个图像区域,n和k是正整数;
14.确定单元,用于基于注意力机制和所述n个原始特征图确定所述待处理图像中k个图像区域的k个图像区域特征;
15.处理单元,用于分别获取每个图像区域在原始图像特征中的位置特征,并将所述原始图像特征、所述k个图像区域特征和k个位置特征叠加为所述待处理图像的目标图像特征;
16.识别单元,用于对所述目标图像特征进行识别处理,得到所述目标对象的对象识别结果。
17.本技术实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述各实施例中的方法。
18.本技术实施例一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行上述各实施例中的方法。
19.本技术实施例一方面提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被终端设备的处理器执行时,执行上述各实施例中的方法。
20.通过本技术实施例的图像处理方法,首先,终端设备可以提取包含目标对象的待处理图像的原始图像特征,其中,原始图像特征包括n个原始特征图,任一原始特征图包括k个特征图像素,n个原始特征图中同一位置的特征图像素对应所述待处理图像的一个图像区域。其次,终端设备可以基于注意力机制和n个原始特征图确定待处理图像中k个图像区域的k个图像区域特征。然后,终端设备可以分别获取每个图像区域在原始图像特征中的位置特征,将原始图像特征、k个图像区域特征和k个位置特征叠加为待处理图像的目标图像特征。相比于人工进行图像识别来说,本方案是通过机器自动识别待处理图像,并且可以基于注意力机制提取能够反映全局信息的图像区域特征,因此提高了目标图像特征的准确性;进一步地,由于还提取了原始图像特征和位置特征,因此特征提取方式丰富多样,并将所有的特征叠加为目标图像特征,提高了目标图像特征的准确性。后续,可以基于目标图像特征得到目标对象的对象识别结果,因此,进一步提高了对象识别结果的准确性。
附图说明
21.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本技术实施例提供的一种图像处理系统的结构示意图;
23.图2a是本技术实施例提供的一种终端设备的界面示意图;
24.图2b是本技术实施例提供的一种提取原始图像特征的场景示意图;
25.图2c是本技术实施例提供一种提取图像区域特征的场景示意图;
26.图2d是本技术实施例提供一种提取卷积操作的场景示意图;
27.图2e是本技术实施例提供的一种确定目标图像特征的场景示意图;
28.图2f是本技术实施例提供的一种确定对象识别结果的场景示意图;
29.图2g是本技术实施例提供的一种图像处理的场景示意图;
30.图2h是本技术实施例提供的一种图像处理的场景示意图;
31.图3是本技术提供的一种图像处理方法的流程示意图;
32.图4是本技术实施例提供的一种自注意力机制的流程示意图;
33.图5是本技术实施例提供的一种确定图像区域特征的流程示意图;
34.图6是本技术实施例提供的一种训练图像处理模型的流程示意图;
35.图7a是本技术实施例提供的一种样本图像集合的示意图;
36.图7b是本技术实施例提供的一种训练样本图像处理模型的流程示意图;
37.图7c是本技术实施例提供的一种训练判别器的流程示意图;
38.图8是本技术实施例提供的一种图像处理装置的结构示意图;
39.图9是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
40.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
41.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
42.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
43.本技术实施例提供的方案属于人工智能领域下属的深度学习技术和机器学习技术。
44.机器学习(machine learning,ml)/深度学习(deep learning,dl)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
45.在本技术中,主要涉及机器学习技术提取待处理图像的原始图像特征,涉及机器学习技术分别获取每个图像区域在原始图像特征中的位置特征,以及涉及机器学习技术对目标图像特征进行识别处理,得到目标对象的对象识别结果。另外,涉及深度学习技术基于注意力机制和原始图像特征中包含的n个原始特征图确定待处理图像中k个图像区域的k个图像区域特征。
46.本技术可应用于如下场景:当获取到包含目标对象的待处理图像,且欲对待处理图像中的目标对象进行对象识别时,可以采用本技术的方案提取待处理图像的原始图像特征,图像区域特征和位置特征,并基于原始图像特征,图像区域特征和位置特征确定目标对象的对象识别结果。
47.具体来说,若目标对象包括公式对象,则根据本技术确定的对象识别结果可以包括公式对象的排版代码序列。更具体地,本技术可以用于拍照搜题场景,具体来说,数学公
式广泛存在于各类文档,试题中,应用本技术提供的方案可以用于离线的数学公式识别,通过对图片中的数学符号进行分析,生成图片对应的latex代码。由于数学符号很难直接作为搜索引擎的输入,利用本技术方案可以作为搜索引擎的部件,将图片中的数学符号转化成便于检索的latex代码,然后在搜索界面中,将latex代码作为输入,在题库中搜索对应的题目,从而实现搜题的功能。另外,本技术可以实现将包含数学符号的文档、试题等进行电子化,减少文字编辑工作者的负担。
48.具体来说,若目标对象包括字符对象,则根据本技术确定的对象识别结果包括字符对象的排版代码序列。本技术可以用于拍照识别场景,具体来说,应用本技术提供的方案可以用于离线的字符序列识别,通过对图片中的字符序列进行分析,生成图片对应的latex代码序列,或者java代码序列和python代码序列等。
49.具体来说,若目标对象包括第一字符对象,则根据本技术确定的对象识别结果包括第二字符对象,其中,第一字符对象的语种类型和第二字符对象的语种类型不同。本技术可用于图片翻译场景,具体来说,用户选择需要进行图像识别的待处理图像,然后利用本技术的方案识别包含第一字符对象的待处理图像,输出待处理图像的识别结果(第二字符对象)。例如第一字符对象的语种类型为中文,则第二字符对象的语种类型可以为英文。因此,实现了图片识别和字符翻译的效果。
50.请参见图1,请参见图1,图1是本技术实施例提供的一种图像处理系统的结构示意图。服务器140以及终端设备集群,其中,终端设备集群可以包括:终端设备110、终端设备120、...、终端设备130等。终端设备集群与服务器140可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
51.图1所示的服务器140可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content deliverynetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
52.图1所示的终端设备110、终端设备120、终端设备130等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mid,mobile internet device)、车辆、路边设备、飞行器、可穿戴设备,例如智能手表、智能手环、计步器等,等具有图像处理功能的智能设备。
53.以终端设备110为例,终端设备110获取包含目标对象的待处理图像;终端设备将包含目标对象的待处理图像发送至服务器140。服务器140提取待处理图像的原始图像特征,其中,原始图像特征包括n个原始特征图,任一原始特征图包括k个特征图像素,n个原始特征图中同一位置的特征图像素对应所述待处理图像的一个图像区域。服务器140基于注意力机制和所述n个原始特征图确定所述待处理图像中k个图像区域的k个图像区域特征。服务器140分别获取每个图像区域在原始图像特征中的位置特征,将原始图像特征、k个图像区域特征和k个位置特征叠加为待处理图像的目标图像特征。服务器140对目标图像特征进行识别处理,得到目标对象的对象识别结果。
54.后续,服务器140可以将目标对象的对象识别结果发送至终端设备110,终端设备110可以输出对象识别结果;或者,终端设备110可以根据对象识别结果进一步对待处理图像进行后处理,以输出后处理结果。
55.当然,提取待处理图像的原始图像特征,基于注意力机制和原始图像特征包括的n
个原始特征图确定待处理图像中k个图像区域的k个图像区域特征,获取每个图像区域在原始图像特征中的位置特征,以及对目标图像特征进行识别处理,得到目标对象的对象识别结果。也可以由终端设备110或者终端设备集群中的任意终端设备来执行。
56.可以理解的是,本技术实施例描述的系统架构示意图是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
57.请参见图2a,图2a是本技术实施例提供的一种计算机设备的界面示意图。如图2a所示,用户可以在计算机设备的相册界面中选择待处理图像。其中,待处理图像可以包括目标对象,目标对象可以为公式对象或者字符对象。图2a所示的待处理图像包括公式对象,公式对象具体为

ik/12π。终端设备获取到待处理图像后,对待处理图像进行原始图像特征提取,图像区域特征提取,以及位置特征提取。
58.请参见图2b,图2b是本技术实施例提供的一种提取原始图像特征的场景示意图。如图2b所示,计算机设备可以通过卷积神经网络模型(convolutional neural networks,cnn)对包含目标对象(公式对象)的待处理图像进行识别处理,得到待处理图像的原始图像特征。其中,卷积神经网络模型是从图像中提取特征的最常用模型,并且卷积运算符仅在本地邻域中聚集信息,即只关注图像的局部特征。其中,原始图像特征包括n个原始特征图,任一原始特征图包括k个特征图像素,n个原始特征图中同一位置的特征图像素对应待处理图像的一个图像区域。具体来说,n是原始图像特征的特征维度,特征维度具体可以是通道数。
59.请参见图2c,图2c是本技术实施例提供一种提取图像区域特征的场景示意图。如图2c所示,计算机设备对原始图像特征分别进行三次1*1卷积操作,即f(x),g(x),h(x)分别代表一次1*1卷积操作。当然,f(x),g(x),h(x)除了是卷积操作还可以为线性变换操作,本技术实施例对此不作限定。
60.针对卷积操作而言,具体请参见图2d,图2d是本技术实施例提供一种提取卷积操作的场景示意图。如图2d所示,针对原始图像特征包括的n个原始特征图中的任一原始特征图来说,计算机设备可以根据卷积核对原始特征图进行卷积运算,具体来说,若卷积核为1*1卷积核,则计算机设备对原始特征图进行1*1卷积操作,并且卷积核的个数等于原始图特征的特征维度(即通道数n)。于是,经过n个卷积核的卷积操作之后,可以得到原始特征图对应的卷积特征。
61.在一种可能的实现方式中,由于卷积核的参数可能不同,因此每次卷积操作对应的卷积特征不相同,即f(x),g(x)和h(x)之间互不相同。通过注意力机制对f(x)和g(x)进行注意力权重计算,可以得到待处理图像中任意两个图像区域i和图像区域j之间的特征相似度,然后,基于得到的特征相似度与h(x)之间进行加权求和运算,即可获得每个图像区域的区域特征。由于本方案通过卷积操作之后,再结合注意力机制,可以获取待处理图像中的任意两个图像区域之间的相似度,因此计算机设备最后提取的图像区域特征关注了除本身区域位置以外的其它区域位置,因此图像区域特征是一个全局特征。需要说明的是,图像区域特征的特征维度与原始图像区域特征的特征尺寸相同。
62.请参见图2e,图2e是本技术实施例提供的一种确定目标图像特征的场景示意图。如图2e所示,在计算机设备获取到图像区域特征之后,计算机设备还可以根据原始图像特
按钮,即计算机设备获取到待处理图像。
71.其中,目标对象可以为公式对象,也可以为字符对象。例如,若目标对象为公式对象,具体可以为
“‑
ik/12π”;或者目标对象为字符对象,具体可以为“我爱你中国”。
72.步骤s320:提取所述待处理图像的原始图像特征,原始图像特征包括n个原始特征图,任一原始特征图包括k个特征图像素,n个原始特征图中同一位置的特征图像素对应所述待处理图像的一个图像区域,n和k是正整数。
73.具体实现时,计算机设备调用编码模型识别待处理图像,得到待处理图像的原始图像特征。其中,原始图像特征包括n个原始特征图,任一原始特征图包括k个特征图像素,n个原始特征图中同一位置的特征图像素对应待处理图像的一个图像区域,并且n和k是正整数。n是通道数,k是指原始特征图的尺寸,即长和宽之间的乘积。
74.需要说明的是,编码模型具体可以为神经网络模型,神经网络模型具体可以是cnn(convolutional neural networks,cnn)模型,rnn(循环神经网络,recurrent neural network,rnn)模型,lstm(长短期记忆网络,lstm,long short

term memory),gru(门控循环神经网络,gated recurrent neural network)模型等等。
75.举例来说,以卷积神经网络模型为例进行具体说明。计算机设备可以通过卷积神经网络模型对待处理图像进行识别,得到待处理图像的原始图像特征。其中,卷积神经网络模型提取图像特征主要包括两个步骤,首先,通过卷积层初步提取待处理图像的图像特征,然后,可以通过池化层对卷积层初步得到的图像特征进行池化处理,最终得到待处理图像的原始图像特征。其中,池化处理通过包括最大池化处理和均值池化处理,具体来说,最大池化(max

pooling)主要是选取指定区域内最大的一个数来代表整片区域;均值池化(mean

pooling)主要是选取指定区域内数值的平均值来代表整片区域。通过池化层进行池化处理后,可以在图像特征提取过程中,保留有用的图像信息,因此使得提取到的原始图像特征更加有效。
76.步骤s330:根据所述n个原始特征图确定所述待处理图像中k个图像区域的k个图像区域特征。
77.具体实现时,计算机设备可以对得到的n个原始特征图进行三次卷积处理操作,然后分别得到三次卷积处理操作后的卷积特征图。最后,基于注意力机制和三次卷积处理操作后的卷积特征图确定待处理图像中k个图像区域的k个图像区域特征。需要说明的是,由于每次卷积操作使用的卷积核的参数可能不同,因此三次卷积处理操作后得到的卷积特征图也可能不同。但是,卷积处理操作只会改变原始图像特征的通道数,并不会改变原始图像特征的尺寸,即卷积处理操作后n会改变,但是k不会改变。
78.在一种可能的实现方式中,卷积神经网络是从图像中提取特征的最常用模型。由于卷积运算符仅在本地邻域中聚集信息,从而导致对长距离依赖关系的建模效率低下。但是,长距离依赖关系对于图像到latex代码的生成很重要。例如,公式中的左括号可能会离右括号很远。因此,我们将自我注意机制引入图像特征提取器。利用图片区域之间特征的相似性来建模符号之间的依赖关系。
79.具体地,首先,计算机设备可以将待处理图像经过一个卷积神经网络进行特征提取得到的原始图像特征记为x。随后,计算机设备将提取出来的特征x利用函数f(*)和g(*)分别映射到两个不同的空间,其中,f(*)和g(*)可以是卷积操作或者是某些线性变换。区域
i和j之间特征的相似度定义如公式1所示:
[0080][0081]
最终得到的k个图像区域特征如公式2所示:
[0082][0083]
其中,公式(2)中,k=h
×
w。即k个图像区域特征组合为待处理图像对应的区域特征矩阵。
[0084]
通过本方案,利用图片区域之间特征的相似性来建模符号之间的关系,可以实现对待处理图像的高质量的特征提取,使得提取出来的图像特征准确度更高。
[0085]
步骤s340:分别获取每个图像区域在原始图像特征中的位置特征,并将所述原始图像特征、所述k个图像区域特征和k个位置特征叠加为所述待处理图像的目标图像特征。
[0086]
具体实现时,计算机设备获取每个图像区域在n个原始特征图中的位置信息,基于位置信息确定每个图像区域的位置特征。最后,计算机设备将原始图像特征、k个图像区域特征和k个位置特征叠加为待处理图像的目标图像特征。其中,位置信息可以包括第几行第几列,例如位置信息为第3行第5列。
[0087]
举例来说,计算机设备将原始图像特征、k个图像区域特征和k个位置特征叠加为待处理图像的目标图像特征的过程可以如公式(3)所示:
[0088][0089]
公式(1)中,v是指目标图像特征,是指原始图像特征,o是指k个图像区域特征,e是指k个位置特征,γ是一个可学习的参数。
[0090]
具体来说,此处的叠加是指:将原始图像特征和k个图像区域特征和k个位置特征进行组合,例如,若原始图像特征为200维,k个图像区域特征为150维,k个位置特征为150维,则组合后的目标图像特征为:200 150 150=500维。
[0091]
在一种可能的实现方式中,参考图像区域为k个图像区域中的一个图像区域。计算机设备获取参考图像区域在原始图像特征中的位置特征的流程,具体可以包括:首先,计算机设备获取参考图像区域在原始图像特征中对应的参考特征图像素;然后,计算机设备获取参考特征图像素在n个原始特征图中分别对应的第一参考位置和第二参考位置;最后,计算机设备根据第一参考位置和第二参考位置,生成参考位置特征,其中,参考位置特征的维度为p。
[0092]
举例来说,首先,计算机设备获取参考图像区域i在原始图像特征中对应的参考特征图像素x,然后,获取参考特征图像素x在n个原始特征图中的第一参考位置和第二参考位置,其中,第一参考位置可以根据行位置信息生成,第二参考位置可以根据列位置信息生成。若参考特征图像素x的行位置信息为第3行,列位置信息为第5列,则根据第3行生成的第一参考位置可以为(0,0,1),根据第5列生成的第二参考位置可以为(0,0,0,0,1)。最后,根据参考位置特征的维度p,可以将参考位置特征所包含的前p/2个元素根据第一参考位置生
成,后p/2个元素根据第二参考位置生成。假设参考位置特征的维度p为100,则参考位置可以是100维的特征向量,那么,这100维的特征向量中前50个元素为根据第一参考位置生成,后50个元素为根据第二参考位置生成。具体可以为(0,0,1,0,...,0,0,0,0,1,...),也就是说,针对第一参考位置,由于只有3个元素,因此后47个元素均为0。同理,第二参考位置为5个元素,则后45个元素均为0。
[0093]
以此类推,对于每个图像区域,其对应的位置特征的维度均为p,并且,对于每个图像区域的位置特征均可类比参考位置区域的位置特征的确定方法,本技术在此不再赘述。最终,k个图像区域,即可对应k个位置特征。
[0094]
步骤s350:对所述目标图像特征进行识别处理,得到所述目标对象的对象识别结果。
[0095]
具体实现时,计算机设备调用解码模型对目标图像特征进行识别处理,得到目标对象的对象识别结果。需要说明的是,目标对象的对象类型不同,其对应的对象识别结果也不同,具体来说,若目标对象包括公式对象,则对象识别结果包括公式对象的排版代码序列;若目标对象包括字符对象,则对象识别结果包括字符对象的排版代码序列;若目标对象包括第一字符对象,则对象识别结果包括第二字符对象,并且,第一字符对象的语种类型和第二字符对象的语种类型不同。
[0096]
需要说明的是,解码模型具体可以为神经网络模型,神经网络模型具体可以为transformer模型,crf(条件随机场,conditional random field)模型等等。以解码模型是transformer模型为例进行详细说明,transformer模型抛弃了以往深度学习任务里面使用到的cnn模型和rnn模型,目前transformer模型广泛应用于自然语言处理(natural language process,nlp)领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。
[0097]
在一种可能的实现方式中,目标图像特征包括k个特征向量,每个特征向量的维度为p。计算机设备对目标图像特征进行识别处理,得到目标对象的对象识别结果的流程,具体可以包括:首先,计算机设备基于自注意力机制和k个特征向量,获取自注意力权重矩阵并根据自注意力权重矩阵,确定k个特征向量分别对应的k个注意力特征向量;然后,计算机设备调用解码器分别识别k个注意力特征向量,确定目标对象的对象识别结果。
[0098]
举例来说,请参见图4,图4是本技术实施例提供的一种自注意力机制的流程示意图。具体实现时,计算机设备将k个特征向量h1,h2,h3,...,hk输入解码模型,解码模型对k个特征向量h1,h2,h3,...,hk进行解码,得到k个特征输出向量y1,y2,y3,...,yk。后续,基于全连接层和归一化层对k个特征输出向量y1,y2,y3,...,yk进行全连接处理,即可输出目标对象的对象识别结果。其中,k个特征向量h1,h2,h3,...,hk是k个特征输入向量x1,x2,x3,...,xk输入编码器模型进行编码处理后得到的隐藏特征序列,k个注意力特征向量c1,c2,c3,...,ck是k个特征向量h1,h2,h3,...,hk输入解码器模型中的自注意力模块进行处理后得到的自注意力特征序列。k个特征向量s1,s2,s3,...,sk是k个特征向量h1,h2,h3,...,hk输入解码器模型中进行解码处理后得到的隐藏特征序列。当然,图4所示中仅仅以k=3个特征输入向量为例进行详细说明。
[0099]
在一种可能的实现方式中,计算机设备基于自注意力机制,可以将每个特征向量之间的关联关系通过自注意力权重来刻画出来,因此可以确定自注意力权重矩阵,例如,自
注意力权重矩阵可以为:
[0100]
进一步地,基于自注意力权重矩阵,可以计算得到k个自注意力特征向量。k个自注意力特征向量如公式(4)所示:
[0101][0102]
如公式4中,h1,h2,h3是输入特征向量,c1,c2,c3是根据自注意力权重矩阵和k个特征向量分别确定的k个注意力特征向量(k=3)。最后,通过全连接层和归一化层对k个注意力特征向量的识别处理,最终输出目标对象的对象识别结果。
[0103]
通过本技术实施例提供的图像处理方法,首先,终端设备可以提取包含目标对象的待处理图像的原始图像特征,其中,原始图像特征包括n个原始特征图,任一原始特征图包括k个特征图像素,n个原始特征图中同一位置的特征图像素对应所述待处理图像的一个图像区域。其次,终端设备可以基于注意力机制和n个原始特征图确定待处理图像中k个图像区域的k个图像区域特征。然后,终端设备可以分别获取每个图像区域在原始图像特征中的位置特征,将原始图像特征、k个图像区域特征和k个位置特征叠加为待处理图像的目标图像特征。相比于现有方式来说,本方案由于提取了能够反映全局信息的图像区域特征,因此提高了目标图像特征的准确性;进一步地,由于还提取了原始图像特征和位置特征,因此特征提取方式丰富多样,并将所有的特征叠加为目标图像特征,提高了目标图像特征的准确性。后续,可以基于目标图像特征得到目标对象的对象识别结果,因此,进一步提高了对象识别结果的准确性。
[0104]
请参见图5,图5是本技术实施例提供的一种确定图像区域特征的流程示意图。该方法应用于计算机设备,其中,图5实施例是图3实施例中步骤s330对应的一个具体实施例。如图5所示,该图像处理方法可包括步骤s510~s540。其中:
[0105]
步骤s510:基于第一卷积核对所述n个原始特征图进行卷积处理操作,得到p个第一卷积特征图,p是正整数。
[0106]
具体实现时,计算机设备可以基于第一卷积核对n个原始特征图进行卷积处理操作,得到p个第一卷积特征图,其中,p是正整数。其中,卷积处理操作的目的是改变原始图像特征的通道数n,而不改变原始图像特征的尺寸k。当然,卷积处理操作可以是降低通道数,也可以是增加通道数,一般来说,为了降低计算机设备的处理效率,通常进行卷积处理操作是为了降低原始图像特征的通道数。
[0107]
其中,卷积处理操作可以看作对某个局部的加权求和,它是对应局部感知,它的原理是在观察某个物体时我们既不能观察每个图像素也不能一次观察整体,而是先从局部开始认识,这就对应了卷积。卷积核的大小一般有1
×
1,3
×
3和5
×
5的尺寸。卷积核的个数就对应输出的通道数,这里需要说明的是,对于输入的每个通道,输出每个通道上的卷积核是不一样的。
[0108]
比如输入是28
×
28
×
192(h
×
w
×
n,n代表通道数),然后在3x3的卷积核,卷积通道
数为128(p),那么卷积的参数有3
×3×
192
×
128,其中前两个(3
×
3)对应的每个卷积里面的参数,后两个(192
×
128)对应的卷积总的个数。同理,若是1x1卷积核,若输入是28
×
28
×
192(h
×
w
×
n,n代表通道数),则一共需要128个第一卷积核,每个第一卷积核可以为1
×1×
192。因此通过1x1第一卷积核对输入28
×
28
×
192进行操作之后,得到128个28
×
28的第一卷积特征图。
[0109]
步骤s520:基于第二卷积核对所述n个原始特征图进行卷积处理操作,得到p个第二卷积特征图。
[0110]
具体实现时,计算机设备基于第二卷积核对n个原始特征图进行卷积处理操作,得到p个第二卷积特征图的具体处理过程,详细可参见计算机设备基于第一卷积核对n个原始特征图进行卷积处理操作,得到p个第一卷积特征图的处理过程,本技术在此不再赘述。
[0111]
其中,第二卷积核和第一卷积核所使用的卷积核尺寸可以相同,但是由于第二卷积核和第一卷积各自对应的参数可能不同,因此,得到的p个第二卷积特征图和p个第一卷积特征图也可能不同。但是,p个第二卷积特征图的尺寸与n个原始特征图相同,均为k。
[0112]
步骤s530:基于第三卷积核对所述n个原始特征图进行卷积处理操作,得到p个第三卷积特征图。
[0113]
具体实现时,计算机设备基于第三卷积核对n个原始特征图进行卷积处理操作,得到p个第三卷积特征图的具体处理过程,详细可参见计算机设备基于第一卷积核对n个原始特征图进行卷积处理操作,得到p个第一卷积特征图的处理过程,本技术在此不再赘述。
[0114]
其中,第三卷积核和第一卷积核所使用的卷积核尺寸可以相同,但是由于第三卷积核和第一卷积核以及第二卷积核各自对应的参数可能不同,因此,得到的p个第三卷积特征图和p个第一卷积特征图和p个第二卷积特征图也可能不同。但是,p个第三卷积特征图的尺寸与n个原始特征图相同,均为k。
[0115]
综合上所述,任一第一卷积特征图,任一第二卷积特征图,任一第三卷积特征图与任一原始特征图的尺寸均相同(均等于k)。
[0116]
步骤s540:基于注意力机制,识别所述p个第一卷积特征图,所述p个第二卷积特征图和所述p个第三卷积特征图,确定所述待处理图像中k个图像区域的k个图像区域特征。
[0117]
具体实现时,计算机设备基于注意力机制,可以将p个第一卷积特征图作为键,p个第二卷积特征图作为查询,然后,计算键(p个第一卷积特征图)和查询(p个第二卷积特征图)之间的相似度。最后,基于相似度与p个第三卷积特征图,确定待处理图像中k个图像区域的k个图像区域特征。需要说明的是,本技术实施例涉及的注意力机制是指:首先,将原始图像特征经过三次卷积操作后分别得到的三次卷积操作结果(每次卷积操作结果均为p个卷积特征图,并且所有卷积特征图中每个卷积特征图的尺寸相同)。然后,基于任意两次卷积操作结果进行相似度计算,可以得到任意一个图像区域与所有图像区域之间的多个相似度。最后,基于多个相似度与另一个卷积操作结果进行加权运算,最终得到每个图像区域对应的图像区域特征。
[0118]
在一种可能的实现方式中,参考图像区域为k个图像区域中的一个图像区域。计算机设备基于注意力机制,识别p个第一卷积特征图,p个第二卷积特征图和p个第三卷积特征图,确定待处理图像中参考图像区域的图像区域特征的流程,具体可以包括:首先,计算机设备根据p个第一卷积特征图和p个第二卷积特征图,确定参考图像区域和k个图像区域之
间的k个区域相似度;然后,计算机设备根据参考图像区域和k个图像区域之间的k个区域相似度以及p个第三卷积特征图,确定参考图像区域的图像区域特征。
[0119]
具体实现时,p个第二卷积特征图包括k个第二卷积特征向量,每个第二卷积特征向量的维度为p。计算机设备根据p个第一卷积特征图和p个第二卷积特征图,确定参考图像区域和k个图像区域之间的k个区域相似度,具体可以包括:首先,计算机设备分别获取每个第一卷积特征图中参考图像区域对应像素的像素值,并将获取到的p个像素值组合为第一卷积特征向量;然后,计算机设备将第一卷积特征向量分别与k个第二卷积特征向量进行点积运算,得到参考图像区域和k个图像区域之间的k个区域相似度。
[0120]
举例来说,由于每个图像区域会对应一个特征图像素,因此,针对p个第一卷积特征图,计算机设备可以在p个第一卷积特征图中,分别确定每个参考图像区域对应像素的像素值,因此可以确定p个像素值,假设为p个像素值分别为m1,m2,...,m
p
,则第一卷积特征向量可以为(m1,m2,...,m
p
)。然后,k个第二卷积特征向量中每个第二特征卷积向量的维度也均为p,假设k个第二卷积特征向量分别为(n
11
,n
12
,...,n
1p
),(n
21
,n
22
,...,n
2p
),...,(n
k1
,n
k2
,...,n
kp
)。因此,根据图3实施例中的公式(1)可以将(m1,m2,...,m
p
)和(n
11
,n
12
,...,n
1p
),(n
21
,n
22
,...,n
2p
),...,(n
k1
,n
k2
,...,n
kp
)分别进行点积运算,然后分别对每个点积运算的结果做归一化处理,得到k个区域相似度α
11

12
,...,α
1k

[0121]
进一步地,p个第三卷积特征图包括k个第三卷积特征向量,每个第三卷积特征向量的维度为p。假设k个第三卷积特征向量分别(h
11
,h
12
,...,h
1p
),(h
21
,h
22
,...,h
2p
),...,(h
k1
,h
k2
,...,h
kp
),计算机设备对所述k个区域相似度α
11

12
,...,α
1k
和所述k个第三卷积特征向量(h
11
,h
12
,...,h
1p
),(h
21
,h
22
,...,h
2p
),...,(h
k1
,h
k2
,...,h
kp
)之间进行加权运算,确定所述参考图像区域的图像区域特征。参考图像区域的图像区域特征如公式(5)所示:
[0122]
o1=α
11
h1 α
11
h1 ... α
1k
h
k
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0123]
其中,公式5中的h1,h2,...,hk分别代表k个第三卷积特征向量(h
11
,h
12
,...,h
1p
),(h
21
,h
22
,...,h
2p
),...,(h
k1
,h
k2
,...,h
kp
)。由此,可以计算出参考图像区域的图像区域特征o1,需要说明的是,针对其他所有的(k

1)个图像区域的图像区域特征o2,o3,...,o
k
的确定方式,均可类比参考图像区域的图像区域特征的确定方式,本技术在此不再赘述。
[0124]
通过本技术实施例,可以利用一个结构感知的模块(如图2c所示)对包含复杂结构关系的数学公式的待处理图像进行特征提取,该模块基于注意力机制,利用图片区域之间特征的相似性来建模符号之间的关系,实现高质量的特征提取,得到待处理图像的图像区域特征。相比于只利用卷积神经网络模型对待处理图像进行图像识别,从而提取图像特征而言,本技术得到的图像区域特征关注了待处理图像中的每个图像区域之间的关联性,因此,图像区域特征是一种全局特征信息。卷积神经网络模型提取出来的图像特征(原始图像特征)是局部特征信息,因此,使得提取出来的目标图像特征更加准确。进一步地,基于目标图像特征进行解码处理后得到的对象识别结果也更加准确。
[0125]
请参见图6,图6是本技术实施例提供的一种训练图像处理模型的流程示意图。该方法应用于计算机设备,如图6所示,该图像处理方法可包括步骤s610~s640。其中:
[0126]
步骤s610:获取样本图像集合,所述样本图像集合包括多个样本图像、每个样本图像对应的正样本对象识别结果和每个样本图像对应的负样本对象识别结果。
[0127]
具体实现时,用户可以选择一批建模样本(样本图像集合),然后用户可以将建模
样本发送至计算机设备,以使计算机设备利用建模样本对图像处理模型进行训练操作。其中,图像处理模型是指能够识别包含目标对象的待处理图像,生成目标对象的对象识别结果的模型。具体来说,图像处理模型可以包括编码器模块和解码器模块,其中,编码器模块还可以包括神经网络子模块和结构感知子模块。举例来说,神经网络子模块的结构示意图可以如图2b所示,结构感知子模块的结构示意图可以如图2c所示,解码器模块的结构示意图可以如图2f所示。
[0128]
其中,样本图像集合中可以包括多个样本图像,每个样本图像对应的正样本对象识别结果和每个样本图像对应的负样本对象识别结果。举例来说,请参见图7a,图7a是本技术实施例提供的一种样本图像集合的示意图。如图7a所示,每个样本图像中包括目标对象,目标对象可以为公式对象。若目标对象为
“‑
qw/12”,则
“‑
qw/12”对应的正样本对象识别结果为
“‑
\frac{q w}{12}”,
“‑
qw/12”对应的负样本对象识别结果可以为“a^\ast”;若目标对象为“|a|”,则“|a|”对应的正样本对象识别结果为“\vert a\vert”,“|a|”对应的负样本对象识别结果可以为
“‑
\frac{q w}{12}”;若目标对象为“a*”,则“a*”对应的正样本对象识别结果为“a^\ast”,“a*”对应的负样本对象识别结果可以为“\vert a\vert”。
[0129]
需要说明的是,参考样本图像对应的负样本对象识别结果可以为样本图像集合中除去参考样本图像对应的正样本对象识别结果以外的其它任意样本对象识别结果,参考样本图像对应的负样本对象识别结果也可以为与参考样本图像不匹配的其它对象识别结果,本技术对此不作限定,只要是负样本即可。当然,样本图像集合中的样本图像的个数可以由用户指定,并且样本图像集合中的样本图像可以定期更新处理,更新处理具体可以包括增加部分样本图像或者删除部分样本图像,或者随机选取部分样本图像让另外的用户进行核对,核对的标准可以为样本图像与正样本对象识别结果之间是否匹配,或者样本图像与负样本对象识别结果之间是否不匹配等等。
[0130]
步骤s620:调用样本图像处理模型,获取每个样本图像分别对应的第一预测概率集合,所述样本图像处理模型包括判别器和生成器。
[0131]
具体实现时,计算机设备调用样本图像处理模型对样本图像集合中的每个样本图像分别进行识别处理,得到每个样本图像分别对应的第一概率预测集合。其中,样本图像处理模型包括判别器和生成器。
[0132]
举例来说,若样本图像1为
“‑
qw/12”,则调用样本图像处理模型对
“‑
qw/12”进行识别处理,可以得到
“‑
qw/12”对应的第一预测概率集合,其中,第一预测概率集合中包括每一个代码对应的预测概率,即第一预测概率集合可以包括
“‑”
对应的预测概率,“\frac”对应的预测概率,“{”对应的预测概率,...等等。
[0133]
步骤s630:根据所述每个正样本对象识别结果、所述每个负样本对象识别结果和所述每个第一预测概率集合对所述样本图像处理模型进行对抗训练。
[0134]
具体实现时,计算机设备根据每个正样本对象识别结果、每个负样本对象识别结果和每个第一预测概率集合对判别器和生成器进行对抗训练。
[0135]
针对样本图像处理模型的训练过程,可以将建模为马尔可夫决策(markov decision process,mdp)过程,在决策过程中考虑整个序列的生成情况,而不是做单步的评估。请参见图7b,图7b是本技术实施例提供的一种训练样本图像处理模型的流程示意图。
[0136]
其中,马尔可夫决策过程通常可以通过元组进行定义,其中表示状态空间,表示动作空间,表示奖励函数,ρ表示初始状态分布,p表示状态转移概率矩阵。在latex代码生成任务中,状态为图片与当前已经生成的序列片段,动作为在词表中选择下一个词,策略是关于词表中词被选择的概率。基于马尔可夫决策过程的定义,我们利用强化学习进行策略的求解。在代码生成过程中,每一个时间步,根据策略(即词表中词的分布)从词表中进行采样,作为下一步的预测,不断重复上述过程,直到采样的词为结束标志则停止采样,得到预测的latex代码序列。
[0137]
具体来说,由于数学公式通常对应多个不同的代码序列,如果是利用自然语言处理技术中针对文本的评价指标,这些指标都是基于ground

truth进行的评估,例如bleu,edit distance等指标。利用这些指标作为奖励函数难以实现对ground

truth中不存在但同样正确的序列进行有效的评估。基于以上分析,在训练样本图像处理模型(建模)的过程中,可以通过学习一个判别器d对图片和序列对进行分类,该判别器可以用于对图片序列对进行分类,避免了评价指标的选择问题。此外,对于同一个图片有多个不同的代码序列的问题,对于正确的样本对,判别器学习将它们分类为正样本,对于生成的样本,判别器学习将它们分类为负样本。判别器与生成器之间进行对抗,生成器致力于产生正确的序列,从而从判别器获得较大的奖励,判别器则学习判别真假样本。
[0138]
在一种可能的实现方式中,计算机设备根据每个正样本对象识别结果、每个负样本对象识别结果和每个第一预测概率集合对判别器和生成器进行对抗训练的流程,具体可以包括:首先,计算机设备根据每个样本图像的正样本对象识别结果、每个样本图像的第一预测概率集合和每个样本图像的负样本对象识别结果,调整判别器的模型参数;然后,计算机设备根据调整后的判别器,获取每个样本图像分别对应的第二预测概率集合;最后,计算机设备根据每个样本图像的正样本对象识别结果和每个样本图像的第二预测概率集合,调整生成器的模型参数。其中,判别器和生成器之间是交替训练,所谓交替训练是指:训练判别器时,生成器保持不变(即不改变生成器的模型结构和模型参数);训练生成器时,判别器保持不变(即不改变判别器的模型结构和模型参数)。
[0139]
具体实现时,计算机设备根据每个样本图像的正样本对象识别结果、每个样本图像的第一预测概率集合和每个样本图像的负样本对象识别结果,调整判别器的模型参数,调整所述判别器的模型参数的流程,具体可以包括:首先,计算机设备根据每个样本图像的正样本对象识别结果和每个样本图像的第一预测概率集合,确定第一奖励反馈;然后,计算机设备根据每个样本图像的第一预测概率集合,确定第二奖励反馈;其次,计算机设备根据每个样本图像的负样本对象识别结果和每个样本图像的第一预测概率集合,确定第三奖励反馈;最后,计算机设备将第一奖励反馈,第二奖励反馈和第三奖励反馈叠加为目标奖励反馈,并根据目标奖励反馈反向调整判别器的模型参数。
[0140]
举例来说,如图7c所示,图7c是本技术实施例提供的一种训练判别器的流程示意图。判别器d的模型结构与生成器的模型结构一致,包含一个处理图片的编码器及处理latex序列的解码器,其训练样本包括三类:ground

truth中匹配的图片和序列样本对(x,y),图片及生成器生成的序列组成的样本对ground

truth中不匹配的样本对其中,y是指正样本对象识别结果,是根据第一预测概率集合确定的预测对象识别结果,
是指负样本对象识别结果。根据第一奖励反馈、第二奖励反馈和第三奖励反馈确定的目标奖励反馈如公式(6)所示:
[0141][0142]
公式(6)中,λ为超参数,e(x,y)代表样本图像和正样本对象识别结果之间的期望,代表样本图像和预测对象识别结果之间的期望,代表样本图像和负样本对象识别结果之间的期望。logd(x,y)是指第一奖励反馈,是指第二奖励反馈,是指第三奖励反馈。
[0143]
最后,根据目标奖励反馈反向调整判别器的模型参数。具体来说,可以通过梯度优化算法,最大化目标奖励反馈,从而调整判别器的模型参数。
[0144]
在一种可能的实现方式中,计算机设备根据每个样本图像的正样本对象识别结果和每个样本图像的第二预测概率集合,调整生成器的模型参数的流程,具体可以包括:首先,计算机设备根据每个样本图像的正样本对象识别结果,每个样本图像的第二预测概率集合,获取目标损失;然后,计算机设备根据目标损失反向调整生成器的模型参数。
[0145]
具体来说,由于现有的评价指标通常是针对整个序列进行的评估,即训练过程中的反馈信号只能在整个序列生成结束之后才能得到,进而策略的更新只能在序列完全生成之后才能进行。这样会导致奖励延迟的问题,不利于策略的学习。结合以上分析,我们希望可以在每一步决策时能够获得反馈。在强化学习中状态

动作价值函数用来评价某一状态下执行某一动作,在未来能获得多少累积的奖励。根据状态

动作价值函数及前面对判别器的定义,可以发现判别器d与状态

动作价值函数之间的关系为公式(7)所示:
[0146][0147]
举例来说,根据公式(7),可以计算得到每一步决策时对应的奖励反馈。例如,若需要计算第i步动作对应的奖励反馈,则可以在第一预测概率集合中选择出第i步动作对应的概率集合,其中,第一预测概率集合包括i个预测概率集合,假设第i步动作对应的概率集合为{y
i1
,y
i2
,...,y
it
};然后,根据正样本识别结果中第i步动作对应的代码,在{y
i1
,y
i2
,...,y
it
}中确定该步动作对应的正确代码所对应的预测概率,假设为y
i1
,然后将获取到的预测概率y
i1
作为第i步动作对应的奖励反馈。以此类推,每步动作均可参考这种方式,获取相应的奖励反馈。进一步地,还可以将所有动作对应的反馈进行加权平均运算,即可获取此次代码序列生成过程中的平均奖励反馈。
[0148]
于是,通过分析判别器与价值函数之间的关系,实现单步的奖励反馈,使得每一步的动作都能得到反馈并对模型进行更新,解决奖励延迟的问题。因此最终得到的目标损失函数如公式(8)所示:
[0149][0150]
具体来说,可以通过强化学习中的策略梯度算法最大化公式(8)中的目标损失函
数,即可学习新模型参数θ,从而调整所述生成器的模型参数。当然,除了策略梯度算法以外,还可以使用其他策略优化方法优化目标损失函数,例如,信赖域策略优化算法(trust region policy optimization,trpo),近端策略优化算法(proximal policy optimization,ppo)等等。
[0151]
步骤s640:当训练后的样本图像处理模型满足模型收敛条件时,将训练后的生成器确定为图像处理模型,所述图像处理模型用于识别包含目标对象的待处理图像,以得到所述目标对象的对象识别结果。
[0152]
需要说明的是,所谓模型收敛条件可以是指:当样本图像处理模型的训练次数达到预设训练阈值时,例如100次,则样本图像处理模型满足模型收敛条件;当每个样本图像对应的预测对象标签和每个样本图像对应的正样本识别结果之间的误差小于误差阈值时,则样本图像处理模型满足模型收敛条件,其中,预测对象标签是根据预测概率集合确定的;当样本图像处理模型相邻两次训练得到的每个交易对象对应的预测对象标签之间的变化小于变化阈值时,则样本图像处理模型满足模型收敛条件。
[0153]
最后,将训练好的生成器作为图像处理模型,利用图像处理模型即可完成识别包含目标对象的待处理图像,生成目标对象的对象识别结果。
[0154]
通过本方案,将代码生成过程建模为马尔可夫决策过程,在决策过程中考虑整个序列的生成情况,而不是做单步的评估。可以实现每步工作均能计算出相应的奖励反馈。即模型训练过程中关注的是,序列级别上的建模及训练方法,使得模型的训练更加关注生成的代码序列整体表现。因此使得训练出来的生成器(图像处理模型)可能更准确的识别待处理图像,从而得到目标对象的对象识别结果。
[0155]
请参见图8,图8是本技术实施例提供的一种图像处理装置的结构示意图。图8是本技术实施例提供的一种图像处理装置的结构示意图。该图像处理装置可应用于图3~图7c对应的方法实施例中的计算机设备。图像处理装置可以是运行于轻量节点中的一个计算机程序(包括程序代码),例如该图像处理装置为一个应用软件;该装置可以用于执行本技术实施例提供的方法中的相应步骤。该图像处理装置可包括:
[0156]
获取单元810,用于获取包含目标对象的待处理图像;
[0157]
提取单元820,用于提取所述待处理图像的原始图像特征,原始图像特征包括n个原始特征图,任一原始特征图包括k个特征图像素,n个原始特征图中同一位置的特征图像素对应所述待处理图像的一个图像区域,n和k是正整数;
[0158]
确定单元830,用于基于注意力机制和所述n个原始特征图确定所述待处理图像中k个图像区域的k个图像区域特征;
[0159]
处理单元840,用于分别获取每个图像区域在原始图像特征中的位置特征,并将所述原始图像特征、所述k个图像区域特征和k个位置特征叠加为所述待处理图像的目标图像特征;
[0160]
识别单元850,用于对所述目标图像特征进行识别处理,得到所述目标对象的对象识别结果。
[0161]
在一种可能的实现方式中,所述目标对象包括公式对象,所述对象识别结果包括所述公式对象的排版代码序列;或者,
[0162]
所述目标对象包括字符对象,所述对象识别结果包括所述字符对象的排版代码序
列;或者,
[0163]
所述目标对象包括第一字符对象,所述对象识别结果包括第二字符对象,所述第一字符对象的语种类型和第二字符对象的语种类型不同。
[0164]
在一种可能的实现方式中,确定单元830基于注意力机制和所述n个原始特征图确定所述待处理图像中k个图像区域的k个图像区域特征,包括:
[0165]
基于第一卷积核对所述n个原始特征图进行卷积处理操作,得到p个第一卷积特征图,p是正整数;
[0166]
基于第二卷积核对所述n个原始特征图进行卷积处理操作,得到p个第二卷积特征图;
[0167]
基于第三卷积核对所述n个原始特征图进行卷积处理操作,得到p个第三卷积特征图,任一第一卷积特征图,任一第二卷积特征图,任一第三卷积特征图与任一原始特征图的尺寸均相同;
[0168]
基于注意力机制,识别所述p个第一卷积特征图,所述p个第二卷积特征图和所述p个第三卷积特征图,确定所述待处理图像中k个图像区域的k个图像区域特征。
[0169]
在一种可能的实现方式中,参考图像区域为所述k个图像区域中的一个图像区域;
[0170]
确定单元830基于注意力机制,识别所述p个第一卷积特征图,所述p个第二卷积特征图和所述p个第三卷积特征图,确定所述待处理图像中参考图像区域的图像区域特征的流程,包括:
[0171]
根据所述p个第一卷积特征图和所述p个第二卷积特征图,确定所述参考图像区域和k个图像区域之间的k个区域相似度;
[0172]
根据参考图像区域和k个图像区域之间的k个区域相似度以及所述p个第三卷积特征图,确定参考图像区域的图像区域特征。
[0173]
在一种可能的实现方式中,所述p个第二卷积特征图包括k个第二卷积特征向量,每个第二卷积特征向量的维度为p;
[0174]
确定单元830根据所述p个第一卷积特征图和所述p个第二卷积特征图,确定所述参考图像区域和k个图像区域之间的k个区域相似度,包括:
[0175]
分别获取每个第一卷积特征图中所述参考图像区域对应像素的像素值,并将获取到的p个像素值组合为第一卷积特征向量;
[0176]
将所述第一卷积特征向量分别与所述k个第二卷积特征向量进行点积运算,得到参考图像区域和k个图像区域之间的k个区域相似度。
[0177]
在一种可能的实现方式中,p个第三卷积特征图包括k个第三卷积特征向量,每个第三卷积特征向量的维度为p;
[0178]
确定单元830根据参考图像区域和k个图像区域之间的k个区域相似度以及所述p个第三卷积特征图,确定参考图像区域的图像区域特征,包括:
[0179]
对所述k个区域相似度和所述k个第三卷积特征向量之间进行加权运算,确定所述参考图像区域的图像区域特征。
[0180]
在一种可能的实现方式中,所述参考图像区域为所述k个图像区域中的一个图像区域;
[0181]
处理单元840获取参考图像区域在原始图像特征中的位置特征的流程,包括:
[0182]
获取参考图像区域在所述原始图像特征中对应的参考特征图像素;
[0183]
获取所述参考特征图像素在所述n个原始特征图中分别对应的第一参考位置和第二参考位置;
[0184]
根据所述第一参考位置和所述第二参考位置,生成参考位置特征,所述参考位置特征的维度为p。
[0185]
在一种可能的实现方式中,所述目标图像特征包括k个特征向量,每个特征向量的维度为p;
[0186]
识别单元850对所述目标图像特征进行识别处理,得到所述目标对象的对象识别结果,包括:
[0187]
基于自注意力机制和所述k个特征向量,获取自注意力权重矩阵并根据所述自注意力权重矩阵,确定k个特征向量分别对应的k个注意力特征向量;
[0188]
调用解码器分别识别所述k个注意力特征向量,确定所述目标对象的对象识别结果。
[0189]
在一种可能的实现方式中,本技术实施例提供的图像处理装置还包括:训练单元760。
[0190]
获取单元810获取样本图像集合,所述样本图像集合包括多个样本图像、每个样本图像对应的正样本对象识别结果和每个样本图像对应的负样本对象识别结果;
[0191]
处理单元840调用样本图像处理模型,获取每个样本图像分别对应的第一预测概率集合,所述样本图像处理模型包括判别器和生成器;
[0192]
训练单元760根据所述每个正样本对象识别结果、所述每个负样本对象识别结果和所述每个第一预测概率集合对所述样本图像处理模型进行对抗训练;
[0193]
当训练后的样本图像处理模型满足模型收敛条件时,确定单元830将训练后的生成器确定为图像处理模型,所述图像处理模型用于识别包含目标对象的待处理图像,以得到所述目标对象的对象识别结果。
[0194]
在一种可能的实现方式中,训练单元760根据所述每个正样本对象识别结果、所述每个负样本对象识别结果和所述每个第一预测概率集合对所述样本图像处理模型进行对抗训练,包括:
[0195]
根据所述每个样本图像的正样本对象识别结果、所述每个样本图像的第一预测概率集合和所述每个样本图像的负样本对象识别结果,调整所述判别器的模型参数;
[0196]
根据所述调整后的判别器,获取每个样本图像分别对应的第二预测概率集合;
[0197]
根据所述每个样本图像的正样本对象识别结果和所述每个样本图像的第二预测概率集合,调整所述生成器的模型参数,所述判别器和所述生成器之间是交替训练。
[0198]
在一种可能的实现方式中,训练单元760根据所述每个样本图像的正样本对象识别结果、所述每个样本图像的第一预测概率集合和所述每个样本图像的负样本对象识别结果,调整所述判别器的模型参数,包括:
[0199]
根据所述每个样本图像的正样本对象识别结果和所述每个样本图像的第一预测概率集合,确定第一奖励反馈;
[0200]
根据所述每个样本图像的第一预测概率集合,确定第二奖励反馈;
[0201]
根据所述每个样本图像的负样本对象识别结果和所述每个样本图像的第一预测
概率集合,确定第三奖励反馈;
[0202]
将所述第一奖励反馈,所述第二奖励反馈和所述第三奖励反馈叠加为目标奖励反馈,并根据所述目标奖励反馈反向调整所述判别器的模型参数。
[0203]
在一种可能的实现方式中,训练单元760根据所述每个样本图像的正样本对象识别结果和所述每个样本图像的第二预测概率集合,调整所述生成器的模型参数,包括:
[0204]
根据所述每个样本图像的正样本对象识别结果,所述每个样本图像的第二预测概率集合,获取目标损失;
[0205]
根据所述目标损失反向调整所述生成器的模型参数。
[0206]
请参见图9,图9是本技术实施例提供的一种计算机设备的结构示意图。上述图3~图7c对应实施例中的计算机设备可以为计算机设备900,如图9所示,计算机设备900可以包括:用户接口902、处理器904、编码器906以及存储器908。信号接收器916用于经由蜂窝接口910、wifi接口912、...、或nfc接口914接收或者发送数据。编码器906将接收到的数据编码为计算机处理的数据格式。存储器908中存储有计算机程序,处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器908可包括易失性存储器(例如,动态随机存取存储器dram),还可以包括非易失性存储器(例如,一次性可编程只读存储器otprom)。在一些实例中,存储器908可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备900。用户接口9002可以包括:键盘918和显示器920。
[0207]
在图9所示的计算机设备900中,处理器904可以用于调用存储器908中存储计算机程序,以实现:
[0208]
获取包含目标对象的待处理图像;
[0209]
提取所述待处理图像的原始图像特征,原始图像特征包括n个原始特征图,任一原始特征图包括k个特征图像素,n个原始特征图中同一位置的特征图像素对应所述待处理图像的一个图像区域,n和k是正整数;
[0210]
基于注意力机制和所述n个原始特征图确定所述待处理图像中k个图像区域的k个图像区域特征;
[0211]
分别获取每个图像区域在原始图像特征中的位置特征,并将所述原始图像特征、所述k个图像区域特征和k个位置特征叠加为所述待处理图像的目标图像特征;
[0212]
对所述目标图像特征进行识别处理,得到所述目标对象的对象识别结果。
[0213]
在一种可能的实现方式中,所述目标对象包括公式对象,所述对象识别结果包括所述公式对象的排版代码序列;或者,
[0214]
所述目标对象包括字符对象,所述对象识别结果包括所述字符对象的排版代码序列;或者,
[0215]
所述目标对象包括第一字符对象,所述对象识别结果包括第二字符对象,所述第一字符对象的语种类型和第二字符对象的语种类型不同。
[0216]
在一种可能的实现方式中,处理器904基于注意力机制和所述n个原始特征图确定所述待处理图像中k个图像区域的k个图像区域特征,包括:
[0217]
基于第一卷积核对所述n个原始特征图进行卷积处理操作,得到p个第一卷积特征图,p是正整数;
[0218]
基于第二卷积核对所述n个原始特征图进行卷积处理操作,得到p个第二卷积特征图;
[0219]
基于第三卷积核对所述n个原始特征图进行卷积处理操作,得到p个第三卷积特征图,任一第一卷积特征图,任一第二卷积特征图,任一第三卷积特征图与任一原始特征图的尺寸均相同;
[0220]
基于注意力机制,识别所述p个第一卷积特征图,所述p个第二卷积特征图和所述p个第三卷积特征图,确定所述待处理图像中k个图像区域的k个图像区域特征。
[0221]
在一种可能的实现方式中,参考图像区域为所述k个图像区域中的一个图像区域;
[0222]
处理器904基于注意力机制,识别所述p个第一卷积特征图,所述p个第二卷积特征图和所述p个第三卷积特征图,确定所述待处理图像中参考图像区域的图像区域特征的流程,包括:
[0223]
根据所述p个第一卷积特征图和所述p个第二卷积特征图,确定所述参考图像区域和k个图像区域之间的k个区域相似度;
[0224]
根据参考图像区域和k个图像区域之间的k个区域相似度以及所述p个第三卷积特征图,确定参考图像区域的图像区域特征。
[0225]
在一种可能的实现方式中,所述p个第二卷积特征图包括k个第二卷积特征向量,每个第二卷积特征向量的维度为p;
[0226]
处理器904根据所述p个第一卷积特征图和所述p个第二卷积特征图,确定所述参考图像区域和k个图像区域之间的k个区域相似度,包括:
[0227]
分别获取每个第一卷积特征图中所述参考图像区域对应像素的像素值,并将获取到的p个像素值组合为第一卷积特征向量;
[0228]
将所述第一卷积特征向量分别与所述k个第二卷积特征向量进行点积运算,得到参考图像区域和k个图像区域之间的k个区域相似度。
[0229]
在一种可能的实现方式中,所述p个第三卷积特征图包括k个第三卷积特征向量,每个第三卷积特征向量的维度为p;
[0230]
处理器904根据参考图像区域和k个图像区域之间的k个区域相似度以及所述p个第三卷积特征图,确定参考图像区域的图像区域特征,包括:
[0231]
对所述k个区域相似度和所述k个第三卷积特征向量之间进行加权运算,确定所述参考图像区域的图像区域特征。
[0232]
在一种可能的实现方式中,所述参考图像区域为所述k个图像区域中的一个图像区域;
[0233]
处理器904获取参考图像区域在原始图像特征中的位置特征的流程,包括:
[0234]
获取参考图像区域在所述原始图像特征中对应的参考特征图像素;
[0235]
获取所述参考特征图像素在所述n个原始特征图中分别对应的第一参考位置和第二参考位置;
[0236]
根据所述第一参考位置和所述第二参考位置,生成参考位置特征,所述参考位置特征的维度为p。
[0237]
在一种可能的实现方式中,所述目标图像特征包括k个特征向量,每个特征向量的维度为p;
[0238]
处理器904对所述目标图像特征进行识别处理,得到所述目标对象的对象识别结果,包括:
[0239]
基于自注意力机制和所述k个特征向量,获取自注意力权重矩阵并根据所述自注意力权重矩阵,确定k个特征向量分别对应的k个注意力特征向量;
[0240]
调用解码器分别识别所述k个注意力特征向量,确定所述目标对象的对象识别结果。
[0241]
在一种可能的实现方式中,处理器904还用于执行以下操作:
[0242]
获取样本图像集合,所述样本图像集合包括多个样本图像、每个样本图像对应的正样本对象识别结果和每个样本图像对应的负样本对象识别结果;
[0243]
调用样本图像处理模型,获取每个样本图像分别对应的第一预测概率集合,所述样本图像处理模型包括判别器和生成器;
[0244]
根据所述每个正样本对象识别结果、所述每个负样本对象识别结果和所述每个第一预测概率集合对所述样本图像处理模型进行对抗训练;
[0245]
当训练后的样本图像处理模型满足模型收敛条件时,将训练后的生成器确定为图像处理模型,所述图像处理模型用于识别包含目标对象的待处理图像,以得到所述目标对象的对象识别结果。
[0246]
在一种可能的实现方式中,处理器904根据所述每个正样本对象识别结果、所述每个负样本对象识别结果和所述每个第一预测概率集合对所述样本图像处理模型进行对抗训练,包括:
[0247]
根据所述每个样本图像的正样本对象识别结果、所述每个样本图像的第一预测概率集合和所述每个样本图像的负样本对象识别结果,调整所述判别器的模型参数;
[0248]
根据所述调整后的判别器,获取每个样本图像分别对应的第二预测概率集合;
[0249]
根据所述每个样本图像的正样本对象识别结果和所述每个样本图像的第二预测概率集合,调整所述生成器的模型参数,所述判别器和所述生成器之间是交替训练。
[0250]
在一种可能的实现方式中,处理器904根据所述每个样本图像的正样本对象识别结果、所述每个样本图像的第一预测概率集合和所述每个样本图像的负样本对象识别结果,调整所述判别器的模型参数,包括:
[0251]
根据所述每个样本图像的正样本对象识别结果和所述每个样本图像的第一预测概率集合,确定第一奖励反馈;
[0252]
根据所述每个样本图像的第一预测概率集合,确定第二奖励反馈;
[0253]
根据所述每个样本图像的负样本对象识别结果和所述每个样本图像的第一预测概率集合,确定第三奖励反馈;
[0254]
将所述第一奖励反馈,所述第二奖励反馈和所述第三奖励反馈叠加为目标奖励反馈,并根据所述目标奖励反馈反向调整所述判别器的模型参数。
[0255]
在一种可能的实现方式中,处理器904根据所述每个样本图像的正样本对象识别结果和所述每个样本图像的第二预测概率集合,调整所述生成器的模型参数,包括:
[0256]
根据所述每个样本图像的正样本对象识别结果,所述每个样本图像的第二预测概率集合,获取目标损失;
[0257]
根据所述目标损失反向调整所述生成器的模型参数。
[0258]
应当理解,本技术实施例中所描述的计算机设备900可执行前文图3~图7c所对应实施例中对图像处理方法的描述,也可执行前文图8对应实施例中对图像处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
[0259]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0260]
此外,这里需要指出的是:本技术实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的图像处理装置所执行的计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文图3~图7c所对应实施例中的方法,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机存储介质实施例中未披露的技术细节,请参照本技术方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
[0261]
根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文图3~图7c所对应实施例中的方法,因此,这里将不再进行赘述。
[0262]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0263]
以上所揭露的仅为本技术的部分实施例而已,当然不能以此来限定本技术之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本技术权利要求所作的等同变化,仍属于发明所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜