一种基于人工智能的图像识别的方法以及相关装置与流程

2021-10-29 20:16:00 来源：中国专利 TAG：人工智能识别装置图像计算机

1.本技术涉及计算机技术领域，尤其涉及一种基于人工智能的图像识别的方法以及相关装置。

背景技术：

2.人工智能(ai，artificial intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
3.低俗图片识别是人工智能的一个重要应用方向，在相关技术提供的方案中，通常是依靠海量的标注数据构建端到端模型，即对待识别图片的所有处理均由一个端到端模型完成，输出为低俗或不低俗的结果。
4.但是，海量的标注数据的获取过程耗时耗力，且对于低俗图片的细节可能造成遗漏，影响图像识别的准确性。

技术实现要素：

5.有鉴于此，本技术提供一种基于人工智能的图像识别的方法，可以有效提高图像识别的准确性。
6.本技术第一方面提供一种基于人工智能的图像识别的方法，可以应用于终端设备中包含图像识别的功能的系统或程序中，具体包括：
7.获取输入图像；
8.将所述输入图像输入目标模型中的预设识别网络，以得到注意力图，所述注意力图中包含注意力区域，
9.基于所述注意力区域对所述注意力图进行图像调整得到增强图像，并根据所述增强图像对所述预设识别网络进行训练，以得到目标识别网络；
10.将所述输入图像输入所述目标识别网络，以得到图像特征图；
11.将所述图像特征图输入所述目标模型中的分级识别网络，以得到第一类型标签和第二类型标签，所述分级识别网络包括一级标签分支和二级标签分支，所述一级标签分支用于确定所述输入图像的第一类型标签，所述二级标签分支用于识别所述输入图像的第二类型标签，所述第一类型标签和所述第二类型标签用于指示同一目标对象，且所述第二类型标签对于所述目标对象描述粒度小于所述第一类型标签对于所述目标对象描述粒度。
12.可选的，在本技术一些可能的实现方式中，所述基于所述注意力区域对所述注意力图进行图像调整得到增强图像，并根据所述增强图像对所述预设识别网络进行训练，以得到目标识别网络，包括：
13.将所述注意力区域进行掩盖，以对所述注意力图进行更新得到第一调整图像，并将所述第一调整图像对应的标签进行调整；
14.将所述注意力区域对应的权重参数进行强化，以对所述注意力图进行更新得到第二调整图像，并保持所述第二调整图像对应的标签不变；
15.根据所述第一调整图像和所述第二调整图像对所述预设识别网络进行训练，以得到所述目标识别网络。
16.可选的，在本技术一些可能的实现方式中，所述根据所述第一调整图像和所述第二调整图像对所述预设识别网络进行训练，以得到所述目标识别网络，包括：
17.基于所述第一调整图像进行区域扰动，以生成负样本序列；
18.基于所述第二调整图像进行权重参数扰动，以生成正样本序列；
19.根据所述负样本序列和所述正样本序列对所述预设识别网络进行训练，以得到所述目标识别网络。
20.可选的，在本技术一些可能的实现方式中，所述方法还包括：
21.确定所述注意力区域对应的注意力一级标签和注意力二级标签；
22.基于所述注意力一级标签对应的区域和注意力二级标签对应的区域进行约束，以得到注意力损失信息；
23.根据所述注意力损失信息对所述目标识别网络进行参数调整。
24.可选的，在本技术一些可能的实现方式中，所述方法还包括：
25.获取一级标签训练数据；
26.确定所述一级标签训练数据中的分类损失，以对所述一级标签分支进行训练；
27.获取二级标签训练数据；
28.将所述二级标签训练数据输入二分类器，以得到二级标签正样本和二级标签负样本；
29.基于所述二级标签正样本和二级标签负样本对所述二级标签分支进行训练。
30.可选的，在本技术一些可能的实现方式中，所述将所述二级标签训练数据输入二分类器，以得到二级标签正样本和二级标签负样本，包括：
31.确定所述二级标签训练数据中的目标样本；
32.基于所述目标样本对应的批数据进行滑动均值计算，以得到动态阈值信息，所述动态阈值信包括正样本阈值和负样本阈值；
33.将所述目标样本输入所述二分类器，以得到预测值；
34.基于所述预测值与所述动态阈值信息进行比较，以确定所述二级标签训练数据中的所述二级标签正样本和二级标签负样本。
35.可选的，在本技术一些可能的实现方式中，所述基于所述预测值与所述动态阈值信息进行比较，以确定所述二级标签训练数据中的所述二级标签正样本和二级标签负样本，包括：
36.将所述预测值与所述动态阈值信息中的正样本阈值进行比较；
37.若所述预测值大于所述正样本阈值，则确定所述目标样本为所述二级标签正样本；
38.将所述预测值与所述动态阈值信息中的负样本阈值进行比较；
39.若所述预测值小于所述负样本阈值，则确定所述目标样本为所述二级标签负样本。
40.可选的，在本技术一些可能的实现方式中，所述方法还包括：
41.若所述预测值大于所述负样本阈值，且所述预测值小于所述正样本阈值，则确定所述目标样本为噪声样本；
42.将所述噪声样本设置为不参与所述二级标签分支的训练。
43.可选的，在本技术一些可能的实现方式中，所述获取输入图像，包括：
44.获取即时媒体数据流；
45.对所述媒体数据流中的图像按照目标时序进行提取，以得到所述输入图像，所述输入图像经过识别后按照所述目标时序进行发布。
46.可选的，在本技术一些可能的实现方式中，所述方法还包括：
47.提取所述第一类型标签中的第一关键信息；
48.提取所述第二类型标签中的第二关键信息；
49.将所述第一关键信息和所述第二关键信息进行关联，以得到所述输入图像的描述信息；
50.基于所述描述信息对所述输入图像进行标记。
51.可选的，在本技术一些可能的实现方式中，所述方法还包括：
52.响应于目标操作触发所述输入图像的调用进程；
53.基于所述调用进程缓存所述输入图像，并对所述输入图像的标记进行识别；
54.若所述输入图像的标记满足预设条件，则展示所述输入图像。
55.可选的，在本技术一些可能的实现方式中，所述目标模型用于低俗图像的识别，所述第一类型标签用于指示所述目标对象的个体类型，所述第二类型标签用于指示所述目标对象的部位类型。
56.本技术第二方面提供一种图像识别的装置，包括：
57.获取单元，用于获取输入图像；
58.输入单元，用于将所述输入图像输入目标模型中的预设识别网络，以得到注意力图，所述注意力图中包含注意力区域，
59.调整单元，用于基于所述注意力区域对所述注意力图进行图像调整得到增强图像，并根据所述增强图像对所述预设识别网络进行训练，以得到目标识别网络；
60.所述输入单元，还用于将所述输入图像输入所述目标识别网络，以得到图像特征图；
61.识别单元，用于将所述图像特征图输入所述目标模型中的分级识别网络，以得到第一类型标签和第二类型标签，所述分级识别网络包括一级标签分支和二级标签分支，所述一级标签分支用于确定所述输入图像的第一类型标签，所述二级标签分支用于识别所述输入图像的第二类型标签，所述第一类型标签和所述第二类型标签用于指示同一目标对象，且所述第二类型标签对于所述目标对象描述粒度小于所述第一类型标签对于所述目标对象描述粒度。
62.可选的，在本技术一些可能的实现方式中，所述调整单元，具体用于将所述注意力区域进行掩盖，以对所述注意力图进行更新得到第一调整图像，并将所述第一调整图像对应的标签进行调整；
63.所述调整单元，具体用于将所述注意力区域对应的权重参数进行强化，以对所述
注意力图进行更新得到第二调整图像，并保持所述第二调整图像对应的标签不变；
64.所述调整单元，具体用于根据所述第一调整图像和所述第二调整图像对所述预设识别网络进行训练，以得到所述目标识别网络。
65.可选的，在本技术一些可能的实现方式中，所述调整单元，具体用于基于所述第一调整图像进行区域扰动，以生成负样本序列；
66.所述调整单元，具体用于基于所述第二调整图像进行权重参数扰动，以生成正样本序列；
67.所述调整单元，具体用于根据所述负样本序列和所述正样本序列对所述预设识别网络进行训练，以得到所述目标识别网络。
68.可选的，在本技术一些可能的实现方式中，所述调整单元，具体用于确定所述注意力区域对应的注意力一级标签和注意力二级标签；
69.所述调整单元，具体用于基于所述注意力一级标签对应的区域和注意力二级标签对应的区域进行约束，以得到注意力损失信息；
70.所述调整单元，具体用于根据所述注意力损失信息对所述目标识别网络进行参数调整。
71.可选的，在本技术一些可能的实现方式中，所述识别单元，具体用于获取一级标签训练数据；
72.所述识别单元，具体用于确定所述一级标签训练数据中的分类损失，以对所述一级标签分支进行训练；
73.所述识别单元，具体用于获取二级标签训练数据；
74.所述识别单元，具体用于将所述二级标签训练数据输入二分类器，以得到二级标签正样本和二级标签负样本；
75.所述识别单元，具体用于基于所述二级标签正样本和二级标签负样本对所述二级标签分支进行训练。
76.可选的，在本技术一些可能的实现方式中，所述识别单元，具体用于确定所述二级标签训练数据中的目标样本；
77.所述识别单元，具体用于基于所述目标样本对应的批数据进行滑动均值计算，以得到动态阈值信息，所述动态阈值信包括正样本阈值和负样本阈值；
78.所述识别单元，具体用于将所述目标样本输入所述二分类器，以得到预测值；
79.所述识别单元，具体用于基于所述预测值与所述动态阈值信息进行比较，以确定所述二级标签训练数据中的所述二级标签正样本和二级标签负样本。
80.可选的，在本技术一些可能的实现方式中，所述识别单元，具体用于将所述预测值与所述动态阈值信息中的正样本阈值进行比较；
81.若所述预测值大于所述正样本阈值，则确定所述目标样本为所述二级标签正样本；
82.所述识别单元，具体用于将所述预测值与所述动态阈值信息中的负样本阈值进行比较；
83.所述识别单元，具体用于若所述预测值小于所述负样本阈值，则确定所述目标样本为所述二级标签负样本。
84.可选的，在本技术一些可能的实现方式中，所述识别单元，具体用于若所述预测值大于所述负样本阈值，且所述预测值小于所述正样本阈值，则确定所述目标样本为噪声样本；
85.所述识别单元，具体用于将所述噪声样本设置为不参与所述二级标签分支的训练。
86.可选的，在本技术一些可能的实现方式中，所述获取单元，具体用于获取即时媒体数据流；
87.所述获取单元，具体用于对所述媒体数据流中的图像按照目标时序进行提取，以得到所述输入图像，所述输入图像经过识别后按照所述目标时序进行发布。
88.可选的，在本技术一些可能的实现方式中，所述识别单元，具体用于提取所述第一类型标签中的第一关键信息；
89.所述识别单元，具体用于提取所述第二类型标签中的第二关键信息；
90.所述识别单元，具体用于将所述第一关键信息和所述第二关键信息进行关联，以得到所述输入图像的描述信息；
91.所述识别单元，具体用于基于所述描述信息对所述输入图像进行标记。
92.可选的，在本技术一些可能的实现方式中，所述识别单元，具体用于响应于目标操作触发所述输入图像的调用进程；
93.所述识别单元，具体用于基于所述调用进程缓存所述输入图像，并对所述输入图像的标记进行识别；
94.所述识别单元，具体用于若所述输入图像的标记满足预设条件，则展示所述输入图像。
95.本技术第三方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的图像识别的方法。
96.本技术第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的图像识别的方法。
97.根据本技术的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的图像识别的方法。
98.从以上技术方案可以看出，本技术实施例具有以下优点：
99.通过获取输入图像；然后将输入图像输入目标模型中的预设识别网络，以得到注意力图，注意力图中包含注意力区域，并基于注意力区域对注意力图进行图像调整得到增强图像，并根据增强图像对预设识别网络进行训练，以得到目标识别网络；进一步的将输入图像输入目标识别网络，以得到图像特征图；进而将图像特征图输入目标模型中的分级识别网络，以得到第一类型标签和第二类型标签，其中，分级识别网络包括一级标签分支和二级标签分支，一级标签分支用于确定输入图像的第一类型标签，二级标签分支用于识别输
入图像的第二类型标签，第一类型标签和第二类型标签用于指示同一目标对象，且第二类型标签对于目标对象描述粒度小于第一类型标签对于目标对象描述粒度。从而实现基于注意力区域引导的图像分级识别过程，由于采用注意力图中的注意力区域进行增强图像的获取，使得模型专注于关键部位的数据学习，并采用分级识别的方式进行展现，使得图像中的细节部分得以识别，提高了图像识别的准确性。
附图说明
100.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
101.图1为图像识别的系统运行的网络架构图；
102.图2为本技术实施例提供的一种图像识别的的流程架构图；
103.图3为本技术实施例提供的一种基于人工智能的图像识别的方法的流程图；
104.图4为本技术实施例提供的一种基于人工智能的图像识别的方法的场景示意图；
105.图5为本技术实施例提供的另一种基于人工智能的图像识别的方法的场景示意图；
106.图6为本技术实施例提供的另一种基于人工智能的图像识别的方法的场景示意图；
107.图7为本技术实施例提供的另一种基于人工智能的图像识别的方法的场景示意图；
108.图8为本技术实施例提供的另一种基于人工智能的图像识别的方法的场景示意图；
109.图9为本技术实施例提供的另一种基于人工智能的图像识别的方法的流程图；
110.图10为本技术实施例提供的另一种基于人工智能的图像识别的方法的流程图；
111.图11为本技术实施例提供的一种图像识别装置的结构示意图；
112.图12为本技术实施例提供的一种终端设备的结构示意图；
113.图13为本技术实施例提供的一种服务器的结构示意图。
具体实施方式
114.本技术实施例提供了一种基于人工智能的图像识别的方法以及相关装置，可以应用于终端设备中包含图像识别的功能的系统或程序中，通过获取输入图像；然后将输入图像输入目标模型中的预设识别网络，以得到注意力图，注意力图中包含注意力区域，并基于注意力区域对注意力图进行图像调整得到增强图像，并根据增强图像对预设识别网络进行训练，以得到目标识别网络；进一步的将输入图像输入目标识别网络，以得到图像特征图；进而将图像特征图输入目标模型中的分级识别网络，以得到第一类型标签和第二类型标签，其中，分级识别网络包括一级标签分支和二级标签分支，一级标签分支用于确定输入图像的第一类型标签，二级标签分支用于识别输入图像的第二类型标签，第一类型标签和第二类型标签用于指示同一目标对象，且第二类型标签对于目标对象描述粒度小于第一类型
标签对于目标对象描述粒度。从而实现基于注意力区域引导的图像分级识别过程，由于采用注意力图中的注意力区域进行增强图像的获取，使得模型专注于关键部位的数据学习，并采用分级识别的方式进行展现，使得图像中的细节部分得以识别，提高了图像识别的准确性。
115.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
116.首先，对本技术实施例中可能出现的一些名词进行解释。
117.注意力机制：指的分类模型在图像分类过程中，会对图像中的不同区域产生不一样的权重偏好，可用热力图表示。这个注意力机制是分类模型通过海量数据学习得到的。
118.细粒度识别：指的是图像分类中一个子领域。图像分类问题是将图像分成要求的不同的大类别，如狮子、狗、飞机等。而细粒度识别则是在一个类别中再做区分，如人脸识别就是一个特殊的细粒度识别问题，需要从海量人脸中找出你想要的那个人的脸。目前主流的细粒度识别数据集是cub
‑
200，从鸟中识别出不同的类别。
119.数据噪声：指的是图像在标注人员打标过程中，由于无法判断是哪个类别而打错；或者是漏掉图像中的某些标签信息，造成模型训练时效果变差。
120.应理解，本技术提供的图像识别的方法可以应用于终端设备中包含图像识别的功能的系统或程序中，例如低俗图像检测工具，具体的，图像识别的系统可以运行于如图1所示的网络架构中，如图1所示，是图像识别的系统运行的网络架构图，如图可知，图像识别的系统可以提供与多个信息源的图像识别的过程，即通过终端侧的触发操作获取多媒体数据，从而在终端侧或服务器侧进行多媒体数据的识别，以得到其中的低俗图像，并进行处理；可以理解的是，图1中示出了多种终端设备，终端设备可以为计算机设备，在实际场景中可以有更多或更少种类的终端设备参与到图像识别的的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，具体服务器数量因实际场景而定。
121.本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端以及服务器可以连接组成区块链网络，本技术在此不做限制。
122.可以理解的是，上述图像识别的系统可以运行于个人移动终端，例如：作为低俗图像检测工具这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供图像识别的，以得到信息源的图像识别的处理结果；具体的图像识别的系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端
服务程序的一种，具体运作模式因实际场景而定，此处不做限定。
123.人工智能(ai，artificial intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
124.在人工智能技术中包含了计算机视觉技术(computer vision,cv)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
125.其中，低俗图片识别是计算机视觉技术的一个重要应用方向，在相关技术提供的方案中，通常是依靠海量的标注数据构建端到端模型，即对待识别图片的所有处理均由一个端到端模型完成，输出为低俗或不低俗的结果。
126.但是，海量的标注数据的获取过程耗时耗力，且对于低俗图片的细节可能造成遗漏，影响图像识别的准确性。
127.为了解决上述问题，本技术提出了一种基于人工智能的图像识别的方法，该方法应用于图2所示的图像识别的的流程框架中，如图2所示，为本技术实施例提供的一种图像识别的的流程架构图，用户通过界面层的交互操作获取多媒体数据，并将这些多媒体数据转化为服务器侧的图像输入，以进行图像识别，从而得到多媒体数据对应的分级标签，并进行低俗判定以判断是否在终端上发布或展示。
128.本技术图像识别的过程采用注意力引导的方法，帮助模型提高图像中细小区分性区域的关注度，保证了模型在图像低俗识别场景中的准确性。在确定分级标签的过程中，深度学习通过海量数据训练，使得模型对图像有粗略的注意力区域和弱定位信息。不过分类模型在训练过程中注意力的学习本质上都是被动的模型参数学习，而本发明引入注意力引导，主动地辅助分类模型学习注意力区域，帮助模型在细小违规区域的数据上取得更好的效果；而且针对数据中的噪声标签，本发明通过使用类别不同的自适应阈值方法，对数据可靠性进行判断。通过模型判断结果，对数据进行优选择性学习。
129.可以理解的是，本技术所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种图像识别的装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该图像识别的装置通过获取输入图像；然后将输入图像输入目标模型中的预设识别网络，以得到注意力图，注意力图中包含注意力区域，并基于注意力区域对注意力图进行图像调整得到增强图像，并根据增强图像对预设识别网络进行训练，以得到目标识别网络；进一步的将输入图像输入目标识别网络，以得到图像特征图；进而将图像特征图输入目标模型中的分级识别网络，以得到第一类型标签和第二类型标签，其中，分级识别网络包括一级标签分支和二级标签分支，一级标签分支用于确定输入图像的第一类型标签，二级标签分支用于识别输入图像的第二类型标签，第一类型标签和第二类型标签用
于指示同一目标对象，且第二类型标签对于目标对象描述粒度小于第一类型标签对于目标对象描述粒度。从而实现基于注意力区域引导的图像分级识别过程，由于采用注意力图中的注意力区域进行增强图像的获取，使得模型专注于关键部位的数据学习，并采用分级识别的方式进行展现，使得图像中的细节部分得以识别，提高了图像识别的准确性。
130.本技术实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明:
131.结合上述流程架构，下面将对本技术中图像识别的方法进行介绍，请参阅图3，图3为本技术实施例提供的一种基于人工智能的图像识别的方法的流程图，该管理方法可以是由终端设备执行的，也可以是由服务器执行的，还可以是由终端设备与服务器共同执行的，本技术实施例至少包括以下步骤：
132.301、获取输入图像。
133.本实施例中，输入图像可以是用于目标模型训练的图像，该图像具有相应的特征标签，从而便于目标模型对于图像特征提取能力的学习。
134.在一种可能的场景中，在目标模型为训练好的模型时，输入图像可以是即时数据流中的图像，例如朋友圈刷新所对应的新增数据，从而对新增数据进行低俗信息识别，以指引上线发布的过程。
135.具体的，本技术以目标模型用于低俗图像的识别为例进行说明，且后续识别所得的第一类型标签用于指示目标对象的个体类型，第二类型标签用于指示目标对象的部位类型，即为分级识别的结果，具体的识别场景因实际情况而定。
136.可以理解的是，在低俗图像的识别场景中，低俗识别和色情识别不同，色情数据是生殖器裸露、性行为等触发红线的数据。而低俗数据则是穿着暴露，性感的数据。色情数据在问题上更具有区分性，而低俗数据则和正常数据往往会容易混淆，难度也更大，故本技术采用注意力引导与分级识别相结合的方式进行。
137.具体的，低俗数据上进行进一步标签划分，分为：性暗示、儿童裸露、动物裸露、艺术品裸露、女性性感(一级标签)
‑
胸部(二级标签)、女性性感
‑
腿部、女性性感
‑
臀部、女性性感
‑
身材、男性性感、acg性感等。具体的标签类型因实际场景而定，此处不做限定。
138.302、将输入图像输入目标模型中的预设识别网络，以得到注意力图。
139.本实施例中，注意力图中包含注意力区域，其中，注意力图也称为注意力热力图，图中通过颜色的深浅展示不同权重的图像特征，例如低俗图像区域设置的权重大，对应的颜色深；通过注意力图中的颜色分布(权重分布)即可得到对应的注意力区域，即输入图像的一部分。
140.具体的，对于本技术中的目标模型的架构，可以如图4所示，图4为本技术实施例提供的另一种基于人工智能的图像识别的方法的场景示意图；即将输入图像输入预设识别网络后得到注意力图，然后基于注意力图进行图像调整得到增强图像，从而进一步的对预设识别网络进行训练；另外，对于标签识别的部分，则是基于训练得到的目标识别网络进行图像特征图的提取，进而进行特征融合并输入不同的任务分支进行识别。
141.可以理解的是，多任务分级识别的过程即对于同一对象不同粒度的识别过程，如图5所示，图5为本技术实施例提供的另一种基于人工智能的图像识别的方法的场景示意图；图中示出了一级标签对应的识别对象a1以及二级标签对应的识别对象a2，可见二级标
签对应的识别对象a2为一级标签对应的识别对象a1的一部分，例如一级标签对应的识别对象a1为女性身体，则二级标签对应的识别对象a2为臀部，从而实现分级识别并判断低俗场景的过程。
142.303、基于注意力区域对注意力图进行图像调整得到增强图像，并根据增强图像对预设识别网络进行训练，以得到目标识别网络。
143.本实施例中，基于增强图像对预设识别网络进行识别的过程为引导注意力的过程；具体的，注意力引导，是一个数据增强技术，即如图6所示的过程，图6为本技术实施例提供的另一种基于人工智能的图像识别的方法的场景示意图；即通过当前模型学到的注意力区域，对原图进行进一步的数据增强(如掩盖注意力区域，强化注意力区域)，将增强后的图进行进一步学习(如掩盖注意力区域时，标签就会变成正常；强化注意力区域时，标签保持不变)。通过这种方式，能够达到主动地帮助模型学习它需要关注地可区分不同类别的区域。
144.具体的，对于图像调整的过程可以首先将注意力区域进行掩盖，以对注意力图进行更新得到第一调整图像，并将第一调整图像对应的标签进行调整；然后将注意力区域对应的权重参数进行强化，以对注意力图进行更新得到第二调整图像，并保持第二调整图像对应的标签不变；进而根据第一调整图像和第二调整图像对预设识别网络进行训练，以得到目标识别网络。例如7所示的场景，图7为本技术实施例提供的另一种基于人工智能的图像识别的方法的场景示意图；图中示出了原图的注意力区域，进而对该注意力区域分别进行遮盖以及增强，并对其标签进行相应的调整，从而提升目标模型对于注意力区域的识别能力。
145.可选的，为了进一步的提高目标模型对于注意力区域的识别能力，还可以在增强图像的基础上进行扰动，以扩大数据量；具体的，首先基于第一调整图像进行区域扰动，以生成负样本序列，即不包含低俗区域的图像；然后基于第二调整图像进行权重参数扰动，以生成正样本序列，即包含低俗区域的图像；进而根据负样本序列和正样本序列对预设识别网络进行训练，以得到目标识别网络。
146.可选的，在基于增强图像进行训练的过程中，需要对注意力区域进行约束。即首先确定注意力区域对应的注意力一级标签和注意力二级标签；然后基于注意力一级标签对应的区域和注意力二级标签对应的区域进行约束，以得到注意力损失信息；进而根据注意力损失信息对目标识别网络进行参数调整，从而提高了目标识别网络的训练效果。
147.具体的，对于对注意力区域进行约束的过程，即一二级标签的关注区域要尽可能一致，通过该约束强化注意力区域的学习效果，具体可以参照下列公式进行：
[0148][0149]
其中，(x，y)为注意力图上任意一点，表示注意力图中第i通道的(x,y)上的值。1(条件)表示当条件为真时，输出为1，当条件为假时输出为0。
[0150]
304、将输入图像输入目标识别网络，以得到图像特征图。
[0151]
本实施例中，在完成对于预设识别网络的注意力引导训练从而得到目标识别网络后，即可基于该目标识别网络进行图像特征的提取。
[0152]
具体的，目标识别网络可以是resnet系列的网络，例如resnet18识别网络，具体的网络类型因实际场景而定，此处不做限定。
[0153]
305、将图像特征图输入目标模型中的分级识别网络，以得到第一类型标签和第二类型标签。
[0154]
本实施例中，如图4所示的架构，分级识别网络包括一级标签分支和二级标签分支，一级标签分支用于确定输入图像的第一类型标签，二级标签分支用于识别输入图像的第二类型标签，第一类型标签和第二类型标签用于指示同一目标对象，且第二类型标签对于目标对象描述粒度小于第一类型标签对于目标对象描述粒度，从而实现分级的细节识别过程。
[0155]
可选的，对于一级标签分支和二级标签分支的训练过程，可以是分别进行的，即获取一级标签训练数据；然后确定一级标签训练数据中的分类损失，以对一级标签分支进行训练；并获取二级标签训练数据；然后将二级标签训练数据输入二分类器，以得到二级标签正样本和二级标签负样本；进而基于二级标签正样本和二级标签负样本对二级标签分支进行训练。
[0156]
应当注意的是，在二级标签分支的训练过程中，由于一张低俗数据的二级标签往往标注不全。标注人员往往只关注图像中最他最关心的二级标签，而忽略一些其他同时存在的二级标签。例如若图中既有胸部性感，又有腿部性感。而如果标注人员只标注一个胸部性感的话，按照正常的深度学习而言，该模型学习该数据时，胸部标签是正，而腿部标签则是负，这样会混淆模型对腿部标签的学习，对于混淆模型学习的样本可以称为噪声样本。
[0157]
为了避免噪声样本参与二级标签分支的训练过程，可以采用动态阈值的判断过程，即首先确定二级标签训练数据中的目标样本；然后基于目标样本对应的批数据进行滑动均值计算，以得到动态阈值信息，动态阈值信包括正样本阈值和负样本阈值；进而将目标样本输入逻辑回归的二分类器，以得到预测值；并基于预测值与动态阈值信息进行比较，以确定二级标签训练数据中的二级标签正样本和二级标签负样本，从而保证了样本标记的准确性。
[0158]
具体的，对于二级标签正样本和二级标签负样本的确定过程，即将预测值与动态阈值进行比较所得。例如将预测值与动态阈值信息中的正样本阈值进行比较；若预测值大于正样本阈值，则确定目标样本为二级标签正样本；或将预测值与动态阈值信息中的负样本阈值进行比较；若预测值小于负样本阈值，则确定目标样本为二级标签负样本。
[0159]
可以理解的是，对于噪声样本的判定，即当预测值大于负样本阈值，且预测值小于正样本阈值时，则确定目标样本为噪声样本，也可以称为忽略样本；然后将噪声样本设置为不参与二级标签分支的训练。具体的，如图8所示，图8为本技术实施例提供的另一种基于人工智能的图像识别的方法的场景示意图；对于输入二级标签分支的训练数据基于每个样本划分批数据进行动态阈值更新，从而可以得到二级标签正样本、二级标签负样本以及二级标签忽略样本(噪声样本)，并将噪声样本进行忽略，即不参与损失函数的计算，从而提高了二级标签分支识别的准确性。
[0160]
在一种可能的场景中，损失函数中正负部分设置类别阈值，每个二级标签的正阈值初始化为1，负阈值初始化为0。通过在每一个批次训练中不同样本对应二级标签预测的得分，通过滑动均值的方法调整对应二级标签的正负阈值。另外根据模型输出结果和对应
二级标签正负阈值的比较来区分漏标样本和误标样本，如女性胸部标签的正阈值为0.7，样本模型预测的女性胸部标签为0.9，则这个样本模型认为是正确的样本，参与模型训练；如果另一个样本模型预测胸部标签为0.3，而真实标注该样本为女性胸部，则模型认为该样本是误标样本(噪声样本)，不参与模型训练。
[0161]
具体的，损失函数可以参考下列公式进行：
[0162]
l(x，y)＝1(p(x)＞θ
p
)ylog(p(x))
‑
1(p(x)≤θ
n
)*(1
‑
y)log(1
‑
p(x))，
[0163]
θ
p
＝min(μ
p
α*σ
p
，1)，
[0164]
θ
n
＝max(μ
n
‑
α*σ
n
，0)，
[0165]
其中，针对某一类别的二级标签，p(x)表示对应的模型预测结果，θ
p
表示该类别正阈值，θ
n
表示该类别负阈值，y表示样本该类别的真实标签(0或者1)。α为阈值迭代率，本公式为0.1，σ
p
为对应正样本的模型预测得分，σ
n
为负样本的模型预测得分。正/负阈值的更新是通过每个batch(批数据)模型筛选后的样本得分进行更新。该公式的目的是只训练经过模型筛选后的样本，其他的样本不参与训练。
[0166]
在另一中可能的场景中，在得到各个分级标签之后，可以进行图像的标记，即首先提取第一类型标签中的第一关键信息；并提取第二类型标签中的第二关键信息；然后将第一关键信息和第二关键信息进行关联，以得到输入图像的描述信息；进而基于描述信息对输入图像进行标记。
[0167]
具体的，对于标记后的图像，可以响应于目标操作触发输入图像的调用进程；然后基于调用进程缓存输入图像，并对输入图像的标记进行识别；当输入图像的标记满足预设条件时(例如不包含腿部裸露部分)，则展示输入图像。
[0168]
可选的，在上述实施例中，目标识别网络可以是部署于终端中的轻量级网络(例如chostnet网络)，而分级识别网络则为部署于服务器侧的图像识别网络(例如resnet18)，从而通过级联框架，提高部署在服务上的算法性能，具体性能包括图像识别的精度和速度。
[0169]
结合上述实施例可知，通过获取输入图像；然后将输入图像输入目标模型中的预设识别网络，以得到注意力图，注意力图中包含注意力区域，并基于注意力区域对注意力图进行图像调整得到增强图像，并根据增强图像对预设识别网络进行训练，以得到目标识别网络；进一步的将输入图像输入目标识别网络，以得到图像特征图；进而将图像特征图输入目标模型中的分级识别网络，以得到第一类型标签和第二类型标签，其中，分级识别网络包括一级标签分支和二级标签分支，一级标签分支用于确定输入图像的第一类型标签，二级标签分支用于识别输入图像的第二类型标签，第一类型标签和第二类型标签用于指示同一目标对象，且第二类型标签对于目标对象描述粒度小于第一类型标签对于目标对象描述粒度。从而实现基于注意力区域引导的图像分级识别过程，由于采用注意力图中的注意力区域进行增强图像的获取，使得模型专注于关键部位的数据学习，并采用分级识别的方式进行展现，使得图像中的细节部分得以识别，提高了图像识别的准确性。
[0170]
下面，结合多媒体数据上线发布的场景对上述图像识别的过程进行说明，如图9所示，图9为本技术实施例提供的另一种基于人工智能的图像识别的方法的流程图；本技术实施例至少包括以下步骤：
[0171]
901、获取即时数据流。
[0172]
本实施例中，即时数据流可以是即时通讯软件获取的数据流，例如朋友圈刷新数
据，短视频应用刷新数据，或直播视频流数据。
[0173]
具体的，对于视频类数据的识别过程，可以是选取视频流中的一帧或多帧图像进行识别，从而实现对于视频类数据的识别。
[0174]
902、将即时数据流中的图像数据输入目标模型进行识别，以得到第一类型标签和第二类型标签。
[0175]
本实施例中，输入目标模型进行识别的过程参见图3所示实施例的描述，此处不做赘述。
[0176]
可以理解的是，对于短视频或直播的应用场景，可以将视频数据流转换为图像数据后进行识别；具体的，可以是采用每帧作为图像数据，也可以采用视频的开始或结束帧作为图像数据，还可以采用固定的图像采集间隔进行视频帧的提取，以得到图像数据；由于视频帧的内容之间存在一定的关联性，采用间隔式的采集方式并不会遗漏可能的低俗图像，在保证识别准确性的同时，提高了识别的效率。
[0177]
903、基于第一类型标签进行低俗图像判断。
[0178]
本实施例中，第一类型标签可以直接用来确定是否包含低俗图像，例如是否包含“女性性感”类的图像，从而进行标记，并判断是否推送。
[0179]
904、基于第二类型标签对低俗部位进行处理，并发布。
[0180]
本实施例中，第二类型标签可以得到具体的识别部位，若第一类型标签或第二类型标签指示该图像为包含低俗内容，则可以基于第二类型标签对低俗部位进行处理，例如马赛克处理，从而将处理后的图像进行发布，保证了上线信息的准确。
[0181]
可以理解的是，对于信息上线的次序，可以是基于获取时对应的时序进行的，即获取即时媒体数据流；然后对媒体数据流中的图像按照目标时序进行提取，以得到输入图像，输入图像经过识别后按照目标时序进行发布。
[0182]
本实施例中，通过引入引导注意力机制和基于类别的自适应阈值学习，以及双分支双任务的联合训练，对于低俗信息识别精度高，在即时通信软件中每天数亿数据中，能够精确打击数百万低俗数据，另外也保证了视频号，直播等新场景不受低俗图像信息的影响。
[0183]
下面集合服务器侧的数据维护对上述图像识别的过程进行说明。请参阅图10，图10为本技术实施例提供的另一种基于人工智能的图像识别的方法的流程图，本技术实施例至少包括以下步骤：
[0184]
1001、获取即时数据流。
[0185]
本实施例中，即时数据流的获取与图9所示实施例的步骤901相似，此处不做赘述。
[0186]
1002、将即时数据流中的图像数据输入目标模型进行识别，以得到第一类型标签和第二类型标签。
[0187]
本实施例中，输入目标模型进行识别的过程参见图3所示实施例的描述，此处不做赘述。
[0188]
1003、确定即时数据流中的正常图像并发布。
[0189]
本实施例中，对于第一类型标签指示数据正常的数据，可以进行即时的上限发布。
[0190]
1004、基于第一类型标签和第二类型标签对异常图像进行标记，并上传至服务器。
[0191]
本实施例中，由于第二类型标签记录了图像低俗部分的具体位置，故可以进行标记，并生成对应的描述信息，例如：由于该图像包含腿部裸露，故上述。
[0192]
可选的，对于记录了图像低俗部分的图片，对同类图片进行识别的过程中，针对记录了图像低俗部分注意力区域进行查验，从而提高了低俗图像识别的效率，并实现了动态识别的过程，即对于低俗图像的注意力区域的不断收集，可以对后续的图像识别进行指引。
[0193]
具体的，其中可能存在错误上传的图像，故可以基于该误上传的图像进行模型参数调整，以提高目标模型的准确性。
[0194]
通过上述实施例可见，本技术的图像识别过程可解释性强，可根据可视化模型的注意力区域能够给出模型对图像预测结果的原因分析，为之后模型更高指标迭代作铺垫。
[0195]
为了更好的实施本技术实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图11，图11为本技术实施例提供的一种图像识别装置的结构示意图，识别装置1100包括：
[0196]
获取单元1101，用于获取输入图像；
[0197]
输入单元1102，用于将所述输入图像输入目标模型中的预设识别网络，以得到注意力图，所述注意力图中包含注意力区域，
[0198]
调整单元1103，用于基于所述注意力区域对所述注意力图进行图像调整得到增强图像，并根据所述增强图像对所述预设识别网络进行训练，以得到目标识别网络；
[0199]
所述输入单元1102，还用于将所述输入图像输入所述目标识别网络，以得到图像特征图；
[0200]
识别单元1104，用于将所述图像特征图输入所述目标模型中的分级识别网络，以得到第一类型标签和第二类型标签，所述分级识别网络包括一级标签分支和二级标签分支，所述一级标签分支用于确定所述输入图像的第一类型标签，所述二级标签分支用于识别所述输入图像的第二类型标签，所述第一类型标签和所述第二类型标签用于指示同一目标对象，且所述第二类型标签对于所述目标对象描述粒度小于所述第一类型标签对于所述目标对象描述粒度。
[0201]
可选的，在本技术一些可能的实现方式中，所述调整单元1103，具体用于将所述注意力区域进行掩盖，以对所述注意力图进行更新得到第一调整图像，并将所述第一调整图像对应的标签进行调整；
[0202]
所述调整单元1103，具体用于将所述注意力区域对应的权重参数进行强化，以对所述注意力图进行更新得到第二调整图像，并保持所述第二调整图像对应的标签不变；
[0203]
所述调整单元1103，具体用于根据所述第一调整图像和所述第二调整图像对所述预设识别网络进行训练，以得到所述目标识别网络。
[0204]
可选的，在本技术一些可能的实现方式中，所述调整单元1103，具体用于基于所述第一调整图像进行区域扰动，以生成负样本序列；
[0205]
所述调整单元1103，具体用于基于所述第二调整图像进行权重参数扰动，以生成正样本序列；
[0206]
所述调整单元1103，具体用于根据所述负样本序列和所述正样本序列对所述预设识别网络进行训练，以得到所述目标识别网络。
[0207]
可选的，在本技术一些可能的实现方式中，所述调整单元1103，具体用于确定所述注意力区域对应的注意力一级标签和注意力二级标签；
[0208]
所述调整单元1103，具体用于基于所述注意力一级标签对应的区域和注意力二级
标签对应的区域进行约束，以得到注意力损失信息；
[0209]
所述调整单元1103，具体用于根据所述注意力损失信息对所述目标识别网络进行参数调整。
[0210]
可选的，在本技术一些可能的实现方式中，所述识别单元1104，具体用于获取一级标签训练数据；
[0211]
所述识别单元1104，具体用于确定所述一级标签训练数据中的分类损失，以对所述一级标签分支进行训练；
[0212]
所述识别单元1104，具体用于获取二级标签训练数据；
[0213]
所述识别单元1104，具体用于将所述二级标签训练数据输入二分类器，以得到二级标签正样本和二级标签负样本；
[0214]
所述识别单元1104，具体用于基于所述二级标签正样本和二级标签负样本对所述二级标签分支进行训练。
[0215]
可选的，在本技术一些可能的实现方式中，所述识别单元1104，具体用于确定所述二级标签训练数据中的目标样本；
[0216]
所述识别单元1104，具体用于基于所述目标样本对应的批数据进行滑动均值计算，以得到动态阈值信息，所述动态阈值信包括正样本阈值和负样本阈值；
[0217]
所述识别单元1104，具体用于将所述目标样本输入所述二分类器，以得到预测值；
[0218]
所述识别单元1104，具体用于基于所述预测值与所述动态阈值信息进行比较，以确定所述二级标签训练数据中的所述二级标签正样本和二级标签负样本。
[0219]
可选的，在本技术一些可能的实现方式中，所述识别单元1104，具体用于将所述预测值与所述动态阈值信息中的正样本阈值进行比较；
[0220]
若所述预测值大于所述正样本阈值，则确定所述目标样本为所述二级标签正样本；
[0221]
所述识别单元1104，具体用于将所述预测值与所述动态阈值信息中的负样本阈值进行比较；
[0222]
所述识别单元1104，具体用于若所述预测值小于所述负样本阈值，则确定所述目标样本为所述二级标签负样本。
[0223]
可选的，在本技术一些可能的实现方式中，所述识别单元1104，具体用于若所述预测值大于所述负样本阈值，且所述预测值小于所述正样本阈值，则确定所述目标样本为噪声样本；
[0224]
所述识别单元1104，具体用于将所述噪声样本设置为不参与所述二级标签分支的训练。
[0225]
可选的，在本技术一些可能的实现方式中，所述获取单元1101，具体用于获取即时媒体数据流；
[0226]
所述获取单元1101，具体用于对所述媒体数据流中的图像按照目标时序进行提取，以得到所述输入图像，所述输入图像经过识别后按照所述目标时序进行发布。
[0227]
可选的，在本技术一些可能的实现方式中，所述识别单元1104，具体用于提取所述第一类型标签中的第一关键信息；
[0228]
所述识别单元1104，具体用于提取所述第二类型标签中的第二关键信息；
[0229]
所述识别单元1104，具体用于将所述第一关键信息和所述第二关键信息进行关联，以得到所述输入图像的描述信息；
[0230]
所述识别单元1104，具体用于基于所述描述信息对所述输入图像进行标记。
[0231]
可选的，在本技术一些可能的实现方式中，所述识别单元1104，具体用于响应于目标操作触发所述输入图像的调用进程；
[0232]
所述识别单元1104，具体用于基于所述调用进程缓存所述输入图像，并对所述输入图像的标记进行识别；
[0233]
所述识别单元1104，具体用于若所述输入图像的标记满足预设条件，则展示所述输入图像。
[0234]
通过获取输入图像；然后将输入图像输入目标模型中的预设识别网络，以得到注意力图，注意力图中包含注意力区域，并基于注意力区域对注意力图进行图像调整得到增强图像，并根据增强图像对预设识别网络进行训练，以得到目标识别网络；进一步的将输入图像输入目标识别网络，以得到图像特征图；进而将图像特征图输入目标模型中的分级识别网络，以得到第一类型标签和第二类型标签，其中，分级识别网络包括一级标签分支和二级标签分支，一级标签分支用于确定输入图像的第一类型标签，二级标签分支用于识别输入图像的第二类型标签，第一类型标签和第二类型标签用于指示同一目标对象，且第二类型标签对于目标对象描述粒度小于第一类型标签对于目标对象描述粒度。从而实现基于注意力区域引导的图像分级识别过程，由于采用注意力图中的注意力区域进行增强图像的获取，使得模型专注于关键部位的数据学习，并采用分级识别的方式进行展现，使得图像中的细节部分得以识别，提高了图像识别的准确性。
[0235]
本技术实施例还提供了一种终端设备，如图12所示，是本技术实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本技术实施例相关的部分，具体技术细节未揭示的，请参照本技术实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，pda)、销售终端(point of sales，pos)、车载电脑等任意终端设备，以终端为手机为例：
[0236]
图12示出的是与本技术实施例提供的终端相关的手机的部分结构的框图。参考图12，手机包括：射频(radio frequency，rf)电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(wireless fidelity，wifi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0237]
下面结合图12对手机的各个构成部件进行具体的介绍：
[0238]
rf电路1210可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1280处理；另外，将设计上行的数据发送给基站。通常，rf电路1210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier，lna)、双工器等。此外，rf电路1210还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(global system of mobile communication，gsm)、通用分组无线服务(general packet radio service，gprs)、码分多址(code division multiple access，cdma)、宽带码分多址
(wideband code division multiple access,wcdma)、长期演进(long term evolution，lte)、电子邮件、短消息服务(short messaging service，sms)等。
[0239]
存储器1220可用于存储软件程序以及模块，处理器1280通过运行存储在存储器1220的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0240]
输入单元1230可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1230可包括触控面板1231以及其他输入设备1232。触控面板1231，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1231上或在触控面板1231附近的操作，以及在触控面板1231上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1231可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1280，并能接收处理器1280发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1231。除了触控面板1231，输入单元1230还可以包括其他输入设备1232。具体地，其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0241]
显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1240可包括显示面板1241，可选的，可以采用液晶显示器(liquid crystal display，lcd)、有机发光二极管(organic light
‑
emitting diode，oled)等形式来配置显示面板1241。进一步的，触控面板1231可覆盖显示面板1241，当触控面板1231检测到在其上或附近的触摸操作后，传送给处理器1280以确定触摸事件的类型，随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图12中，触控面板1231与显示面板1241是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1231与显示面板1241集成而实现手机的输入和输出功能。
[0242]
手机还可包括至少一种传感器1250，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1241和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。
[0243]
音频电路1260、扬声器1261，传声器1262可提供用户与手机之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号，传输到扬声器1261，由扬声器1261转换为声音信号输出；另一方面，传声器1262将收集的声音信号转换为电信号，由音频电路1260
接收后转换为音频数据，再将音频数据输出处理器1280处理后，经rf电路1210以发送给比如另一手机，或者将音频数据输出至存储器1220以便进一步处理。
[0244]
wifi属于短距离无线传输技术，手机通过wifi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了wifi模块1270，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。
[0245]
处理器1280是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1220内的软件程序和/或模块，以及调用存储在存储器1220内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1280可包括一个或多个处理单元；可选的，处理器1280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1280中。
[0246]
手机还包括给各个部件供电的电源1290(比如电池)，可选的，电源可以通过电源管理系统与处理器1280逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0247]
尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。
[0248]
在本技术实施例中，该终端所包括的处理器1280还具有执行如上述页面处理方法的各个步骤的功能。
[0249]
本技术实施例还提供了一种服务器，请参阅图13，图13是本技术实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)1322(例如，一个或一个以上处理器)和存储器1332，一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中，存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1322可以设置为与存储介质1330通信，在服务器1300上执行存储介质1330中的一系列指令操作。
[0250]
服务器1300还可以包括一个或一个以上电源1326，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1358，和/或，一个或一个以上操作系统1341，例如windows servertm，mac os xtm，unixtm,linuxtm，freebsdtm等等。
[0251]
上述实施例中由管理装置所执行的步骤可以基于该图13所示的服务器结构。
[0252]
本技术实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有图像识别的指令，当其在计算机上运行时，使得计算机执行如前述图3至图10所示实施例描述的方法中图像识别的装置所执行的步骤。
[0253]
本技术实施例中还提供一种包括图像识别的指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图10所示实施例描述的方法中图像识别的装置所执行的步骤。
[0254]
本技术实施例还提供了一种图像识别的系统，所述图像识别的系统可以包含图11所描述实施例中的图像识别的装置，或图12所描述实施例中的终端设备，或者图13所描述的服务器。
[0255]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0256]
在本技术所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0257]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0258]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0259]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，图像识别的装置，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read
‑
only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0260]
以上所述，以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于人工智能的图像识别的方法以及相关装置与流程

相关文献

最热文献