一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型的训练及场景识别方法、装置、设备及介质与流程

2022-02-20 01:03:03 来源:中国专利 TAG:


1.本技术涉及图像处理技术领域,尤其涉及一种模型的训练及场景识别方法、装置、设备及介质。


背景技术:

2.随着多媒体技术的发展,人们日常观看视频图像的种类越来越多,视频内容涉及到的产品也越来越丰富。自动识别并分类图像的场景信息有助于帮助机器更好的理解图像,并且帮助下游算法开发针对于不同场景的功能。
3.随着神经网络在视觉领域上的发展,其在图像分类任务的表现上也超越了绝大部分传统算法。然而大部分基于神经网络的场景识别系统都是在封闭的图像集中训练和测试的,即该场景识别系统只能识别该封闭的图像集中包含的场景类别。然而在实际应用中,由于所有图像可能归属的场景类别是不可穷举的,当前需要进行场景识别的图像实际所归属的场景类别,有可能不是该封闭的图像集中包含的场景类别,但如果通过该场景识别系统去识别该图像所归属的场景类别,则会得到错误的结果,进而影响下游算法的处理。
4.因此,亟需一种不仅可以准确地识别归属于封闭的图像集中包含的场景类别图像,还能够处理不归属于封闭的图像集中包含的场景类别图像的场景识别系统。


技术实现要素:

5.本技术提供了一种模型的训练及场景识别方法、装置、设备及介质,用以解决现有场景识别系统无法准确地处理不归属于封闭的图像集中包含的场景类别图像的问题。
6.本技术提供了一种场景识别模型训练方法,所述方法包括:
7.获取样本集中任一样本图像;其中,所述样本图像对应有场景标签,所述场景标签用于标识所述样本图像所归属的第一场景类别;
8.通过原始场景识别模型,确定所述样本图像对应的场景概率向量以及所述样本图像的样本特征;其中,所述场景概率向量包括所述样本图像分别归属于每个场景类别的概率值;
9.基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型;其中,所述第二场景类别为所述每个场景类别中,除所述第一场景类别之外的场景类别。
10.本技术提供了一种场景识别方法,所述方法包括:
11.通过预先训练的场景识别模型,确定待识别图像的图像特征;
12.确定所述图像特征,分别与每个场景类别的目标类中心特征的相似度;
13.根据每个所述相似度以及相似度阈值,确定所述每个场景类别是否包含所述待识别图像所归属的场景类别;
14.若确定所述每个场景类别包含所述待识别图像所归属的场景类别,则通过所述场
景识别模型,确定所述待识别图像所归属的场景类别;
15.若确定所述每个场景类别不包含所述待识别图像所归属的场景类别,则不继续识别所述待识别图像所归属的场景类别。
16.本技术提供了一种场景识别模型训练装置,所述装置包括:
17.获取单元,用于获取样本集中任一样本图像;其中,所述样本图像对应有场景标签,所述场景标签用于标识所述样本图像所归属的第一场景类别;
18.处理单元,用于通过原始场景识别模型,确定所述样本图像对应的场景概率向量以及所述样本图像的样本特征;其中,所述场景概率向量包括所述样本图像分别归属于每个场景类别的概率值;
19.训练单元,用于基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型;其中,所述第二场景类别为所述每个场景类别中,除所述第一场景类别之外的场景类别。
20.本技术提供了一种场景识别装置,所述装置包括:
21.第一处理模块,用于通过预先训练的场景识别模型,确定待识别图像的图像特征;
22.第二处理模块,用于确定所述图像特征,分别与每个场景类别的目标类中心特征的相似度;
23.第三处理模块,用于根据每个所述相似度以及相似度阈值,确定所述每个场景类别是否包含所述待识别图像所归属的场景类别;若确定所述每个场景类别包含所述待识别图像所归属的场景类别,则通过所述场景识别模型,确定所述待识别图像所归属的场景类别;若确定所述每个场景类别不包含所述待识别图像所归属的场景类别,则不继续识别所述待识别图像所归属的场景类别。
24.本技术提供了一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述场景识别模型训练方法的步骤,或,实现如上述所述场景识别方法的步骤。
25.本技术提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述场景识别模型训练方法的步骤,或,实现如上述所述场景识别方法的步骤。
26.由于在基于样本集中的样本图像对原始场景识别模型进行训练的过程中,通过原始场景识别模型,可以获取到输入的样本图像对应的场景概率向量以及样本图像的样本特征,使得后续可以基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型,使得训练得到的场景识别模型,可以根据相同场景类别内图像的图像特征向该场景类别的类中心特征靠拢,同时远离其他场景类别的类中心特征的特性,进一步结合图像的特征层面,确定该图像的场景类别是否可以识别以及在该图像的场景类别可以识别的情况下,该图像所归属的场景类别,不仅实现了准确地识别归属于封闭的图像集中包含的场景类别图像,还能够处理不归属于封闭的图像集中包含的场景类别图像,提高了场景识别模型的精度、性能以及自然度。
附图说明
27.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
28.图1为本技术一些实施例提供的场景识别模型训练过程示意图;
29.图2为本技术一些实施例提供的具体的场景识别模型训练流程示意图;
30.图3为本技术一些实施例提供的一种原始场景识别模型的结构示意图;
31.图4为本技术一些实施例提供的场景识别过程示意图;
32.图5为本技术一些实施例提供的具体的场景识别流程示意图;
33.图6为本技术一些实施例提供的一种场景识别模型训练装置结构示意图;
34.图7为本技术一些实施例提供的一种场景识别装置结构示意图;
35.图8为本技术一些实施例提供的一种电子设备结构示意图;
36.图9为本技术一些实施例提供的一种电子设备结构示意图。
具体实施方式
37.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图本技术作进一步地详细描述,显然,所描述的实施例仅仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
38.如何让场景识别系统能够准确地处理不归属于封闭的图像集中包含的场景类别图像,这本质上是一个开集识别问题,场景识别系统需要能够发现并学习未知场景类别图像所归属的场景类别。综上,开集识别问题是模式识别和多媒体社区中一个重要而又具有挑战性的问题。
39.因此,为了实现场景识别系统能够准确地处理不归属于封闭的图像集中包含的场景类别图像,本技术提供了一种模型的训练及场景识别方法、装置、设备及介质。
40.实施例1:
41.图1为本技术一些实施例提供的场景识别模型训练过程示意图,该过程包括:
42.s101:获取样本集中任一样本图像;其中,所述样本图像对应有场景标签,所述场景标签用于标识所述样本图像所归属的第一场景类别。
43.本技术提供的场景识别模型训练方法应用于电子设备,该电子设备可以是如移动终端等智能设备,也可以是家庭大脑等服务器。当然,该电子设备还可以是如电视机等显示设备。
44.为了获取到准确地场景识别模型,需要根据预先获取的样本集中的每个样本图像,对原始场景识别模型进行训练。其中,样本集中的任一样本图像通过如下方式获取:将采集到的原始图像确定为样本图像;和/或,对采集到的原始图像中的像素点的像素值进行调整后,将调整后的图像确定为样本图像。
45.需要说明的是,为了方便训练场景识别模型,样本集中的任一样本图像对应有场景标签,任一场景标签用于标识该样本图像所归属的场景类别(为了方便说明,记为第一场
景类别)。比如,该场景类别为直播场景、游戏场景、吃播场景等类别。
46.作为一种可能的实施方式,如果样本集中包含充足数量的样本图像,即包含了大量不同环境下的采集到的原始图像,则可以根据样本集中的样本图像对原始场景识别模型进行训练。
47.作为另一种可能的实施方式,如果为了保证样本图像的多样性,以提高场景识别模型的准确性,可以通过对原始图像中的像素点的像素值进行调整的方式,比如,对该原始图像进行模糊处理,锐化处理、对比度处理等,得到大量的调整后的图像,将调整后的图像确定为样本图像,以对原始场景识别模型进行训练。
48.据统计,以电子设备为显示设备为例,如电视机,在显示设备的工作场景中,获取到的图像中存在的比较常见的画质问题包括:模糊、曝光、过暗、对比度过低、画面中存在噪点等,比如,在直播场景中,获取到的图像中可能存在曝光的问题等。为了保证样本图像的多样性,以提高场景识别模型的准确性,可以预先针对显示设备的工作场景中,获取到的图像中可能存在的画质问题,对采集到的原始图像的画质进行调整。可以通过以下至少一种方式对采集到的原始图像中像素点的像素值进行调整包括:
49.方式一、通过预设的卷积核,对原始图像中像素点的像素值进行调整;
50.方式二、对所述原始图像中像素点的像素值进行对比度调整;
51.方式三、对所述原始图像中像素点的像素值进行亮度调整;
52.方式四、对所述原始图像中像素点的像素值进行加噪处理。
53.比如,如果希望对原始图像进行加噪处理,从而获取存在不同噪声的调整后的图像,可以对原始图像中像素点的像素值进行加噪处理,即随机向原始图像添加噪声。其中,在对原始图像进行加噪处理的过程中,所使用的噪声种类还应尽可能的多,比如,白噪声、椒盐噪声、高斯噪声等,以使样本集中的样本图像更加的多样化,从而提高场景识别模型的准确性和鲁棒性。
54.需要说明的是,对原始图像中像素点的像素值进行处理的过程属于现有技术,具体不在此进行赘述。
55.通过上述的方式,获取样本图像,可以使样本集中的样本图像的数量倍增,使得可以快速获取到大量的样本图像,降低获取样本图像的难度、成本和所耗费的资源。后续可以根据更多的样本图像,对原始场景识别模型进行训练,提高了场景识别模型的准确性和鲁棒性。
56.作为再一种可能的实施方式,还可以将采集到的原始图像、以及对采集到的原始图像中的像素点的像素值进行调整后获取到的调整后的图像,均确定为样本图像。根据样本集中的原始图像以及调整后的图像,一起训练原始场景识别模型。
57.s102:通过原始场景识别模型,确定所述样本图像对应的场景概率向量以及所述样本图像的样本特征;其中,所述场景概率向量包括所述样本图像分别归属于每个场景类别的概率值。
58.当基于上述的实施例获取到用于训练原始场景识别模型的样本集后,可以基于样本集中的每个样本图像,对原始场景识别图像进行训练。
59.具体实施过程中,将任一样本图像输入到原始场景识别模型。通过原始场景识别模型,可以获得上述样本图像对应的场景概率向量以及该样本图像的图像特征(为了方便
说明,记为样本特征)。其中,该场景概率向量包括该样本图像分别归属于每个场景类别的概率值,该每个场景类别是由样本集中各个样本图像所归属的场景类别确定的。任一样本特征表示从样本图像中提取到的更高维度、更抽象的图像特征。
60.其中,该原始场景识别模型可以是决策树、逻辑回归(logistic regression,lr),朴素贝叶斯(naive bayes,nb)分类算法,随机森林(random forest,rf)算法,支持向量机(support vector machines,svm)分类算法、方向梯度直方图(histogram of oriented gradients,hog)、深度学习算法等。其中,深度学习算法可以包括神经网络、深度神经网络、卷积神经网络(convolutional neuron network,cnn)等。
61.在一种可能的实施方式中,为了通过场景识别模型进行场景识别,该原始场景识别模型中包括特征提取层、特征输出层以及分类输出层。该特征提取层特征输出层输出,特征输出层与分类输出层连接,当样本图像输入到该原始场景模型中,通过该原始场景识别模型中的特征提取层,可以获取输入的样本图像的样本特征。然后通过原始场景识别模型中的特征输出层,可以将该样本特征输出。通过原始场景识别模型中的分类输出层,基于该样本特征,可以获取并输出样本图像对应的场景概率向量。
62.s103:基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型;其中,所述第二场景类别为所述每个场景类别中,除所述第一场景类别之外的场景类别。
63.由于样本集中任一样本图像均对应有场景标签,即标识了该样本图像所实际归属的场景类别,因此,在本技术中,可以在确定了样本图像对应的场景概率向量以及该样本图像的样本特征之后,可以基于该场景概率向量、对应的场景标签以及样本特征,采用本技术提供的场景识别模型训练方法,对原始场景识别模型进行训练。
64.如果某一图像归属的场景分类是预先训练的场景识别模型可以识别的场景分类,则该图像的图像特征,一般会与样本集中归属于该场景类型的样本图像的图像特征的度量距离越大,与样本集中不归属于该场景类型的样本图像的图像特征的度量距离越小。基于此,可以在对图像的场景分类进行识别时,可以确定该图像的图像特征与样本集中的每个样本图像的图像特征的度量距离,根据获取到的度量距离,确定该图像所归属的场景分类是预先训练的场景识别模型可以识别的场景分类。
65.其中,该度量距离可以通过欧式距离、余弦相似度、kl散度函数等方式获取。
66.进一步地,由于样本集中会包含有大量的样本图像,如果确定某一图像的图像特征与样本集中的每个样本图像的图像特征之间的度量距离,则会耗费大量的计算资源,降低场景识别系统确定该图像所归属的场景类别的效率。基于此,可以获取样本集中每个样本图像所归属的场景类别的类中心特征,以通过该类中心特征可以表征该场景类别图像一般具有的特征。后续可以在对图像的场景分类进行识别时,可以确定该图像的图像特征与样本集中的每个样本图像所归属的场景类别的类中心特征之间的度量距离。根据获取到的度量距离,确定该图像所归属的场景分类是否是预先训练的场景识别模型可以识别的场景分类。
67.需要说明的是,样本特征的维度与类中心特征的维度相同。
68.在一种可能的实施方式中,为了准确地获取到每个场景类别的类中心特征,可以
采用如下方式获取每个场景类别的类中心特征:
69.方式1、为了将获取每个场景类别的类中心特征的过程结合到模型训练的过程中,可以对于原始场景识别模型的每次迭代训练,通过当前迭代的场景识别模型,获取样本集中的每个场景类别的一个或多个样本图像的样本特征。然后根据每个样本特征,确定每个场景类别分别对应的候选类中心特征。基于每个候选类中心特征,确定下一迭代训练中每个场景类别的类中心特征。
70.在一种可能的实施方式中,可以针对每个场景类别,确定该场景类别的各个样本图像中,被当前迭代的场景识别模型正确识别的样本图像(为了方便描述,记为目标样本图像)。该被当前迭代的场景识别模型正确识别可以理解为,通过当前迭代的场景识别模型确定该样本图像的场景类别与该样本图像的第一场景分类相同。然后根据目标样本图像的样本特征及目标样本图像的权重值,确定加权平均向量,并基于该加权平均向量,确定该场景类别对应的候选类中心特征。
71.其中,可以通过人工配置的方式,预先配置该目标样本图像的权重值,比如,设置每个目标样本图像的权重值均为1,也可以通过当前迭代的场景识别模型,获取目标样本图像归属于该场景类别的概率值,将该概率值确定为该目标样本图像的权重值。
72.例如,若通过人工配置的方式,预先配置该目标样本图像的权重值,则根据目标样本图像的样本特征及目标样本图像的权重值,确定加权平均向量可通过如下公式表示:
[0073][0074]
其中,ci为场景类别i的类中心特征,为被正确识别为场景分类i的第j个目标样本图像的样本特征,为被正确识别为场景分类i的目标样本图像的数量,目标样本图像的权重值为1。
[0075]
再例如,若通过当前迭代的场景识别模型,获取目标样本图像归属于该场景类别的概率值,将该概率值确定为该目标样本图像的权重值,则根据目标样本图像的样本特征及目标样本图像的权重值,确定加权平均向量可通过如下公式表示:
[0076][0077]
其中,ci为场景类别i的类中心特征,为被正确识别为场景分类i的第j个目标样本图像的样本特征,为被正确识别为场景分类i的目标样本图像的数量,为通过当前迭代的场景识别模型,获取第j个目标样本图像归属于该场景类别i的概率值,该权重值度越高说明,当前迭代的场景识别模型的识别结果越准确,被越准确的识别的样本图像的样本特征对类中心的贡献更大。
[0078]
在另一种可能的实施方式中,还可以针对每个场景类别,确定该场景类别的各个
样本图像中,被当前迭代的场景识别模型正确识别的目标样本图像;基于预设的目标算法,获取该目标样本图像的样本特征中的目标特征,并基于该目标特征,确定场景类别分别对应的候选类中心特征。其中,所述目标特征为主成分特征,或,归一化特征。
[0079]
其中,具体通过预设的目标算法,获取图像的图样特征中的主成分特征,或,归一化特征的过程属于现有技术,在此不做赘述。
[0080]
当基于上述的实施例获取到每个场景类别的候选类中心特征之后,可以根据每个场景类别的候选类中心特征,确定每个场景类别的类中心特征。具体的,根据每个场景类别的候选类中心特征,确定每个场景类别的类中心特征的过程,主要包括如下两种情况:
[0081]
情况1、由于在对原始场景识别模型进行训练之前,每个场景类别的类中心特征均是随机初始化生成的,导致在对原始场景模型进行第一次迭代训练时,当前迭代的每个场景类别的类中心特征是不准确的。因此,在本技术中,若确定当前迭代为第一次迭代,则可以直接将每个候选类中心特征,确定为下一迭代训练中每个场景类别的类中心特征,即根据每个候选类中心特征,对当前迭代的每个场景类别的类中心特征进行更新,从而提高获取到的每个场景类别的类中心特征的准确性。
[0082]
其中,该随机初始化生成的类中心特征的维度与样本特征的维度相同。
[0083]
情况2、为了在每次迭代所确定的每个场景类别的类中心特征更加准确,且变化更稳定,在本技术中,预先配置有权重向量,该权重向量用于调整每次更新类中心特征的幅度。当基于上述的实施例确定了每个场景类别的候选类中心特征之后,若确定当前迭代不为第一次迭代,则针对每个场景类别,确定该场景类别对应的候选类中心特征,与当前迭代确定的该场景类别对应的类中心特征的差向量。然后根据该差向量、以及预先配置的权重向量,对该差向量进行调整。根据调整后的差向量以及当前迭代确定的该场景类别对应的类中心特征,确定下一迭代训练中该场景类别对应的类中心特征。
[0084]
在一种可能的实施方式中,可以获取该差向量与预先配置的权重向量的乘积向量,将该乘积向量确定为调整后的差向量。
[0085]
在一种可能的实施方式中,可以根据调整后的差向量以及当前确定的该场景类别对应的类中心特征,确定和向量,将该和向量确定为下一迭代训练中该场景类别对应的类中心特征。
[0086]
例如,基于上述情况1和情况2,根据每个场景类别的候选类中心特征,确定每个场景类别的类中心特征的过程,可通过如下公式表示:
[0087][0088]
其中,为下一迭代训练中该场景类别i对应的类中心特征,为场景类别i对应的候选类中心向量,为当前迭代确定的该场景类别i对应的类中心特征,w为预先配置的权重向量。
[0089]
方式2、还可以通过预先训练的特征提取模型,获取样本集中的每个样本图像的样本特征。可以理解的是,该特征提取模型也为一种特征提取算法。然后采用聚类算法,比如
模糊聚类算法、k-means聚类、最大最小距离聚类算法等,对每个样本特征进行聚类,从而获取每个场景类别对应的簇。其中,任一场景类别对应的簇中包括该场景类别的样本特征。然后根据每个场景类别分别对应的簇中所包含的样本特征,确定该簇中的类中心特,即确定每个场景类别的类中心特征。
[0090]
其中,可以将该簇所包含的任一样本特征确定为类中心特征,也可以将根据该簇中所包含的各个样本特征的平均向量,将该平均向量确定为类中心特征。具体实施过程中,可以根据实际需求进行灵活使用,在此不做具体赘述。
[0091]
需要说明的是,训练特征提取模型的过程、以及如何根据聚类算法,对样本特征进行聚类的过程属于现有技术,在此不做具体赘述。
[0092]
为了方便训练得到的场景识别模型,可以从图像的特征层面确定图像所归属的场景,在本技术中,在对原始场景识别模型进行训练的过程中,可以考虑到样本图像的样本特征与每个样本图像所归属的场景类别的类中心特征之间的度量距离。然后基于该度量距离、场景概率向量以及场景标签,对原始场景识别模型进行。可以理解的是,基于场景概率向量以及所述场景标签、样本特征以及第一场景类别对应的类中心特征、样本特征以及第二场景类别对应的类中心特征,对原始场景识别模型进行训练。其中,第二场景类别为样本集中每个样本图像所归属的场景类别中,除第一场景类别之外的场景类别。
[0093]
在一种可能的实施方式中,在确定样本特征与每个样本图像所归属的场景类别的类中心特征之间的度量距离时,可以通过如下欧式距离公式确定:
[0094][0095]
其中,d(x,yi)表示样本特征x与第i个场景类别的类中心特征之间的度量距离。
[0096]
在另一种可能的实施方式中,由于欧式距离代表两个向量在绝对距离上的靠近程度,余弦相似度代表两个向量在方向上的靠近程度。因此,在确定样本特征与每个样本图像所归属的场景类别的类中心特征之间的度量距离时,可以通过如下公式确定:
[0097][0098]
其中,d(x,yi)表示样本特征x与第i个场景类别的类中心特征之间的度量距离,cos_sim(x,yi)表示样本特征x与第i个场景类别的类中心特征之间的余弦相似度,α1表示欧式距离对应的权重值,α2表示余弦相似度对应的权重值。
[0099]
在一种可能的实施方式中,可以基于场景概率向量以及场景标签,确定损失值(为了方便说明,记为第一损失值);基于样本特征以及第一场景类别对应的类中心特征,确定损失值(为了方便说明,记为第二损失值);基于样本特征以及第二场景类别对应的类中心特征,确定损失值(为了方便说明,记为第三损失值)。然后根据第一损失值及其对应的第一权重值、第二损失值及其对应的第二权重值、以及第三损失值及其对应的第三权重值,确定综合损失值。基于综合损失值,对原始场景识别模型进行训练,以对原始场景识别模型中的参数的参数值进行更新,从而获取训练完成的场景识别模型。
[0100]
具体实施中,在根据该综合损失值,对原始场景识别模型进行训练时,可以采用梯度下降算法,对原始场景识别模型中的参数的梯度进行反向传播,从而实现对原始场景识别模型进行训练。
[0101]
可以理解的是,第二损失值可以由样本特征与第一场景类别对应的类中心特征之
间的度量距离确定,第三损失值也可以由样本特征与第二场景类别对应的类中心特征之间的度量距离确定。
[0102]
例如,根据第一损失值及其对应的第一权重值、第二损失值及其对应的第二权重值、以及第三损失值及其对应的第三权重值,确定综合损失值,可通过如下公式确定:
[0103][0104]
其中,为根据场景概率向量y以及场景标签所确定的第一损失值,d(xi,ci)为样本特征xi与第一场景类别对应的类中心特征ci之间的度量距离,d(xi,c
cls!=i
)为样本特征xi与第二场景类别对应的类中心特征c
cls!=i
之间的度量距离,ω1为第一权重值,ω2为第二权重值,ω3为第三权重值。
[0105]
在实际应用过程中,相同场景类别图像的图像特征之间的度量距离越小,不相同场景类别图像的图像特征之间的度量距离越大。因此,在设置第一权重值、第二权重值以及第三权重值时,该第二损失值可以是负数,第一损失值和第三损失值可以为正数,使得在优化综合损失值时,场景识别模型的优化方向是向着最小化第一损失值,最小化第二损失值,最大化第三损失值的方向,以增大不同场景类别之间的度量距离,减小相同场景类别的样本特征之间的度量距离。从特征空间上看,使不同场景类别的样本特征之间的分布比较分散,但相同场景类别的样本特征之间的分布比较聚拢。
[0106]
通过上述的综合损失值,对场景识别模型进行训练,既可以使不同场景类别的样本特征在特征空间中相似度变小,同时使同一场景类别的样本特征在特征空间中相似度变大,有利于提高确定某一图像的场景类别是否是场景识别模型可以识别的精度。
[0107]
由于样本集包含大量的样本图像,对每个样本图像都进行上述操作,当满足预设的收敛条件时,该场景识别模型训练完成。
[0108]
其中,满足预设的收敛条件可以为根据当前迭代训练获取到的每个综合损失值的和小于设定的损失值阈值、对模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置,在此不做具体限定。
[0109]
在一种可能的实施方式中,为了确定已训练的场景识别模型的精度,在上线发布该场景识别模型之前,可以对该场景识别模型进行测试,以确定该场景识别模型是否可以准确地处理不归属于样本集中包含的场景类别图像,以及该场景识别模型对可以识别的图像的识别精度。
[0110]
具体实施过程中,获取用于对已训练的场景识别模型进行测试的测试集,该测试集中包含有测试样本图像,以基于测试样本图像对上述已训练的场景识别模型的可靠程度进行验证。在获取该测试集中包含的测试样本图像时,可以重新采集测试集中包含的测试样本图像的方式获取,和/或,也可以通过把样本集中的样本图像分为训练样本图像和测试样本图像的方式获取。需要说明的是,采集测试集中包含的测试样本图像的具体过程,与上述采集样本集中包含的样本图像的过程类似,重复之处不做赘述。
[0111]
为了保证可以测试该场景识别模型是否可以准确地处理不归属于样本集中包含的场景类别图像的能力,在获取的每个测试样本图像中,需存在至少一个测试样本图像所归属的场景类别,与样本集中所包含的场景类别均不同。
[0112]
其中,每个测试样本图像均对应有场景标签以及处理标签,该场景标签用于标识
测试样本图像所归属的场景类别(为了方便描述,记为第三场景类别),处理标签用于标识样本集中包含的场景类别是否包含该第三场景类别。
[0113]
针对测试集中的每个测试样本图像,将该测试样本图像输入到场景识别模型中。通过该场景识别模型,获取该测试样本图像的图像特征(为了方便说明,记为测试样本特征)。然后确定该测试样本特征,分别与每个场景类别的目标类中心特征的相似度。其中,该目标类中心特征可以是对原始场景识别模型的最后一次迭代训练时,样本集中包含的每个场景类别的类中心特征。然后根据相似度阈值以及获取到的相似度,确定每个场景类别是否包含该测试样本图像所归属的场景类别。
[0114]
在一种可能的实施方式中,可以通过人工的方式配置该相似度阈值,也可以是针对每个目标类中心特征,确定该目标类中心特征与其它的目标类中心特征之间的参考相似度。然后根据每个目标类中心特征分别对应的参考相似度,确定该相似度阈值。
[0115]
在一种可能的实施方式中,若参考相似度是根据欧式距离等度量距离确定的,则可以根据各个参考相似度中的最小值,确定该相似度阈值。
[0116]
在一种可能的实施方式中,若参考相似度是根据余弦相似度等度量距离确定的,则可以根据各个参考相似度中的最大值,确定该相似度阈值。
[0117]
在一种可能的实施方式中,若相似度是根据欧式距离等度量距离确定的,则两个图像特征的相似度越小,说明两个图像特征之间相似性越高,两个图像特征越有可能归属于同一场景类别;两个图像特征的相似度越大,说明两个图像特征之间的相似性越低,两个图像特征越可能不归属于同一场景类别。因此,在根据每个所述相似度以及相似度阈值,确定每个场景类别是否包含所述测试样本图像所归属的场景类别,若存在任一相似度小于相似度阈值,则说明测试样本图像的图像特征与该相似度所对应的目标类中心特征极有可能归属于同一场景类别,则确定样本集中包含的每个场景类别包含测试样本图像所归属的场景类别;若每个相似度均不小于相似度阈值,则说明测试样本图像的图像特征与每个目标类中心特征均来自不同的场景类别,则确定样本集中包含的每个场景类别不包含测试样本图像所归属的场景类别。
[0118]
在一种可能的实施方式中,若相似度是根据余弦相似度等度量距离确定的,则两个图像特征的相似度越小,说明两个图像特征之间相似性越低,两个图像特征越不可能归属于同一场景类别;两个图像特征的相似度越小,说明两个图像特征之间的相似性越高,两个图像特征越可能归属于同一场景类别。因此,在根据每个所述相似度以及相似度阈值,确定每个场景类别是否包含所述测试样本图像所归属的场景类别,若存在任一相似度大于相似度阈值,则说明测试样本图像的图像特征与该相似度所对应的目标类中心特征极有可能归属于同一场景类别,则确定样本集中包含的每个场景类别包含测试样本图像所归属的场景类别;若每个相似度均不大于相似度阈值,则说明测试样本图像的图像特征与每个目标类中心特征均来自不同的场景类别,则确定样本集中包含的每个场景类别不包含测试样本图像所归属的场景类别。
[0119]
具体的,若确定每个场景类别包含该测试样本图像所归属的场景类别,说明该测试样本图像所归属的场景类别是场景识别模型可以准确地确定的,即该测试样本图像所归属的场景类别是已知的,则通过场景识别模型,确定该测试样本图像所归属的场景类别;若确定每个场景类别不包含该测试样本图像所归属的场景类别,说明该测试样本图像所归属
的场景类别不是场景识别模型可以准确地确定的,即该测试样本图像所归属的场景类别是未知的,则不继续识别图像所归属的场景类别。
[0120]
由于测试集包含大量的测试样本图像,对每个测试样本图像都进行上述操作。基于每个测试样本图像的处理结果(包括场景识别模型是否识别测试样本图像所归属的场景类别的结果、以及场景识别模型识别测试样本图像所归属的场景类别的情况下,获取到的该测试样本图像的场景概率向量)、每个测试样本图像的处理标签、以及每个测试样本图像的场景标签,进行相应的计算,确定场景识别模型的各项评价指标,比如准确率,错误率、精准率等。若确定该场景识别模型的各项评价指标满足预设的发布要求,则可以上线发布该场景识别模型。若确定该场景识别模型的各项评价指标不满足预设的发布要求,则可以重新基于样本集中的样本图像,对该场景识别模型进行进一步地训练。
[0121]
由于本技术在训练场景识别模型时,同时去学习样本集中每个场景类别的样本图像的样本特征,从而获取到每个场景类别的类中心特征,使得后续在使用或测试该已训练的场景识别模型时,可以通过该场景识别模型,获取输入图像的图像特征,然后确定该图像特征与每个场景类别的类中心特征的度量距离,若确定该图像特征与任一场景类别的类中心特征的度量距离都不近,说明确定已知的每个场景类别不包含该图像所归属的场景类别,即该图像所归属的场景类别也是未知的,则不对该图像进行后续的场景类型的识别,从而实现了场景识别模型所提取到的图像特征具有判别性,以帮助场景识别模型确定图像所归属的场景类别是否是该场景识别图像可以识别的,避免了误识别该图像所归属的场景类别而影响下有算法的精度。
[0122]
由于在基于样本集中的样本图像对原始场景识别模型进行训练的过程中,通过原始场景识别模型,可以获取到输入的样本图像对应的场景概率向量以及样本图像的样本特征,使得后续可以基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型,使得训练得到的场景识别模型,可以根据相同场景类别内图像的图像特征向该场景类别的类中心特征靠拢,同时远离其他场景类别的类中心特征的特性,进一步结合图像的特征层面,确定该图像的场景类别是否可以识别以及在该图像的场景类别可以识别的情况下,该图像所归属的场景类别,不仅实现了准确地识别归属于封闭的图像集中包含的场景类别图像,还能够处理不归属于封闭的图像集中包含的场景类别图像,提高了场景识别模型的精度、性能以及自然度。
[0123]
实施例2:
[0124]
以执行主体为显示设备为例,下面通过具体实施例对本技术提供的场景识别模型训练方法进行详细的说明,图2为本技术一些实施例提供的具体的场景识别模型训练流程示意图,该流程包括:
[0125]
s201:构建原始场景识别模型。
[0126]
s202:随机构建每个场景类别的类中心特征。
[0127]
s203:获取样本集中任一样本图像。
[0128]
其中,样本图像对应有场景标签,场景标签用于标识样本图像所归属的第一场景类别。
[0129]
s204:通过原始场景识别模型,确定样本图像对应的场景概率向量以及样本图像
的样本特征。
[0130]
其中,场景概率向量包括样本图像分别归属于每个场景类别的概率值。
[0131]
下面结合图3对通过原始场景识别模型,确定样本图像对应的场景概率向量以及样本图像的样本特征的过程进行详细的介绍,图3为本技术一些实施例提供的一种原始场景识别模型的结构示意图。将任一样本图像输入到原始场景识别模型之后,通过该原始场景识别模型中的特征提取层,可以获取输入的样本图像的样本特征。然后通过原始场景识别模型中的特征输出层,可以将该样本特征输出。通过原始场景识别模型中的分类输出层,基于该样本特征,可以获取并输出样本图像对应的场景概率向量。
[0132]
由于样本集包含大量的样本图像,对每个样本图像都进行上述操作s203~s204的步骤。
[0133]
s205:更新当前迭代的每个场景类别的类中心特征。
[0134]
其中,若当前迭代为第一次迭代,根据当前迭代获取到的每个样本特征,确定每个场景类别分别对应的候选类中心特征;将每个候选类中心特征,确定为下一迭代训练中每个场景类别的类中心特征。
[0135]
若当前迭代为第一次迭代,根据当前迭代获取到的每个样本特征,确定每个场景类别分别对应的候选类中心特征;针对每个场景类别,确定该场景类别对应的候选类中心特征,与当前迭代确定的该场景类别对应的类中心特征的差向量;根据差向量、预先配置的权重向量以及当前迭代确定的该场景类别对应的类中心特征,确定下一迭代训练中该场景类别对应的类中心特征。
[0136]
s206:针对每个样本图像,根据该样本图像的场景概率向量以及场景标签、该样本图像的样本特征以及该样本图像所归属的第一场景类别对应的类中心特征、该样本图像的样本特征以及该样本图像的第二场景类别对应的类中心特征,确定综合损失值。
[0137]
s207:确定每个综合损失值的和是否小于预设的损失值阈值,若小于,则执行s208,否则,执行s209。
[0138]
s208:获取到训练完成的场景识别模型并保存。
[0139]
s209:对原始场景识别模型的参数的参数值进行调整,执行s203。
[0140]
实施例3:
[0141]
本技术还提供了一种场景识别方法,图4为本技术一些实施例提供的场景识别过程示意图,该过程包括:
[0142]
s401:通过预先训练的场景识别模型,确定待识别图像的图像特征。
[0143]
s402:确定所述图像特征,分别与每个场景类别的目标类中心特征的相似度。
[0144]
s403:根据每个所述相似度以及相似度阈值,确定所述每个场景类别是否包含所述待识别图像所归属的场景类别。
[0145]
s404:若确定所述每个场景类别包含所述待识别图像所归属的场景类别,则通过所述场景识别模型,确定所述待识别图像所归属的场景类别。
[0146]
s405:若确定所述每个场景类别不包含所述待识别图像所归属的场景类别,则不继续识别所述待识别图像所归属的场景类别。
[0147]
本技术提供的场景识别方法应用于电子设备,该电子设备可以是如移动终端等智能设备,也可以是服务器。当然,该电子设备还可以是如电视机等显示设备。
[0148]
在一种可能的应用场景中,以电子设备为电视机为例,对电视播放的视频画面进行实时的场景分类的场景为例,为了更好的对视频画面进行分析,电视节可以先对视频中包含的图像进行场景识别,以根据该视频所归属的场景类别,结合下游算法,对该视频画面进行处理,比如,对视频画面的画质进行优化等。
[0149]
在一种可能的实施方式中,在确定当电子设备接收到对某一视频中的图像的场景识别的处理请求后,便将该图像确定为待识别图像,并基于该待识别图像,采用本技术提供的场景识别方法,进行相应的处理。
[0150]
其中,进行场景识别的电子设备接收到对某一视频中的图像进行场景识别的处理请求,主要包括以下至少一种情况:
[0151]
情况一、当需要进行场景识别时,用户可以向智能设备输入场景识别的业务处理请求,智能设备接收到该业务处理请求后,便可以向进行场景识别的电子设备发送对视频中的图像进行场景识别的处理请求。
[0152]
情况二、当智能设备确定录制到视频后,便生成对录制的视频中的图像进行场景识别的处理请求并发送至进行场景识别的电子设备。
[0153]
情况三、当用户需要对某一特定视频进行场景识别时,可以向智能设备输入对该视频进行场景识别的业务处理请求,智能设备接收到该业务处理请求后,便可以向进行场景识别的电子设备发送对该视频中的图像进行场景识别的处理请求。
[0154]
需要说明的是,进行场景识别的电子设备可以与该智能设备相同,也可以不同。
[0155]
作为一种可能的实施方式中,也可以预设有场景识别条件,比如,当接收到显示设备发送的视频便对该视频中的图像进行场景识别,当接收到显示设备发送的某一视频中预设数量帧图像时便对该预设数量帧图像进行场景识别、按照预设的周期对当前获取到的视频中的图像进行场景识别等。当电子设备确定当前时间满足预设的场景识别条件时,便对某一视频中的图像的场景识别。
[0156]
在本技术中,在获取视频中的图像时,可以按照预设的抽帧策略,从视频中抽取部分视频帧,将抽取的部分视频帧转换成对应的图像,也可以按照全量取帧的方式,将该视频中的全部视频帧转换成对应的图像。
[0157]
为了准确地确定图像所归属的场景,预先训练有场景识别模型。当进行场景识别的电子设备需要对某一待识别图像进行场景识别时,可以将该待识别图像输入到预先训练的场景识别模型,以通过该预先训练的场景识别模型,确定输入的待识别图像所归属的场景类别。
[0158]
其中,对场景识别模型进行训练的过程,已在上述实施例中进行描述,重复之处不做赘述。对于上述场景识别模型的训练方法,由于在基于样本集中的样本图像对原始场景识别模型进行训练的过程中,通过原始场景识别模型,可以获取到输入的样本图像对应的场景概率向量以及样本图像的样本特征,使得后续可以基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型,使得训练得到的场景识别模型,可以根据相同场景类别内图像的图像特征向该场景类别的类中心特征靠拢,同时远离其他场景类别的类中心特征的特性,进一步结合图像的特征层面,确定该图像的场景类别是否可以识别以及在该图像的场景类别可以识别
的情况下,该图像所归属的场景类别,不仅实现了准确地识别归属于封闭的图像集中包含的场景类别图像,还能够处理不归属于封闭的图像集中包含的场景类别图像,提高了场景识别模型的精度、性能以及自然度。
[0159]
需要说明的是,进行训练场景识别模型的电子设备与进行场景识别的电子设备可以相同,也可以不同。
[0160]
由于待识别图像所归属的场景类别是无法预计的,且具有一定的多样性,而待识别图像实际所归属的场景类别,有可能不是用于训练场景识别模型的样本集中包含的场景类别,但如果直接通过该场景识别模型去识别该图像所归属的场景类别,则会得到错误的结果,进而影响下游算法的处理。并且,如果某一图像归属的场景分类是预先训练的场景识别模型可以识别的场景分类,则该图像的图像特征,一般会与样本集中归属于该场景类型的样本图像的图像特征的度量距离越大,与样本集中不归属于该场景类型的样本图像的图像特征的度量距离越小。因此,为了保证场景识别模型可以准确地识别归属于封闭的图像集中包含的场景类别图像,在本技术中,通过预先训练的场景识别模型可以获取到待识别图像的图像特征,且对于用于训练场景识别模型的样本集中包含的场景类别,预先获取有该场景类别的目标类中心特征。当基于上述的实施例将待识别图像输入到预先训练的场景识别模型之后,通过该预先训练的场景识别模型,可以获取待识别图像的图像特征。然后确定该图像特征,分别与每个场景类别的目标类中心特征的相似度。根据每个相似度,确定该待识别图像所归属的场景类别是否为样本集中包含的任一场景类别。
[0161]
其中,该目标类中心特征可以是在对原始场景识别模型的最后一次迭代训练时,样本集中包含的每个场景类别的类中心特征。
[0162]
具体实施过程中,通过该场景识别模型中的特征提取层,可以获取输入的待识别图像的图像特征。然后通过该场景识别模型中的特征输出层,可以将该图像特征输出。然后确定该图像特征,分别与每个场景类别的目标类中心特征的相似度。根据每个相似度,确定该待识别图像所归属的场景类别是否为样本集中包含的任一场景类别。
[0163]
需要说明的是,在对原始场景识别模型的最后一次迭代训练时,样本集中包含的每个场景类别的类中心特征的获取方法,可以参照情况1和情况2中的获取方法,重复之处不足赘述。
[0164]
在一种可能的实施方式中,可以根据该图像特征,分别与每个场景类别的目标类中心特征之间的度量距离,确定该图像特征,分别与每个场景类别的目标类中心特征的相似度。其中,该度量距离可以通过欧式距离、余弦相似度、kl散度函数等方式获取。
[0165]
在一种可能的实施方式中,在确定图像特征与每个样本图像所归属的场景类别的目标类中心特征之间的度量距离时,可以通过如下欧式距离公式确定:
[0166][0167]
其中,d(x,yi)表示图像特征x与第i个场景类别的目标类中心特征之间的度量距离。
[0168]
在另一种可能的实施方式中,由于欧式距离代表两个向量在绝对距离上的靠近程度,余弦相似度代表两个向量在方向上的靠近程度。因此,在确定图像特征与每个样本图像所归属的场景类别的目标类中心特征之间的度量距离时,可以通过如下公式确定:
[0169][0170]
其中,d(x,yi)表示图像特征x与第i个场景类别的目标类中心特征之间的度量距离,cos_sim(x,yi)表示图像特征x与第i个场景类别的目标类中心特征之间的余弦相似度,α1表示欧式距离对应的权重值,α2表示余弦相似度对应的权重值。
[0171]
在一种可能的实施方式中,可以通过人工的方式配置该相似度阈值,也可以是针对每个目标类中心特征,确定该目标类中心特征与其它的目标类中心特征之间的参考相似度。然后根据每个目标类中心特征分别对应的参考相似度,确定该相似度阈值。
[0172]
在一种可能的实施方式中,若参考相似度是根据欧式距离等度量距离确定的,则可以根据各个参考相似度中的最小值,确定该相似度阈值。
[0173]
在一种可能的实施方式中,若参考相似度是根据余弦相似度等度量距离确定的,则可以根据各个参考相似度中的最大值,确定该相似度阈值。
[0174]
在一种可能的实施方式中,若相似度是根据欧式距离等度量距离确定的,则两个图像特征的相似度越小,说明两个图像特征之间相似性越高,两个图像特征越有可能归属于同一场景类别;两个图像特征的相似度越大,说明两个图像特征之间的相似性越低,两个图像特征越可能不归属于同一场景类别。因此,在根据每个所述相似度以及相似度阈值,确定每个场景类别是否包含所述待识别图像所归属的场景类别,若存在任一相似度小于相似度阈值,则说明待识别图像的图像特征与该相似度所对应的目标类中心特征极有可能归属于同一场景类别,则确定样本集中包含的每个场景类别包含待识别图像所归属的场景类别;若每个相似度均不小于相似度阈值,则说明待识别图像的图像特征与每个目标类中心特征均来自不同的场景类别,则确定样本集中包含的每个场景类别不包含待识别图像所归属的场景类别。
[0175]
在一种可能的实施方式中,若相似度是根据余弦相似度等度量距离确定的,则两个图像特征的相似度越小,说明两个图像特征之间相似性越低,两个图像特征越不可能归属于同一场景类别;两个图像特征的相似度越小,说明两个图像特征之间的相似性越高,两个图像特征越可能归属于同一场景类别。因此,在根据每个所述相似度以及相似度阈值,确定每个场景类别是否包含所述待识别图像所归属的场景类别,若存在任一相似度大于相似度阈值,则说明待识别图像特征的图像与该相似度所对应的目标类中心特征极有可能归属于同一场景类别,则确定样本集中包含的每个场景类别包含待识别图像所归属的场景类别;若每个相似度均不大于相似度阈值,则说明待识别图像的图像特征与每个目标类中心特征均来自不同的场景类别,则确定样本集中包含的每个场景类别不包含待识别图像所归属的场景类别。
[0176]
具体实施过程中,若确定每个场景类别包含该待识别图像所归属的场景类别,说明该待识别图像所归属的场景类别是场景识别模型可以准确地确定的,即该待识别图像所归属的场景类别是已知的,则通过预先训练的场景识别模型,确定该待识别图像所归属的场景类别;若确定每个场景类别不包含该待识别图像所归属的场景类别,说明该待识别图像所归属的场景类别不是场景识别模型可以准确地确定的,即该待识别图像所归属的场景类别是未知的,则不继续识别图像所归属的场景类别。
[0177]
进一步的,若确定每个场景类别包含该待识别图像所归属的场景类别,则通过该
场景识别模型中的分类输出层,基于该待识别图像的图像特征,可以获取并输出待识别图像所归属的场景类别。
[0178]
由于预先训练有场景识别模型,且该场景识别模型是基于样本图像的场景概率向量以及样本图像的场景标签、样本图像的样本特征以及样本图像的第一场景类别对应的类中心特征、样本图像的样本特征以及样本图像的第二场景类别对应的类中心特征,对原始场景识别模型进行训练获取到的,使得基于该场景识别模型,对待识别图像所归属的场景类别进行识别的过程中,可以根据相同场景类别内图像的图像特征向该场景类别的类中心特征靠拢,同时远离其他场景类别的类中心特征的特性,进一步结合图像的特征层面,确定该图像的场景类别是否可以识别,以及在该图像的场景类别可以识别的情况下,该图像所归属的场景类别,不仅实现了准确地识别归属于封闭的图像集中包含的场景类别图像,还能够处理不归属于封闭的图像集中包含的场景类别图像,提高了场景识别模型的精度、性能以及自然度。
[0179]
实施例4:
[0180]
下面以进行场景识别的电子设备为电视机为例,通过具体实施例对本技术提供的场景识别方法进行详细的说明,图5为本技术一些实施例提供的具体的场景识别流程示意图,该流程包括:
[0181]
s501:获取预先训练的场景识别模型。
[0182]
s502:通过预先训练的场景识别模型,确定待识别图像的图像特征。
[0183]
s503:确定图像特征,分别与每个场景类别的目标类中心特征的相似度。
[0184]
s504:若相似度为欧氏距离,则判断是否存在任一相似度小于相似度阈值,若存在,则执行s505,否则,执行s506。
[0185]
s505:通过场景识别模型,确定待识别图像所归属的场景类别。
[0186]
s506:不继续识别待识别图像所归属的场景类别。
[0187]
实施例5:
[0188]
本技术提供了一种场景识别模型训练装置,图6为本技术一些实施例提供的一种场景识别模型训练装置结构示意图,该装置包括:
[0189]
获取单元61,用于获取样本集中任一样本图像;其中,所述样本图像对应有场景标签,所述场景标签用于标识所述样本图像所归属的第一场景类别;
[0190]
处理单元62,用于通过原始场景识别模型,确定所述样本图像对应的场景概率向量以及所述样本图像的样本特征;其中,所述场景概率向量包括所述样本图像分别归属于每个场景类别的概率值;
[0191]
训练单元63,用于基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型;其中,所述第二场景类别为所述每个场景类别中,除所述第一场景类别之外的场景类别。
[0192]
在某些可能的实施方式中,所述训练单元63,还用于对于所述原始场景识别模型的每次迭代训练,通过当前迭代的场景识别模型,获取所述样本集中的所述每个场景类别的样本图像的样本特征;根据每个所述样本特征,确定所述每个场景类别分别对应的候选类中心特征;基于每个所述候选类中心特征,确定下一迭代训练中所述每个场景类别的类
中心特征;或,通过预先训练的特征提取模型,获取所述样本集中的每个所述样本图像的样本特征;对每个所述样本图像的样本特征进行聚类,确定所述每个场景类别的类中心特征。
[0193]
在某些可能的实施方式中,所述训练单元63,具体用于针对所述每个场景类别,确定该场景类别的各个样本图像中,被所述当前迭代的场景识别模型正确识别的目标样本图像;根据所述目标样本图像的样本特征及所述目标样本图像的权重值,确定加权平均向量,并基于所述加权平均向量,确定该场景类别对应的候选类中心特征;其中,所述目标样本图像的权重值为预先设置的,或,根据通过所述当前迭代的场景识别模型获取到的所述目标样本图像归属于该场景类别的概率值确定的;或,针对所述每个场景类别,确定该场景类别的各个样本图像中,被所述当前迭代的场景识别模型正确识别的目标样本图像;基于预设的目标算法,获取所述目标样本图像的样本特征中的目标特征,并基于所述目标特征,确定该场景类别对应的候选类中心特征;其中,所述目标特征为主成分特征,或,归一化特征。
[0194]
在某些可能的实施方式中,所述训练单元63,具体用于若当前迭代为第一次迭代,则将每个所述候选类中心特征,确定为下一迭代训练中所述每个场景类别的类中心特征;若当前迭代不为第一次迭代,则针对所述每个场景类别,确定该场景类别对应的候选类中心特征,与所述当前迭代确定的该场景类别对应的类中心特征的差向量;根据所述差向量、预先配置的权重向量以及所述当前迭代确定的该场景类别对应的类中心特征,确定下一迭代训练中该场景类别对应的类中心特征。
[0195]
在某些可能的实施方式中,所述训练单元63,具体用于确定第一损失值、第二损失值以及第三损失值;其中,所述第一损失值是基于所述场景概率向量以及所述场景标签确定的;所述第二损失值是基于所述样本特征以及所述第一场景类别对应的类中心特征确定的;所述第三损失值是基于所述样本特征以及所述第二场景类别对应的类中心特征确定的;根据所述第一损失值及其对应的第一权重值、所述第二损失值及其对应的第二权重值、以及第三损失值及其对应的第三权重值,确定综合损失值;基于所述综合损失值,对所述原始场景识别模型进行训练。
[0196]
由于在基于样本集中的样本图像对原始场景识别模型进行训练的过程中,通过原始场景识别模型,可以获取到输入的样本图像对应的场景概率向量以及样本图像的样本特征,使得后续可以基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型,使得训练得到的场景识别模型,可以根据相同场景类别内图像的图像特征向该场景类别的类中心特征靠拢,同时远离其他场景类别的类中心特征的特性,进一步结合图像的特征层面,确定该图像的场景类别是否可以识别以及在该图像的场景类别可以识别的情况下,该图像所归属的场景类别,不仅实现了准确地识别归属于封闭的图像集中包含的场景类别图像,还能够处理不归属于封闭的图像集中包含的场景类别图像,提高了场景识别模型的精度、性能以及自然度。
[0197]
实施例6:
[0198]
图7为本技术一些实施例提供的一种场景识别装置结构示意图,本技术提供了一种场景识别装置,包括:
[0199]
第一处理模块71,用于通过预先训练的场景识别模型,确定待识别图像的图像特征;
[0200]
第二处理模块72,用于确定所述图像特征,分别与每个场景类别的目标类中心特征的相似度;
[0201]
第三处理模块73,用于根据每个所述相似度以及相似度阈值,确定所述每个场景类别是否包含所述待识别图像所归属的场景类别;若确定所述每个场景类别包含所述待识别图像所归属的场景类别,则通过所述场景识别模型,确定所述待识别图像所归属的场景类别;若确定所述每个场景类别不包含所述待识别图像所归属的场景类别,则不继续识别所述待识别图像所归属的场景类别。
[0202]
由于预先训练有场景识别模型,且该场景识别模型是基于样本图像的场景概率向量以及样本图像的场景标签、样本图像的样本特征以及样本图像的第一场景类别对应的类中心特征、样本图像的样本特征以及样本图像的第二场景类别对应的类中心特征,对原始场景识别模型进行训练获取到的,使得基于该场景识别模型,对待识别图像所归属的场景类别进行识别的过程中,可以根据相同场景类别内图像的图像特征向该场景类别的类中心特征靠拢,同时远离其他场景类别的类中心特征的特性,进一步结合图像的特征层面,确定该图像的场景类别是否可以识别,以及在该图像的场景类别可以识别的情况下,该图像所归属的场景类别,不仅实现了准确地识别归属于封闭的图像集中包含的场景类别图像,还能够处理不归属于封闭的图像集中包含的场景类别图像,提高了场景识别模型的精度、性能以及自然度。
[0203]
实施例7:
[0204]
如图8为本技术一些实施例提供的一种电子设备结构示意图,在上述各实施例的基础上,本技术还提供了一种电子设备,如图8所示,包括:处理器81、通信接口82、存储器83和通信总线84,其中,处理器81,通信接口82,存储器83通过通信总线84完成相互间的通信;
[0205]
所述存储器83中存储有计算机程序,当所述程序被所述处理器81执行时,使得所述处理器81执行如下步骤:
[0206]
获取样本集中任一样本图像;其中,所述样本图像对应有场景标签,所述场景标签用于标识所述样本图像所归属的第一场景类别;
[0207]
通过原始场景识别模型,确定所述样本图像对应的场景概率向量以及所述样本图像的样本特征;其中,所述场景概率向量包括所述样本图像分别归属于每个场景类别的概率值;
[0208]
基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型;其中,所述第二场景类别为所述每个场景类别中,除所述第一场景类别之外的场景类别。
[0209]
由于上述电子设备解决问题的原理与场景识别模型训练方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
[0210]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0211]
通信接口82用于上述电子设备与其他设备之间的通信。
[0212]
存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0213]
上述处理器可以是通用处理器,包括中央处理器、网络处理器(network processor,np)等;还可以是数字指令处理器(digital signal processing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0214]
由于在基于样本集中的样本图像对原始场景识别模型进行训练的过程中,通过原始场景识别模型,可以获取到输入的样本图像对应的场景概率向量以及样本图像的样本特征,使得后续可以基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型,使得训练得到的场景识别模型,可以根据相同场景类别内图像的图像特征向该场景类别的类中心特征靠拢,同时远离其他场景类别的类中心特征的特性,进一步结合图像的特征层面,确定该图像的场景类别是否可以识别以及在该图像的场景类别可以识别的情况下,该图像所归属的场景类别,不仅实现了准确地识别归属于封闭的图像集中包含的场景类别图像,还能够处理不归属于封闭的图像集中包含的场景类别图像,提高了场景识别模型的精度、性能以及自然度。
[0215]
实施例8:
[0216]
如图9为本技术一些实施例提供的一种电子设备结构示意图,在上述各实施例的基础上,本技术还提供了一种电子设备,如图9所示,包括:处理器91、通信接口92、存储器93和通信总线94,其中,处理器91,通信接口92,存储器93通过通信总线94完成相互间的通信;
[0217]
所述存储器93中存储有计算机程序,当所述程序被所述处理器91执行时,使得所述处理器91执行如下步骤:
[0218]
通过预先训练的场景识别模型,确定待识别图像的图像特征;
[0219]
确定所述图像特征,分别与每个场景类别的目标类中心特征的相似度;
[0220]
根据每个所述相似度以及相似度阈值,确定所述每个场景类别是否包含所述待识别图像所归属的场景类别;
[0221]
若确定所述每个场景类别包含所述待识别图像所归属的场景类别,则通过所述场景识别模型,确定所述待识别图像所归属的场景类别;
[0222]
若确定所述每个场景类别不包含所述待识别图像所归属的场景类别,则不继续识别所述待识别图像所归属的场景类别。
[0223]
由于上述电子设备解决问题的原理与场景识别方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
[0224]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0225]
通信接口92用于上述电子设备与其他设备之间的通信。
[0226]
存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易
失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0227]
上述处理器可以是通用处理器,包括中央处理器、网络处理器(network processor,np)等;还可以是数字指令处理器(digital signal processing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0228]
由于预先训练有场景识别模型,且该场景识别模型是基于样本图像的场景概率向量以及样本图像的场景标签、样本图像的样本特征以及样本图像的第一场景类别对应的类中心特征、样本图像的样本特征以及样本图像的第二场景类别对应的类中心特征,对原始场景识别模型进行训练获取到的,使得基于该场景识别模型,对待识别图像所归属的场景类别进行识别的过程中,可以根据相同场景类别内图像的图像特征向该场景类别的类中心特征靠拢,同时远离其他场景类别的类中心特征的特性,进一步结合图像的特征层面,确定该图像的场景类别是否可以识别,以及在该图像的场景类别可以识别的情况下,该图像所归属的场景类别,不仅实现了准确地识别归属于封闭的图像集中包含的场景类别图像,还能够处理不归属于封闭的图像集中包含的场景类别图像,提高了场景识别模型的精度、性能以及自然度。
[0229]
实施例9:
[0230]
在上述各实施例的基础上,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由处理器执行的计算机程序,当所述程序在所述处理器上运行时,使得所述处理器执行时实现如下步骤:
[0231]
获取样本集中任一样本图像;其中,所述样本图像对应有场景标签,所述场景标签用于标识所述样本图像所归属的第一场景类别;
[0232]
通过原始场景识别模型,确定所述样本图像对应的场景概率向量以及所述样本图像的样本特征;其中,所述场景概率向量包括所述样本图像分别归属于每个场景类别的概率值;
[0233]
基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型;其中,所述第二场景类别为所述每个场景类别中,除所述第一场景类别之外的场景类别。
[0234]
由于上述提供的计算机可读取介质解决问题的原理与场景识别模型训练方法相似,因此处理器执行上述计算机可读取介质中的计算机程序后,实现的步骤可以参见方法的实施,重复之处不再赘述。
[0235]
由于在基于样本集中的样本图像对原始场景识别模型进行训练的过程中,通过原始场景识别模型,可以获取到输入的样本图像对应的场景概率向量以及样本图像的样本特征,使得后续可以基于所述场景概率向量以及所述场景标签、所述样本特征以及所述第一场景类别对应的类中心特征、所述样本特征以及第二场景类别对应的类中心特征,对所述原始场景识别模型进行训练,以获取到训练完成的场景识别模型,使得训练得到的场景识别模型,可以根据相同场景类别内图像的图像特征向该场景类别的类中心特征靠拢,同时远离其他场景类别的类中心特征的特性,进一步结合图像的特征层面,确定该图像的场景
类别是否可以识别以及在该图像的场景类别可以识别的情况下,该图像所归属的场景类别,不仅实现了准确地识别归属于封闭的图像集中包含的场景类别图像,还能够处理不归属于封闭的图像集中包含的场景类别图像,提高了场景识别模型的精度、性能以及自然度。
[0236]
实施例10:
[0237]
在上述各实施例的基础上,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由处理器执行的计算机程序,当所述程序在所述处理器上运行时,使得所述处理器执行时实现如下步骤:
[0238]
通过预先训练的场景识别模型,确定待识别图像的图像特征;
[0239]
确定所述图像特征,分别与每个场景类别的目标类中心特征的相似度;
[0240]
根据每个所述相似度以及相似度阈值,确定所述每个场景类别是否包含所述待识别图像所归属的场景类别;
[0241]
若确定所述每个场景类别包含所述待识别图像所归属的场景类别,则通过所述场景识别模型,确定所述待识别图像所归属的场景类别;
[0242]
若确定所述每个场景类别不包含所述待识别图像所归属的场景类别,则不继续识别所述待识别图像所归属的场景类别。
[0243]
由于上述提供的计算机可读取介质解决问题的原理与场景识别方法相似,因此处理器执行上述计算机可读取介质中的计算机程序后,实现的步骤可以参见方法的实施,重复之处不再赘述。
[0244]
由于预先训练有场景识别模型,且该场景识别模型是基于样本图像的场景概率向量以及样本图像的场景标签、样本图像的样本特征以及样本图像的第一场景类别对应的类中心特征、样本图像的样本特征以及样本图像的第二场景类别对应的类中心特征,对原始场景识别模型进行训练获取到的,使得基于该场景识别模型,对待识别图像所归属的场景类别进行识别的过程中,可以根据相同场景类别内图像的图像特征向该场景类别的类中心特征靠拢,同时远离其他场景类别的类中心特征的特性,进一步结合图像的特征层面,确定该图像的场景类别是否可以识别,以及在该图像的场景类别可以识别的情况下,该图像所归属的场景类别,不仅实现了准确地识别归属于封闭的图像集中包含的场景类别图像,还能够处理不归属于封闭的图像集中包含的场景类别图像,提高了场景识别模型的精度、性能以及自然度。
[0245]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0246]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0247]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0248]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0249]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献