影视角色分类方法、装置、计算机设备和存储介质与流程

2022-04-07 03:02:38 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，特别是涉及一种影视角色分类方法、装置、计算机设备和存储介质。

背景技术：

2.随着社会和经济的发展，各种影视剧越来越多，对影视剧中出现的各个对象进行角色的分类这一需求也越来越大。对影视剧中出现的对象进行角色的分类，可以方便用户查找某一对象的角色，或者获取某一角色的剧照等等。
3.传统的影视角色分类方法，通常是由工作人员手动对影视剧中出现的每一个对象进行角色的分类，存在角色分类效率低的问题。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提高效率的影视角色分类方法、装置、计算机设备和存储介质。
5.一种影视角色分类方法，所述方法包括：
6.获取来源于至少一个影视视频的目标图像；
7.对各所述目标图像分别进行主体检测，并基于主体检测结果从所述目标图像中裁剪出角色图像；
8.对各所述角色图像分别进行特征提取，得到对应的图像特征；
9.将所述图像特征按照对应角色图像所属的影视视频，划分成至少一个特征子集；每个特征子集中的图像特征所对应的角色图像，来源于同一个影视视频；
10.对于每个特征子集，对相应特征子集中的图像特征进行聚类得到至少一个聚类簇，并将同一聚类簇下图像特征所对应的角色图像划分至同一角色类别。
11.一种影视角色分类装置，所述装置包括：
12.获取模块，用于获取来源于至少一个影视视频的目标图像；
13.检测模块，用于对各所述目标图像分别进行主体检测，并基于主体检测结果从所述目标图像中裁剪出角色图像；
14.特征提取模块，用于对各所述角色图像分别进行特征提取，得到对应的图像特征；
15.分类模块，用于将所述图像特征按照对应角色图像所属的影视视频，划分成至少一个特征子集；每个特征子集中的图像特征所对应的角色图像，来源于同一个影视视频；对于每个特征子集，对相应特征子集中的图像特征进行聚类得到至少一个聚类簇，并将同一聚类簇下图像特征所对应的角色图像划分至同一角色类别。
16.在其中一个实施例中，所述获取模块还用于获取至少一个影视视频；对于每个影视视频，在所述影视视频的播放时间轴上，每间隔预设播放时长抽取出至少一个目标图像。
17.在其中一个实施例中，所述检测模块还用于对各所述目标图像分别进行主体检测，得到主体检测结果；若所述主体检测结果表示所述目标图像中存在角色对象，则基于所
述主体检测结果确定所述角色对象所在的角色区域；基于所述角色区域，从所述目标图像中裁剪出包括有角色对象的角色图像。
18.在其中一个实施例中，所述装置还包括调整模块，用于获取主体检测模型的第一输入图像尺寸；若所述目标图像的尺寸与所述第一输入图像尺寸不匹配，则将所述目标图像的尺寸调整至所述第一输入图像尺寸，得到第一图像；将所述第一图像作为新的目标图像；所述检测模块还用于对各所述目标图像分别进行主体检测。
19.在其中一个实施例中，所述调整模块还用于若所述目标图像的边的像素尺寸大于对应预设边的第一像素尺寸，则删减所述目标图像在所述边的方向上的像素，以将所述目标图像的边的像素尺寸缩减至对应预设边的第一像素尺寸；若所述目标图像的边的像素尺寸小于对应预设边的第一像素尺寸，则在所述目标图像的所述边的方向上插入像素，以将所述目标图像的边的像素尺寸放大至对应预设边的第一像素尺寸；基于像素删减和/或像素插入处理后的图像，得到调整后的第一图像。
20.在其中一个实施例中，所述调整模块还用于获取特征提取网络的第二输入图像尺寸；若所述角色图像的尺寸与所述第二输入图像尺寸不匹配，则将所述角色图像的尺寸调整至所述第二输入图像尺寸，得到第二图像；所述特征提取模块还用于对各所述第二图像分别进行特征提取，得到对应的图像特征。
21.在其中一个实施例中，所述分类模块还用于将相应特征子集中每个图像特征作为一个初始的图像节点，在当前轮次中计算任意两个图像节点之间的相似度；将相似度最高的两个图像节点组合成新的图像节点，继续执行下一轮次，直到满足聚类截止条件时停止，最终得到至少一个目标图像节点，将最终得到的每个目标图像节点分别作为一个聚类簇；其中，最终得到的每个目标图像节点中包括有单个的图像特征，或者包括有多于一个的图像特征。
22.在其中一个实施例中，所述分类模块还用于对于每个所述特征子集中的每个聚类簇，基于相应聚类簇下各个图像特征，确定与相应聚类簇对应的平均图像特征；对于每个聚类簇，计算相应聚类簇中的每个图像特征，分别与相应聚类簇的平均图像特征之间的偏离程度；滤除所述偏离程度大于预设偏离阈值的图像特征，并将同一聚类簇下，所述偏离程度小于或等于所述预设偏离阈值的图像特征所对应的角色图像划分至同一角色类别。
23.在其中一个实施例中，所述装置还包括剔除模块，所述剔除模块用于对于各所述角色类别，在比对相应角色类别下的角色图像后确定所述角色图像中的指定图像不属于相应角色类别的情况下，获取对所述指定图像的剔除指令；基于所述剔除指令将所述指定图像剔除出相应的角色类别。
24.在其中一个实施例中，所述装置还包括训练模块，所述训练模块用于将各个所述角色类别包括的角色图像作为训练数据，对角色识别模型进行训练，直到满足训练截止条件，得到训练完成的角色识别模型；所述训练完成的角色识别模型，用于对待识别图像进行处理，以预测所述待识别图像的角色类别。
25.在其中一个实施例中，所述装置还包括构建模块，所述构建模块用于获取每个角色类别下的角色图像的图像特征；基于每个角色类别下的角色图像的图像特征，确定与相应角色类别相匹配的参考图像特征；将每个角色类别各自对应的参考图像特征，与相应角色类别进行关联，以构建角色类别库。
26.在其中一个实施例中，所述装置还包括识别模块，所述识别模块用于获取待识别图像；计算所述待识别图像对应的目标特征向量和每个参考图像特征之间的特征相似度，得到所述待识别图像所对应的至少一个特征相似度；确定最大特征相似度所对应的目标参考图像特征，并将所述目标参考图像特征所对应的角色类别，作为与所述待识别图像对应的角色类别。
27.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的影视角色分类的方法的步骤。
28.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的影视角色分类的方法的步骤。
29.上述影视角色分类方法、装置、计算机设备和存储介质，获取来源于至少一个影视视频的目标图像，先对各目标图像分别进行主体检测，并基于主体检测结果从目标图像中裁剪出角色图像，再对各角色图像分别进行特征提取，得到对应的图像特征，然后，将图像特征按照对应角色图像所属的影视视频，划分成至少一个特征子集；每个特征子集中的图像特征所对应的角色图像来源于同一个影视视频。那么，对于每个特征子集，对相应特征子集中的图像特征进行聚类得到至少一个聚类簇，可以快速将相同或者相似的图像特征聚类至同一个聚类簇下，同一聚类簇下的图像特征所对应的角色图像表示同一个角色，可以划分至同一角色类别，从而可以快速将每个影视视频中的各个角色进行分类，提高影视角色分类的效率。并且，从目标图像中裁剪出角色图像，再基于角色图像的图像特征进行聚类处理，可以避免目标图像中除角色图像之外的其他因素比如光照、背景、图像大小等因素的影响，从而提高影视角色分类的准确性和鲁棒性。
附图说明
30.图1为一个实施例中影视角色分类方法的应用环境图；
31.图2为一个实施例中影视角色分类方法的流程示意图；
32.图3为一个实施例中对各目标图像分别进行主体检测，并基于主体检测结果从目标图像中裁剪出角色图像步骤的流程示意图；
33.图4为另一个实施例中影视角色分类方法的流程示意图；
34.图5为一个实施例中对各角色图像分别进行特征提取，得到对应的图像特征步骤的流程示意图；
35.图6为一个实施例中将同一聚类簇下图像特征所对应的角色图像划分至同一角色类别步骤的流程示意图；
36.图7为另一个实施例中影视角色分类方法的流程示意图；
37.图8为另一个实施例中影视角色分类方法的流程示意图；
38.图9为一个实施例中影视角色分类装置的结构框图；
39.图10为一个实施例中计算机设备的内部结构图。
具体实施方式
40.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不
用于限定本技术。
41.本技术提供的影视角色分类方法，可以应用于如图1所示的应用环境中。其中，服务器102通过网络与终端104进行通信。本技术中的影视角色分类方法可通过终端或服务器单独执行实现，也可通过终端和服务器协同执行实现。以终端和服务器协同执行实现为例，终端104将来源于同一个影视视频的目标图像发送至服务器102。服务器102获取至少一个目标图像；对各目标图像分别进行主体检测，并基于主体检测结果从目标图像中裁剪出角色图像；对各角色图像分别进行特征提取，得到对应的图像特征；将图像特征按照对应角色图像所属的影视视频，划分成至少一个特征子集；每个特征子集中的图像特征所对应的角色图像，来源于同一个影视视频；对于每个特征子集，对相应特征子集中的图像特征进行聚类得到至少一个聚类簇，并将同一聚类簇下图像特征所对应的角色图像划分至同一角色类别，并将各角色图像的角色类别返回至终端104中。终端104接收到各角色图像的角色类别，可以在影视视频中各角色图像上标注角色类别。
42.其中，终端104可以但不限于是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端104上可以设有客户端，该客户端可以是视频客户端、浏览器客户端或信息流客户端等等。本技术中对终端104和服务器102的数量不做限制。
43.服务器102可以基于人工智能技术对角色识别模型进行训练和学习，得到训练完成的角色识别模型，从而更准确地对待识别图像进行处理，预测出待识别图像更准确的角色类别。
44.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
45.在一个实施例中，如图2所示，提供了一种影视角色分类方法，以该方法应用于计算机设备为例进行说明，其中，该计算机设备具体可以是图1中的终端或服务器。该影视角色分类方法包括以下步骤：
46.步骤s202，获取来源于至少一个影视视频的目标图像。
47.其中，影视视频是以拷贝、磁带、胶片、存储器等为载体，以银幕、屏幕放映为目的，从而实现视觉与听觉综合观赏的艺术形式。影视视频至少可以包括电影、电视剧、节目、或动画等。影视视频的数量可以根据需要进行设置，例如影视视频的数量为1个或3个等。
48.目标图像是从影视视频中提取出的图像帧。目标图像具体可以是人体图像、风景图像、或动画图像等。目标图像的数量可以根据需要进行设置，例如，目标图像的数量为10个或20个等。
49.计算机设备获取至少一个影视视频，从每个影视视频中每个预设节点抽取出目标图像。在一种实施方式中，预设节点可以是影视视频中每间隔预设数量的图像帧所处的节点。预设数量可以根据需要进行设置，例如，预设数量可以为4帧、10帧等。
50.在另一种实施方式中，预设节点可以是在影视视频的播放时间轴上每间隔预设播放时长所处的节点。预设时长可以根据需要进行设置，例如，预设时长可以为0.02s(秒)、
0.1s等。在另一种实施方式中，预设节点那可以是用户设置的节点。
51.步骤s204，对各目标图像分别进行主体检测，并基于主体检测结果从目标图像中裁剪出角色图像。
52.其中，主体检测是对目标对象进行检测的方式，具体可以是人体检测、动物检测、植物检测或某个其他实体对象的检测等。主体检测结果是对目标图像进行主体检测得到的结果。主体检测结果可以至少包括目标图像中是否存在主体，主体所处的坐标位置，主体的大小，主体所属的类别等。
53.角色图像是角色对象所处的区域图像。角色图像所包括的角色对象可以是人物、动物、物体、或漫画个体等。
54.在一种实施方式中，计算机设备对各目标图像分别进行人体检测，并基于人体检测结果从目标图像中裁剪出人体角色图像。在另一种实施方式中，计算机设备对各目标图像进行动物检测，并基于动物检测结果从目标图像中裁剪出动物角色图像。
55.步骤s206，对各角色图像分别进行特征提取，得到对应的图像特征。
56.其中，图像特征是角色图像所包含的特征。图像特征可以用向量(embedding)表示。每个角色图像可以提取出一个图像特征，每个图像特征可以包括至少一个维度的子特征。图像特征的维度可以根据需要进行设置，例如图像特征的维度可以包括1
×
512、1
×
600个等。图像特征的每一个维度表征角色图像所具有的一个子特征。例如，图像特征其中一个维度的子特征为(224*384)，表示该角色图像的大小为224*384；图像特征的其中一个维度的子特征为亮度值，表示该角色图像的平均亮度值。
57.计算机设备对各角色图像分别进行特征提取，得到各角色图像对应的子特征；对于每个角色图像对应的子特征，按照各子特征的重要程度进行排序，生成各角色图像对应的图像特征。
58.其中，各子特征的重要程度可以根据需要进行设置。例如，各子特征的重要程度按照角色图像的大小、角色图像的颜色、角色图像的亮度值、角色图像的清晰度
……
依次递减。
59.步骤s208，将图像特征按照对应角色图像所属的影视视频，划分成至少一个特征子集；每个特征子集中的图像特征所对应的角色图像，来源于同一个影视视频。
60.其中，特征子集是每个影视视频包括的所有角色图像的图像特征的集合。计算机设备可以对每个特征子集生成对应的标记，并且每个特征子集的标记与该特征子集对应的影视视频相关联。标记具体可以是影视视频的名称、影视视频的编号、或影视视频的主题封面图等。
61.具体地，计算机设备获取来源于至少一个影视视频的目标图像时，将每个目标图像与该目标图像所属的影视视频进行关联记录；则从每个目标图像与所属的影视视频的关联记录，获取同一影视视频获取到的目标图像中的角色图像的图像特征，将同一影视视频的图像特征划分成同一个特征子集。
62.进一步地，计算机设备基于主体检测结果从目标图像中裁剪出角色图像时，将每个角色图像与目标图像进行关联记录；对各角色图像分别进行特征提取，得到对应的图像特征时，将每个图像特征与角色图像进行关联记录；则基于每个目标图像与所属的影视视频的关联记录、每个角色图像与目标图像进行关联记录，以及每个图像特征与角色图像进
行关联记录，可以确定每个图像特征与影视视频的关联记录，将同一个影视视频关联记录的所有图像特征划分成同一个特征子集。
63.例如，计算机设备可以将图像特征按照对应角色图像所属的影视视频，划分成至少一个特征子集ei＝(i＝1,2,3
……
)。其中，ei指的是一个特征子集。
64.步骤s210，对于每个特征子集，对相应特征子集中的图像特征进行聚类得到至少一个聚类簇，并将同一聚类簇下图像特征所对应的角色图像划分至同一角色类别。
65.其中，聚类簇指的是由聚类所生成的一组样本的集合。可以理解的是，聚类簇下的各图像特征的相似性较高、区别较小，不同聚类簇的图像特征之间的区别较大。
66.角色类别指的是角色图像所属的角色的类别。在一些情况下，角色类别可以不包括有角色相关信息，而仅仅用于区分出不同的角色，比如用户指定的类别，如类别1、类别2、及类别3等；在其他的一些情况下，角色类别可包括有角色相关信息。其中，角色相关信息是与影视角色相关的信息，如影视视频名称、角色名称、角色特点、或与角色相关的演员名称等。比如，角色类别具体可以是皇帝、皇后、战士a、战士b、刺客、将军a、将军b等。角色类别还可以是角色名，比如《黑猫警长》中的“黑猫警长”、“白猫班长”或“白鸽探长”等。
67.每个特征子集包括每个影视视频的所有角色图像的图像特征，通常每个特征子集中包括有多个角色对象的角色图像，同一个角色对象的角色图像的图像特征之间差异较小，不同角色对象的角色图像的图像特征之间差异较大，故可以将特征子集中的角色图像进行聚类得到多个聚类簇，每个聚类簇包括一个角色对象的角色图像的图像特征。当然，一个特征子集中也可以仅包括一个角色对象，将该角色对象的角色图像的图像特征进行聚类可以得到一个聚类簇。
68.对于每个特征子集，获取每个聚类簇中图像特征对应的角色图像，将同一个聚类簇下图像特征所对应的角色图像划分成同一个角色类别。
69.在一种实施方式中，计算机设备将同一聚类簇下图像特征所对应的角色图像划分至同一个集合即可，该集合中的所有角色图像属于同一个角色类别。在另一种实施方式中，计算机设备将同一聚类簇下图像特征所对应的角色图像划分至同一个集合，并且确定该集合中的角色图像所属的角色类别。
70.进一步地，计算机设备还可以对同一角色类别下的各角色图像标注上相应角色类别的标识，实现对角色图像的快速标注，缩短标注周期，节约标注成本。
71.上述影视角色分类方法，获取来源于至少一个影视视频的目标图像，先对各目标图像分别进行主体检测，并基于主体检测结果从目标图像中裁剪出角色图像，再对各角色图像分别进行特征提取，得到对应的图像特征，然后，将图像特征按照对应角色图像所属的影视视频，划分成至少一个特征子集；每个特征子集中的图像特征所对应的角色图像来源于同一个影视视频。那么，对于每个特征子集，对相应特征子集中的图像特征进行聚类得到至少一个聚类簇，可以快速将相同或者相似的图像特征聚类至同一个聚类簇下，同一聚类簇下的图像特征所对应的角色图像表示同一个角色，可以划分至同一角色类别，从而可以快速将每个影视视频中的各个角色进行分类，提高影视角色分类的效率。并且，从目标图像中裁剪出角色图像，再基于角色图像的图像特征进行聚类处理，可以避免目标图像中除角色图像之外的其他因素比如光照、背景、图像大小等因素的影响，从而提高影视角色分类的准确性和鲁棒性。
72.在一个实施例中，获取来源于至少一个影视视频的目标图像，包括：获取至少一个影视视频；对于每个影视视频，在影视视频的播放时间轴上，每间隔预设播放时长抽取出至少一个目标图像。
73.其中，播放时间轴指的是影视视频在播放过程中所处的时间轴上。例如，影视视频的时长为1小时，则该影视视频的播放时间轴包括0-60min(分钟)。
74.预设播放时长可以根据需要进行设置。例如，预设播放时长为20s(秒)，即在影视视频播放的过程中，每间隔20s抽取出至少一个目标图像，则30min的影视视频，可以抽取出至少90个目标图像。
75.在其中一个实施例中，在影视视频中，每次抽取出的目标图像的数量可以根据需要进行设置。例如，在影视视频的播放时间轴上，计算机设备可每间隔预设播放时长抽取出一个目标图像。又如，在影视视频的播放时间轴上，计算机设备每间隔预设播放时长抽取出3个目标图像。
76.在本实施例中，对于每个影视视频，在影视视频的播放时间轴上，每间隔预设播放时长抽取出至少一个目标图像，可以从每个影视视频中的多个播放时间节点上抽取出目标图像，提高影视视频抽取出的目标图像的多样性，从而可以获取到更多样的角色图像，分类出更多样的角色类别。
77.在一个实施例中，如图3所示，对各目标图像分别进行主体检测，并基于主体检测结果从目标图像中裁剪出角色图像，包括：
78.步骤s302，对各目标图像分别进行主体检测，得到主体检测结果。
79.具体地，每个目标图像可以得到一个主体检测结果。主体检测结果可以至少包括目标图像中是否存在主体，主体所处的坐标位置，主体的大小，主体所属的类别等。
80.步骤s304，若主体检测结果表示目标图像中存在角色对象，则基于主体检测结果确定角色对象所在的角色区域。
81.其中，角色对象是表征某一角色的对象。角色对象可以是一个人物、一个人脸、一只动物等。角色区域是角色对象所在的区域。角色区域可以是包括角色对象的矩形区域、圆形区域或者不规则区域等，在此不做限定。
82.目标图像中可以存在角色对象，也可以不存在角色对象。若目标图像中存在角色对象，该目标图像中的角色对象的数量可以为一个，也可以为多个。若目标图像中不存在角色对象，可以不对该目标图像进行处理或者舍弃该目标图像。
83.在一种实施方式中，若主体检测结果表示目标图像中存在角色对象，则获取角色对象所处的坐标位置，基于该角色对象所处的坐标位置确定出角色对象所在的角色区域。其中，角色对象所处的坐标位置可以是包含角色对象的矩形区域的4个顶点，基于4个顶点的坐标位置确定角色对象所在的角色区域，即该矩形区域。
84.在一种实施方式中，若主体检测结果表示目标图像中存在角色对象，则获取角色对象的轮廓，基于该角色对象的轮廓确定出角色对象所在的角色区域。其中，计算机设备可以直接将该角色对象的轮廓所在的区域作为角色区域，也可以将包含该角色对象的轮廓的区域作为角色区域，在此不做限定。
85.步骤s306，基于角色区域，从目标图像中裁剪出包括有角色对象的角色图像。
86.具体地，计算机设备按照角色区域的边缘线条进行裁剪，得到包括有角色对象的
角色图像。
87.进一步地，计算机设备对目标图像中的角色区域进行识别，确定出角色对象的轮廓，从角色区域中按照角色对象的轮廓进行裁剪，得到包括有角色对象的角色图像。计算机设备仅对角色区域进行识别，避免了对整个目标图像进行识别，可以更快速确定出角色对象的轮廓，从而更快速裁剪出包括有角色对象的角色图像。
88.在本实施例中，对各目标图像分别进行主体检测，得到主体检测结果；若主体检测结果表示目标图像中存在角色对象，则基于主体检测结果确定角色对象所在的角色区域，则基于角色区域，可以更快速从目标图像中裁剪出包括有角色对象的角色图像。
89.在一个实施例中，如图4所示，该影视角色分类方法还包括调整目标图像的尺寸的步骤，该步骤具体包括：
90.步骤s402，获取主体检测模型的第一输入图像尺寸。
91.其中，主体检测模型是用于对图像进行主体检测的模型。主体检测模型可以是mask rcnn模型、fast rcnn模型、ssd模型等其中至少一个。
92.第一输入图像尺寸是输入主体检测模型所要求的图像尺寸。第一输入图像尺寸可以根据需要进行设置。例如，第一输入图像尺寸可以为800*800像素，也可以为500*650像素。
93.主体检测模型可以预先基于主体训练图像数据进行训练得到。例如，主体检测模型为人体检测模型，则人体检测模型可以预先基于人体训练图像数据进行训练得到。又如，主体检测模型为动物检测模型，则动物检测模型可以预先基于动物训练图像数据进行训练得到。
94.步骤s404，若目标图像的尺寸与第一输入图像尺寸不匹配，则将目标图像的尺寸调整至第一输入图像尺寸，得到第一图像。
95.具体地，计算机设备获取目标图像的尺寸，将目标图像的尺寸与第一输入图像尺寸进行匹配，当目标图像的尺寸与第一输入图像尺寸相一致时，表示目标图像的尺寸与第一输入图像尺寸相匹配；当目标图像的尺寸与第一输入图像尺寸不一致时，表示目标图像的尺寸与第一输入图像尺寸不匹配。
96.例如，主体检测模型的第一输入图像尺寸为800*800像素，目标图像的尺寸为755*650像素，则将该目标图像的尺寸从755*650像素调整至800*800像素，得到调整后的第一图像。
97.步骤s406，将第一图像作为新的目标图像，并将新的目标图像输入主体检测模型，通过主体检测模型执行对各目标图像分别进行主体检测的步骤。
98.计算机设备将目标图像的尺寸调整第一输入图像尺寸，则可以将第一图像作为新的目标图像输入到主体检测模型中，通过主体检测模型可以对该目标图像进行主体检测，得到主体检测结果。
99.在本实施例中，获取主体检测模型的第一输入图像尺寸，若目标图像的尺寸与第一输入图像尺寸不匹配，则将目标图像的尺寸调整至第一输入图像尺寸，得到调整后的第一图像，则调整后的第一图像的尺寸符合主体检测模型所要求的尺寸，可以准确地对该调整后的第一图像进行主体检测。
100.在一个实施例中，第一输入图像尺寸包括每一预设边的第一像素尺寸；若目标图
像的尺寸与第一输入图像尺寸不匹配，则将目标图像的尺寸调整至第一输入图像尺寸，得到第一图像，包括：若目标图像的边的像素尺寸大于对应预设边的第一像素尺寸，则删减目标图像在边的方向上的像素，以将目标图像的边的像素尺寸缩减至对应预设边的第一像素尺寸；若目标图像的边的像素尺寸小于对应预设边的第一像素尺寸，则在目标图像的边的方向上插入像素，以将目标图像的边的像素尺寸放大至对应预设边的第一像素尺寸；基于像素删减和/或像素插入处理后的图像，得到第一图像。
101.其中，第一像素尺寸是第一输入图像尺寸中预设边所要求的像素尺寸。例如，第一输入图像尺寸为800*700像素，则其中较长的预设边的第一像素尺寸为800像素，其中较短的预设边的第一像素尺寸为700像素。
102.计算机设备获取目标图像后，检测出目标图像的每一边的像素尺寸，将每一边的像素尺寸与对应预设边的第一像素尺寸进行匹配。若目标图像的边的像素尺寸与对应预设边的第一像素尺寸相同，则不对该边的方向上的像素进行处理。
103.若目标图像的边的像素尺寸大于对应预设边的第一像素尺寸，计算机设备可删减目标图像在该边的方向上的像素，以将目标图像的该边的像素尺寸缩减至对应预设边的第一像素尺寸。例如，目标图像的像素尺寸为800*900像素，目标图像包括有900行800列像素，长边的像素尺寸为900像素，长边对应预设边的第一像素尺寸为800像素，那么则删减目标图像在长边方向上的像素，即删减列方向上的像素，得到800行800列像素的目标图像。
104.若目标图像的边的像素尺寸小于对应预设边的第一像素尺寸，计算机设备可在目标图像的边的方向上插入像素，以将目标图像的边的像素尺寸放大至对应预设边的第一像素尺寸。其中，插入的像素可以是零像素，也可以是指定的像素如白色像素、黑色像素、灰色像素等，不限于此。
105.例如，目标图像的像素尺寸为650*800像素，目标图像包括有800行650列像素，短边的像素尺寸为650像素，短边对应预设边的第一像素尺寸为800像素，那么则在目标图像的短边方向上插入像素，即在行方向上插入像素，得到800行800列像素的目标图像。
106.若目标图像中仅存在边的像素尺寸大于对应预设边的第一像素尺寸，则删减目标图像在边的方向上的像素，可以得到调整后的第一图像。若目标图像中仅存在边的像素尺寸小于对应预设边的第一像素尺寸，则在目标图像的边的方向上插入像素，可以得到调整后的第一图像。若目标图像中存在边的像素尺寸大于对应预设边的第一像素尺寸，则对大于对应预设边的第一像素尺寸的边进行像素删减；并且目标图像还存在目标图像的边的像素尺寸小于对应预设边的第一像素尺寸，则对小于对应预设边的第一像素尺寸的边进行像素插入，得到调整后的第一图像。
107.进一步地，若目标图像的边的像素尺寸大于对应预设边的第一像素尺寸，计算机设备将目标图像各边的像素尺寸等比例缩减，以将目标图像的该边的像素尺寸等于对应预设边的第一像素尺寸，再将与该边相垂直的缩减后的边进行像素删减和/或像素插入，得到第一图像。
108.例如，目标图像的像素尺寸为1600*700像素，目标图像包括有700行1600列像素，长边的像素尺寸为1600像素，第一输入图像尺寸为800*800像素，长边对应预设边的第一像素尺寸为800像素，则将目标图像各边的像素尺寸等比例缩减，得到缩减后的目标图像的像素尺寸为800*350像素，再将与该长边相垂直的缩减后的短边进行像素插入，即将350像素
尺寸的边进行像素插入，得到像素尺寸为800像素的边，即得到800*800像素的第一图像。
109.进一步地，若目标图像的边的像素尺寸小于对应预设边的第一像素尺寸，计算机设备将目标图像各边的像素尺寸等比例放大，以将目标图像的该边的像素尺寸等于对应预设边的第一像素尺寸，再将与该边相垂直的放大后的边进行像素删减和/或像素插入，得到第一图像。
110.例如，目标图像的像素尺寸为400*700像素，目标图像包括有700行400列像素，短边的像素尺寸为400像素，第一输入图像尺寸为800*800像素，短边对应预设边的第一像素尺寸为800像素，则将目标图像各边的像素尺寸等比例放大，得到放大后的目标图像的像素尺寸为800*1400像素，再将与该短边相垂直的缩减后的长边进行像素删减，即将1400像素尺寸的边进行像素删减，得到像素尺寸为800像素的边，即得到800*800像素的第一图像。
111.在本实施例中，若目标图像的边的像素尺寸大于对应预设边的第一像素尺寸，则删减目标图像在边的方向上的像素，以将目标图像的边的像素尺寸缩减至对应预设边的第一像素尺寸；若目标图像的边的像素尺寸小于对应预设边的第一像素尺寸，则在目标图像的边的方向上插入像素，以将目标图像的边的像素尺寸放大至对应预设边的第一像素尺寸；基于像素删减和/或像素插入处理后的图像，可以准确地得到调整后的第一图像，该调整后的第一图像的像素尺寸与主体检测模型所要求的每一预设边的第一像素尺寸相匹配，可以准确地对该调整后的第一图像进行主体检测处理。
112.在一个实施例中，如图5所示，对各角色图像分别进行特征提取，得到对应的图像特征，包括：
113.步骤s502，获取特征提取网络的第二输入图像尺寸。
114.其中，特征提取网络是用于对图像进行特征提取的网络。特征提取网络可以是以resnet-50为骨干的分类网络。可以理解的是，在不脱离本技术原理的情况下，也可以利用vgg、resnet-101等网络实现图像特征的提取。
115.第二输入图像尺寸是输入特征提取网络所要求的图像尺寸。第二输入图像尺寸可以根据需要进行设置。例如，第二输入图像尺寸可以为224*384像素，也可以为500*650像素。
116.步骤s504，若角色图像的尺寸与第二输入图像尺寸不匹配，则将角色图像的尺寸调整至第二输入图像尺寸，得到第二图像。
117.具体地，计算机设备获取角色图像的尺寸，将角色图像的尺寸与第二输入图像尺寸进行匹配，当角色图像的尺寸与第二输入图像尺寸相一致时，表示角色图像的尺寸与第二输入图像尺寸相匹配；当角色图像的尺寸与第二输入图像尺寸不一致时，表示角色图像的尺寸与第二输入图像尺寸不匹配。
118.例如，主体检测模型的第二输入图像尺寸为800*800像素，角色图像的尺寸为755*650像素，则将该角色图像的尺寸从755*650像素调整至800*800像素，得到第二图像。
119.步骤s506，通过特征提取网络对各第二图像分别进行特征提取，得到对应的图像特征。
120.计算机设备将角色图像的尺寸调整第二输入图像尺寸，则可以将调整后的角色图像，即第二图像作为新的目标图像输入到特征提取网络中，通过特征提取网络可以对该目标图像进行特征提取，得到对应的图像特征。
121.在本实施例中，获取特征提取网络的第二输入图像尺寸；若角色图像的尺寸与第二输入图像尺寸不匹配，则将角色图像的尺寸调整至第二输入图像尺寸，得到第二图像；通过特征提取网络对各第二图像分别进行特征提取，得到对应的图像特征，则调整后的角色图像的尺寸符合特征提取网络所要求的尺寸，可以准确地对该调整后的角色图像进行特征提取。
122.在一个实施例中，第二输入图像尺寸包括每一预设边的第二像素尺寸；若角色图像的尺寸与第二输入图像尺寸不匹配，则将角色图像的尺寸调整至第二输入图像尺寸，得到第二图像，包括：若角色图像的边的像素尺寸大于对应预设边的第二像素尺寸，则删减角色图像在边的方向上的像素，以将角色图像的边的像素尺寸缩减至对应预设边的第二像素尺寸；若角色图像的边的像素尺寸小于对应预设边的第二像素尺寸，则在角色图像的边的方向上插入像素，以将角色图像的边的像素尺寸放大至对应预设边的第二像素尺寸；基于像素删减和/或像素插入处理后的图像，得到第二图像。
123.第二像素尺寸是第二输入图像尺寸中预设边所要求的像素尺寸。例如，第二输入图像尺寸为950*700像素，则其中较长的预设边的第二像素尺寸为950像素，其中较短的预设边的第二像素尺寸为700像素。
124.计算机设备获取角色图像后，检测出角色图像的每一边的像素尺寸，将每一边的像素尺寸与对应预设边的第二像素尺寸进行匹配。若角色图像的边的像素尺寸与对应预设边的第二像素尺寸相同，则不对该边的方向上的像素进行处理。
125.若角色图像的边的像素尺寸大于对应预设边的第二像素尺寸，则删减角色图像在该边的方向上的像素，以将角色图像的该边的像素尺寸缩减至对应预设边的第二像素尺寸。例如，角色图像的像素尺寸为800*900像素，角色图像包括有900行800列像素，长边的像素尺寸为900像素，长边对应预设边的第二像素尺寸为800像素，那么则删减角色图像在长边方向上的像素，即删减列方向上的像素，得到800行800列像素的角色图像。
126.若角色图像的边的像素尺寸小于对应预设边的第二像素尺寸，则在角色图像的边的方向上插入像素，以将角色图像的边的像素尺寸放大至对应预设边的第二像素尺寸。例如，角色图像的像素尺寸为650*800像素，角色图像包括有800行650列像素，短边的像素尺寸为650像素，短边对应预设边的第二像素尺寸为800像素，那么则在角色图像的短边方向上插入像素，即在行方向上插入像素，得到800行800列像素的角色图像。
127.若角色图像中仅存在边的像素尺寸大于对应预设边的第二像素尺寸，则删减角色图像在边的方向上的像素，可以得到调整后的第二图像。若角色图像中仅存在边的像素尺寸小于对应预设边的第二像素尺寸，则在角色图像的边的方向上插入像素，可以得到调整后的第二图像。若角色图像中存在边的像素尺寸大于对应预设边的第二像素尺寸，则对大于对应预设边的第二像素尺寸的边进行像素删减；并且角色图像还存在角色图像的边的像素尺寸小于对应预设边的第二像素尺寸，则对小于对应预设边的第二像素尺寸的边进行像素插入，得到调整后的第二图像。
128.在本实施例中，若角色图像的边的像素尺寸大于对应预设边的第二像素尺寸，则删减角色图像在边的方向上的像素，以将角色图像的边的像素尺寸缩减至对应预设边的第二像素尺寸；若角色图像的边的像素尺寸小于对应预设边的第二像素尺寸，则在角色图像的边的方向上插入像素，以将角色图像的边的像素尺寸放大至对应预设边的第二像素尺
寸；基于像素删减和/或像素插入处理后的图像，可以准确地得到调整后的第二图像，该调整后的第二图像的像素尺寸与特征提取网络所要求的每一预设边的第二像素尺寸相匹配，可以准确地对该调整后的第二图像进行特征提取。
129.在一个实施例中，对相应特征子集中的图像特征进行层次聚类，得到至少一个聚类簇；层次聚类包括：对于每个特征子集，每个图像特征作为一个初始的图像节点，在当前轮次中计算任意两个图像节点之间的相似度；将相似度最高的两个图像节点组合成新的图像节点，继续执行下一轮次，直到满足聚类截止条件时停止，最终得到至少一个目标图像节点，将最终得到的每个目标图像节点分别作为一个聚类簇；其中，最终得到的每个目标图像节点中包括有单个的图像特征，或者包括有多于一个的图像特征。
130.聚类截止条件可以根据需要进行设置。例如，聚类截止条件可以是聚类时长达到预设时长阈值，聚类节点少于预设数量，最低相似度大于预设相似度阈值等其中至少一种。其中，预设时长阈值、预设数量、预设相似度阈值均可以根据需要进行设置。例如，预设时长阈值可以是10min(分钟)，预设数量可以是5，预设相似度阈值可以是50％。
131.其中，图像节点包括独立图像节点和组合图像节点。独立图像节点是单个图像特征构成的节点，组合图像节点是多于一个的图像特征构成的节点。初始的图像节点是第一个轮次中的图像节点，即特征子集中每个图像特征均为一个初始的图像节点。而对于在不断迭代过程中，不同的图像节点可以进行组合，以构成一个新的图像节点，这个新的图像节点就可称作组合图像节点。可以理解，当次迭代中的组合图像节点可以是由多个独立图像节点组合得到；也可以是由独立图像节点和前一次迭代所得到的组合图像节点进行组合得到；还可以是由前次迭代得到的多个组合图像节点再次进行组合得到。例如，组合图像节点为(a,c)、(b,f)等，独立图像节点为d、e等。
132.具体地，计算机设备计算任意两个图像节点对应的两个图像特征之间的欧式距离，该欧式距离表征两个图像节点之间的相似度。欧式距离越小，对应的两个图像节点之间的相似度越高。
133.计算机设备比较计算得到的所有相似度的大小，将相似度最高的两个图像节点组合成新的图像节点，继续执行下一轮次计算任意两个图像节点之间的相似度。例如，特征子集中存在有4个图像特征，即存在有4个初始的图像节点，分别为图像节点a、图像节点b、图像节点c和图像节点d，计算得到的图像节点a和图像节点b之间的相似度为60，图像节点a和图像节点c之间的相似度为56，图像节点a和图像节点d之间的相似度为45，图像节点b和图像节点c之间的相似度为50，图像节点b和图像节点d之间的相似度为42，图像节点c和图像节点d之间的相似度为85，则可以确定相似度最高的两个图像节点为图像节点c和图像节点d，将图像节点c和图像节点d组合成新的图像节点(c,d)。继续执行下一轮次，计算得到的图像节点a和图像节点b之间的相似度为60，图像节点a和图像节点(c,d)之间的相似度为47，图像节点b和图像节点(c,d)之间的相似度为45，则可以确定相似度最高的两个图像节点为图像节点a和图像节点b，将图像节点a和图像节点b组合成新的图像节点(a,b)。若此时满足聚类截止条件，则最终得到2个目标图像节点，分别为(a,b)和(c,d)，图像节点(a,b)包括2个图像特征，(c,d)也包括2个图像特征，即(a,b)和(c,d)均是组合图像节点。
134.又如，特征子集中存在有4个图像特征，即存在有4个初始的图像节点，分别为图像节点a、图像节点b、图像节点c和图像节点d，计算得到的图像节点a和图像节点b之间的相似
度为78，图像节点a和图像节点c之间的相似度为23，图像节点a和图像节点d之间的相似度为45，图像节点b和图像节点c之间的相似度为34，图像节点b和图像节点d之间的相似度为48，图像节点c和图像节点d之间的相似度为28，则可以确定相似度最高的两个图像节点为图像节点a和图像节点b，将图像节点a和图像节点b组合成新的图像节点(a,b)。继续执行下一轮次，计算得到的图像节点(a,b)和图像节点c之间的相似度为30，图像节点(a,b)和图像节点d之间的相似度为56，图像节点c和图像节点d之间的相似度为28，则可以确定相似度最高的两个图像节点为图像节点(a,b)和图像节点d，将图像节点(a,b)和图像节点d组合成新的图像节点(a,b,d)。若此时满足聚类截止条件，则最终得到2个目标图像节点，分别是(a,b,d)和c，图像节点(a,b,d)包括3个图像特征，图像节点c包括单个图像特征，即图像节点(a,b,d)为组合图像节点，图像节点c为独立图像节点。
135.需要说明的是，当满足聚类截止条件时，可以聚类得到至少一个组合图像节点，也可以聚类得到至少一个组合图像节点和至少一个独立图像节点。独立图像节点表示该聚类簇下包括单个图像特征。组合图像节点表示该聚类簇下包括多于一个图像特征。
136.在本实施例中，对于每个特征子集，每个图像特征作为一个初始的图像节点，在当前轮次中计算任意两个图像节点之间的相似度；将相似度最高的两个图像节点组合成新的图像节点，继续执行下一轮次，直到满足聚类截止条件时停止，最终得到至少一个目标图像节点，将最终得到的每个目标图像节点分别作为一个聚类簇，可以更准确地对特征子集中的图像特征进行聚类得到至少一个聚类簇。
137.在另一个实施例中，计算机设备还可以利用其他入密度的聚类算法(比如k-均值聚类，或基于密度聚类算法等)对相应特征子集中的图像特征进行聚类，得到至少一个聚类簇，本技术对此不作限定。
138.在一个实施例中，如图6所示，将同一聚类簇下图像特征所对应的角色图像划分至同一角色类别，包括：
139.步骤s602，对于每个特征子集中的每个聚类簇，基于相应聚类簇下各个图像特征，确定与相应聚类簇对应的平均图像特征。
140.平均图像特征是聚类簇下所有图像特征求取平均数得到的特征。平均图像特征可以代表相应聚类簇的特征。
141.具体地，对于每个特征子集中的每个聚类簇，计算机设备获取该聚类簇下的各个图像特征，对各个图像特征求取平均数，将该平均数作为相应聚类簇的平均图像特征。
142.可以理解的是，当各个图像特征为特征向量时，则将各个图像特征的同一维度的子特征求取平均数，将各个维度的平均数作为平均图像特征的每个维度的子特征，从而生成相应聚类簇的平均图像特征。
143.步骤s604，对于每个聚类簇，计算相应聚类簇中的每个图像特征，分别与相应聚类簇的平均图像特征之间的偏离程度。
144.可以理解的是，某一图像特征与平均图像特征的偏离程度越高，表示该图像特征与聚类簇下大部分图像特征之间的相似性均越小，该图像特征与聚类簇下大部分图像特征之间的区别均越大，则该图像特征越不可能属于该角色类别的特征。
145.具体地，对于每个特征子集中的每个聚类簇，计算机设备获取相应聚类簇下各个图像特征，计算每个图像特征分别与相应聚类簇的平均图像特征之间的方差，每个图像特
征计算得到的方差表征该图像特征与平均图像特征之间的偏离程度。图像特征的方差越大，表征该图像特征与平均图像特征的偏离程度越大，即该图像特征与该特征子集的大部分图像特征之间的区别越大。其中，方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。
146.在另一个实施例中，对于每个特征子集中的每个聚类簇，计算机设备获取相应聚类簇下各个图像特征，计算每个图像特征分别与相应聚类簇的平均图像特征之间的标准差，每个图像特征计算得到的标准差表征该图像特征与平均图像特征的偏离程度。图像特征的标准差越大，表征该图像特征与平均图像特征的偏离程度越大，即该图像特征与该特征子集的大部分图像特征之间的区别越大。标准差也被称为标准偏差，或者实验标准差，在概率统计中最常使用作为统计分布程度上的测量依据。
147.在另一个实施例中，对于每个特征子集中的每个聚类簇，计算机设备获取相应聚类簇下各个图像特征，计算每个图像特征分别与相应聚类簇的平均图像特征之间的平均差，每个图像特征计算得到的平均差表征该图像特征与平均图像特征的偏离程度。图像特征的平均差越大，表征该图像特征与平均图像特征的偏离程度越大，即该图像特征与该特征子集的大部分图像特征之间的区别越大。平均差(mean deviation)是表示各个变量值之间差异程度的数值之一，指各个变量值同平均数的离差绝对值的算术平均数。
148.步骤s606，滤除偏离程度大于预设偏离阈值的图像特征，并将同一聚类簇下，偏离程度小于或等于预设偏离阈值的图像特征所对应的角色图像划分至同一角色类别。
149.其中，预设偏离阈值可以根据需要进行设置。例如，预设偏离阈值可以为30、50等。图像特征的偏离程度大于预设偏离阈值，表示该图像特征与平均图像特征之间的区别较大，该图像特征很大概率与其他各图像特征不属于同一角色类别的特征，故滤除该图像特征。
150.图像特征的偏离程度小于或等于预设偏离阈值，表示该图像特征与平均图像特征之间的区别较小，该图像特征很大概率与其他各图像特征属于同一角色类别的特征，故将同一聚类簇下，偏离程度小于或等于预设偏离阈值的图像特征所对应的角色图像划分至同一角色类别。
151.在本实施例中，对于每个特征子集中的每个聚类簇，基于相应聚类簇下各个图像特征，确定与相应聚类簇对应的平均图像特征；对于每个聚类簇，计算相应聚类簇中的每个图像特征，分别与相应聚类簇的平均图像特征之间的偏离程度；滤除偏离程度大于预设偏离阈值的图像特征，并将偏离程度小于或等于预设偏离阈值的图像特征所对应的角色图像划分至同一角色类别，可以滤除与其他各图像特征差异较大的图像特征，更准确地对每个特征子集中的图像特征进行角色分类。
152.在一个实施例中，如图7所示，上述方法还包括：
153.步骤s702，对于各角色类别，在比对相应角色类别下的角色图像后确定角色图像中的指定图像不属于相应角色类别的情况下，获取对指定图像的剔除指令。
154.其中，指定图像是用户所指定的图像。剔除指令是剔除指定图像的指令。
155.在一种实施方式中，对于各角色类别，在比对相应角色类别下的角色图像后确定角色图像中的指定图像不属于相应角色类别的情况下，工作人员从相应角色类别下的各角色图像中选中指定图像并触发剔除操作，基于剔除操作获取对指定图像的剔除指令。工作
人员无需记住大量角色图像，只需在同一角色类别下进行角色图像比对，剔除角色类别下不属于同一个角色类别的角色图像。
156.在另一种实施方式中，对于每个特征子集中的每个聚类簇，计算机设备确定相应聚类簇下各个图像特征与其他各图像特征的偏离程度；获取偏离程度大于预设偏离阈值的图像特征，并将相应角色类别下该图像特征对应的角色图像作为指定图像，生成对指定图像的剔除指令。
157.步骤s704，基于剔除指令将指定图像剔除出相应的角色类别。
158.在本实施例中，对于各角色类别，在比对相应角色类别下的角色图像后确定角色图像中的指定图像不属于相应角色类别的情况下，获取对指定图像的剔除指令；基于剔除指令将指定图像剔除出相应的角色类别，可以更准确地对影视角色进行分类。
159.图8为另一个实施例中影视角色分类方法的流程示意图。如图8所示，计算机设备获取至少一个影视视频，从各影视视频所包括的视频帧中进行视频抽帧，获取至少一个目标图像；对各目标图像进行人体检测，并从目标图像中裁剪出人体图像；对各人体图像进行人体特征提取，得到对应的人体特征；将人体特征按照对应人体图像所属的影视视频，划分成至少一个特征子集；每个特征子集中的人体特征所对应的人体图像，来源于同一个影视视频；对于每个特征子集，对相应特征子集中的人体特征进行聚类得到至少一个聚类簇，并将同一聚类簇下图像特征所对应的人体图像划分至同一角色类别；对于每个特征子集中的每个聚类簇，确定相应聚类簇下各个人体特征与其他各人体特征的方差；若人体特征的方差大于或等于阈值，则从聚类簇中剔除该人体特征对应人途图像；若人体特征的方差小于阈值，则将该人体特征划分为同一个角色类别中。
160.在一个实施例中，上述方法还包括：将各个角色类别包括的角色图像作为训练数据，对角色识别模型进行训练，直到满足训练截止条件，得到训练完成的角色识别模型；训练完成的角色识别模型，用于对待识别图像进行处理，以预测待识别图像的角色类别。
161.其中，训练截止条件可以根据需要进行设置。例如。训练截止条件可以是训练次数达到预设次数阈值、训练时长达到预设时长阈值、角色识别模型的识别准确率达到预设准确率阈值等其中的至少一个。预设次数阈值、预设时长阈值和指定效果均可以根据需要进行设置。例如，预设次数阈值可以为100次，预设时长阈值可以是1h(小时)，预设准确率阈值可以是90％、95％等。
162.待识别图像是待进行识别角色类别的图像。待识别图像可以是人体图像、风景图像、动画图像等。待识别图像的数量可以根据需要进行设置，例如，待识别图像的数量为10个、20个等。
163.具体地，计算机设备将待识别图像输入训练完成的角色识别模型，通过训练完成的角色识别模型提取出待识别图像的待识别特征，将待识别特征与各预设角色类别的参考特征进行匹配，得到匹配结果，基于匹配结果预测待识别图像的角色类别。
164.在其中一个实施例中，通过训练完成的角色识别模型可以将待识别特征与各预设角色类别的参考特征进行匹配，得到待识别特征分别与各参考特征之间的匹配度，基于各匹配度从各参考特征中确定目标特征，将该目标特征对应的角色类别作为待识别图像的角色类别。
165.可以理解的是，匹配度越高，表示该待识别特征与参考特征之间的相关程度越高。
在一种实施方式中，计算机设备从各匹配度中选择匹配度最高的参考特征为目标特征。在另一种实施方式中，计算机设备从各匹配度中选择匹配度次高的参考特征为目标特征。在其他实施方式中，计算机设备还可以采用其他方式确定目标特征，在此不做限定。
166.在本实施例中，将各个角色类别包括的角色图像作为训练数据，对角色识别模型进行训练，直到满足训练截止条件，得到训练完成的角色识别模型，那么，训练完成的角色识别模型可以更准确地对待识别图像的角色类别。
167.在一个实施例中，上述方法还包括角色类别库的构建步骤，该步骤具体包括：获取每个角色类别下的角色图像的图像特征；基于每个角色类别下的角色图像的图像特征，确定与相应角色类别相匹配的参考图像特征；将每个角色类别各自对应的参考图像特征，与相应角色类别进行关联，以构建角色类别库。
168.其中，参考图像特征是角色类别相匹配的图像特征。角色类别库是存储有角色类别以及角色类别对应的图像特征的数据库。
169.在一种实施方式中，计算机设备将每个角色类别下的角色图像的图像特征进行均值处理，得到与相应角色类别相匹配的参考图像特征。在另一种实施方式中，计算机设备可以从每个角色类别下的角色图像的图像特征中随机选择一个作为相应角色类别相匹配的参考图像特征。在其他实施方式中，计算机设备可以采用其他方式确定与相应角色类别相匹配的参考图像特征，在此不做限定。
170.计算机设备将每个角色类别各自对应的参考图像特征，与相应角色类别进行关联，以构建角色类别库。例如，角色类别a与相应的参考图像特征a进行关联，角色类别b与相应的参考图像特征b进行关联，角色类别c与相应的参考图像特征c进行关联
……
并将各角色类别与相应参考图像特征存储在指定位置，从而构建出角色类别库。
171.在本实施例中，基于每个角色类别下的角色图像的图像特征，确定与相应角色类别相匹配的参考图像特征，将每个角色类别各自对应的参考图像特征，与相应角色类别进行关联，以构建角色类别库，从而可以在后续对图像进行角色识别或者角色查找时，更快速从角色类别库中进行角色识别或者角色查找。
172.在一个实施例中，上述方法还包括识别待识别图像的角色类别的步骤，该步骤具体包括：获取待识别图像；计算待识别图像对应的目标特征向量和每个参考图像特征之间的特征相似度，得到待识别图像所对应的至少一个特征相似度；确定最大特征相似度所对应的目标参考图像特征，并将目标参考图像特征所对应的角色类别，作为与待识别图像对应的角色类别。
173.目标特征向量是待识别图像的特征向量。特征相似度是目标特征向量与参考图像特征之间的像素度。目标参考图像特征是特征相似度最大的参考图像特征。
174.具体地，计算机设备计算待识别图像对应的目标特征向量和每个参考图像特征之间的欧式距离，得到待识别图像所对应的至少一个欧式距离。每个欧式距离表征待识别图像对应的目标特征向量与参考图像特征之间的特征相似度。欧式距离越大，则该特征相似度越小；欧式距离越小，则该特征相似度越大。
175.计算机设备确定最小欧式距离对应的参考图像特征，即确定最大特征相似度所对应的目标参考图像特征，将该目标参考图像特征所对应的角色类别作为待识别图像对应的角色类别。
176.在本实施例中，计算机设备计算待识别图像对应的目标特征向量和每个参考图像特征之间的特征相似度，得到待识别图像所对应的至少一个特征相似度，确定最大特征相似度所对应的目标参考图像特征，并将目标参考图像特征所对应的角色类别，作为与待识别图像对应的角色类别，可以准确地识别或者查找出待识别图像的角色类别。
177.在一个具体的实施例中，提供了另一种影视角色分类方法，以该方法应用于计算机设备为例进行说明，其中，该计算机设备具体可以是图1中的终端或服务器。该影视角色分类方法包括以下步骤：
178.步骤1，获取至少一个影视视频；对于每个影视视频，在影视视频的播放时间轴上，每间隔预设播放时长抽取出至少一个目标图像。
179.步骤2，获取主体检测模型的第一输入图像尺寸；若目标图像的边的像素尺寸大于对应预设边的第一像素尺寸，则删减目标图像在边的方向上的像素，以将目标图像的边的像素尺寸缩减至对应预设边的第一像素尺寸；若目标图像的边的像素尺寸小于对应预设边的第一像素尺寸，则在目标图像的边的方向上插入像素，以将目标图像的边的像素尺寸放大至对应预设边的第一像素尺寸；基于像素删减和/或像素插入处理后的图像，得到第一图像；将第一图像作为新的目标图像，并将新的目标图像输入主体检测模型。
180.步骤3，通过主体检测模型对各目标图像分别进行主体检测，得到主体检测结果；若主体检测结果表示目标图像中存在角色对象，则基于主体检测结果确定角色对象所在的角色区域；基于角色区域，从目标图像中裁剪出包括有角色对象的角色图像。
181.步骤4，获取特征提取网络的第二输入图像尺寸；若角色图像的尺寸与第二输入图像尺寸不匹配，则将角色图像的尺寸调整至第二输入图像尺寸，得到第二图像，并将各第二图像输入特征提取网络中。
182.步骤5，通过特征提取网络对各第二图像分别进行特征提取，得到对应的图像特征。
183.步骤6，将图像特征按照对应角色图像所属的影视视频，划分成至少一个特征子集；每个特征子集中的图像特征所对应的角色图像，来源于同一个影视视频；
184.步骤7，对于每个特征子集，对特征子集中各图像特征进行层次聚类，得到至少一个聚类簇。层次聚类，包括：将相应特征子集中每个图像特征作为一个初始的图像节点，在当前轮次中计算任意两个图像节点之间的相似度；将相似度最高的两个图像节点组合成新的图像节点，继续执行下一轮次，直到满足聚类截止条件时停止，最终得到至少一个目标图像节点，将最终得到的每个目标图像节点分别作为一个聚类簇；其中，最终得到的每个目标图像节点中包括有单个的图像特征，或者包括有多于一个的图像特征。
185.步骤8，对于每个特征子集中的每个聚类簇，基于相应聚类簇下各个图像特征，确定与相应聚类簇对应的平均图像特征；对于每个聚类簇，计算相应聚类簇中的每个图像特征，分别与相应聚类簇的平均图像特征之间的偏离程度；滤除偏离程度大于预设偏离阈值的图像特征，并将同一聚类簇下，偏离程度小于或等于预设偏离阈值的图像特征所对应的角色图像划分至同一角色类别。
186.步骤9，对于各角色类别，在比对相应角色类别下的角色图像后确定角色图像中的指定图像不属于相应角色类别的情况下，获取对指定图像的剔除指令；基于剔除指令将指定图像剔除出相应的角色类别。
187.步骤10，将各个角色类别包括的角色图像作为训练数据，对角色识别模型进行训练，直到满足训练截止条件，得到训练完成的角色识别模型；训练完成的角色识别模型，用于对待识别图像进行处理，以预测待识别图像的角色类别。
188.步骤11，获取每个角色类别下的角色图像的图像特征；基于每个角色类别下的角色图像的图像特征，确定与相应角色类别相匹配的参考图像特征；将每个角色类别各自对应的参考图像特征，与相应角色类别进行关联，以构建角色类别库。
189.步骤12，获取待识别图像；计算待识别图像对应的目标特征向量和每个参考图像特征之间的特征相似度，得到待识别图像所对应的至少一个特征相似度；确定最大特征相似度所对应的目标参考图像特征，并将目标参考图像特征所对应的角色类别，作为与待识别图像对应的角色类别。
190.在本实施例中，获取来源于至少一个影视视频的目标图像，先对各目标图像分别进行主体检测，并基于主体检测结果从目标图像中裁剪出角色图像，再对各角色图像分别进行特征提取，得到对应的图像特征，然后，将图像特征按照对应角色图像所属的影视视频，划分成至少一个特征子集；每个特征子集中的图像特征所对应的角色图像来源于同一个影视视频。那么，对于每个特征子集，对相应特征子集中的图像特征进行聚类得到至少一个聚类簇，可以快速将相同或者相似的图像特征聚类至同一个聚类簇下，同一聚类簇下的图像特征所对应的角色图像表示同一个角色，可以划分至同一角色类别，从而可以快速将每个影视视频中的各个角色进行分类，提高影视角色分类的效率。并且，从目标图像中裁剪出角色图像，再基于角色图像的图像特征进行聚类处理，可以避免目标图像中除角色图像之外的其他因素比如光照、背景、图像大小等因素的影响，从而提高影视角色分类的准确性和鲁棒性。并且，可以相应角色类别下对各角色图像进行比对，从而快速剔除不属于相应角色类别的角色图像，更快速也更准确地对各角色图像进行分类。
191.本技术还提供一种应用场景，该应用场景应用上述的影视角色分类方法。
192.具体地，该影视角色分类方法在该应用场景的应用如下：
193.计算机设备获取多个电视剧视频和/或电影视频，从每个电视剧视频和/或电影视频中抽取出多个目标图像；对各目标图像分别进行人体检测，裁剪出目标图像中的人体图像；再提取出人体图像的人体图像特征，将同一个电视剧视频对应的各人体图像特征划分为同一个特征子集，再对每个特征子集进行聚类得到聚类簇，则可以将各人体图像划分为同一个角色类别中，每个角色类别中的人体图像为同一个角色的图像。
194.应该理解的是，虽然图2至图8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
195.在一个实施例中，如图9所示，提供了一种影视角色分类装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块902、检测模块904、特征提取模块906和分类模块908，其中：
196.获取模块902，用于获取来源于至少一个影视视频的目标图像。
197.检测模块904，用于对各目标图像分别进行主体检测，并基于主体检测结果从目标图像中裁剪出角色图像。
198.特征提取模块906，用于对各角色图像分别进行特征提取，得到对应的图像特征。
199.分类模块908，用于将图像特征按照对应角色图像所属的影视视频，划分成至少一个特征子集；每个特征子集中的图像特征所对应的角色图像，来源于同一个影视视频；对于每个特征子集，对相应特征子集中的图像特征进行聚类得到至少一个聚类簇，并将同一聚类簇下图像特征所对应的角色图像划分至同一角色类别。
200.上述影视角色分类装置，获取来源于至少一个影视视频的目标图像，先对各目标图像分别进行主体检测，并基于主体检测结果从目标图像中裁剪出角色图像，再对各角色图像分别进行特征提取，得到对应的图像特征，然后，将图像特征按照对应角色图像所属的影视视频，划分成至少一个特征子集；每个特征子集中的图像特征所对应的角色图像来源于同一个影视视频。那么，对于每个特征子集，对相应特征子集中的图像特征进行聚类得到至少一个聚类簇，可以快速将相同或者相似的图像特征聚类至同一个聚类簇下，同一聚类簇下的图像特征所对应的角色图像表示同一个角色，可以划分至同一角色类别，从而可以快速将每个影视视频中的各个角色进行分类，提高影视角色分类的效率。并且，从目标图像中裁剪出角色图像，再基于角色图像的图像特征进行聚类处理，可以避免目标图像中除角色图像之外的其他因素比如光照、背景、图像大小等因素的影响，从而提高影视角色分类的准确性和鲁棒性。
201.在一个实施例中，上述获取模块902还用于获取至少一个影视视频；对于每个影视视频，在影视视频的播放时间轴上，每间隔预设播放时长抽取出至少一个目标图像。
202.在一个实施例中，上述检测模块904还用于对各目标图像分别进行主体检测，得到主体检测结果；若主体检测结果表示目标图像中存在角色对象，则基于主体检测结果确定角色对象所在的角色区域；基于角色区域，从目标图像中裁剪出包括有角色对象的角色图像。
203.在一个实施例中，上述影视角色分类装置还包括调整模块，用于获取主体检测模型的第一输入图像尺寸；若目标图像的尺寸与第一输入图像尺寸不匹配，则将目标图像的尺寸调整至第一输入图像尺寸，得到第一图像；将第一图像作为新的目标图像；上述检测模块904还用于对各目标图像分别进行主体检测。
204.在一个实施例中，第一输入图像尺寸包括每一预设边的第一像素尺寸；上述调整模块还用于若目标图像的边的像素尺寸大于对应预设边的第一像素尺寸，则删减目标图像在边的方向上的像素，以将目标图像的边的像素尺寸缩减至对应预设边的第一像素尺寸；若目标图像的边的像素尺寸小于对应预设边的第一像素尺寸，则在目标图像的边的方向上插入像素，以将目标图像的边的像素尺寸放大至对应预设边的第一像素尺寸；基于像素删减和/或像素插入处理后的图像，得到调整后的第一图像。
205.在一个实施例中，上述调整模块还用于获取特征提取网络的第二输入图像尺寸；若角色图像的尺寸与第二输入图像尺寸不匹配，则将角色图像的尺寸调整至第二输入图像尺寸，得到第二图像；上述特征提取模块906还用于对各第二图像分别进行特征提取，得到对应的图像特征。
206.在一个实施例中，上述分类模块908还用于将相应特征子集中每个图像特征作为一个初始的图像节点，在当前轮次中计算任意两个图像节点之间的相似度；将相似度最高的两个图像节点组合成新的图像节点，继续执行下一轮次，直到满足聚类截止条件时停止，最终得到至少一个目标图像节点，将最终得到的每个目标图像节点分别作为一个聚类簇；其中，最终得到的每个目标图像节点中包括单个的图像特征，或者包括多于一个的图像特征。
207.在一个实施例中，上述分类模块908还用于对于每个特征子集中的每个聚类簇，基于相应聚类簇下各个图像特征，确定与相应聚类簇对应的平均图像特征；对于每个聚类簇，计算相应聚类簇中的每个图像特征，分别与相应聚类簇的平均图像特征之间的偏离程度；滤除偏离程度大于预设偏离阈值的图像特征，并将同一聚类簇下，偏离程度小于或等于预设偏离阈值的图像特征所对应的角色图像划分至同一角色类别。
208.在一个实施例中，上述影视角色分类装置还包括剔除模块，用于对于各角色类别，在比对相应角色类别下的角色图像后确定角色图像中的指定图像不属于相应角色类别的情况下，获取对指定图像的剔除指令；基于剔除指令将指定图像剔除出相应的角色类别。
209.在一个实施例中，上述影视角色分类装置还包括训练模块，用于将各个角色类别包括的角色图像作为训练数据，对角色识别模型进行训练，直到满足训练截止条件，得到训练完成的角色识别模型；训练完成的角色识别模型，用于对待识别图像进行处理，以预测待识别图像的角色类别。
210.在一个实施例中，上述影视角色分类装置还包括构建模块，用于获取每个角色类别下的角色图像的图像特征；基于每个角色类别下的角色图像的图像特征，确定与相应角色类别相匹配的参考图像特征；将每个角色类别各自对应的参考图像特征，与相应角色类别进行关联，以构建角色类别库。
211.在一个实施例中，上述影视角色分类装置还包括识别模块，用于获取待识别图像；计算待识别图像对应的目标特征向量和每个参考图像特征之间的特征相似度，得到待识别图像所对应的至少一个特征相似度；确定最大特征相似度所对应的目标参考图像特征，并将目标参考图像特征所对应的角色类别，作为与待识别图像对应的角色类别。
212.关于影视角色分类装置的具体限定可以参见上文中对于影视角色分类方法的限定，在此不再赘述。上述影视角色分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
213.在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储影视视频、目标图像、角色图像等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种影视角色分类方法。
214.本领域技术人员可以理解，图10中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
215.在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
216.在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
217.在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。
218.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。
219.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
220.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

影视角色分类方法、装置、计算机设备和存储介质与流程

相关文献

最热文献