一种视频标记方法、装置及电子设备与流程

2022-03-31 08:22:40 来源：中国专利 TAG：

1.本技术实施例涉及多媒体技术领域，尤其涉及一种视频标记方法及装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术：

2.随着流媒体和网络的普及，越来越多的视频被用户上传到视频平台上，视频平台上的视频数量正日益增加，为了便于视频平台的运营方管理视频，同时便于用户查找视频，通常会根据视频的内容为视频生成对应的标签。
3.相关技术中，技术人员通常会先根据视频可能涉及到的分类、领域、主体等构建标签库，并对视频的标题内容进行分词处理，将分词处理结果与标签库中的标签进行比对，如果分词结果与标签库中的标签匹配，则会将分词结果在标签库中匹配的标签作为该视频的标签。
4.目前方案中，为视频打上的标签形式较为单一，且标签匹配只能反映视频本身内容，难以对视频内容进行概括，不利于用户对视频进行检索，也不利于视频运营平台对视频进行管理。

技术实现要素：

5.本技术实施例提供一种视频标记方法及装置、电子设备、计算机可读存储介质及计算机程序产品，以解决相关技术中视频标签丰富程度较低且无法概括视频内容的问题。
6.第一方面，本技术实施例提供了一种视频标记方法，该方法包括：
7.获取待标记视频对应的候选概念标签，其中，所述候选概念标签用于表示所述待标记视频内容的候选上位概念；
8.将所述待标记视频、所述待标记视频对应的关联文本、所述候选概念标签，输入目标标签置信度模型，确定所述候选概念标签的置信度，所述置信度用于表征所述候选概念标签为所述待标记视频的上位概念的概率，所述目标标签置信度模型用于根据所述待标记视频和所述关联文本确定所述待标记视频的多模态特征，根据所述关联文本确定所述候选概念标签的标签特征，并根据所述多模态特征与所述标签特征确定所述置信度；
9.根据所述置信度从所述候选概念标签中确定目标概念标签，并根据所述目标概念标签对所述待标记视频进行标记。
10.在一种可选实施方式中，所述获取待标记视频对应的候选概念标签，包括：
11.获取所述待标记视频的视频内容标签，所述视频内容标签用于表示所述待标记视频内容；
12.根据所述视频内容标签，从概念标签库中获取与所述视频内容标签匹配的候选概念标签，所述概念标签库存储有内容标签和概念标签的对应关系。
13.在一种可选实施方式中，所述方法还包括：
14.从预设内容标签库中获取预设内容标签；
15.对预设词典和/或网络词条进行检索，确定与所述预设内容标签具有关联关系的概念语句；
16.将所述预设内容标签与所述概念语句输入目标概念匹配模型，获得所述目标概念匹配模型输出的概念语句匹配度，所述概念语句匹配度用于表征所述概念语句为所述预设内容标签的上位概念的概率；
17.根据所述概念语句匹配度，从所述概念语句中确定所述预设内容标签对应的候选概念标签；
18.根据所述预设内容标签与所述候选概念标签的对应关系，构建所述概念标签库。
19.在一种可选实施方式中，所述获取所述待标记视频的视频内容标签，包括：
20.对所述待标记视频和/或所述待标记视频对应的关联文本进行语义分析，并根据语义分析结果从预设内容标签库中确定视频内容标签。
21.在一种可选实施方式中，所述方法还包括：
22.获取样本内容标签、所述样本内容标签对应的样本概念语句以及每个所述样本概念语句的语句标注信息，所述语句标注信息用于表征所述样本概念语句是或不是所述样本内容标签的上位概念；
23.将所述样本内容标签和所述样本概念语句的第一对应关系输入初始概念匹配模型，获得所述初始概念匹配模型输出的样本概念语句匹配度，所述样本概念语句匹配度用于表征所述样本概念语句为所述样本内容标签的上位概念的概率；
24.根据所述样本概念语句匹配度与所述语句标注信息确定第一损失值，并根据所述第一损失值和预设的损失函数，对所述初始概念匹配模型进行训练，得到所述目标概念匹配模型。
25.第二方面，本技术实施例提供了一种目标标签置信度模型生成方法，该方法包括：
26.将样本视频和所述样本视频对应的样本候选概念标签作为训练数据输入初始标签置信度模型，得到所述初始标签置信度模型输出的所述样本候选概念标签的置信度，所述置信度用于表征所述样本候选概念标签为所述样本视频的上位概念的概率；
27.根据所述置信度和所述样本视频对应的标签标注信息确定第二损失值，并根据所述第二损失值和预设的损失函数，对所述初始标签置信度模型进行训练，得到如权利要求1至5中任一项权利要求所述的目标标签置信度模型，所述标签标注信息用于表征所述样本候选概念标签是或不是所述样本视频的上位概念。
28.在一种可选实施方式中，所述将样本视频和所述样本视频对应的样本候选概念标签作为训练数据输入初始标签置信度模型，得到所述初始标签置信度模型输出的所述样本候选概念标签的置信度，包括：
29.获取样本视频、所述样本视频的样本关联文本、所述样本视频对应的样本候选概念标签之间的第二对应关系，以及每个所述样本候选概念标签的标签标注信息，所述样本关联文本为描述所述样本视频的文本内容；
30.将所述第二对应关系作为训练数据输入初始标签置信度模型，以使所述初始标签置信度模型确定所述样本视频的视频特征、所述样本关联文本的第一文本特征以及所述样本候选概念标签的第二文本特征，并根据所述视频特征、所述第一文本特征以及所述第二文本特征，输出所述样本候选概念标签的置信度。
31.在一种可选实施方式中，所述初始标签置信度模型包括第一子网络和第二子网络，所述将所述第二对应关系作为训练数据输入初始标签置信度模型，以使所述初始标签置信度模型确定所述样本视频的视频特征、所述样本关联文本的第一文本特征以及所述样本候选概念标签的第二文本特征，包括：
32.将所述第二对应关系中的样本视频输入所述第一子网络，并获取所述第一子网络输出的所述样本视频的视频特征；
33.将所述第二对应关系中的样本关联文本和样本候选概念标签输入所述第二子网络，并获取所述第二子网络输出的所述样本关联文本的第一文本特征和所述样本候选概念标签的第二文本特征。
34.在一种可选实施方式中，所述将所述第二对应关系中的样本视频输入所述第一子网络，并获取所述第一子网络输出的所述样本视频的视频特征，包括：
35.将所述样本视频的样本视频帧输入所述第一子网络，获取所述第一子网络输出的每个视频帧的视频帧特征；
36.对所述视频帧特征求和并取平均值，获得所述视频特征。
37.在一种可选实施方式中，所述根据所述视频特征、所述第一文本特征以及所述第二文本特征，输出所述样本候选概念标签的置信度，包括：
38.将所述视频特征和所述第一文本特征相加，得到多模态特征，所述多模态特征用于表征所述样本视频的视频特征和关联文本特征的融合特征；
39.根据所述多模态特征与所述第二文本特征，输出所述样本候选概念标签的置信度。
40.在一种可选实施方式中，所述根据所述多模态特征与所述第二文本特征，输出所述样本候选概念标签的置信度，包括：
41.获得所述多模态特征与所述第二文本特征的点积结果；
42.对所述点积结果进行归一化处理，得到并输出所述样本候选概念标的置信度。
43.第三方面，本技术实施例提供了一种视频标记装置，该装置包括：
44.候选概念标签获取模块，被配置为获取待标记视频对应的候选概念标签，其中，所述候选概念标签用于表示所述待标记视频内容的候选上位概念；
45.标签置信度确定模块，被配置为将所述待标记视频、所述待标记视频对应的关联文本、所述候选概念标签，输入目标标签置信度模型，确定所述候选概念标签的置信度，所述置信度用于表征所述候选概念标签为所述待标记视频的上位概念的概率，所述目标标签置信度模型用于根据所述待标记视频和所述关联文本确定所述待标记视频的多模态特征，根据所述关联文本确定所述候选概念标签的标签特征，并根据所述多模态特征与所述标签特征确定所述置信度；
46.目标概念标签确定模块，被配置为根据所述置信度从所述候选概念标签中确定目标概念标签，并根据所述目标概念标签对所述待标记视频进行标记。
47.在一种可选实施方式中，所述装置还包括：
48.内容标签确定模块，被配置为获取所述待标记视频的视频内容标签，所述视频内容标签用于表示所述待标记视频内容；
49.概念标签库模块，被配置为根据所述视频内容标签，从概念标签库中获取与所述
视频内容标签匹配的候选概念标签，所述概念标签库存储有内容标签和概念标签的对应关系。
50.在一种可选实施方式中，所述装置还包括：
51.内容标签获取模块，被配置为从预设内容标签库中获取预设内容标签；
52.概念语句确定模块，被配置为对预设词典和/或网络词条进行检索，确定与所述预设内容标签具有关联关系的概念语句；
53.语句匹配度确定模块，被配置为将所述预设内容标签与所述概念语句输入目标概念匹配模型，获得所述目标概念匹配模型输出的概念语句匹配度，所述概念语句匹配度用于表征所述概念语句为所述预设内容标签的上位概念的概率；
54.候选概念标签确定模块，被配置为根据所述概念语句匹配度，从所述概念语句中确定所述预设内容标签对应的候选概念标签；
55.概念标签库模块，被配置为根据所述预设内容标签与所述候选概念标签的对应关系，构建所述概念标签库。
56.在一种可选实施方式中，所述预设内容标签确定模块包括：
57.内容标签确定子模块，被配置为对所述待标记视频和/或所述待标记视频对应的关联文本进行语义分析，并根据语义分析结果从预设内容标签库中确定视频内容标签。
58.在一种可选实施方式中，所述装置还包括：
59.信息获取模块，被配置为获取样本内容标签、所述样本内容标签对应的样本概念语句以及每个所述样本概念语句的语句标注信息，所述语句标注信息用于表征所述样本概念语句是或不是所述样本内容标签的上位概念；
60.信息输入模块，被配置为将所述样本内容标签和所述样本概念语句的第一对应关系输入初始概念匹配模型，获得所述初始概念匹配模型输出的样本概念语句匹配度，所述样本概念语句匹配度用于表征所述样本概念语句为所述样本内容标签的上位概念的概率；
61.参数调整模块，被配置为根据所述样本概念语句匹配度与所述语句标注信息确定第一损失值，并根据所述第一损失值和预设的损失函数，对所述初始概念匹配模型进行训练，得到所述目标概念匹配模型。
62.第四方面，本技术实施例提供了一种目标标签置信度模型生成装置，该装置包括：
63.置信度确定模块，被配置为将样本视频和所述样本视频对应的样本候选概念标签作为训练数据输入初始标签置信度模型，得到所述初始标签置信度模型输出的所述样本候选概念标签的置信度，所述置信度用于表征所述样本候选概念标签为所述样本视频的上位概念的概率；
64.模型训练模块，被配置为根据所述置信度和所述样本视频对应的标签标注信息确定第二损失值，并根据所述第二损失值和预设的损失函数，对所述初始标签置信度模型进行训练，得到目标标签置信度模型，所述标签标注信息用于表征所述样本候选概念标签是或不是所述样本视频的上位概念。
65.在一种可选实施方式中，所述置信度确定模块包括：
66.信息获取子模块，被配置为获取样本视频、所述样本视频的样本关联文本、所述样本视频对应的样本候选概念标签之间的第二对应关系，以及每个所述样本候选概念标签的标签标注信息，所述样本关联文本为描述所述样本视频的文本内容；
67.信息输入子模块，被配置为将所述第二对应关系作为训练数据输入初始标签置信度模型，以使所述初始标签置信度模型确定所述样本视频的视频特征、所述样本关联文本的第一文本特征以及所述样本候选概念标签的第二文本特征，并根据所述视频特征、所述第一文本特征以及所述第二文本特征，输出所述样本候选概念标签的置信度。
68.在一种可选实施方式中，所述信息输入子模块包括：
69.第一子网络输入子模块，被配置为将所述第二对应关系中的样本视频输入所述第一子网络，并获取所述第一子网络输出的所述样本视频的视频特征；
70.第二子网络输入子模块，被配置为将所述第二对应关系中的样本关联文本和样本候选概念标签输入所述第二子网络，并获取所述第二子网络输出的所述样本关联文本的第一文本特征和所述样本候选概念标签的第二文本特征。
71.在一种可选实施方式中，所述第一子网络输入子模块包括：
72.视频帧子模块，被配置为将所述样本视频的样本视频帧输入所述第一子网络，获取所述第一子网络输出的每个视频帧的视频帧特征；
73.视频特征子模块，被配置为对所述视频帧特征求和并取平均值，获得所述视频特征。
74.在一种可选实施方式中，所述信息输入子模块包括：
75.多模态子模块，被配置为将所述视频特征和所述第一文本特征相加，得到多模态特征，所述多模态特征用于表征所述样本视频的视频特征和关联文本特征的融合特征；
76.置信度子模块，被配置为根据所述多模态特征与所述第二文本特征，输出所述样本候选概念标签的置信度。
77.在一种可选实施方式中，所述置信度子模块包括：
78.点积子模块，被配置为获得所述多模态特征与所述第二文本特征的点积结果；
79.归一化子模块，被配置为对所述点积结果进行归一化处理，得到并输出所述样本候选概念标的置信度。
80.第五方面，本技术实施例还提供了一种电子设备，包括用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述视频标记方法和/或目标标签置信度模型生成方法。
81.第六方面，本技术实施例还提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述视频标记方法和/或目标标签置信度模型生成方法。
82.第七方面，本技术实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述视频标记方法和/或目标标签置信度模型生成方法。
83.在本技术实施例中，可以获取待标记视频对应的候选概念标签；将待标记视频、待标记视频对应的关联文本、候选概念标签，输入目标标签置信度模型，获取置信度；根据置信度确定目标概念标签，并对待标记视频进行标记。可以根据待标记视频和待标记视频对应的关联文本确定待标记视频对应的多模态特征，进而通过待标记视频对应的多模态特征对待标记视频对应的候选概念标签进行筛选，得到可以准确表示待标记视频上位概念的目标概念标签，并为待标记视频打上目标概念标签，提高了视频标签的丰富程度，为视频运营平台管理视频提供了更多的参考依据，也为用户查找视频提供了更丰富的手段。
84.上述说明仅是本技术技术方案的概述，为了能够更清楚了解本技术的技术手段，而可依照说明书的内容予以实施，并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本技术的具体实施方式。
附图说明
85.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本技术的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
86.图1是本技术实施例提供的一种视频标记方法的步骤流程图；
87.图2是本技术实施例提供的另一种视频标记方法的步骤流程图；
88.图3是本技术实施例提供的一种目标标签置信度模型生成方法的步骤流程图；
89.图4是本技术实施例提供的一种视频标记装置结构图；
90.图5是本技术实施例提供的一种目标标签置信度模型生成装置结构图；
91.图6是本技术一个实施例的电子设备的框图；
92.图7是本技术另一个实施例的电子设备的逻辑框图。
具体实施方式
93.下面将参照附图更详细地描述本技术的示例性实施例。虽然附图中显示了本技术的示例性实施例，然而应当理解，可以以各种形式实现本技术而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本技术，并且能够将本技术的范围完整的传达给本领域的技术人员。
94.图1是本技术实施例提供的一种视频标记方法的步骤流程图，如图1所示，该方法包括：
95.步骤101，获取待标记视频对应的候选概念标签，其中，所述候选概念标签用于表示所述待标记视频内容的候选上位概念。
96.在本技术实施例中，视频可以是由视频平台运行方发布的视频(例如影视视频，新闻视频等)，也可以是由用户上传至视频平台的视频(例如短视频等)，或任何其他类型的视频，本技术实施例对视频的类型不进行任何限定。视频平台的运营方在视频平台时常会发布新的视频，用户也会在视频平台上发布视频，日积月累之后，视频平台上会存在有海量的视频，通过为这些视频打上概念标签，可以便于对视频进行管理，也便于为用户推荐视频，同时还可以方便用户根据概念标签查找视频。
97.概念标签可以是表示视频内容的上位概念的标签，举例来说，如果某一视频的内容与电视剧琅琊榜有关，则该视频对应的概念标签可以是“高分权谋电视剧”，以体现视频内容琅琊榜是一部评分较高的权谋类型的电视剧，该视频对应的概念标签还可以是“热门古装剧”，以体现视频内容琅琊榜是一部较为热门的古装电视剧。
98.由于具有相同视频内容的视频之间可能存在较大的差异，例如，视频a是将小说琅琊榜作为内容的视频，而视频b是将电视剧琅琊榜作为内容的视频，则视频a与视频b的内容虽然均包含琅琊榜，但本质上视频a和视频b存在完全不同的上位概念，视频a的概念标签可以是“高分权谋小说”，以指示视频a是一部高分权谋小说，而视频b的概念标签可以是“高分
权谋电视剧”，以指示视频b是一部高分权谋电视剧。因此，在确定视频对应的概念标签时，需要根据视频内容对应的候选概念标签进行筛选，从视频内容对应的候选概念标签中选取更为符合本视频实际内容的概念标签。
99.具体的，可以预先根据视频内容对多个视频进行分类，并建立确定至少一个视频内容信息，再通过人工标注等方法确定每个视频内容信息对应的用于表述视频内容信息上位概念的候选概念标签，并建立视频内容信息和候选概念标签之间的对应关系。对于待标记视频，首先确定待标记视频的视频内容信息，再根据视频内容信息从视频内容信息和候选概念标签之间的对应关系中，确定视频内容信息对应候选概念标签。
100.步骤102，将所述待标记视频、所述待标记视频对应的关联文本、所述候选概念标签，输入目标标签置信度模型，确定所述候选概念标签的置信度，所述置信度用于表征所述候选概念标签为所述待标记视频的上位概念的概率，所述目标标签置信度模型用于根据所述待标记视频和所述关联文本确定所述待标记视频的多模态特征，根据所述关联文本确定所述候选概念标签的标签特征，并根据所述多模态特征与所述标签特征确定所述置信度。
101.在本技术实施例中，待标记视频是指等待被打上适当的概念标签的视频本身，相应的，视频平台上的视频通常会附带有关联文本，例如视频的标题、视频的描述、视频的评论等等这些与视频有关联关系的文本信息，通常这些与视频具有关联关系的文本信息与视频内容相关，用于对视频内容进行描述、介绍、评价等。
102.具体的，由于待标记视频和待标记视频对应的关联文本，可以反映待标记视频的完整内容，因此需要将待标记视频和待标记视频对应的关联文本输入目标标签置信度模型，使目标标签置信度模型根据输入的待标记视频和待标记视频对应的关联文本确定待标记视频对应的较为完整的多模态特征，多模态特征不仅可以体现出待标记视频的图像的特征，还可以体现出待标记视频的关联文本中的特征。
103.同时，还需要将获取到的待标记视频的候选概念标签输入到目标标签置信度模型中，以使目标标签置信度模型根据待标记视频对应的关联文本确定候选概念标签的标签特征，并将标签特征与待标记视频的多模态特征进行比对，从而输出候选概念标签的置信度，其中，候选概念标签的置信度用于表征候选概念标签为待标记视频的上位概念的概率，也就是说，如果候选概念标签可以准确反映待标记视频的上位概念，则该候选概念标签的置信度较高，而如果候选概念标签不能准确反映待标记视频的上位概念，则该候选概念标签的置信度较低。
104.需要说明的是，由于一个待标记视频可以对应有不止一个候选概念标签，需要将待标记视频对应的每一个候选概念标签均输入目标标签置信度模型中，以使目标标签置信度模型输出待标记视频对应的每一个候选概念标签的置信度。
105.步骤103，根据所述置信度从所述候选概念标签中确定目标概念标签，并根据所述目标概念标签对所述待标记视频进行标记。
106.在确定出待标记视频对应的每一个候选概念标签的置信度后，可以按照置信度的大小对待标记视频对应的所有候选概念标签进行排序，并按照置信度从大到小选取预设目标标签数量个较大置信度对应的候选概念标签作为目标概念标签。
107.也可以预先设置目标标签置信度阈值，选取置信度大于或等于目标标签置信度阈值的候选概念标签作为目标候选概念标签。
108.此外，还可通过其他方式根据候选概念标签的置信度从候选概念标签中确定出目标概念标签，本技术实施例对选取目标概念标签的方式并不进行特别限定，技术人员可以根据实际需求灵活调整选取方式，以从候选概念标签中得到准确体现待标记视频上位概念的目标概念标签，并为待标记视频打上目标概念标签。
109.综上，为本技术实施例提供的一种视频标记方法，可以确定待标记视频对应的候选概念标签，并根据待标记视频和待标记视频对应的关联文本确定待标记视频对应的多模态特征，进而通过待标记视频对应的多模态特征对待标记视频对应的候选概念标签进行筛选，得到可以准确表示待标记视频上位概念的目标概念标签，并为待标记视频打上目标概念标签，提高了视频标签的丰富程度，为视频运营平台管理视频提供了更多的参考依据，也为用户查找视频提供了更丰富的手段。
110.图2是本技术实施例提供的另一种视频标记方法的步骤流程图，如图2所示，该方法包括：
111.步骤201，从预设内容标签库中获取预设内容标签。
112.预设内容标签为根据视频内容生成的标签，一般用于概括视频内容，以便对视频进行分类和查找。
113.内容标签可以由用户自行创建，也可以由视频平台的运营方通过对视频进行语义分析生成。在本技术实施例中，内容标签是由视频本身直接生成的任何标签，用于对视频本身进行描述，例如，“琅琊榜”、“琅琊榜电视剧”、“琅琊榜小说”等。
114.视频运营方可以将历史上用户创建的内容标签、对视频进行语义分析得到的内容标签以及通过其他方式得到的内容标签进行存储，形成预设内容标签库。
115.由于内容标签可以直接反映视频的内容，因此在建立概念标签库时可以直接将内容标签作为视频内容信息，以在视频运营放存储的现有数据的基础上直接建立概念标签库，无需再对视频内容进行重复分析确定视频内容信息，提高了建立概念标签库的效率。
116.具体的，可以获取预设内容标签库中的全部或部分内容标签，并针对这些获取到的内容标签确定对应的可以表述其上位概念的概念标签。也就是说，在本技术实施例中，概念标签是由内容标签获取的，而内容标签是根据视频内容直接获取的。
117.步骤202，对预设词典和/或网络词条进行检索，确定与所述预设内容标签具有关联关系的概念语句。
118.预设词典可以包括任何包含上下位关系描述的传统词典，例如新华字典、牛津词典、辞海等，也可以包括任何包含上下位关系描述的知识库，例如大词林、openconcepts、七律等。本技术实施例对预设词典的类型并不进行具体限定。
119.网络词条可以包含互联网上的百科内容，例如“百度百科”、“维基百科”等互联网百科的词条。进一步的，网络词条还可以包括网络上的新闻内容、论坛内容等任何具有上下位关系描述的文本内容。
120.在本技术实施例中，可以在预设词典和/或网络词条中查找预设内容标签对应的文本，并将预设词典和/或网络词条中与预设内容标签所在位置后，表述预设内容标签上位概念的概念语句提取出来。
121.具体的，可以在预设内容标签后添加概念关系语句，构成预设内容标签对应的检索字符串，其中，概念关系语句为自然语言中，指示所属关系的语句，如“是”、“为”、“属于”、
from transformers)、深度(双向)循环神经网络(deep(bidirectional)recurrent neural network)、lstm(长短期记忆网络，long short-term memory)、以及卷积神经网络(convolutional neural network,cnn)等网络模型。
133.初始概念匹配模型需要进行训练方可使用，在训练时，将包含至少一个样本内容标签，和每个样本内容标签对应的样本概念语句的第一对应关系作为训练样本输入初始概念匹配模型，初始概念匹配模型针对输入的每个样本概念语句输出样本概念语句匹配度，其中样本概念语句匹配度用于指示样本概念语句为与该样本概念语句对应的样本内容标签的上位概念的概率。
134.具体的，在初始概念匹配模型包括bert模型时，可以将每个样本内容标签及其对应的样本概念语句组成字符串“[cls]是一个[sep]”输入初始概念匹配模型，以符合bert模型的输入格式。其中，可以表示输入初始概念匹配模型的第i个样本内容标签，即下位概念，可以表示输入初始概念匹配模型的第i个样本内容标签对应的一个样本概念语句，即上位概念。
[0135]
步骤205，根据所述样本概念语句匹配度与所述语句标注信息确定第一损失值，并根据所述第一损失值和预设的损失函数，对所述初始概念匹配模型进行训练，得到所述目标概念匹配模型。
[0136]
样本内容标签对应的每个样本概念语句，均对应有一个语句标注信息。在初始概念匹配模型输出一个样本概念语句对应的样本概念语句匹配度后，通过预设的损失函数计算样本概念语句匹配度和样本概念语句的语句标注信息之间的损失值，并根据该损失值对初始概念匹配模型中的参数进行调整。经过多次迭代训练，以完成对初始概念匹配模型的训练，得到目标概念匹配模型。目标概念匹配模型可以根据输入的视频内容信息和上位概念，确定该上位概念表征该视频内容信息上位概念的概率。其中视频内容信息可以包括内容标签，上位概念可以包括候选概念语句。
[0137]
步骤206，将所述预设内容标签与所述概念语句输入目标概念匹配模型，获得所述目标概念匹配模型输出的概念语句匹配度，所述概念语句匹配度用于表征所述概念语句为所述预设内容标签的上位概念的概率。
[0138]
目标概念匹配模型用于确定预设内容标签与概念语句具有上下位关系的概率，即，用于确定概念语句可以表示预设内容标签上位概念的概率。
[0139]
从预设词典和/或网络词条确定出预设内容标签的概念语句后，可以将预设内容标签和对应的所有概念语句输入训练好的目标概念匹配模型，获得目标概念匹配模型输出的每个概念语句对应的概念语句匹配度，概念语句匹配度用于表征概念语句为预设内容标签的上位概念的概率，也就是说，一个概念语句的概念语句匹配度越小，则该概念语句无法准确的表示对应的预设内容标签的上位概念，而一个概念语句的概念语句匹配度越大，则该概念标签越能准确表示对应的预设内容标签的上位概念。
[0140]
步骤207，根据所述概念语句匹配度，从所述概念语句中确定所述预设内容标签对应的候选概念标签。
[0141]
在确定出预设内容标签对应的每一个概念语句的概念语句匹配度后，可以按照概
念语句匹配度的大小对每一个预设内容标签对应的所有概念语句进行排序，并按照概念语句匹配度从大到小选取预设目标语句数量个较大概念语句匹配度对应的概念语句作为该预设内容标签对应的候选概念标签。
[0142]
也可以预先设置语句匹配度阈值，选取概念语句匹配度大于或等于语句匹配度阈值的概念语句作为预设内容标签对应的候选概念标签。
[0143]
此外，还可通过其他方式根据概念语句的概念语句匹配度从概念语句中确定出预设内容标签对应的候选概念标签，本技术实施例对选取候选概念标签的方式并不进行特别限定，技术人员可以根据实际需求灵活调整选取方式，以从概念语句中得到准确体现预设内容标签上位概念的概念语句作为候选概念标签。
[0144]
步骤208，根据所述预设内容标签与所述候选概念标签的对应关系，构建所述概念标签库。
[0145]
在得到至少一个预设内容标签对应的候选概念标签之后，可以在存储器中建立概念标签库，并按照预设内容标签与候选概念标签的对应关系，将预设内容标签和候选概念标签存储在概念标签库中。需要说明的是，概念标签库中可以存在多个预设内容标签，每个预设内容标签可以对应有多个候选概念标签，并且不同的预设内容标签也可以对应有相同的候选概念标签。
[0146]
步骤209，获取所述待标记视频的视频内容标签，所述视频内容标签用于表示所述待标记视频内容。
[0147]
建立好概念标签库之后，可以将需要打上概念标签的视频作为待标记视频。由于视频平台上存储的视频一般已经被打上了内容标签，因此可以直接获取待标记视频的对应的视频内容标签，对于没有打上内容标签的待标记视频，可以通过语义分析等其他手段，确定待标记视频的视频内容标签，需要说明的使，每个待标记视频对应的视频内容标签可以是有多个。
[0148]
步骤209还可以包括：
[0149]
子步骤2091，对所述待标记视频和/或所述待标记视频对应的关联文本进行语义分析，并根据语义分析结果从预设内容标签库中确定视频内容标签。
[0150]
待标记视频可以表示视频的画面内容，通过对画面内容进行分析，可以确定出画面内容中包含的关键元素，例如篮球、汽车、影视角色等。
[0151]
待标记视频对应的关联文本可以包括视频标题、视频简介、视频评论、视频内部的字幕文本、对视频中的音频进行语音识别确定的语音文本等。例如，对于视频音频，可以通过语音识别转换获得语音文本。对于视频图像中的字幕，可以通过图像识别技术，从视频中的获取字幕文本。图像识别技术可以包括光学字符识别(optical characterrecognition，ocr)等技术。
[0152]
确定出关键元素和/或关联文本后，可以直接通过关联元素和/或关联文本在内容标签库中进行匹配，从预设内容标签库中确定与关联元素和/或关联文本匹配的预设内容标签，作为待标记视频对应的视频内容标签。还可以对关键元素和/或关联文本进行语义分析，从预设内容标签库中确定与关联元素和/或关联文本具有同义词关系的预设内容标签作为待标记视频对应的视频内容标签。
[0153]
步骤210，根据所述视频内容标签，从概念标签库中获取与所述视频内容标签匹配
的候选概念标签，所述概念标签库存储有内容标签和概念标签的对应关系。
[0154]
在确定出待标记视频的视频内容标签后，根据待标记视频的视频内容标签查询概念标签库，并从概念标签库中确定与待标记视频的视频内容标签对应的候选概念标签。
[0155]
步骤211，将所述待标记视频、所述待标记视频对应的关联文本、所述候选概念标签，输入目标标签置信度模型，确定所述候选概念标签的置信度。
[0156]
此步骤可参见步骤102，本技术实施例不再赘述。
[0157]
步骤212，根据所述置信度从所述候选概念标签中确定目标概念标签，并根据所述目标概念标签对所述待标记视频进行标记。
[0158]
此步骤可参见步骤103，本技术实施例不再赘述。
[0159]
综上，为本技术实施例提供的另一种视频标记方法，可以确定待标记视频对应的候选概念标签，并根据待标记视频和待标记视频对应的关联文本确定待标记视频对应的多模态特征，进而通过待标记视频对应的多模态特征对待标记视频对应的候选概念标签进行筛选，得到可以准确表示待标记视频上位概念的目标概念标签，并为待标记视频打上目标概念标签，提高了视频标签的丰富程度，为视频运营平台管理视频提供了更多的参考依据，也为用户查找视频提供了更丰富的手段。
[0160]
图3是本技术实施例提供的一种目标标签置信度模型生成方法的步骤流程图，如图3所示，该方法包括：
[0161]
步骤301，获取样本视频、所述样本视频的样本关联文本、所述样本视频对应的样本候选概念标签之间的第二对应关系，以及每个所述样本候选概念标签的标签标注信息，所述样本关联文本为描述所述样本视频的文本内容。
[0162]
样本视频可以表示视频的画面内容，通过对画面内容进行分析，可以确定出画面内容中包含的关键元素，例如篮球、汽车、影视角色等。
[0163]
样本视频对应的样本关联文本可以包括样本视频的标题、视频简介、视频评论、视频内部的字幕文本、对样本视频中的音频进行语音识别确定的语音文本等。例如，对于视频音频，可以通过语音识别转换获得语音文本。对于视频图像中的字幕，可以通过图像识别技术，从视频中的获取字幕文本。图像识别技术可以包括光学字符识别(optical characterrecognition，ocr)等技术。
[0164]
样本视频对应的样本候选概念标签可以通过样本视频的内容标签，从概念标签库中确定。第二对应关系中包括有一个样本视频、该样本视频的样本关联文本、以及该样本视频对应的样本候选概念标签。
[0165]
具体的，可以根据对应的候选概念标签的数量，获取对应的候选概念标签数量较多的视频作为样本视频，也可以通过其他方式从视频库中确定样本视频，例如人工选取、随机选取等，本技术实施例不做具体限定。
[0166]
标签标注值表征样本候选概念标签是或不是样本视频的上位概念，可以通过人工标注的方式，确定样本候选概念标签是否为对应的样本视频的上位概念。例如，如果通过人工验证样本候选概念标签a是对应的样本视频c的上位概念，则可以将样本候选概念标签a的标签标注值设置为1，如果通过人工验证样本候选概念标签b不是对应的样本视频c的上位概念，则可以将样本候选概念标签b的标签标注值设置为0。
[0167]
通过获取样本视频、样本视频对应的样本关联文本、样本视频对应的样本候选概
念标签以及每个样本候选概念标签的标签标注值可以构成训练集，从而对初始概念匹配模型进行训练。
[0168]
步骤302，将所述第二对应关系作为训练数据输入初始标签置信度模型，以使所述初始标签置信度模型确定所述样本视频的视频特征、所述样本关联文本的第一文本特征以及所述样本候选概念标签的第二文本特征，并根据所述视频特征、所述第一文本特征以及所述第二文本特征，输出所述样本候选概念标签的置信度。
[0169]
初始标签置信度模型需要进行训练方可使用，在训练时，将包含至少一个样本视频、样本视频对应的样本关联文本、样本视频对应的样本候选概念标签的第二对应关系作为训练样本输入初始标签置信度模型，初始标签置信度模型可以确定样本视频的视频特征、样本视频对应的样本关联文本的第一文本特征以及样本视频对应的样本候选概念标签的第二文本特征。其中，样本视频的视频特征是指根本视频的画面图像内容的特征。第一文本特征可以是样本视频对应的样本关联文本内容的特征，例如可以是样本视频标题的特征、样本视频简介的特征等，也可以是标题、简介等多项文本内容组合形成的特征。第二文本特征是指样本视频对应的每一个样本候选概念标签的特征，即针对样本视频对应的每一个样本候选概念标签，均会产生一个第二文本特征，一个样本视频可能对应有多个第二文本特征。
[0170]
由于视频特征是由样本视频的画面内容获得的，用于表示样本视频画面内容中的特征信息，第一文本特征是由样本视频的关联文本内容获得的，用于表示样本视频的相关文本内容中的特征信息。因此，视频特征和第一文本特征可以用来表征样本视频的特征信息。而第二文本特征是样本候选概念标签文本内容的特征信息。
[0171]
通过视频特征、第一文本特征这两个与样本视频相关的特征与第二文本特征这一与样本候选概念标签相关的特征，可以进一步确定样本候选概念标签的置信度，置信度用于表征样本候选概念标签为对应样本视频的上位概念的概率。
[0172]
可选的，步骤302还可以包括：
[0173]
子步骤3021，将所述第二对应关系中的样本视频输入所述第一子网络，并获取所述第一子网络输出的所述样本视频的视频特征。
[0174]
为了提升模型的准确程度，初始标签置信度模型可以包括第一子网络和第二子网络，其中第一子网络用于对样本视频的视频画面内容进行处理，生成样本视频的视频特征，第二子网络用于对文本内容进行处理，生成第一文本特征和第二文本特征。这样，通过不同类型的子网络，生成不同类型数据的特征，可以提升获取到的特征的准确性。
[0175]
第一子网络可以包括深度残差网络(deep residual network，resnet)、vggnet、densenet(dense convolutional network)、yolo(you only look once)等神经网络模型。
[0176]
可选的，子步骤3021还可以包括：
[0177]
子步骤a1，将所述样本视频的样本视频帧输入所述第一子网络，获取所述第一子网络输出的每个视频帧的视频帧特征。
[0178]
可以将样本视频拆分成独立的视频帧，并将样本视频中的所有视频帧作为样本视频对应的样本视频帧输入第一子网络，确定每个视频帧对应的视频帧特征。
[0179]
由于样本视频包含大量的视频帧，为了提高处理效率，也可以从样本视频中选取部分视频帧，并将将样本视频中的部分视频帧作为样本视频对应的样本视频帧输入第一子
网络。
[0180]
具体的，可以在样本视频中按照预设帧间隔获取样本视频中的部分视频帧，也可以将样本视频中起始位置的预设起始帧数量的视频帧和/或样本视频中末尾位置的预设末尾帧数量的视频帧确定为部分视频帧，还可以通过其他方式从样本视频中确定部分视频帧，本技术实施例对从样本视频中确定部分视频帧的具体方式不进行特别限定。
[0181]
子步骤a2，对所述视频帧特征求和并取平均值，获得所述视频特征。
[0182]
在获取到样本视频的每个样本视频帧对应的视频帧特征后，将所有视频帧特征进行求和，并使用求和结果与视频帧特征的数量相除，得到样本视频的视频特征。
[0183]
需要说明的是，还可以采用其他方式使用视频帧特征计算样本视频的视频特征，例如加权平均法等其他方法。
[0184]
可选的，步骤302还可以包括：
[0185]
子步骤3022，将所述第二对应关系中的样本关联文本和样本候选概念标签输入所述第二子网络，并获取所述第二子网络输出的所述样本关联文本的第一文本特征和所述样本候选概念标签的第二文本特征。
[0186]
第二子网络可以包括bert(bidirectional encoder representations from transformers)、深度(双向)循环神经网络(deep(bidirectional)recurrent neural network)、lstm(长短期记忆网络，long short-term memory)、以及卷积神经网络(convolutional neural network,cnn)等网络模型。
[0187]
样本关联文本可以作为一个整体输入第第二子网络。例如，样本关联文本包括标题文本和简介文本b，则可以将标题文本a和简介文本b组合生成的字符串作为整体输入第二子网络，获取样本关联文本对应的第一文本特征。还可以将样本关联文本中不同类型的文本分别输入第二子网络，分别得到样本关联文本中不同类型的文本的特征，并将不同类型的文本特征进行融合得到样本关联文本对应的第一文本特征，其中将不同类型的文本特征进行融合可以包括不同类型的文本特征进行加和并计算平均特征，或采用其他方式对不同类型的文本特征进行融合，本技术实施例不做具体限定。
[0188]
同时将样本视频对应的每个样本候选概念分别输入第二子网络，分别获取每个样本候选概念对应的第二文本特征。
[0189]
子步骤3023，将所述视频特征和所述第一文本特征相加，得到多模态特征，所述多模态特征用于表征所述样本视频的视频特征和关联文本特征的融合特征。
[0190]
由于特征值一般采用特想向量表示，因此视频特征可以是一个特征向量，第一文本特征也可以是一个特征向量，可以对视频特征和第一文本特征进行加和运算，得到多模态特征，多模态特征用于表征样本视频的视频特征和样本视频对应的关联文本特征的融合特征多模态特征。还可以采用其他运算方式将视频特征和第一文本特征进行融合以获得样本视频对应的多模态特征，本技术实施例在此不做具体限定。
[0191]
子步骤3024，根据所述多模态特征与所述第二文本特征，输出所述样本候选概念标签的置信度。
[0192]
可选的，子步骤3024还可以包括：
[0193]
子步骤b1，获得所述多模态特征与所述第二文本特征的点积结果。
[0194]
样本视频对应的多模态特征可以是一个特征向量，样本视频对应的每个样本候选
概念标签的第二文本特征也可以是一个特征向量，因此可以将样本视频对应的多模态特征和样本视频对应的每个第二文本特征进行点乘，得到样本视频对应的每个第二文本特征的点乘结果。
[0195]
子步骤b2，对所述点积结果进行归一化处理，得到并输出所述样本候选概念标的置信度。
[0196]
由于样本候选概念对应的标签标注值用于表征样本候选概念标签是或不是样本视频的上位概念，因此标签标注值的取值一般为0或1，即标签标注值的取值范围一般为0到1。在模型训练过程中，需要通过标签标注值对候选标签置信度模型进行训练，具体是要确定候选标签置信度模型输出的置信度与标签标注值之间的损失值，进而根据损失值对候选标签置信度模型中的参数进行调整。因此，需要使模型输出的损失值与标签标注值处于同一个取值范围。
[0197]
具体的，在标签标注值的取值为0或1的情况下，在获得样本视频对应的每个第二文本特征的点乘结果之后，还可以每个点乘结果进行归一化处理，以获得样本视频对应的每个样本候选概念的置信度，便于计算损失值。
[0198]
步骤303，根据所述置信度和所述样本视频对应的标签标注信息确定第二损失值，并根据所述第二损失值和预设的损失函数，对所述初始标签置信度模型进行训练，得到目标标签置信度模型。
[0199]
通过上述步骤，可以确定样本视频的每个样本候选标签对应的标签标注值和置信度，可以通过预设的损失函数确定样本候选标签对应的标签标注值和置信度之间的损失值，并根据损失值对候选标签置信度模型中的第一自网络和/或第二子网络中的参数进行调整，直至损失值收敛，完成对候选标签置信度模型的训练，得到目标标签置信度模型。目标标签置信度模型用于根据待标记视频和关联文本确定待标记视频的多模态特征，以及候选概念标签的标签特征，并根据多模态特征与标签特征确定置信度。
[0200]
综上，为本技术实施例提供的一种目标标签置信度模型生成方法，包括：将样本视频和样本视频对应的样本候选概念标签作为训练数据输入初始标签置信度模型，得到初始标签置信度模型输出的样本候选概念标签的置信度，置信度用于表征样本候选概念标签为样本视频的上位概念的概率；根据置信度和样本视频对应的标签标注信息确定第二损失值，并根据第二损失值和预设的损失函数，对初始标签置信度模型进行训练，得到目标标签置信度模型。可以训练得到用于确定概念标签置信度的目标标签置信度模型，进而使得技术人员可以根据置信度对待标记视频对应的候选概念标签进行筛选，得到可以准确表示待标记视频上位概念的目标概念标签，并为待标记视频打上目标概念标签，提高了视频标签的丰富程度，为视频运营平台管理视频提供了更多的参考依据，也为用户查找视频提供了更丰富的手段。
[0201]
与上述本发明的视频标记方法实施例所提供的方法相对应，参见图4，本发明还提供了一种视频标记装置实施例，在本实施例中，该装置可以包括：
[0202]
候选概念标签获取模块401，被配置为获取待标记视频对应的候选概念标签，其中，所述候选概念标签用于表示所述待标记视频内容的候选上位概念；
[0203]
标签置信度确定模块402，被配置为将所述待标记视频、所述待标记视频对应的关联文本、所述候选概念标签，输入目标标签置信度模型，确定所述候选概念标签的置信度，
所述置信度用于表征所述候选概念标签为所述待标记视频的上位概念的概率，所述目标标签置信度模型用于根据所述待标记视频和所述关联文本确定所述待标记视频的多模态特征，根据所述关联文本确定所述候选概念标签的标签特征，并根据所述多模态特征与所述标签特征确定所述置信度；
[0204]
目标概念标签确定模块403，被配置为根据所述置信度从所述候选概念标签中确定目标概念标签，并根据所述目标概念标签对所述待标记视频进行标记。
[0205]
在一种可选实施方式中，所述装置还包括：
[0206]
内容标签确定模块，被配置为获取所述待标记视频的视频内容标签，所述视频内容标签用于表示所述待标记视频内容；
[0207]
概念标签库模块，被配置为根据所述视频内容标签，从概念标签库中获取与所述视频内容标签匹配的候选概念标签，所述概念标签库存储有内容标签和概念标签的对应关系。
[0208]
在一种可选实施方式中，所述装置还包括：
[0209]
内容标签获取模块，被配置为从预设内容标签库中获取预设内容标签；
[0210]
概念语句确定模块，被配置为对预设词典和/或网络词条进行检索，确定与所述预设内容标签具有关联关系的概念语句；
[0211]
语句匹配度确定模块，被配置为将所述预设内容标签与所述概念语句输入目标概念匹配模型，获得所述目标概念匹配模型输出的概念语句匹配度，所述概念语句匹配度用于表征所述概念语句为所述预设内容标签的上位概念的概率；
[0212]
候选概念标签确定模块，被配置为根据所述概念语句匹配度，从所述概念语句中确定所述预设内容标签对应的候选概念标签；
[0213]
概念标签库模块，被配置为根据所述预设内容标签与所述候选概念标签的对应关系，构建所述概念标签库。
[0214]
在一种可选实施方式中，所述预设内容标签确定模块包括：
[0215]
内容标签确定子模块，被配置为对所述待标记视频和/或所述待标记视频对应的关联文本进行语义分析，并根据语义分析结果从预设内容标签库中确定视频内容标签。
[0216]
在一种可选实施方式中，所述装置还包括：
[0217]
信息获取模块，被配置为获取样本内容标签、所述样本内容标签对应的样本概念语句以及每个所述样本概念语句的语句标注信息，所述语句标注信息用于表征所述样本概念语句是或不是所述样本内容标签的上位概念；
[0218]
信息输入模块，被配置为将所述样本内容标签和所述样本概念语句的第一对应关系输入初始概念匹配模型，获得所述初始概念匹配模型输出的样本概念语句匹配度，所述样本概念语句匹配度用于表征所述样本概念语句为所述样本内容标签的上位概念的概率；
[0219]
参数调整模块，被配置为根据所述样本概念语句匹配度与所述语句标注信息确定第一损失值，并根据所述第一损失值和预设的损失函数，对所述初始概念匹配模型进行训练，得到所述目标概念匹配模型。
[0220]
综上，本技术实施例提供的一种视频标记装置，本技术可以确定待标记视频对应的候选概念标签，并根据待标记视频和待标记视频对应的关联文本确定待标记视频对应的多模态特征，进而通过待标记视频对应的多模态特征对待标记视频对应的候选概念标签进
行筛选，得到可以准确表示待标记视频上位概念的目标概念标签，并为待标记视频打上目标概念标签，提高了视频标签的丰富程度，为视频运营平台管理视频提供了更多的参考依据，也为用户查找视频提供了更丰富的手段。
[0221]
与上述本发明的目标标签置信度模型生成方法实施例所提供的方法相对应，参见图5，本发明还提供了一种目标标签置信度模型生成装置实施例，在本实施例中，该装置可以包括：
[0222]
置信度确定模块501，被配置为将样本视频和所述样本视频对应的样本候选概念标签作为训练数据输入初始标签置信度模型，得到所述初始标签置信度模型输出的所述样本候选概念标签的置信度，所述置信度用于表征所述样本候选概念标签为所述样本视频的上位概念的概率；
[0223]
模型训练模块502，被配置为根据所述置信度和所述样本视频对应的标签标注信息确定第二损失值，并根据所述第二损失值和预设的损失函数，对所述初始标签置信度模型进行训练，得到目标标签置信度模型，所述标签标注信息用于表征所述样本候选概念标签是或不是所述样本视频的上位概念。
[0224]
在一种可选实施方式中，所述置信度确定模块包括：
[0225]
信息获取子模块，被配置为获取样本视频、所述样本视频的样本关联文本、所述样本视频对应的样本候选概念标签之间的第二对应关系，以及每个所述样本候选概念标签的标签标注信息，所述样本关联文本为描述所述样本视频的文本内容；
[0226]
信息输入子模块，被配置为将所述第二对应关系作为训练数据输入初始标签置信度模型，以使所述初始标签置信度模型确定所述样本视频的视频特征、所述样本关联文本的第一文本特征以及所述样本候选概念标签的第二文本特征，并根据所述视频特征、所述第一文本特征以及所述第二文本特征，输出所述样本候选概念标签的置信度。
[0227]
在一种可选实施方式中，所述信息输入子模块包括：
[0228]
第一子网络输入子模块，被配置为将所述第二对应关系中的样本视频输入所述第一子网络，并获取所述第一子网络输出的所述样本视频的视频特征；
[0229]
第二子网络输入子模块，被配置为将所述第二对应关系中的样本关联文本和样本候选概念标签输入所述第二子网络，并获取所述第二子网络输出的所述样本关联文本的第一文本特征和所述样本候选概念标签的第二文本特征。
[0230]
在一种可选实施方式中，所述第一子网络输入子模块包括：
[0231]
视频帧子模块，被配置为将所述样本视频的样本视频帧输入所述第一子网络，获取所述第一子网络输出的每个视频帧的视频帧特征；
[0232]
视频特征子模块，被配置为对所述视频帧特征求和并取平均值，获得所述视频特征。
[0233]
在一种可选实施方式中，所述信息输入子模块包括：
[0234]
多模态子模块，被配置为将所述视频特征和所述第一文本特征相加，得到多模态特征，所述多模态特征用于表征所述样本视频的视频特征和关联文本特征的融合特征；
[0235]
置信度子模块，被配置为根据所述多模态特征与所述第二文本特征，输出所述样本候选概念标签的置信度。
[0236]
在一种可选实施方式中，所述置信度子模块包括：
[0237]
点积子模块，被配置为获得所述多模态特征与所述第二文本特征的点积结果；
[0238]
归一化子模块，被配置为对所述点积结果进行归一化处理，得到并输出所述样本候选概念标的置信度。
[0239]
综上，本技术实施例提供的一种目标标签置信度模型生成装置，将样本视频和样本视频对应的样本候选概念标签作为训练数据输入初始标签置信度模型，得到初始标签置信度模型输出的样本候选概念标签的置信度，置信度用于表征样本候选概念标签为样本视频的上位概念的概率；根据置信度和样本视频对应的标签标注信息确定第二损失值，并根据第二损失值和预设的损失函数，对初始标签置信度模型进行训练，得到目标标签置信度模型。可以训练得到用于确定概念标签置信度的目标标签置信度模型，进而使得技术人员可以根据置信度对待标记视频对应的候选概念标签进行筛选，得到可以准确表示待标记视频上位概念的目标概念标签，并为待标记视频打上目标概念标签，提高了视频标签的丰富程度，为视频运营平台管理视频提供了更多的参考依据，也为用户查找视频提供了更丰富的手段。
[0240]
图6是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
[0241]
参照图6，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(i/o)的接口612，传感器组件614，以及通信组件616。
[0242]
处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。
[0243]
存储器604用于存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0244]
电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。
[0245]
多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的分界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置
servertm，mac os xtm，unixtm，linuxtm，freebsdtm或类似。
[0254]
本技术实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现所述的视频标记方法。
[0255]
本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求指出。
[0256]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：测试控制终端、资源管理终端、电子测试设备管理系统的制作方法

一种视频标记方法、装置及电子设备与流程

相关文献

最热文献