自适应图片裁剪融合方法、系统、计算机设备及介质与流程

2022-03-23 09:00:11 来源：中国专利 TAG：

1.本发明涉及视频处理技术领域，尤其是自适应图片裁剪融合方法、系统、计算机设备及存储介质。

背景技术：

2.目前，相关技术的主要针对长视频(时间超过60秒以上)进行视频分类标签标注，一般通过分析视频的内容来完成短视频标签标注，主要分为以下2种场景：其一、通过人工编辑方式，人工审核整个视频内容，结合主观判断与理解，为视频标注分类标签；其二、通过ai识别技术，针对视频内容本身出现的帧进行人脸，场景，物体识别，提取对应类的标签，例如明星，食物，图书馆等。
3.但是，由于人工编著的分类标签进行分类的方式，属于劳动密集型工作，要求编辑人员拥有较高的审美能力及耐心，因此，人工标注的方式往往存在效率低，速度慢，标签质量主观性大，且视频帧覆盖率低等问题。此外，部分相关技术采用ai识别标注的方式，但ai识别标注的方式无法应用于存在着太多干扰画面的应用场景，适用范围有限。并且相关技术中ai识别标注的方式所能进行识别标注的目标主体有限，因此还存在着有效性不够的问题。

技术实现要素：

4.有鉴于此，为至少部分解决上述技术问题之一，本发明实施例目的在于提供一种适用性广且识别目标主体覆盖全面的自适应图片裁剪融合方法；与此同时，本技术技术方案还提供能够对应实现该方法的系统、计算机设备及计算机可读写的存储介质。
5.一方面，本技术技术方案提供了自适应图片裁剪融合方法，方法包括以下步骤：
6.获取视频文件，从所述视频文件中提取得到文本内容、音频内容以及视频关键帧；
7.对所述文本内容进行自然语言分析，根据分析结果生成语义标签；
8.根据所述音频内容进行音频匹配，根据匹配结果结合音频知识图谱生成音频标签；
9.根据所述视频关键帧进行内容预测生成内容标签；
10.根据所述语义标签、所述音频标签以及所述内容标签对所述视频文件进行剪裁，将剪裁后的素材进行融合得到目标视频。
11.在本技术方案的一种可行的实施例中，所述根据所述语义标签、所述音频标签以及所述内容标签对所述视频文件进行剪裁这一步骤，包括：
12.确定标签集合中各个标签的标签权重值，所述标签集合包括所述语义标签、所述音频标签以及所述内容标签；
13.根据所述标签权重值生成标签序列，根据所述标签序列以及序列中各个标签的置信度对所述视频文件标注标签信息。
14.在本技术方案的一种可行的实施例中，所述文本内容包括描述文本以及字幕文
本；所述对所述文本内容进行自然语言分析，根据分析结果生成语义标签这一步骤，包括：
15.从所述视频文件中提取得到所述描述文本，对所述描述文本进行格式化处理得到第一格式化信息；
16.从所述视频文件中提取得到所述字幕文本；
17.对所述第一格式化信息以及所述字幕文本进行自然语言处理得到关键实体矩阵；
18.将所述关键实体矩阵输入语义预测模型，根据模型预测结果确定所述语义标签。
19.在本技术方案的一种可行的实施例中，对所述文本内容进行自然语言分析，根据分析结果生成语义标签这一步骤之后，所述方法还包括：
20.获取所述描述文本的结构信息，将所述结构信息与语意知识图谱进行匹配得到衍生标签；
21.根据所述衍生标签、所述语义标签、所述音频标签以及所述内容标签对所述视频文件进行剪裁，将剪裁后的素材进行融合得到目标视频。
22.在本技术方案的一种可行的实施例中，所述根据所述音频内容进行音频匹配，根据匹配结果结合音频知识图谱生成音频标签这一步骤，包括：
23.将所述音频内容进行转换得到文本信息，将所述文本信息加入至所述文本内容中；
24.根据所述音频内容提取得到音频指纹；
25.根据所述音频指纹在指纹库中进行匹配确定候选音频；
26.将所述候选音频输入至所述音频知识图谱进行匹配得到所述音频标签。
27.在本技术方案的一种可行的实施例中，所述根据所述视频关键帧进行内容预测生成内容标签这一步骤，包括：
28.对所述视频文件进行分片得到若干视频帧文件；
29.对所述视频帧文件进行灰度化处理得到灰度图片，根据所述灰度图片的类内差异以及类间差异计算得到内容特征矩阵；
30.对所述内容特征矩阵进行降维，根据降维后所述内容特征矩阵之间的差异度，确定得到关键帧；
31.将所述关键帧输入至视频内容预测模型，根据模型预测结果确定所述内容标签。
32.在本技术方案的一种可行的实施例中，所述对所述内容特征矩阵进行降维，根据降维后所述内容特征矩阵之间的差异度，确定得到关键帧这一步骤，包括：
33.根据所述内容特征矩阵构建得到第一特征类集合，进行迭代生成若干个第二特征类集合；
34.提取所述第二特征类集合对应的视频帧文件簇中第一张图片为所述关键帧；
35.所述迭代过程包括：
36.计算所述第一特征类集合中各个类别之间的距离，并生成距离矩阵；
37.提取所述距离矩阵中的最小元素构建得到第二特征类集合。
38.另一方面，本技术技术方案还提供了自适应图片裁剪融合系统，包括：
39.预处理模块，用于获取视频文件，从所述视频文件中提取得到文本内容、音频内容以及视频关键帧；
40.语义分析模块，用于对所述文本内容进行自然语言分析，根据分析结果生成语义
标签；
41.音频分析模块，用于根据所述音频内容进行音频匹配，根据匹配结果结合音频知识图谱生成音频标签；
42.内容分析模块，用于根据所述视频关键帧进行内容预测生成内容标签；
43.决策分析模块，用于根据所述语义标签、所述音频标签以及所述内容标签对所述视频文件进行剪裁，将剪裁后的素材进行融合得到目标视频。
44.另一方面，本发明的技术方案还提供自适应图片裁剪融合计算机设备，其包括：
45.至少一个处理器；
46.至少一个存储器，用于存储至少一个程序；
47.当至少一个程序被至少一个处理器执行，使得至少一个处理器运行第一方面中的自适应图片裁剪融合方法。
48.另一方面，本发明的技术方案还提供了一种存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于运行第一方面中的方法。
49.本发明的优点和有益效果将在下面的描述中部分给出，其他部分可以通过本发明的具体实施方式了解得到：
50.本技术的技术方案对视频文件通过自然语言分析生成相应的语义标签，通过音频匹配生成相应的音频标签，通过对视频关键帧内容预测生成得到内容标签，可以大大节省内容预测速率，然后根据多个标签对视频帧进行标注；方案无需人工添加标签，节省了人工成本，并且用户在观看短视频时也可以直接通过目标标签信息查看该短视频的相关信息，提高了短视频应用的便捷性；最终根据视频帧中的标注内容进行关键内容的剪裁，最终融合得到目标视频，方案增加了文本及音频的标签预测方法，具有更广阔的应用范围；并且具有更广阔的应用场景，不仅适用数据库存储，同时还可以提供实时预测接口服务。
附图说明
51.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
52.图1是本发明实施例中提供的自适应图片裁剪融合方法的步骤流程图；
53.图2是本发明实施例中另一种自适应图片裁剪融合方法的步骤流程图；
54.图3是本发明实施例中基于分类标签的内容管理新增视频流程示意图；
55.图4是本发明实施例中基于分类标签的推荐偏好模型及相似模型流程示意图；
56.图5是本发明实施例中基于分类标签的搜索流程索引同步示意图。
具体实施方式
57.下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例
中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
58.结合前述背景技术中的描述，在一些实际应用的场景中，相关技术进行视频分类标签标注的方案或方法，存在着以下的技术问题：标注过程要求编辑人员拥有较高的审美能力及耐心，存在效率低，速度慢，标签质量主观性大，且视频帧覆盖率低等问题；ai内容识别技术对视频本身内容要求高，要求视频帧必须相对简单，不能出现太多干扰性画面；ai内容识别技术只能获取视频本身内容的有效信息，在视频内容不足以代表视频本身关键信息的情况下，容易忽略其他的关键信息，存在有效性不够的问题，无法为现实业务需求提供更有意义的参考价值。
59.因此，随着短视频业务的飞速发展，短视频的数量也迎来爆发期，但是考虑到短视频以下的一些特征，传统长视频的分类标签标注方法已经不适用短视频。短视频内容更加精短，其时长普遍为60秒左右，不像长视频包含大量不同的信息，所以不需要像长视频传统做法一样，分析大量甚至完整的视频帧，分类预测时间存在很大的优化空间。短视频的信息更加规范明确，具有很高的挖掘价值。因短视频属于后起之秀，在如今数据分析盛行的时代，普遍拥有比较清晰且规范的描述性信息，例如{歌手}_{歌名}_{mv/翻唱}等，传统长视频的分类标签方法忽略了这种有效特征，标签准确性存在优化空间。
60.基于上述的理论基础，一方面，如图1所示，本技术的实施例提供了自适应图片裁剪融合方法，方法包括步骤s100-s500：
61.s100、获取视频文件，从视频文件中提取得到文本内容、音频内容以及视频关键帧；
62.具体在实施过程中，所获取的视频文件是未进行任何目标内容标记或者标签标注的原始素材视频文件；实施例通过文字提取工具从视频文件中提取得到文本内容，实施例中的文本内容包括但不限于视频的标题、视频描述及字幕等内容。与此同时，实施例还可以从曲库中获取视频的源地址信息，通过视频源地址获取视频物理文件，抽取得到视频文件中的音频。针对关键帧的提取，实施例从曲库中获取视频的源地址信息；通过视频源地址获取视频物理文件，并通过opencv中的cv2库的相应函数提取得到视频帧文件；然后实施例使用分片关键帧提取法提取初步的关键帧。
63.s200、对文本内容进行自然语言分析，根据分析结果生成语义标签；
64.具体在实施过程中，根据步骤s100中所获取的文本内容，例如标题、视频描述及字幕生成语义标签。示例性地，实施例中将字幕、标题、描述等文本信息通过自然语义nlp分析，结合语义知识图谱及文本重要性，获取top k语义标签；后续再进行权重决策计算等。
65.s300、根据音频内容进行音频匹配，根据匹配结果结合音频知识图谱生成音频标签；
66.具体在实施过程中，根据步骤s100中所提取得到的音频内容进一步确定视频的音频长度，并可以以音频的频谱作为特征值，采用rf随机森林算法，对视频音频质量进行分类，输出音频标签。
67.s400、根据视频关键帧进行内容预测生成内容标签；
68.如图2所示，具体在实施过程中，实施例可以使用分片关键帧提取法提取初步的关键帧，然后利用基于内容特征的层次聚类算法用于关键帧降维,取出差异性最大的10组关键帧，将关键帧分别放入场景识别模型，物体识别/目标检测模型，人物识别模型进行标签
预测，生成内容标签，实施例中内容标签包括但不限于场景、物体、人物标签；后续将得到的场景标签，物体及人物标签传入决策分析子系统进行权重决策计算。
69.s500、根据语义标签、音频标签以及内容标签对视频文件进行剪裁，将剪裁后的素材进行融合得到目标视频；
70.具体在实施过程中，针对步骤s200-s400得到多种类型的标签进行权重决策，并最终生成统一标签；具体地，试试收集多种类型标签，并通过权重公式计算出各类型标签的权重及综合置信度，并根据标签的权重及综合置信度确定标签信息，并组装成json体进行输出。
71.如图2所示，在完成了各类标签的标注之后，实施例使用yolov3模型进行关键目标的检测和标签信息定位。yolov3是基于darknet-53框架实现的开源模型，在imagenet的2万多类数据集上top5正确率可达到93.8％，能有效检测出图片中的关键目标，进而方便进行后续权重置信度计算和图片裁剪工作。最终将图片素材，包括未裁剪图片或裁剪后图片和视频模板合成，通过主流的ae工具(adobe after effects)制作视频模板，实现个性化图片迁入合成能力。
72.为了使标签标注后的视频素材可用性更高，在一些可选择的实施例中，方法的步骤s500根据语义标签、音频标签以及内容标签对视频文件进行剪裁这一过程，可以包括步骤s510和s520：
73.s510、确定标签集合中各个标签的标签权重值，标签集合包括语义标签、音频标签以及内容标签；
74.s520、根据标签权重值生成标签序列，根据标签序列以及序列中各个标签的置信度对视频文件标注标签信息；
75.示例性地，在实施例中，根据质量函数矩阵，计算得到对应的标签权重，其中内容标签ct，音频标签at以及文本标签tt，并最终根据权重从高到低排序，输出top k标签信息；例如，实施例中标签的信息质量与该标签的权重值的对应关系如表1所示：
76.表1
77.质量权重high1medium0.5low0
78.此外，实施例在根据标签质量的权重值进行排序之后，还可以根据各个标签综合置信度进行二轮排序，根据二轮排序的结果，挑选序列中的千若干个标签，作为最终标签标注的结果。需要说明的是，在一些其他实施例中，实施例可以设定相应的权重阈值以及置信度阈值对标签进行筛选。
79.在一些可选真的实施例中，方法步骤s200对文本内容进行自然语言分析，根据分析结果生成语义标签这一过程，可以包括步骤s210-s240：
80.s210、从视频文件中提取得到描述文本，对描述文本进行格式化处理得到第一格式化信息；
81.具体在实施过程中，因为短视频具有良好的结构化信息，所以可以获取视频的标题name及描述description，通过对name及description根据_或者
“”
或者|等特殊字符切割
进行标准化处理，{t
name1
....t
namej
}表示标准化处理后的文本信息集合。
82.s220、从视频文件中提取得到字幕文本；
83.具体在实施过程中，可以通过视频源地址获取视频物理文件，并抽取视频字幕。
84.s230、对第一格式化信息以及字幕文本进行自然语言处理得到关键实体矩阵；
85.具体在实施过程中，通过将文本信息矩阵使用基于gru的网络结构学习特征，将所有文本信息(包括第一格式化信息以及字幕文本)的特征接入crf解码层完成序列标注，输出文本信息中对应的词边界和词性，实体类别之间的关系。输出词性标签包含词性标签24个(小写字母)，专业类别标签4个(大写字母)，通过大小写标记(per/loc/org/time和nr/ns/nt/t)人名、地名、机构名和时间，其中小写表示对于低置度的人名等信息。通过删除形容词，副形词，量词，代词，介词，副词，等非关键实体，最终输出关键实体矩阵：
[0086][0087]
其中entityi表示从{t
name1
....t
namej
}中获取的第i个去重的关键实体；
[0088]
impi表示对应的重要程度，其中词频表示entityi在{t
name1
....t
namej
}中出现的次数/i，表示包含entityi的tname 1。
[0089]
s240、将关键实体矩阵输入语义预测模型，根据模型预测结果确定语义标签；
[0090]
具体在实施过程中，获取关键实体矩阵array(entity)[:,0]放入语义预测模型，输出对应的标签及置信度矩阵其中tag
iz
表示根据entityi获取的标签及置信度cl
iz
，根据同一个tag下的完成矩阵压缩，并最终生成无重复，并按照文本准确率从高到低排序的预测标签矩阵predtag；最终返回array(predtag)[:k]的标签信息。
[0091]
为使得标签覆盖率更高，在一些可行的实施例中也可以采用衍生标签进行标注，进而，实施例方法在对文本内容进行自然语言分析，根据分析结果生成语义标签这一过程之后，还可以包括步骤s250：获取描述文本的结构信息，将结构信息与语意知识图谱进行匹配得到衍生标签；
[0092]
具体在实施过程中，实施例可以通过标题，描述等结构化信息匹配视频知识图谱，获取衍生标签；将语义标签及衍生标签传入决策分析子系统进行权重决策计算。最后根据衍生标签、语义标签、音频标签以及内容标签对视频文件进行剪裁，将剪裁后的素材进行融合得到目标视频。
[0093]
本实施例的语义标签的提取方法，可以在视频音视频内容质量不高或有效信息不足的情况下，依然可以生成具有较高可用性的分类标签效果。
[0094]
在一些可行的实施例中，方法中步骤s300根据音频内容进行音频匹配，根据匹配
结果结合音频知识图谱生成音频标签这一过程，可以包括步骤s310-s340：
[0095]
s310、将音频内容进行转换得到文本信息，将文本信息加入至文本内容中；
[0096]
具体在实施过程中，将抽取得到的视频中的音频进行语音翻译，生成对应的文本信息，并将文本信息的内容添加至文本内容，再经由步骤s200生成对应的语义标签。
[0097]
s320、根据音频内容提取得到音频指纹；
[0098]
s330、根据音频指纹在指纹库中进行匹配确定候选音频；
[0099]
s340、将候选音频输入至音频知识图谱进行匹配得到音频标签；
[0100]
具体在实施过程中，除开将音频内容转化为文本内容的标签生成方式，实施例还可以针对音频生成对应的音频指纹，匹配指纹库，找到相似率超过80％的音频；再将相似音频输入音频知识图谱，匹配出图谱音频标签，再根据音频标签进行决策计算。
[0101]
在一些可行的实施例中，方法步骤s400根据视频关键帧进行内容预测生成内容标签这一过程可以包括步骤s410-s440：
[0102]
s410、对视频文件进行分片得到若干视频帧文件；
[0103]
实施例尽可能保留视频关键信息的前提下，使用分片关键帧提取法提取初步的关键帧，然后利用基于内容特征的层次聚类算法用于关键帧降维，用最少的关键帧达到减少视频内容的预测时间的效果。具体在实施过程中，首先进行分片关键帧提取，视频总帧数为framei，设定分片数segments＝60，每个分片截取的视频帧persegmentframe＝1,则可以获取一个矩阵。
[0104]
s420、对视频帧文件进行灰度化处理得到灰度图片，根据灰度图片的类内差异以及类间差异计算得到内容特征矩阵；
[0105]
具体在实施过程中，分片关键帧提取，再进行内容特征构建；将frame进行灰度化处理，使用0-255表示所有图片像素，其中backgroud《120、foregroud≥120，则前景色
[0106]
占比为：
[0107][0108]
背景色占比为：
[0109][0110]
前景色平均值和方差fa，fv，背景色平均值和方差为ba，bv，类内差异：
[0111]
id＝f
×
fv2 b
×
bv2[0112]
类间差异：
[0113]
od＝f
×b×
(fa-ba)2[0114]
取min(id)为阈值，将阈值与每一个像素点进行比较，得出该图片[0,1]的内容特征矩阵。
[0115]
s430、对内容特征矩阵进行降维，根据降维后内容特征矩阵之间的差异度，确定得到关键帧；
[0116]
具体在实施过程中，内容特征构建之后，再进行关键帧降维，实施例中关键帧降维的过程可以进一步包括步骤s331和s332：
[0117]
s331、根据内容特征矩阵构建得到第一特征类集合，进行迭代生成若干个第二特征类集合；其中，迭代过程包括：计算第一特征类集合中各个类别之间的距离，并生成距离矩阵；提取距离矩阵中的最小元素构建得到第二特征类集合；
[0118]
s332、提取第二特征类集合对应的视频帧文件簇中第一张图片为关键帧；
[0119]
示例性地，在一实施例中，使用层次聚类法对60维的帧矩阵进行降维，找出区别最大的10张图片，指定簇为10簇，执行以下步骤：
[0120]
a、首先60维的帧矩阵作为初始样本，自成一类，则构成60个内容特征类：g1(0).....g60(0)，计算各类之间的single-link距离，得到一个60*60的距离矩阵，“0”表示初始状态。
[0121]
b、设已求得距离矩阵d(n)(n为逐次聚类合并的次数)，找出d(n)中的最小元素，将其对应的两类合并为一类。由此建立新的分类：g1(n 1),g2(n 1)....；
[0122]
c、然后计算合并后新类别之间的距离，得d(n 1)。
[0123]
d、跳至步骤b，重复计算及合并。
[0124]
e、直到缩减至g10后终止遍历，并取每个簇中第一个图片为降维后的关键帧。
[0125]
s440、将关键帧输入至视频内容预测模型，根据模型预测结果确定内容标签；
[0126]
具体在实施过程中，将降维后的10帧放入视频内容预测算法中得出最终的内容标签信息。
[0127]
在一些可选择的实施例中，在多模融合的情况下，为了生成准确性高的分类标签效果；多类型标签决策的过程可以包括：
[0128]
a、计算视频内容质量：
[0129]
获取短视频的时长，总帧数，分辨率作为特征值，采用rf随机森林算法，对视频内容质量进行分类，输出cq＝{high，medium，low}三个标签。
[0130]
b、计算视频文本质量：
[0131]
获取视频的标题特殊符号数，长度，ocr识别结果占比(ocr结果/帧数*100)作为特征值，采用rf随机森林算法，对视频文本质量进行分类，再输出tq＝{high，medium，low}三个标签。
[0132]
c、计算视频音频质量
[0133]
获取视频的音频长度，音频的频谱作为特征值，采用rf随机森林算法，对视频音频质量进行分类，输出aq＝{high，medium，low}三个标签。
[0134]
d、根据质量函数矩阵，选取对应的标签，其中，ct为内容标签，at为音频标签，tt为文本标签权重，并最终根据权重从高到低排序，输出top k标签信息。
[0135]
参照图3，针对本技术实际应用过程进行详细描述：
[0136]
在某个系统中，应用层提供视频分类标签预测入口，可供用户上传短视频及编辑视频文本信息，同时针对预测结果进行人工校正并最终保存于数据库，下次打开短视频，可以实时查阅本视频所属的标签信息，并统计显示当前曲库各类分类标签的数量及运营情况。则新增视频的流程如下：
[0137]
1)上传及编辑短视频：用户可以在应用层页面选择本地或者url的方式上传短视
频，并支持短视频标题，备注，演唱者等文本信息编辑。
[0138]
2)调用分类标签预测接口并展示预测结果。
[0139]
3)人工校正预测结果，对于不准确的标签进行负反馈，对于不合适的标签进行人工剔除。
[0140]
参照附图4，针对本技术另一实际应用过程进行描述：
[0141]
通过离线批量处理曲库现有的短视频资源，并生成对应的短视频分类标签库，为短视频推荐提供丰富的标签信息。推荐构造用户偏好模型及视频相似模型的流程如下：
[0142]
1)离线批量处理曲库短视频资源。
[0143]
2)用户偏好模型构建：根据用户的过往用户行为，关联视频的标签信息，生成对应的用户偏好模型。
[0144]
3)视频相似模型构建：根据视频之间的标签关联性，相似性，构建视频相似矩阵，为视频推荐提供更多同标签的视频源。
[0145]
参照附图5，针对本技术另一实际应用过程进行描述：
[0146]
通过离线批量处理曲库现有的短视频资源，并生成对应的短视频分类标签库，通过增加标签匹配策略，返回搜索命中结果。搜索同步索引的流程如下：
[0147]
1)离线批量处理曲库短视频资源：每天针对新的视频进行t 1的离线处理，并生成对应的标签信息，保存至数据库。
[0148]
2)同步至搜索索引库：每天定时增量同步视频标签信息至搜索索引库。
[0149]
第二方面，本技术的技术方案还提供了自适应图片裁剪融合系统，该系统包括：
[0150]
预处理模块，用于获取视频文件，从视频文件中提取得到文本内容、音频内容以及视频关键帧；
[0151]
语义分析模块，用于对文本内容进行自然语言分析，根据分析结果生成语义标签；
[0152]
音频分析模块，用于根据音频内容进行音频匹配，根据匹配结果结合音频知识图谱生成音频标签；
[0153]
内容分析模块，用于根据视频关键帧进行内容预测生成内容标签；
[0154]
决策分析模块，用于根据语义标签、音频标签以及内容标签对视频文件进行剪裁，将剪裁后的素材进行融合得到目标视频。
[0155]
第三方面，本技术的技术方案还提供自适应图片裁剪融合计算机设备，其包括至少一个处理器；至少一个存储器，该存储器用于存储至少一个程序；当至少一个程序被至少一个处理器执行，使得至少一个处理器运行如第一方面中的自适应图片裁剪融合方法。
[0156]
本发明实施例还提供了一种存储介质内存储有程序，程序被处理器执行，实现上述自适应图片裁剪融合方法。
[0157]
从上述具体的实施过程，可以总结出，本发明所提供的技术方案相较于现有技术存在以下优点或优势：
[0158]
1、本技术技术方案可以解决人工标签标注效率低，对人员要求高的问题，可以快速大量的生成短视频标签。
[0159]
2、解决对于视频内容要求高的限制，在视频内容中出现复杂场景时依然可以标注可用性高的分类标签。
[0160]
3、本技术技术方案可以解决分类标签有效性不够的问题，在视频内容不够体现视
频本身大量信息的情况下，依然可以标注高有效性的分类标签。
[0161]
4、本技术技术方案在用户上传视频后，可以自动解析视频，实时生成分类标签预览图。
[0162]
5、本技术技术方案可以允许用户针对单个或批量视频进行分类标注，并生成json标签信息，提升分类效率同时，为第三方提供统一标签服务。
[0163]
6、本技术技术方案可以允许用户自定义top k标签信息，减少尾部标签对于短视频准确性的干扰
[0164]
7、本技术技术方案可以对于分类标签提出综合置信度概念，使得分类标签出现不同的权重比，同时为第三方提供自由选择的参考值。
[0165]
在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0166]
此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0167]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。
[0168]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0169]
尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。
[0170]
以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这
些等同的变形或替换均包含在本技术权利要求所限定的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种轨道交通综合监控系统的图符标准化和自动铺图方法及系统与流程

自适应图片裁剪融合方法、系统、计算机设备及介质与流程

相关文献

最热文献