基于标签语义的短视频事件分类方法、系统、设备及介质与流程

2021-10-30 01:53:00 来源：中国专利 TAG：语义介质视频处理特别事件

1.本发明涉及视频处理技术领域，特别涉及一种基于标签语义的短视频事件分类方法、系统、设备及介质。

背景技术：

2.随着互联网社交平台的发展，海量的各种各样的媒体形式在互联网上传播。其中，短视频作为一种新兴的媒体在近些年迅速发展流行起来。在海量的短视频中，快速确定短视频的种类，将短视频按照一定的标准进行分类，是进行短视频内容分析的重要环节，是后续进行个性化推荐的重要前提。
3.因此如何有效的进行标签相关性之间的学习，能够做到更好的多标签分类是目前的一个难题。
4.现有技术中，大都采取以下方式：
5.1.将每个标签进行二分类的方法
6.对于输入的特征，分类器输出对应标签个数的分类结果，每一个标签给出此标签发生的概率，概率值的取值范围为0
‑
1，0表示此标签不发生，1表示此标签发生。这种方法比较简单，操作的难度较低。但是其缺点也非常明显。但这种方法的缺点在于：未考虑标签之间的可能存在的相关关系，对最终的分类结果有较大的影响。
7.2.使用时序序列的分类方法
8.对于输入的特征，时序序列的分类网络会输出当前标签的结果，对下一个标签进行计算时，使用上一个输出的标签当成是下一个标签分类器的输入，将多标签任务当成了序列生成任务来处理，这种的方法考虑了一定程度下的标签的相关性，但依然存在一定的不足。具体来说，将多标签之间的关系定义成时间序列上的关系，其本身存在一些假设性问题，有些标签虽然存在相关性，但并不一定是因果关系。如打伞的标签为1并不一定说明下雨的标签也为1，当前的天气也极有可能是烈日当空。因此先判断打伞还是先判断下雨就会带来完全不同的答案。
9.因此亟需开发一种克服上述缺陷的基于标签语义的短视频事件分类方法、系统、设备及介质。

技术实现要素：

10.针对上述问题，本技术实施例提供了一种基于标签语义的短视频事件分类方法、系统、设备及介质，以至少解决现有技术中分类不准确的问题。
11.本发明提供一种基于标签语义的短视频事件分类方法，其中，基于transformer网络结合标签语义对短视频中的事件进行分类，所述短视频事件分类方法包括：
12.短视频处理步骤：对短视频进行预处理获得所述短视频的多个事件及对应多个所述事件的多个事件特征；
13.标签处理步骤：对每一标签进行编码处理获得对应每一所述标签的标签语义特
征；
14.第一处理步骤：通过transformer网络根据多个所述标签语义特征及多个所述事件特征进行学习后输出对应每一所述事件的代表特征及学习后的多个所述标签语义特征；
15.第二处理步骤：根据所述代表特征及学习后的多个所述标签语义特征计算获得每一所述标签所发生的概率。
16.上述的短视频事件分类方法，其中，所述短视频处理步骤包括：对所述短视频进行预处理获得所述短视频的多个所述事件及对应多个所述事件的多个所述初始事件特征，对每一所述事件的多个所述初始事件特征进行加和平均计算获得对应每一所述事件的所述事件特征。
17.上述的短视频事件分类方法，其中，所述标签处理步骤包括：根据将每一所述标签通过编码器中获得对应每一所述标签的所述标签语义特征。
18.上述的短视频事件分类方法，其中，所述第二处理步骤包括：
19.计算步骤：将所述代表特征与学习后的多个所述标签语义特征进行乘积运算获得标签特征；
20.分类步骤：将多个所述标签特征输入线性层进行分类后获得每一所述标签所发生的概率。
21.本发明还提供一种短视频事件分类系统，其中，基于transformer网络结合标签语义对短视频中的事件进行分类，所述短视频事件分类系统包括：
22.短视频处理单元，对短视频进行预处理获得所述短视频的多个事件及对应多个所述事件的多个事件特征；
23.标签处理单元，对每一标签进行编码处理获得对应每一所述标签的标签语义特征；
24.第一处理单元，通过transformer网络根据多个所述标签语义特征及多个所述事件特征进行学习后输出对应每一所述事件的代表特征及学习后的多个所述标签语义特征；
25.第二处理单元，根据所述代表特征及学习后的多个所述标签语义特征计算获得每一所述标签所发生的概率。
26.上述的短视频事件分类系统，其中，所述短视频处理单元对所述短视频进行预处理获得所述短视频的多个所述事件及对应多个所述事件的多个所述初始事件特征，对每一所述事件的多个所述初始事件特征进行加和平均计算获得对应每一所述事件的所述事件特征。
27.上述的短视频事件分类系统，其中，所述标签处理单元根据将每一所述标签通过编码器中获得对应每一所述标签的所述标签语义特征。
28.上述的短视频事件分类系统，其中，所述第二处理单元包括：
29.计算模块，将所述代表特征与学习后的多个所述标签语义特征进行乘积运算获得标签特征；
30.分类模块，根据多个所述标签特征通过线性层进行分类后获得每一所述标签所发生的概率。
31.本发明还提供一种设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述中任
及“两组以上”。
49.关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。
50.某些用以描述本技术的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本技术的描述上额外的引导。
51.事件分类，是指短视频场景下对于短视频中发生的内容进行结构分析，将整个短视频在时间的维度上进行“幕”的划分，每一幕作为一个事件，事件往往是多个镜头下，多个角度下，多个人物对话下的一系列的画面的组合。对于事件进行有效的分类可以更好的理解一个短视频中的内容，可以做到对内容更好的结构化方便进行更加个性化的视频推荐和广告推送工作。对于事件的分类往往有以下几个步骤，先是通过特征提取器提取视频的特征，然后将所有的特征送入事件检测器，检测出每个事件的起止时间，最后对于每一个事件进行分类。
52.多标签分类，多标签分类是分类问题的一个重要的子问题，多标签分类与普通分类的区别在于，普通的分类问题往往是一个n选1的问题，即有n个类别，判断目前的特征属于哪一个类别即可。但是对于多标签分类问题而言，这是一个n选m的问题，每一个类别都会有发生和不发生的可能性，而且各个类别之间是否发生可能还会存在一定的联系。
53.transformer，是一种attention的模型，最初的transformer应用于机器翻译领域，但随着视觉任务的变化，目前transformer也应用于计算机视觉领域，其强大的地方在于可以学习输入序列中的相关关系。
54.请参照图1
‑
图3，图1为本发明的短视频事件分类方法的流程图；图2为图1中步骤s4的分步骤流程图；图3为本发明的短视频事件分类方法的框架示意图。如图1
‑
图3所示，本发明的基于标签语义的短视频事件分类方法使用了transformer网络来解决标签的相关性问题，整体的分类网络在接收到事件的特征后，会将特征进行加和平均，对加和平均后的数据和所有的标签向量一起送入transformer网络中进行学习，由此本发明将标签的真实语义嵌入到transformer网络中，而并非使用标签的0
‑
1向量，从而使得transformer网络能够真实明白此标签的语义信息而并非强行进行标签之间规律性上的拟合，进而提升分类效果，以下结合具体实施例进行说明。
55.本发明的短视频事件分类方法，基于transformer网络结合标签语义对短视频中的事件进行分类，所述短视频事件分类方法包括：
56.短视频处理步骤s1：对短视频进行预处理获得所述短视频的多个事件及对应多个所述事件的多个事件特征。
57.其中，短视频处理步骤s1包括：可以根据设定时间对所述短视频进行预处理获得所述短视频的多个所述事件及对应多个所述事件的多个所述初始事件特征，对每一所述事件的多个所述初始事件特征进行加和平均计算获得对应每一所述事件的所述事件特征。
58.标签处理步骤s2：对每一标签进行编码处理获得对应每一所述标签的标签语义特征。
59.其中，在本步骤中，将每一标签送入bert编码器中进行编码，获得表示此标签的语
义信息的标签语义特征。
60.第一处理步骤s3：通过transformer网络根据多个所述标签语义特征及多个所述事件特征进行学习后输出对应每一所述事件的代表特征及学习后的多个所述标签语义特征。
61.第二处理步骤s4：根据所述代表特征及学习后的多个所述标签语义特征计算获得每一所述标签所发生的概率。
62.其中，所述第二处理步骤s4包括：
63.计算步骤s41：将所述代表特征与学习后的多个所述标签语义特征进行乘积运算获得标签特征；
64.分类步骤s42：根据多个所述标签特征通过线性层进行分类后获得每一所述标签所发生的概率。
65.具体地说，对transformer网络处理之后的特征，即所述代表特征与学习后的多个所述标签语义特征进行二次处理，将代表事件的代表特征与所有的标签语义特征进行逐一相乘获得标签特征，对每一个经过事件相乘后的标签特征送入一个线性层做0
‑
1分类，最后得到每一个标签所发生的概率。
66.请参照图4，图4为本发明的短视频事件分类系统的结构示意图。如图4所示，本发明的短视频事件分类系统基于transformer网络结合标签语义对短视频中的事件进行分类，所述短视频事件分类系统包括：
67.短视频处理单元11，对短视频进行预处理获得所述短视频的多个事件及对应多个所述事件的多个事件特征；
68.标签处理单元12，对每一标签进行编码处理获得对应每一所述标签的标签语义特征；
69.第一处理单元13，通过transformer网络根据多个所述标签语义特征及多个所述事件特征进行学习后输出对应每一所述事件的代表特征及学习后的多个所述标签语义特征；
70.第二处理单元14，根据所述代表特征及学习后的多个所述标签语义特征计算获得每一所述标签所发生的概率。
71.进一步地，所述短视频处理单元11对所述短视频进行预处理获得所述短视频的多个所述事件及对应多个所述事件的多个所述初始事件特征，对每一所述事件的多个所述初始事件特征进行加和平均计算获得对应每一所述事件的所述事件特征。
72.再进一步地，所述标签处理单元12根据将每一所述标签通过编码器中获得对应每一所述标签的所述标签语义特征。
73.更进一步地，所述第二处理单元14包括：
74.计算模块141，将所述代表特征与学习后的多个所述标签语义特征进行乘积运算获得标签特征；
75.分类模块142，将多个所述标签特征输入线性层进行分类后获得每一所述标签所发生的概率。
76.请参照图5，图5为本发明的电子设备的结构示意图。如图5所示，本实施例揭示了一种设备的一种具体实施方式。设备可以包括处理器81以及存储有计算机程序指令的存储
architecture，简称为mca)总线、外围组件互连(peripheral component interconnect，简称为pci)总线、pci
‑
express(pci
‑
x)总线、串行高级技术附件(serial advanced technology attachment，简称为sata)总线、视频电子标准协会局部(video electronics standards association local bus，简称为vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线，但本技术考虑任何合适的总线或互连。
84.另外，结合上述实施例中处理方法，本技术实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种短视频事件分类方法。
85.综上所述，本发明在通过transformer网络来解决标签的相关性问题的基础上，将特征进行加和平均，对加和平均后的数据和所有的标签向量一起送入transformer网络中进行学习，由此本发明将标签的真实语义嵌入到transformer网络中，而并非使用标签的0
‑
1向量，从而使得transformer网络能够真实明白此标签的语义信息而并非强行进行标签之间规律性上的拟合，进而提升分类效果。
86.尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于自动编码器的击键动力学身份认证与识别方法及系统与流程

基于标签语义的短视频事件分类方法、系统、设备及介质与流程

相关文献

最热文献