视频分类方法、装置、设备及介质与流程

2022-08-13 13:37:23 来源：中国专利 TAG：

1.本技术涉及深度学习技术领域，尤其涉及一种视频分类方法、装置、设备及介质。

背景技术：

2.视频分类是目前计算机视觉领域研究的重点问题，对视频进行准确的分类可以增强用户体验，给予用户更好的推荐。对于公司而言，对大量的互联网视频进行相应的分类也有助于公司把握当下市场的热点内容，进行相应的战略部署。目前视频分类普遍采用的融合方法是将视频的各个图像特征和各个音频特征同时进行融合，然后进行视频分类，这样将视频的多个图像特征和多个音频特征同时融合，速度较慢且容易过拟合。
3.针对上述“将视频的多个图像特征和多个音频特征同时融合的话，速度较慢且容易过拟合”的问题，目前尚未提出有效的解决方案。

技术实现要素：

4.本技术提供了一种视频分类方法、装置、设备及介质，以解决或至少部分解决上述“将视频的多个图像特征和多个音频特征同时融合，速度较慢且容易过拟合”的技术问题。
5.根据本技术实施例的一个方面，本技术提供了一种视频分类方法，包括：构建多层特征融合网络，其中，每一层特征融合网络包括一个图像特征融合单元和一个音频特征融合单元；提取目标视频中的图像特征集和音频特征集，其中，图像特征集用于作为第一层特征融合网络中的图像特征融合单元的输入，音频特征集用于作为第一层特征融合网络中的音频特征融合单元的输入；利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征；将目标整体图像特征和目标整体音频特征输入分类器，以确定目标视频的类别。
6.可选地，利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习包括按照如下方式对第一层的特征融合网络进行图像特征和音频特征的联合学习：随机生成瓶颈单元向量和图像特征表征向量；将图像特征表征向量、图像特征集以及瓶颈单元向量进行拼接后输入第一层特征融合网络的图像特征融合单元；获取第一层特征融合网络的图像特征融合单元输出的新的瓶颈单元向量，并随机生成音频特征表征向量；将音频特征表征向量、音频特征集以及瓶颈单元向量进行拼接后输入第一层特征融合网络的音频特征融合单元，以利用瓶颈单元向量完成第一层特征融合网络的图像特征和音频特征的联合学习。
7.可选地，利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习还包括：获取上一层特征融合网络的图像特征融合单元输出的新的图像特征表征向量、新的图像特征集以及音频特征融合单元输出的新的瓶颈单元向量；将图像特征表征向量、图像特征集以及音频特征融合单元进行拼接后输入当前层特征融合网络的图像特征融合单元；获取当前层图像特征融合单元输出的新的瓶颈单元向量、上一层音频特征融
合单元输出的新的音频特征集以及新的音频特征表征向量；将音频特征表征向量、音频特征集以及瓶颈单元向量进行拼接后输入当前层音频特征融合单元，以完成当前层特征融合网络的图像特征和音频特征的联合学习。
8.可选地，利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习之后，所述方法还包括按照如下方式得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征：逐一完成每一层特征融合网络的联合学习，直至最后一层图像特征融合单元输出新的图像特征表征向量和最后一层音频特征融合单元输出新的音频特征表征向量时，将图像特征表征向量确定为目标整体图像特征，将音频特征表征向量确定为目标整体音频特征。
9.可选地，提取目标视频中的图像特征集和音频特征集包括：提取目标视频的音频数据和图像数据；确定图像数据中的多个视频帧，并生成与多个视频帧对应的多个图像特征向量，其中，图像特征集包括多个图像特征向量；对音频数据进行特征提取，生成与多个视频帧对应的多个音频特征向量，其中，音频特征集包括多个音频特征向量。
10.可选地，利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习还包括：在每一层的特征融合网络中的音频特征融合单元或图像特征融合单元进行融合学习之后，将获得的目标融合特征存储至瓶颈单元向量。
11.可选地，在随机生成瓶颈单元向量之前，所述方法包括按照以下方式确定瓶颈单元向量的数量：获取图像特征集和/或音频特征集中的特征向量的数量值；确定多层特征融合网络当前所在网络环境的状态信息，并利用状态信息和数量值确定瓶颈单元向量的数量。
12.根据本技术实施例的另一个方面，本技术还提供了一种视频分类装置，包括：构建模块，用于构建多层特征融合网络，其中，每一层特征融合网络包括一个图像特征融合单元和一个音频特征融合单元；提取模块，用于提取目标视频中的图像特征集和音频特征集，其中，图像特征集用于作为第一层特征融合网络中的图像特征融合单元的输入，音频特征集用于作为第一层特征融合网络中的音频特征融合单元的输入；学习模块，用于利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征；确定模块，用于将目标整体图像特征和目标整体音频特征输入分类器，以确定目标视频的类别。
13.根据本技术实施例的另一个方面，本技术还提供了一种电子设备，包括存储器、处理器、通信接口及通信总线，存储器中存储有可在处理器上运行的计算机程序，存储器、处理器通过通信总线和通信接口进行通信，处理器执行计算机程序时实现上述任一方法的步骤。
14.根据本技术实施例的另一个方面，本技术还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，程序代码使处理器执行上述任一方法。
15.本技术技术方案可以应用于深度学习技术进行计算机视觉的设计。
16.本技术实施例提供的上述技术方案与相关技术相比具有如下优点：
17.本技术提供一种视频分类方法，包括：构建多层特征融合网络，其中，每一层特征
融合网络包括一个图像特征融合单元和一个音频特征融合单元；提取目标视频中的图像特征集和音频特征集，其中，图像特征集用于作为第一层特征融合网络中的图像特征融合单元的输入，音频特征集用于作为第一层特征融合网络中的音频特征融合单元的输入；利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征；将目标整体图像特征和目标整体音频特征输入分类器，以确定目标视频的类别。
18.本技术利用瓶颈单元向量在视频的图像特征和音频特征的融合过程中进行数据交互，获得用于分类的重要特征信息，解决了特征融合过程速度较慢且容易过拟合的问题。
附图说明
19.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
20.为了更清楚地说明本技术实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
21.图1为根据本技术实施例提供的一种可选的视频分类方法硬件环境示意图；
22.图2为根据本技术实施例提供的一种可选的视频分类方法的流程图；
23.图3为根据本技术实施例提供的一种可选的多层特征融合网络的结构示意图；
24.图4为根据本技术实施例提供的一种可选的视频分类装置的框图；
25.图5为根据本技术实施例提供的一种可选的电子设备结构示意图。
具体实施方式
26.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
27.在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本技术的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。
28.视频分类是目前计算机视觉领域研究的重点问题，对视频进行准确的分类可以增强用户体验，给予用户更好的推荐。对于企业而言，对大量的互联网视频进行相应的分类也有助于公司把握当下市场的热点内容，进行相应的战略部署。
29.视频的重要属性就是其不但有图像帧的信息，还包括了图像帧的运动变化、视频中的背景音乐及图像帧中的文字说明等等，是一个天生具有多模态特征的信息传递媒介，因此，对于视频进行精细的分类离不开对于多个模态的特征的提取和融合。
30.现有的技术方案目前已经形成了一定的模式，对于多种模态的特征先使用目前已经有的预训练模型进行特征的提取，对于图像帧的特征提取使用vit进行提取，对于背景音频的提取使用vggish进行。目前现有的技术方案的主要区别和研究的热点集中在了对于多
种特征的融合上。例如，中期融合就是在时间上对齐的各个模态的特征进行互相学习，对于互相学习后的模态特征再生成一个代表视频的特征，这种中期融合的方法，可以一定程度上避免各个模态的信息不均等带来的问题，但其速度较慢且容易过拟合。
31.为了解决背景技术中提及的问题，根据本技术实施例的一方面，提供了一种数据备份方法的实施例。
32.可选地，在本技术实施例中，上述数据备份方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务(视频分类服务、图像特征提取服务、音频特征提取服务等)，可在服务器上或独立于服务器设置数据库105，用于为服务器103提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端101包括但不限于pc、手机、平板电脑等。
33.本技术实施例中的一种数据备份方法可以由服务器103来执行，还可以是由服务器103和终端101共同执行，如图2所示，包括：
34.步骤201，构建多层特征融合网络，其中，每一层特征融合网络包括一个图像特征融合单元和一个音频特征融合单元；
35.步骤203，提取目标视频中的图像特征集和音频特征集，其中，图像特征集用于作为第一层特征融合网络中的图像特征融合单元的输入，音频特征集用于作为第一层特征融合网络中的音频特征融合单元的输入；
36.步骤205，利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征；
37.步骤207，将目标整体图像特征和目标整体音频特征输入分类器，以确定目标视频的类别。
38.多层特征融合网络包括多层的特征融合网络，每一层特征融合网络包括一个图像特征融合单元和一个音频特征融合单元，图像特征融合单元用于进行图像特征向量的融合学习，音频特征融合单元用于进行音频特征向量的融合学习。
39.可选地，利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习就是使瓶颈单元向量能够参与每次的融合学习，并且获得每次融合学习之后的重要特征后传输给下一融合单元。
40.本技术通过构建多层特征融合网络和生成瓶颈单元向量，使得瓶颈单元向量能够交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习，然后将能够分别表示整体图像特征和整体音频特征的两个特征输入分类器进行分类，就可以获得对于整个视频的分类结果。
41.作为一种可选的实施例，利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习包括按照如下方式对第一层的特征融合网络进行图像特征和音频特征的联合学习：随机生成瓶颈单元向量和图像特征表征向量；将图像特征表征向量、图像特征集以及瓶颈单元向量进行拼接后输入第一层特征融合网络的图像特征融合单元；获取第一层特征融合网络的图像特征融合单元输出的新的瓶颈单元向量，并随机生成音频特征表征向量；将音频特征表征向量、音频特征集以及瓶颈单元向量进行拼接后输入第一
层特征融合网络的音频特征融合单元，以利用瓶颈单元向量完成第一层特征融合网络的图像特征和音频特征的联合学习。
42.可选地，瓶颈单元向量、图像特征表征向量及音频特征表征向量都是随机生成的，在生成之后或多或少携带有干扰信息，干扰信息在后续的迭代学习中会被更新，迭代学习过程中可以使用反向梯度传播算法进行每一轮的迭代更新。
43.具体地，将图像特征表征向量、图像特征集以及瓶颈单元向量进行拼接后输入第一层特征融合网络的图像特征融合单元，完成第一层的图像融合学习之后，输出新的图像特征表征向量、新的图像特征集以及新的瓶颈单元向量，此时新的瓶颈单元向量包括计算图像特征集中各个特征相关性之后保存的用于分类的有效信息，将新的瓶颈单元向量作为第一层特征融合网络的音频特征融合单元的输入，便可以将第一次图像融合的有效信息带入第一次音频融合中。
44.新的图像特征表征向量包括第一次图像融合学习之后获得的包括第一次图像融合学习到的整体特征的向量，新的图像特征集中的图像特征是在计算了各个图像特征间的相关性之后得到的新的特征。
45.具体地，将音频特征表征向量、音频特征集以及新的瓶颈单元向量进行拼接后输入第一层特征融合网络的音频特征融合单元，完成第一层的音频融合学习之后，输出新的音频特征表征向量、新的音频特征集以及新的瓶颈单元向量，此时瓶颈单元向量已经参与并获得了两次融合的有效信息。
46.新的音频特征表征向量包括第一次音频融合学习之后获得的包括第一次音频融合学习到的整体音频特征的向量，新的音频特征集中的音频特征是在计算了各个音频特征间的相关性之后得到的新的特征。
47.可选地，图像特征融合单元和音频特征融合单元均可以使用tansformer模型。
48.至此，完成第一层特征融合网络的学习，接着需要按照以下方式重复若干次的融合学习。
49.作为一种可选的实施例，利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习还包括：获取上一层特征融合网络的图像特征融合单元输出的新的图像特征表征向量、新的图像特征集以及音频特征融合单元输出的新的瓶颈单元向量；将图像特征表征向量、图像特征集以及音频特征融合单元进行拼接后输入当前层特征融合网络的图像特征融合单元；获取当前层图像特征融合单元输出的新的瓶颈单元向量、上一层音频特征融合单元输出的新的音频特征集以及新的音频特征表征向量；将音频特征表征向量、音频特征集以及瓶颈单元向量进行拼接后输入当前层音频特征融合单元，以完成当前层特征融合网络的图像特征和音频特征的联合学习。
50.从第二层特征融合网络的融合学习开始，不需要重新生成图像特征表征向量、音频特征表征向量和瓶颈单元向量，而是将上一层学习完输出的新的图像特征表征向量、音频特征表征向量和瓶颈单元向量作为新一层的输入，具体的输入方法和融合学习方法与上述第一层特征融合网络的融合学习过程相同。
51.具体地，上一层的输出均会作为当前层的输入。
52.这部分是这样以图像的图像特征融合单元为例(音频的也一样)：我们的图像是一个序列信息特征1就是提取的第一帧图像的特征，特征2就是第二帧图像，每一层的图像特
征融合单元都接受的是所有帧的图像，图像特征融合单元的作用就是对每一帧计算和所有帧的相关性，根据相关性得到这一帧的新特征，将所有帧的新特征再送入到下一个图像特征融合单元中。将所有的视频帧的特征和瓶颈单元向量的特征进行联合学习，就可以使得瓶颈单元向量在计算所有视频帧的相关性后保存对分类结果最有用的信息。比如一个户外场景的直播，很多帧都在主播的脸上，但有一部分是纯粹的户外场景，这些帧就很有用。
53.特征融合网络为多层，因此可以设置与特征融合网络的层数对应的融合学习次数，也可以按实际需求调整融合学习的次数，对此不作限定。
54.作为一种可选的实施例，利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习之后，方法还包括按照如下方式得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征：逐一完成每一层特征融合网络的联合学习，直至最后一层图像特征融合单元输出新的图像特征表征向量和最后一层音频特征融合单元输出新的音频特征表征向量时，将图像特征表征向量确定为目标整体图像特征，将音频特征表征向量确定为目标整体音频特征。
55.每一轮融合学习，从最开始就使用图像特征表征向量作为网络结构的输出，因此在不断的学习和迭代的过程中，图像特征表征向量这个位置就不断的在学习整体的网络的表达，因此在最后训练完后就可以认为图像特征表征向量的结果是可以代表网络的表达的。
56.在最后一层图像特征融合单元输出新的图像特征表征向量和最后一层音频特征融合单元输出新的音频特征表征向量时，新的图像特征表征向量能够表示整个图像特征集的综合特征，新的音频特征表征向量能够表示整个音频特征集的综合特征，此时将新的图像特征表征向量确定为目标整体图像特征，将新的音频特征表征向量确定为目标整体音频特征。
57.将目标整体图像特征和目标整体音频特征输入至分类器进行分类。
58.可选地，可以先将目标整体图像特征和目标整体音频特征进行融合，生成目标整体视频特征，然后将目标整体视频特征输入至分类器进行分类，分类器显示的结果确定为目标视频的类别结果。
59.可选地，将目标整体图像特征和目标整体音频特征分别输入分类器进行分类，获得音频的第一分类结果和图像的第二分类结果，然后对第一分类结果和图像的第二分类结果进行处理(例如，取平均值)，最终获得视频分类结果。
60.作为一种可选的实施例，提取目标视频中的图像特征集和音频特征集包括：提取目标视频的音频数据和图像数据；确定图像数据中的多个视频帧，并生成与多个视频帧对应的多个图像特征向量，其中，图像特征集包括多个图像特征向量；对音频数据进行特征提取，生成与多个视频帧对应的多个音频特征向量，其中，音频特征集包括多个音频特征向量。
61.可选地，确定图像数据中的多个视频帧可以直接按照视频帧的数量来截取对应的视频帧，也可以截取预设时间间隔的视频帧(例如，每1秒截取一次)，获得视频帧之后进行特征提取，获得图像特征集，特征提取的方法可以是vit或者其他提取方法。
62.在确定视频帧的数量之后，按照与视频帧对应的音频点进行音频提取，获得多个
音频点数据之后进行特征提取，获得音频特征集，特征提取的方法可以是vggish或者其他提取方法。
63.具体地，音频特征集和图像特征集中的特征数量相同。
64.作为一种可选的实施例，利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习还包括：在每一层的特征融合网络中的音频特征融合单元或图像特征融合单元进行融合学习之后，将获得的目标融合特征存储至瓶颈单元向量。
65.本技术通过利用瓶颈单元向量在各层特征融合网络中进行数据交互，减少了相关性的计算量，从而使得网络的运行速度得到了提升。
66.作为一种可选的实施例，在随机生成瓶颈单元向量之前，方法包括按照以下方式确定瓶颈单元向量的数量：获取图像特征集和/或音频特征集中的特征向量的数量值；确定多层特征融合网络当前所在网络环境的状态信息，并利用状态信息和数量值确定瓶颈单元向量的数量。
67.利用状态信息和数量值确定瓶颈单元向量的数量。通常可以根据图像特征集和/或音频特征集中的特征向量的数量值来确定瓶颈单元向量的数量(例如，瓶颈单元向量的数量设置为数量值的三分之一，这样的设置原因是认为视频帧中有利于做分类的帧的数量可能只有三分之一，其他的可能对分类没有太大的用处)。
68.具体地，在有指定的网络需求或者分类需求(主要是精确程度)，则需要结合状态信息和数量值共同确定瓶颈单元向量的最优数量。
69.特征融合网络的设计目的，需要超参数来控制不同情况下的运行。比如在大型服务器上进行预测，不在意计算资源和速度，只需要更高的准确率，那么就设置多一些的瓶颈单元向量；但是在移动设备或者实时性的场景下，需要以较少的资源，更快的速度得到结果，那么就设置少一些的瓶颈单元向量。具体的要依据不同的视频分类任务和不同的网络训练结果而定，所有的设置前提都要依据真实场景下的真实数据的真实需求。
70.图3为本技术提供的一种多层特征融合网络的结构示意图。视频transformer计算的是视频的特征向量和bfu的关系，音频transformer计算的是音频特征向量和bfu的关系。图中的bfu对应本技术的瓶颈单元向量，图中图像帧特征集合对应本技术的图像特征集，图中的音频特征集合对应本技术的音频特征集，图中视频transformer对应本技术的图像特征融合单元，图中音频transformer对应本技术的音频特征融合单元，图中cls_v对应本技术的图像特征表征向量，图中cls_a对应本技术的音频特征表征向量。
71.本技术提供一种视频分类方法，包括：构建多层特征融合网络，其中，每一层特征融合网络包括一个图像特征融合单元和一个音频特征融合单元；提取目标视频中的图像特征集和音频特征集，其中，图像特征集用于作为第一层特征融合网络中的图像特征融合单元的输入，音频特征集用于作为第一层特征融合网络中的音频特征融合单元的输入；利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征；将目标整体图像特征和目标整体音频特征输入分类器，以确定目标视频的类别。
72.本技术通过利用瓶颈单元向量在视频的图像特征和音频特征的融合过程中获得用于分类的重要特征信息进行数据交互，解决了特征融合过程速度较慢且容易过拟合的问
题。
73.本技术方案的优势还在于：
74.1.灵活的网络结构。使用参数控制瓶颈单元向量的数量，当瓶颈单元向量较多时，可以有更多的信息进行图像和音频的交互，当瓶颈单元向量较少时可以有更快的运行速度。
75.2.抑制过拟合的产生。使用少量特征进行交互时，瓶颈单元向量中学习到的是两个模态中最有价值的部分，防止因为信息的冗余带来网络在训练集上过拟合的风险。
76.3.更快的运行速度。网络结构不再计算两个模态之间的相关性，而只需要计算某个模态和瓶颈单元向量之间的相关性，其计算量得到了减少，网络的运行速度得到了提升。
77.根据本技术实施例的另一个方面，本技术还提供了一种视频分类装置，如图4所示，包括：
78.构建模块402，用于构建多层特征融合网络，其中，每一层特征融合网络包括一个图像特征融合单元和一个音频特征融合单元；
79.提取模块404，用于提取目标视频中的图像特征集和音频特征集，其中，图像特征集用于作为第一层特征融合网络中的图像特征融合单元的输入，音频特征集用于作为第一层特征融合网络中的音频特征融合单元的输入；
80.学习模块406，用于利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征；
81.确定模块408，用于将目标整体图像特征和目标整体音频特征输入分类器，以确定目标视频的类别。
82.需要说明的是，该实施例中的构建模块402可以用于执行本技术实施例中的步骤201，该实施例中的提取模块404可以用于执行本技术实施例中的步骤203，该实施例中的学习模块406可以用于执行本技术实施例中的步骤205，该实施例中的确定模块408可以用于执行本技术实施例中的步骤207。
83.可选地，学习模块406还用于按照如下方式对第一层的特征融合网络进行图像特征和音频特征的联合学习：随机生成瓶颈单元向量和图像特征表征向量；将图像特征表征向量、图像特征集以及瓶颈单元向量进行拼接后输入第一层特征融合网络的图像特征融合单元；获取第一层特征融合网络的图像特征融合单元输出的新的瓶颈单元向量，并随机生成音频特征表征向量；将音频特征表征向量、音频特征集以及瓶颈单元向量进行拼接后输入第一层特征融合网络的音频特征融合单元，以利用瓶颈单元向量完成第一层特征融合网络的图像特征和音频特征的联合学习。
84.可选地，学习模块406还用于获取上一层特征融合网络的图像特征融合单元输出的新的图像特征表征向量、新的图像特征集以及音频特征融合单元输出的新的瓶颈单元向量；将图像特征表征向量、图像特征集以及音频特征融合单元进行拼接后输入当前层特征融合网络的图像特征融合单元；获取当前层图像特征融合单元输出的新的瓶颈单元向量、上一层音频特征融合单元输出的新的音频特征集以及新的音频特征表征向量；将音频特征表征向量、音频特征集以及瓶颈单元向量进行拼接后输入当前层音频特征融合单元，以完成当前层特征融合网络的图像特征和音频特征的联合学习。
85.可选地，学习模块406还用于按照如下方式得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征：逐一完成每一层特征融合网络的联合学习，直至最后一层图像特征融合单元输出新的图像特征表征向量和最后一层音频特征融合单元输出新的音频特征表征向量时，将图像特征表征向量确定为目标整体图像特征，将音频特征表征向量确定为目标整体音频特征。
86.可选地，提取模块404还用于提取目标视频的音频数据和图像数据；确定图像数据中的多个视频帧，并生成与多个视频帧对应的多个图像特征向量，其中，图像特征集包括多个图像特征向量；对音频数据进行特征提取，生成与多个视频帧对应的多个音频特征向量，其中，音频特征集包括多个音频特征向量。
87.可选地，学习模块406还用于在每一层的特征融合网络中的音频特征融合单元或图像特征融合单元进行融合学习之后，将获得的目标融合特征存储至瓶颈单元向量。
88.可选地，学习模块406还用于在随机生成瓶颈单元向量之前，按照以下方式确定瓶颈单元向量的数量：获取图像特征集和/或音频特征集中的特征向量的数量值；确定多层特征融合网络当前所在网络环境的状态信息，并利用状态信息和数量值确定瓶颈单元向量的数量。
89.此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。
90.根据本技术实施例的另一方面，如图5所示，本技术提供了一种电子设备，包括存储器51、处理器52、通信接口53及通信总线54，存储器51中存储有可在处理器52上运行的计算机程序，存储器51、处理器52通过通信总线54和通信接口53进行通信，处理器52执行计算机程序时实现上述方法的步骤。
91.上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
92.存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
93.上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
94.根据本技术实施例的另一个方面，本技术提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，程序代码使处理器执行上述任一方法的步骤。
95.可选地，在本技术实施例中，计算机可读介质被设置为存储用于所述处理器执行上述方法步骤的程序代码。
96.可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例
在此不再赘述。
97.本技术实施例在具体实现时，可以参阅上述各个实施例，具有相应的技术效果。
98.可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits，asic)、数字信号处理器(digital signal processing，dsp)、数字信号处理设备(dsp device，dspd)、可编程逻辑设备(programmable logic device，pld)、现场可编程门阵列(field-programmable gate array，fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
99.对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
100.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
101.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
102.在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
103.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
104.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
105.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那
些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
106.以上所述仅是本技术的具体实施方式，使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于BIM技术的悬挑工字钢排布方法与流程

视频分类方法、装置、设备及介质与流程

相关文献

最热文献