视频内容识别方法和装置、存储介质及电子设备与流程

2021-10-29 20:53:00 来源：中国专利 TAG：电子设备识别装置计算机方法

1.本发明涉及计算机领域，具体而言，涉及一种视频内容识别方法和装置、存储介质及电子设备。

背景技术：

2.如今，越来越多的用户会通过个人账号向内容分发平台上传发布自行制作的短视频或小视频。在相关技术提供的分发推荐策略中，通常是根据各个客户端的数据流量设置推荐条件，如通过设置限制播放流量的上限值(即限流)，来达到控制各个客户端上传发布的视频的曝光量的目的。
3.然而在这些用户发布的视频中，其视频内容质量是参差不齐的。其中一些质量等级较低的低端视频，实际上并不符合通过内容分发平台共享给其他用户的推荐条件。比如对于一些画面内容清晰度较差导致播放完成度较低的视频，就不适合被多次分发推荐。
4.目前在内容分发平台中针对这些低端视频，往往只能通过人工来识别标注，这样很容易遗漏不符合推荐条件的视频，从而导致视频内容识别准确性较低的问题。
5.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

6.本发明实施例提供了一种视频内容识别方法和装置、存储介质及电子设备，以至少解决视频内容识别准确性较低的技术问题。
7.根据本发明实施例的一个方面，提供了一种视频内容识别方法，包括：对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到上述对象视频对应的多模态视频特征向量；根据上述多模态视频特征向量及基于第一识别标签确定出的第一权重集，获取第一等级识别参数集，其中，上述第一识别标签为按照等级定义生成的等级识别标签，上述第一等级识别参数集用于指示上述对象视频按照上述第一识别标签划分至各个内容质量等级的概率；根据上述多模态视频特征向量及基于第二识别标签确定出的第二权重集，获取第二等级识别参数集，其中，上述第二识别标签为按照用户播放行为系数生成的等级识别标签，上述第二等级识别参数集用于指示上述对象视频按照上述第二识别标签划分至各个内容质量等级的概率；根据上述第一等级识别参数集及上述第二等级识别参数集，确定上述对象视频匹配的目标内容质量等级。
8.根据本发明实施例的另一方面，还提供了一种视频内容识别装置，包括：融合单元，用于对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到上述对象视频对应的多模态视频特征向量；第一获取单元，用于根据上述多模态视频特征向量及基于第一识别标签确定出的第一权重集，获取第一等级识别参数集，其中，上述第一识别标签为按照等级定义生成的等级识别标签，上述第一等级识别参数集用于指示上述对象视频按照上述第一识别标签划分至各个内容质量等级的概率；第二获取单元，用于根据上述多模态视频特征向量及基于第二识别标签确定出的第二权重集，获取第二等级识别参数集，
其中，上述第二识别标签为按照用户播放行为系数生成的等级识别标签，上述第二等级识别参数集用于指示上述对象视频按照上述第二识别标签划分至各个内容质量等级的概率；确定单元，用于根据上述第一等级识别参数集及上述第二等级识别参数集，确定上述对象视频匹配的目标内容质量等级。
9.根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述的视频内容识别方法。
10.根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的视频内容识别方法。
11.在本发明实施例中，采用对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到上述对象视频对应的多模态视频特征向量；根据上述多模态视频特征向量及基于第一识别标签确定出的第一权重集，获取第一等级识别参数集，其中，上述第一识别标签为按照等级定义生成的等级识别标签，上述第一等级识别参数集用于指示上述对象视频按照上述第一识别标签划分至各个内容质量等级的概率；根据上述多模态视频特征向量及基于第二识别标签确定出的第二权重集，获取第二等级识别参数集，其中，上述第二识别标签为按照用户播放行为系数生成的等级识别标签，上述第二等级识别参数集用于指示上述对象视频按照上述第二识别标签划分至各个内容质量等级的概率；根据上述第一等级识别参数集及上述第二等级识别参数集，确定上述对象视频匹配的目标内容质量等级的方式，通过从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到对象视频对应的多模态视频特征向量，以及根据多模态视频特征向量获取第一等级识别参数集及第二等级识别参数集，确定对象视频匹配的目标内容质量等级，达到了提示视频低端识别能力的目的，从而实现了提升低端识别的覆盖度与精确度，降低人工识别标注成本，提升平台的整体视频质量，以及提高用户对平台视频的观感的技术效果，进而解决了视频内容识别准确性较低的技术问题。
附图说明
12.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
13.图1是根据本发明实施例的一种可选的视频内容识别方法的应用环境的示意图；
14.图2是根据本发明实施例的另一种可选的视频内容识别方法的应用环境的示意图；
15.图3是根据本发明实施例的一种可选的视频内容识别方法的流程图；
16.图4是根据本发明实施例的一种可选的视频内容识别方法的视频低端等级识别架构示意图；
17.图5是根据本发明实施例的一种可选的视频内容识别方法的基于视频多维度内容低端识别模型结构示意图；
18.图6是根据本发明实施例的一种可选的视频内容识别方法的基于视频多维度内容进行低端识别流程示意图；
19.图7是根据本发明实施例的一种可选的视频内容识别方法的基于视频分发用户行为低端识别模型结构示意图；
20.图8是根据本发明实施例的一种可选的视频内容识别方法的基于用户行为进行视频低端识别流程图；
21.图9是根据本发明实施例的一种可选的视频内容识别装置的结构示意图；
22.图10是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
23.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
24.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.根据本发明实施例的一个方面，提供了一种视频内容识别方法，可选地，作为一种可选的实施方式，上述视频内容识别方法可以但不限于应用于如图1所示的应用环境中。该应用环境中包括：与用户进行人机交互的终端设备102、网络104、服务器106。用户108与终端设备102之间可以进行人机交互，终端设备102中运行有视频内容识别应用客户端。上述终端设备102中包括人机交互屏幕1022，处理器1024及存储器1026。人机交互屏幕1022用于呈现待识别的对象视频的视频内容。处理器1024用于对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到对象视频对应的多模态视频特征向量；存储器1026用于存储待识别的对象视频的视频内容，及用于存储对象视频对应的多模态视频特征向量。
26.此外，服务器106中包括数据库1062及处理引擎1064，数据库1062中用于存储对象视频对应的多模态视频特征向量，及用于存储第一等级识别参数集，及第二等级识别参数集；还用于存储对象视频匹配的目标内容质量等级。处理引擎1064用于根据多模态视频特征向量及基于第一识别标签确定出的第一权重集，获取第一等级识别参数集；根据多模态视频特征向量及基于第二识别标签确定出的第二权重集，获取第二等级识别参数集；根据第一等级识别参数集及第二等级识别参数集，确定对象视频匹配的目标内容质量等级。
27.具体过程如以下步骤：假设如图1所示终端设备102中运行有视频内容识别应用客户端，用户108操作人机交互屏幕1022对视频内容进行管理和操作，如步骤s102，对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到对象视频对应的多模态视频特征向量；然后执行步骤s104，将上述多模态视频特征向量通过网络104发送给服务器106。服务器106接收到该请求后，执行步骤s106
‑
s108，根据多模态视频特征向量及基于第
一识别标签确定出的第一权重集，获取第一等级识别参数集，其中，第一识别标签为按照等级定义生成的等级识别标签，第一等级识别参数集用于指示对象视频按照第一识别标签划分至各个内容质量等级的概率；根据多模态视频特征向量及基于第二识别标签确定出的第二权重集，获取第二等级识别参数集，其中，第二识别标签为按照用户播放行为系数生成的等级识别标签，第二等级识别参数集用于指示对象视频按照第二识别标签划分至各个内容质量等级的概率；根据第一等级识别参数集及第二等级识别参数集，确定对象视频匹配的目标内容质量等级。并如步骤s112，通过网络104通知终端设备102，返回对象视频匹配的目标内容质量等级。
28.作为另一种可选的实施方式，本技术上述视频内容识别方法可以应用于图2所示的应用环境中。如图2所示，用户202与用户设备204之间可以进行人机交互。用户设备204中包含有存储器206和处理器208。本实施例中用户设备204可以但不限于参考执行上述终端设备102所执行的操作，以获取与对象路线匹配的目标路线。
29.可选地，上述终端设备102和用户设备204可以但不限于为手机、平板电脑、笔记本电脑、pc机等终端，上述网络104可以包括但不限于无线网络或有线网络。其中，该无线网络包括：wifi及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器106可以包括但不限于任何可以进行计算的硬件设备。上述仅是一种示例，本实施例中对此不作任何限定。
30.低端视频影响视频平台的整体内容质量，视频平台一般需要对低端视频进行识别降低影响，相关技术中采用的基本是基于文本挖掘、图像识别等方式，没有结合视频多维度内容与视频推荐分发用户行为进行充分识别。
31.为了解决上述技术问题，可选地，作为一种可选的实施方式，如图3所示，上述视频内容识别方法包括：
32.s302，对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到对象视频对应的多模态视频特征向量；
33.s304，根据多模态视频特征向量及基于第一识别标签确定出的第一权重集，获取第一等级识别参数集，其中，第一识别标签为按照等级定义生成的等级识别标签，第一等级识别参数集用于指示对象视频按照第一识别标签划分至各个内容质量等级的概率；
34.s306，根据多模态视频特征向量及基于第二识别标签确定出的第二权重集，获取第二等级识别参数集，其中，第二识别标签为按照用户播放行为系数生成的等级识别标签，第二等级识别参数集用于指示对象视频按照第二识别标签划分至各个内容质量等级的概率；
35.s308，根据第一等级识别参数集及第二等级识别参数集，确定对象视频匹配的目标内容质量等级。
36.在步骤s302中，实际应用时，待识别对象视频可以包括但不限于任一视频平台上的电影，电视剧，各种长短视频等，这里多维特征可以包括但不限于视频的文本特征，图像特征，或音频特征等；在此不做限定。多模态视频特征向量包括但不限于，文本特征中包含的对文本进行分词和向量转化处理，得到的词向量序列，以及对该词向量序列进行编码处理的处理结果向量；图像特征中，各个主体关键帧输入具备时间序列融合能力的图像识别模型得到的特征；音频特征中，各个音频帧输入具备时间序列融合能力的音频识别模型中
得到的特征。
37.在步骤s304中，实际应用时，第一识别标签可以包括但不限于预设的不同档次的等级，第一等级识别参数集用于指示对象视频按照第一识别标签划分至各个内容质量等级的概率；例如第一识别标签可以分为1
‑
5，5个等级；该5个等级对应的低端等级概率为[0.12，0.52，0.36，0.08，0.19]，也就是说，1级识别标签对应的低端等级概率为0.12，2级识别标签对应的低端等级概率为0.52，3级识别标签对应的低端等级概率为0.36，4级识别标签对应的低端等级概率为0.08，5级识别标签对应的低端等级概率为0.19。
[0038]
在步骤s306中，实际应用时，第二识别标签可以包括但不限于，通过对推荐池中视频统计视频的播放率(播放次数/曝光次数)以及播放完成率(总播放时长/被用户看过的时长)，定义按照用户播放行为系数生成的等级识别标签。
[0039]
这里，将c1*播放率 c2*播放完成率定义为视频的分发行为分数，其中c1、c2为权重，c1 c2＝1，将视频的行为分数划分为k个行为低端等级区间，如[0，0.2]为低端k级别，也就是说从0至0.2为低端k级别对应的概率范围，[0.8，1.0]为低端1等级；从0.8至1为低端1级别对应的概率范围。按照用户播放行为系数生成的等级识别标签，第二等级识别参数集包含为从低端1等级至低端k级别的不同概率的合集。
[0040]
在步骤s308中，实际应用时，可以包括但不限于利用如下方法来实现对象视频匹配的目标内容质量等级；视频低端等级概率＝x1*基于视频多维度内容识别模型低端概率 x2*基于用户行为的低端识别模型低端概率，其中x1 x2＝1，取融合后的视频低端等级概率为视频最终的低端等级。这里，基于视频多维度内容识别模型低端概率可以包括但不限于第一等级识别参数集，基于用户行为的低端识别模型低端概率可以包括但不限于为第二等级识别参数集。
[0041]
在本发明实施例中，采用对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到上述对象视频对应的多模态视频特征向量；根据上述多模态视频特征向量及基于第一识别标签确定出的第一权重集，获取第一等级识别参数集，其中，上述第一识别标签为按照等级定义生成的等级识别标签，上述第一等级识别参数集用于指示上述对象视频按照上述第一识别标签划分至各个内容质量等级的概率；根据上述多模态视频特征向量及基于第二识别标签确定出的第二权重集，获取第二等级识别参数集，其中，上述第二识别标签为按照用户播放行为系数生成的等级识别标签，上述第二等级识别参数集用于指示上述对象视频按照上述第二识别标签划分至各个内容质量等级的概率；根据上述第一等级识别参数集及上述第二等级识别参数集，确定上述对象视频匹配的目标内容质量等级的方式，通过从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到对象视频对应的多模态视频特征向量，以及根据多模态视频特征向量获取第一等级识别参数集及第二等级识别参数集，确定对象视频匹配的目标内容质量等级，达到了提示视频低端识别能力的目的，从而实现了提升低端识别的覆盖度与精确度，降低人工识别标注成本，提升平台的整体视频质量，以及提高用户对平台视频的观感的技术效果，进而解决了视频内容识别准确性较低的技术问题。
[0042]
在一实施例中，步骤s302包括：获取多模态视频特征向量与第一权重集中各个权重值之间的加权求和结果，得到第一等级识别参数集；这里，可以将多模态视频特征向量中对应的文本特征，图像特征，或音频特征按照各自对应的权重，求出各个权重值之间的加权
speech recognition，asr)识别模型进行识别，通过asr识别模型中可以识别出视频中对白语段对应的文字。通过将视频标题、对白、字幕拼接作为视频的文本，然后对视频文本进行分词操作，查询每个词的词向量，然后将词向量序列输入albert encoder模型，模型的输出作为视频的文本表示。albert输出的第一向量，可以用来表征整体的输入文本，然后构建分词其，处理输出的词向量，利用albert encoder计算两个文本之间距离或相似度。
[0048]
这里，对应视频图像的处理过程，可以包括但不限于视频的图像特征则是通过抽取与视频主题相关的关键帧，用这些关键帧来表征视频。视频关键帧的抽取是一个序列标注模型，也就是对视频中每一帧进行0、1标注，1表示是此帧是关键帧。通过对视频集进行人工标注，对每一帧标注0、1，构建训练数据集，通过在此数据集上训练视频帧序列标注，使得模型具备输入一个视频，输出该视频关键帧序列。通过对视频每个关键帧输入预先训练好的efficientnet模型，将模型分类层前的最后一层隐藏层输出，如1024维浮点型向量，作为该帧的表示。再得到关键帧表示后，将各关键帧依次输入一个具备时间序列融合能力的模型层，如netxvlad模型构建视频图像侧表示。netxvlad模型算法可以分为如下步骤：1，提取图像的sift描述子；2，利用提取到的sift描述子(所以训练图像的sift)训练一本码书，训练方法可以为k
‑
means；3，把一副图像所有的sift描述子按照最近邻原则分配到码书上(也即分配到k个聚类中心)；4，对每个聚类中心做残差和(即属于当前聚类中心的所有sift减去聚类中心然后求和)；5，对这个残差做l2归一化，然后拼接为一个k*128的长向量，128为单条sift的长度。
[0049]
视频的音频特征表示与图像方式类似，首先利用vggish模型对音频帧进行建模，得到音频帧的表示，然后经过netxvlad对多个音频帧表示进行时序融合得到视频音频侧表示。
[0050]
在内容等级识别模型的每次训练过程中，根据第一样本视频的视频内容中提取到的多维特征，确定第一样本视频对应的第一样本内容质量等级；例如可以得到不同内容质量等级，划分为1
‑
k级。
[0051]
在训练输出结果指示达到第一收敛条件的情况下，确定得到用于获取第一等级识别参数集的目标内容等级识别模型；第一收敛条件用于指示确定出的第一样本内容质量等级与第一识别标签所指示的内容质量等级之间的差异度小于等于第一阈值。也就是说，通过模型训练得到的内容质量等级与第一标签所指示的内容质量等级之间的差异度在预设范围内时，即达到收敛条件，停止内容等级识别模型的训练过程。
[0052]
在一实施例中，在对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到对象视频对应的多模态视频特征向量之前，还包括：获取第二样本视频集合；为第二样本视频集合中每个第二样本视频按照用户播放行为系数配置第二识别标签；将第二样本视频集合及对应的第二识别标签输入初始化的行为等级识别模型进行训练，得到训练输出结果，其中，在行为等级识别模型的每次训练过程中，根据第二样本视频的视频内容中提取到的多维特征，及第二样本视频对应的用户播放行为系数，确定第二样本视频对应的第二样本内容质量等级；在训练输出结果指示达到第二收敛条件的情况下，确定得到用于获取第二等级识别参数集的目标行为等级识别模型，其中，第二收敛条件用于指示确定出的第二样本内容质量等级与第二识别标签所指示的内容质量等级之间的差异度小于等于第二阈值。
[0053]
这里，例如，行为低端等级训练视频低端识别模型可以为，通过对推荐池中视频统计视频的播放率(播放次数/曝光次数)以及播放完成率(总播放时长/被用户看过的时长)，将c1*播放率 c2*播放完成率定义为视频的分发行为分数，其中c1、c2为权重，c1 c2＝1，将视频的行为分数划分为k个行为低端等级区间，如[0，0.2]为低端k级别，[0.8，1.0]为低端1等级。然后基于推荐池中视频以及其相应的行为低端等级训练视频低端识别模型，模型的输入特征为视频的多维度特征，分类输出目标为视频的分发行为低端等级，多维度特征可以包括视频的文本、图像帧、音频帧等多维度特征，经过上述模型输出基于用户行为预测的视频低端等级以及相应的等级概率。
[0054]
在训练输出结果指示达到第二收敛条件的情况下，确定得到用于获取第二等级识别参数集的目标行为等级识别模型，其中，第二收敛条件用于指示确定出的第二样本内容质量等级与第二识别标签所指示的内容质量等级之间的差异度小于等于第二阈值。也就是说，通过模型训练得到的内容质量等级与第二标签所指示的内容质量等级之间的差异度在预设范围内时，即达到收敛条件，停止内容等级识别模型的训练过程。
[0055]
在一实施例中，所述为所述第二样本视频集合中每个第二样本视频按照用户播放行为系数配置所述第二识别标签包括：将所述第二样本视频集合中的每个第二样本视频依次作为当前样本视频，执行以下操作：统计所述当前样本视频的播放率和播放完成率，其中，所述播放率用于指示所述当前样本视频在播放客户端被实际播放的播放次数与曝光次数之间的比值，所述播放完成率用于指示所述当前样本视频在所述播放客户端被实际播放的时长与所述当前样本视频的总播放时长之间的比值；根据所述播放率及所述播放完成率确定所述当前样本视频匹配的当前用户播放行为系数；按照为用户播放行为系数划分的等级区间，确定所述当前用户播放行为系数对应的当前内容质量等级；为所述当前样本视频配置与所述当前内容质量等级对应的所述第二识别标签。
[0056]
例如，当前样本视频中的视频a的播放次数为3000次，曝光次数为5000，总播放时长6000小时，被用户看过的时长为8000小时，那么视频a的播放播放率为0.6，播放完成率为0.75，这里，当c1取值为0.4，c2取值为0.6时，那么视频a对应的第二等级识别参数可以为0.4*0.6 0.75*0.6＝0.67；视频推荐池中的视频b的播放次数为2000次，曝光次数为4000，总播放时长3000小时，被用户看过的时长为4000小时，那么视频b的播放播放率为0.5，播放完成率为0.75，这里，当c1取值为0.4，c2取值为0.6时，那么视频b对应的第二等级识别参数可以为0.4*0.5 0.6*0.75＝0.65；那么这里，第二等级识别参数集可以为[0.67，0.65]。0.65对应的等级为1级，0.65对应的等级为2级，那么视频a按照用户播放行为系数生成的等级识别标签为1级，视频a按照用户播放行为系数生成的等级识别标签为2级。这里，对于第二等级识别标签的获取过程仅为举例，在此不做限定。
[0057]
在实施例中，步骤s308包括：遍历各个内容质量等级，将每个内容质量等级依次作为当前内容质量等级，依次执行以下操作：从第一等级识别参数集中获取与当前内容质量等级对应的第一等级识别参数，并从第二等级识别参数集中获取与当前内容质量等级对应的第二等级识别参数；对第一等级识别参数及第二等级识别参数进行加权求和，得到当前内容质量等级对应的当前等级识别参数；在获取到各个内容质量等级各自对应的等级识别参数的情况下，确定出最大的等级识别参数值，并将最大的等级识别参数值对应的内容质量等级确定为目标内容质量等级。这里，可以结合使用基于视频多维度内容识别模型与基
于用户行为的低端识别模型，视频低端等级概率＝x1*基于视频多维度内容识别模型低端概率 x2*基于用户行为的低端识别模型低端概率，其中x1 x2＝1，取融合后的视频低端等级概率为目标内容质量等级。当超过一定低端等级时，可不对此视频进行分发。
[0058]
在一实施例中，步骤s302包括：从所述对象视频的视频内容中提取以下至少一种特征：文本特征、图像特征、音频特征；在识别出所述对象视频中包含的各个文本信息的情况下，对所述各个文本信息进行拼接，得到所述对象视频对应的待处理的对象文本；对所述对象文本进行分词和向量转化处理，得到词向量序列；对所述词向量序列进行编码处理，得到所述文本特征；在识别出所述对象视频中包含的各个主题关键帧的情况下，将所述各个主题关键帧输入具备时间序列融合能力的图像识别模型中，以得到所述图像特征；在识别出所述对象视频中包含的各个音频帧的情况下，将所述各个音频帧输入具备时间序列融合能力的音频识别模型中，以得到所述音频特征。
[0059]
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0060]
基于上述实施例，在一应用实施例中，视频内容识别方法还包括：
[0061]
基于视频多模态内容与用户行为的视频低端等级识别方法，整体架构如图4所示：步骤s402，获取待识别的视频，到步骤s404，从待识别的视频中，基于视频内容进行低端识别，然后步骤s406，进行用户行为低端预估，然后步骤s408，处理后的视频放到视频推荐池中，步骤s410通过视频分发曝光、点击等，步骤s412，进行模型学习，步骤s414，得到基于用户行为的低端识别模型；步骤s416，将用户行为低端预估，产生的低端视频进行标注后，生成低端视频库，然后进入步骤s418，进行模型学习，步骤s420，得到基于视频内容的低端识别模型。
[0062]
基于上述实施例，在一应用实施例中，基于视频多维度内容进行低端等级识别过程包括如下内容：
[0063]
视频平台预先定义k个低端等级，k为低端类别数量，其中1至k类低端等级逐渐增高，对视频库中大量视频进行低端等级类别标注，构建出低端数据集，在此数据集上训练基于视频多模态内容的低端识别模型，该模型结构如图5所示，当用户上传视频后，视频平台基于多模态深度学习模型来识别视频低端等级。基于视频多模态内容低端识别模型如下：
[0064]
视频文本侧表示通过联合使用视频标题、字幕、对白文本，其中字幕可通过通用ocr模型，如google tesseract来提取视频中的字幕文本，对白文本可通过通用的asr识别模型进行识别。通过将视频标题、对白、字幕拼接作为视频的文本，对视频文本分词，查询每个词的词向量，然后将词向量序列输入albert encoder模型，模型的输出作为视频的文本表示。
[0065]
视频图像侧通过抽取与视频主题相关的关键帧，用这些帧来表征视频。视频关键帧的抽取是一个序列标注模型，也就是对视频中每一帧进行0、1标注，1表示是此帧是关键帧。通过对视频集进行人工标注，对每一帧标注0、1，构建训练数据集，通过在此数据集上训练视频帧序列标注，使得模型具备输入一个视频，输出该视频关键帧序列。通过对视频每个
关键帧输入预先训练好的efficientnet模型，将模型分类层前的最后一层隐藏层输出，如1024维浮点型向量，作为该帧的表示。再得到关键帧表示后，将各关键帧依次输入一个具备时间序列融合能力的模型层，如netxvlad构建视频图像侧表示。视频音频侧表示与图像方式类似，首先利用vggish模型对音频帧进行建模，得到音频帧的表示，然后经过netxvlad对多个音频帧表示进行时序融合得到视频音频侧表示。视频多维度特征融合构建低端等级分类识别模型，对上述构建的视频文本、图像、音频特征进行拼接然后经过全连接网络进行多维度特征融合表示，再通过对视频多维度融合表示构建低端分类输出层对视频低端等级分类，通过将上述模型在预先标注好的基于内容的低端训练集上进行训练，使得模型具备输出视频的低端等级的能力。
[0066]
在对用户上传的视频进行低端等级识别时，如图6所示，包括如下步骤：步骤s602，获取待识别的视频；步骤s604，基于待识别的视频的内容进行低端识别，进入步骤s606，对识别后的内容进行标注确认后得到低端视频库；然后进入步骤s608，进行模型学习；步骤s610，得到基于视频内容的低端识别模型。在本实施例中，基于上述方案抽取文本、图像帧、音频帧特征，然后经过上述模型输出视频低端等级以及相应的等级概率，如低端等级数量k为5，模型对当前视频输出1至k每个低端等级的概率为[0.05432093，0.53563935，0.18928528，0.13303354，0.0877209]，如果只从基于视频内容低端等级识别模型判断，此视频的低端等级为2级，对应的概率为0.53563935。
[0067]
基于上述实施例，在一应用实施例中，视频内容识别方法还包括：基于视频分发用户行为进行低端等级识别过程可以包括如下内容:
[0068]
如果只基于视频内容分类可能会存才视频内容界限比较模糊，模型与人工难以精确识别低端等级的情况，如果前期基于内容判断视频低端等级满足推荐分发阈值，当视频被多次推荐分发后，若视频有较高的播放率、播放完成度等，说明视频确实不属于低端视频，反之，视频可能存在潜在的低端风险。
[0069]
通过对推荐池中视频统计视频的播放率(播放次数/曝光次数)以及播放完成率(总播放时长/被用户看过的时长)，将c1*播放率 c2*播放完成率定义为视频的分发行为分数，其中c1、c2为权重，c1 c2＝1，将视频的行为分数划分为k个行为低端等级区间，如[0，0.2]为低端k级别，[0.8，1.0]为低端1等级。然后基于推荐池中视频以及其相应的行为低端等级训练视频低端识别模型，模型的输入特征为视频的多维度特征，分类输出目标为视频的分发行为低端等级，在模型中输入的语料为视频及视频对应的分数的等级；模型输出的目标为输出视频是低端视频分类的概率。
[0070]
在本实施例中，如图7所示，可以通过如下步骤来获取低端视频分类的概率，步骤s702，输入视频数据；步骤s704，提取视频多维度特征；步骤s706，通过全连接层将视频划分为k个行为低端等级；步骤s708，得到视频多模态向量；步骤s710，然后得到分发用户行为视频低端分类。
[0071]
在对用户上传的视频进行低端等级识别时，可以抽取文本、图像帧、音频帧等多维度特征，然后经过上述模型输出基于用户行为预测的视频低端等级以及相应的等级概率，如低端等级数量k为5，模型对当前视频输出1至k每个低端等级的概率为[0.06821877999999992，0.08823278，0.09661109，0.19159416，0.55534319]，如果只基于用户行为低端等级识别模型判断，此视频的低端等级为5，对应的概率为0.55534319。在一
实施例中，在对用户上传的视频进行低端等级识别时，如图8所示，可以通过以下步骤：步骤s802，从视频推荐池中获取视频；步骤s804，将视频进行分发、曝光、点击等；然后进入步骤s806，进行模型学习；步骤s808，得到基于视频内容低端识别模型；步骤s810，获取待识别视频；步骤s812，基于视频内容低端识别模型对待识别视频中的用户行为进行低端预估；步骤s814，将预估后的视频进行标注确认后得到低端视频库。
[0072]
基于上述实施例，在一应用实施例中，视频内容识别方法还包括：
[0073]
综合视频多维度内容与用户行为对视频进行低端等级识别包括如下内容：为了提升低端识别的覆盖率与精确率，可结合使用基于视频多维度内容识别模型与基于用户行为的低端识别模型，视频低端等级概率＝x1*基于视频多维度内容识别模型低端概率 x2*基于用户行为的低端识别模型低端概率，其中x1 x2＝1，取融合后的视频低端等级概率为视频最终的低端等级。当超过一定低端等级时，可不对此视频进行分发。
[0074]
本发明实施例在基于视频多维度内容识别基础上，结合视频分发情况构建低端等级识别模型，通过用户行为预测分析，提升视频低端识别能力，降低人工识别标注成本，进一步提升视频平台的整体视频质量。
[0075]
根据本发明实施例的另一个方面，还提供了一种用于实施上述视频内容识别方法的视频内容识别装置。如图9所示，该装置包括：
[0076]
融合单元902，用于对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到所述对象视频对应的多模态视频特征向量；
[0077]
第一获取单元904，用于根据所述多模态视频特征向量及基于第一识别标签确定出的第一权重集，获取第一等级识别参数集，其中，所述第一识别标签为按照等级定义生成的等级识别标签，所述第一等级识别参数集用于指示所述对象视频按照所述第一识别标签划分至各个内容质量等级的概率；
[0078]
第二获取单元906，用于根据所述多模态视频特征向量及基于第二识别标签确定出的第二权重集，获取第二等级识别参数集，其中，所述第二识别标签为按照用户播放行为系数生成的等级识别标签，所述第二等级识别参数集用于指示所述对象视频按照所述第二识别标签划分至各个内容质量等级的概率；
[0079]
确定单元908，用于根据所述第一等级识别参数集及所述第二等级识别参数集，确定所述对象视频匹配的目标内容质量等级。
[0080]
在本发明实施例中，待识别对象视频可以包括但不限于任一视频平台上的电影，电视剧，各种长短视频等，这里多维特征可以包括但不限于视频的文本特征，图像特征，或音频特征等；在此不做限定。多模态视频特征向量包括但不限于，文本特征中包含的对文本进行分词和向量转化处理，得到的词向量序列，以及对该词向量序列进行编码处理的处理结果向量；图像特征中，各个主体关键帧输入具备时间序列融合能力的图像识别模型得到的特征；音频特征中，各个音频帧输入具备时间序列融合能力的音频识别模型中得到的特征。
[0081]
在本发明实施例中，第一识别标签可以包括但不限于预设的不同档次的等级，第一等级识别参数集用于指示对象视频按照第一识别标签划分至各个内容质量等级的概率；例如第一识别标签可以分为1
‑
5，5个等级；该5个等级对应的低端等级概率为[0.12，0.52，0.36，0.08，0.19]，也就是说，1级识别标签对应的低端等级概率为0.12，2级识别标签对应
的低端等级概率为0.52，3级识别标签对应的低端等级概率为0.36，4级识别标签对应的低端等级概率为0.08，5级识别标签对应的低端等级概率为0.19。
[0082]
在本发明实施例中，第二识别标签可以包括但不限于，通过对推荐池中视频统计视频的播放率(播放次数/曝光次数)以及播放完成率(总播放时长/被用户看过的时长)，定义按照用户播放行为系数生成的等级识别标签。这里，将c1*播放率 c2*播放完成率定义为视频的分发行为分数，其中c1、c2为权重，c1 c2＝1，将视频的行为分数划分为k个行为低端等级区间，如[0，0.2]为低端k级别，也就是说从0至0.2为低端k级别对应的概率范围，[0.8，1.0]为低端1等级；从0.8至1为低端1级别对应的概率范围。按照用户播放行为系数生成的等级识别标签，第二等级识别参数集包含为从低端1等级至低端k级别的不同概率的合集。
[0083]
在本发明实施例中，可以包括但不限于利用如下方法来实现对象视频匹配的目标内容质量等级；视频低端等级概率＝x1*基于视频多维度内容识别模型低端概率 x2*基于用户行为的低端识别模型低端概率，其中x1 x2＝1，取融合后的视频低端等级概率为视频最终的低端等级。这里，基于视频多维度内容识别模型低端概率可以包括但不限于第一等级识别参数集，基于用户行为的低端识别模型低端概率可以包括但不限于为第二等级识别参数集。
[0084]
在本发明实施例中，采用对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到上述对象视频对应的多模态视频特征向量；根据上述多模态视频特征向量及基于第一识别标签确定出的第一权重集，获取第一等级识别参数集，其中，上述第一识别标签为按照等级定义生成的等级识别标签，上述第一等级识别参数集用于指示上述对象视频按照上述第一识别标签划分至各个内容质量等级的概率；根据上述多模态视频特征向量及基于第二识别标签确定出的第二权重集，获取第二等级识别参数集，其中，上述第二识别标签为按照用户播放行为系数生成的等级识别标签，上述第二等级识别参数集用于指示上述对象视频按照上述第二识别标签划分至各个内容质量等级的概率；根据上述第一等级识别参数集及上述第二等级识别参数集，确定上述对象视频匹配的目标内容质量等级的方式，通过从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到对象视频对应的多模态视频特征向量，以及根据多模态视频特征向量获取第一等级识别参数集及第二等级识别参数集，确定对象视频匹配的目标内容质量等级，达到了提示视频低端识别能力的目的，从而实现了提升低端识别的覆盖度与精确度，降低人工识别标注成本，提升平台的整体视频质量，以及提高用户对平台视频的观感的技术效果，进而解决了视频内容识别准确性较低的技术问题。
[0085]
根据本发明实施例的又一个方面，还提供了一种用于实施上述视频内容识别方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为例来说明。如图10所示，该电子设备包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
[0086]
可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
[0087]
可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：
[0088]
s1，对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到对象视频对应的多模态视频特征向量；
[0089]
s2，根据多模态视频特征向量及基于第一识别标签确定出的第一权重集，获取第一等级识别参数集，其中，第一识别标签为按照等级定义生成的等级识别标签，第一等级识别参数集用于指示对象视频按照第一识别标签划分至各个内容质量等级的概率；
[0090]
s3，根据多模态视频特征向量及基于第二识别标签确定出的第二权重集，获取第二等级识别参数集，其中，第二识别标签为按照用户播放行为系数生成的等级识别标签，第二等级识别参数集用于指示对象视频按照第二识别标签划分至各个内容质量等级的概率；
[0091]
s4，根据第一等级识别参数集及第二等级识别参数集，确定对象视频匹配的目标内容质量等级。
[0092]
可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置电子设备也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图10其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。
[0093]
其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的视频内容识别方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频内容识别方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于存储对象视频对应的多模态视频特征向量等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述视频内容识别装置中的融合单元902、第一获取单元904、第二获取单元906及确定单元908。此外，还可以包括但不限于上述视频内容识别装置中的其他模块单元，本示例中不再赘述。
[0094]
可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(network interface controller，nic)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
[0095]
此外，上述电子设备还包括：显示器1008，用于显示上述多模态视频特征向量信息；和连接总线1010，用于连接上述电子设备中的各个模块部件。
[0096]
在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(p2p，peer to peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
[0097]
根据本技术的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使
得该计算机设备执行上述地表仿真画面的显示方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0098]
可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：
[0099]
s1，对从待识别的对象视频的视频内容中提取到的多维特征进行融合，以得到对象视频对应的多模态视频特征向量；
[0100]
s2，根据多模态视频特征向量及基于第一识别标签确定出的第一权重集，获取第一等级识别参数集，其中，第一识别标签为按照等级定义生成的等级识别标签，第一等级识别参数集用于指示对象视频按照第一识别标签划分至各个内容质量等级的概率；
[0101]
s3，根据多模态视频特征向量及基于第二识别标签确定出的第二权重集，获取第二等级识别参数集，其中，第二识别标签为按照用户播放行为系数生成的等级识别标签，第二等级识别参数集用于指示对象视频按照第二识别标签划分至各个内容质量等级的概率；
[0102]
s4，根据第一等级识别参数集及第二等级识别参数集，确定对象视频匹配的目标内容质量等级。
[0103]
可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read
‑
only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
[0104]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0105]
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
[0106]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0107]
在本技术所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0108]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0109]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0110]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图像处理方法、装置、计算机设备和存储介质与流程

视频内容识别方法和装置、存储介质及电子设备与流程

相关文献

最热文献