一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向社交视频直播的异常事件检测方法与流程

2022-03-16 16:44:12 来源:中国专利 TAG:


1.本发明属于计算机多媒体技术领域,具体涉及一种面向社交视频直播的异常事件检测方法。


背景技术:

2.随着智能手机和5g网络的普及,在线社交视频直播深刻地影响了人们的日常生活。作为偏离视频直播正常行为的现象,异常事件的出现往往表明直播方或观众行为发生了显著变化,同时也会引起双方的更活跃的互动。例如,在直播带货中,异常事件可能表示主播提出引起观众兴趣的软广告或者大型在线购买活动。发现异常事件有助于企业分析用户反馈,改进视频直播制作计划和产品,从而促进品牌销售。对于舆情分析,通过统计大量检测出的异常事件,快速掌握网络局部热点,从而帮助职能部门做出高效反应。在网络课堂中,讲师可以通过监控直播视频流的异常事件,及时了解他们的演讲是否对学生有吸引力,从而调整教学的内容和方式,进一步提升在线学生的体验,提高教学质量。在计算机视觉领域中,传统的异常检测技术根据视频内容识别异常事件。更广泛地来说,异常事件能够转化为多种问题,例如银行欺诈、产品结构缺陷、医疗问题或文本中的错误,这些问题同样是现实世界中常见的。
3.然而在社交视频直播中,主播的特殊行为只是他们自己在虚拟世界中的行为,如果没有对他们行为的反应,就无法与任何有意义的现实世界事件联系起来。因此在处理实际的社交视频直播数据时,需要注意异常事件与影响者的行为和观众的反应都有关,如果没有观众的参与,异常事件就无法得到适当的描述。因此,对于这样一种新的媒体形式,传统的异常检测技术无法正常工作。如何有效监控社交直播视频流上的异常事件已成为一个重要的研究问题。
4.尽管已经进行了许多关于异常事件检测的研究,但这仍然是一项具有挑战性的任务。异常事件检测有三种方法:传统的统计方法、监督方法和无监督方法。早期方法通过高斯混合建模(gmm)、隐马尔可夫模型(hmm)、基于knn的方法、parzen密度估计和聚类方法解决异常事件检测。对于这些方法中的大多数,它们通过数据的统计特性对数据进行建模,并利用这些信息来估计测试样本是否来自相同的分布。然而这些方法在很难应用于大数据的场合,检测时需要较大开销,同时深度学习算法具有更好的表现。本发明提出的检测算法的核心模块,特征提取、异常检测、动态更新均是基于前沿深度学习网络,能从大量数据中高效地挖掘有用信息。
5.对于异常事件检测来说,尽管很难标记异常数据,但由于其高性能,仍然有许多基于监督学习的检测算法。dual-cnn首先按类型区分液体和电子设备,然后再对其进行异常物筛查。pereira等人提出了一个通用的、无监督的且可扩展的框架,用于时间序列数据中的异常检测。引入变分自注意力机制以提高编码、解码过程的性能。由于上述研究以有监督的方式训练了异常检测模型,因此它们面临着数据不平衡和对未定义异常事件容易误判等几个问题。本发明通过引入观众互动行为,仅对正常事件进行标注并用于训练,避免了实际
使用时产生高额的标注开销,同时动态更新机制能持续维持模型的检测效率。
6.过去几年已经提出了大量用于异常检测的无监督机器学习算法。一般来说,核心思想是异常事件是多种多样的并且只是偶尔发生,而正常事件的模式往往是有限的。因此大量研究选择学习正常事件在特征空间的分布,并用于测量待测事件与学习到的分布之间的“距离”以确定它是正常还是异常。dare]通过无监督的自动编码器学习重建方式,首先将数据转换为低维特征,然后由自动编码器重构,内点(inliers)往往比离群点(outliers)具有更小的重构误差。anogan基于深度生成对抗网络(generative adversarial network,gan)。通过同时训练一个生成模型和一个鉴别器,它能够以无监督的方式识别异常事件。zenati等人同样利用修改后的gan方法在训练期间同时学习编码器和异常检测器。然而这些方法都没有考虑社交视频直播的情况,忽视了实时的观众互动所携带的信息,特别是观众互动可能影响主播并间接塑造视频直播的内容。为了解决这个问题,发明人提出了新的coupling-lstm网络将实时评论用来改进异常事件检测。与其他异常检测方法(详见具体实施方式部分)相比,它显示出突出的性能优势。


技术实现要素:

7.本发明的目的是为了解决社交视频直播中的异常事件检测问题,提出了一种面向社交视频直播的异常事件检测方法。
8.本发明的技术方案是:一种面向社交视频直播的异常事件检测方法包括以下步骤:
9.s1:采集直播视频,并提取观众互动特征和主播动作特征;
10.s2:根据观众互动特征和主播动作特征,利用耦合长短期记忆网络模型生成重构特征,并计算重构误差,获取直播视频的异常得分,将异常得分大于预设得分阈值的直播视频判定为存在异常事件;
11.s3:对耦合长短期记忆网络模型进行动态更新,并利用最新的耦合长短期记忆网络模型进行异常事件检测。
12.进一步地,步骤s1包括以下子步骤:
13.s11:采集直播视频,并在窗口内生成观众互动评论;
14.s12:将观众互动评论大于设定自适应阈值的视频作为异常视频片段;
15.s13:在异常视频片段中,利用resnet50-i3d网络提取主播动作特征和观众互动特征。
16.进一步地,步骤s1l中,窗口ws的表达式为:
17.ws=[d
t-s
,d
t-s 1


,d
t s
]
[0018]
其中,d
t-s
,d
t-s 1
,...,d
t s
表示时刻t-s到时刻t s的观众互动数量;
[0019]
步骤s11中,观众互动评论d
t
的表达式为:
[0020]dt
=∑di,di∈ws[0021]
其中,di表示时刻i的观众互动数量;
[0022]
步骤s13中,主播动作特征x的表达式为:
[0023]
x∈rn×d[0024]
其中,n表示特征个数,r表示实数空间,d表示主播动作特征的维度,
[0025]
步骤s13中,观众互动特征a的表达式为:
[0026]
a∈rn×k[0027]
其中,k表示观众互动特征的维度。
[0028]
进一步地,步骤s2包括以下子步骤:
[0029]
s21:根据观众互动特征和主播动作特征,构建耦合长短期记忆网络模型;
[0030]
s22:对耦合长短期记忆网络模型进行联合训练,利用联合训练后的耦合长短期记忆网络模型生成重构特征,并计算重构误差,将重构误差作为直播视频的异常得分,将异常得分大于预设得分阈值的直播视频判定为存在异常事件。
[0031]
进一步地,步骤s21中,耦合长短期记忆网络模型中,主播动作行为的隐藏状态h
t
和观众互动行为的隐藏状态g
t
的表达式分别为:
[0032]ht
=lstm
x
(x
t
,g
t-1
,h
t-1
)
[0033]gt
=lstma(a
t
,h
t-1
,g
t-1
)
[0034]
其中,x
t
表示主播动作的当前输入特征,a
t
表示观众互动的当前输入特征,g
t-1
表示前一时刻观众互动行为的隐藏状态,h
t-1
表示前一时刻主播动作行为的隐藏状态,lstm
x
(
·
)表示主播动作特征的lstm层函数,lstma(
·
)表示观众互动特征的lstm层函数。
[0035]
进一步地,步骤s22中,对耦合长短期记忆网络模型进行联合训练的具体方法为:根据主播动作特征x和观众互动特征a生成重构特征,根据重构特征生成损失函数l(x,a),根据损失函数l(x,a)生成目标函数loss,进行联合训练,其中,表示重构的主播动作特征,表示重构的观众互动特征。
[0036]
进一步地,重构特征的表达式为:
[0037][0038]
其中,表示重构的主播动作特征,表示重构的观众互动特征,m(
·
)表示耦合长短期记忆网络模型,x表示主播动作特征,a表示观众互动特征,ω表示耦合长短期记忆网络模型中所有需要训练的参数;
[0039]
损失函数l(x,a)的表达式为:
[0040][0041]
其中,λ1表示主播动作控制项权重的超参数,λ2表示观众互动控制项权重的超参数,mse(
·
)表示均方误差运算;
[0042]
目标函数loss的表达式为:
[0043]
loss=l(x,a) ||w||f[0044]
其中,||w||f表示模型m的权重矩阵。
[0045]
进一步地,步骤s22中,直播视频的异常得分score
t
的计算公式为:
[0046][0047]
其中,表示重构的t时刻特征,x
t
表示真实的t时刻特征。
[0048]
进一步地,步骤s3中,对耦合长短期记忆网络模型进行动态更新的具体方法为:在设定时间段t内,计算特征空间的变化度,若特征空间的变化度大于设定阈值θ,则更新耦合长短期记忆网络模型,否则不更新。
[0049]
进一步地,步骤s3中,特征空间的变化度e
t
的计算公式为:
[0050][0051]
其中,t={t1,t2,...,ts},sim(
·
)表示相似度运算,ei表示时刻i的特征结构,表示时刻ts的特征结构,ts表示设定时间段t的最终时刻,t1表示设定时间段t的初始时刻。
[0052]
本发明的有益效果是:
[0053]
(1)本发明提出了基于耦合长短期记忆网络的异常检测方法,充分考虑了主播行为与观众行为之间的相互影响,采用自编码器的思路,将重构误差作为异常程度的评分。最后,引入动态更新机制,旨在监控输入数据并设置相应条件,对使用中的模型进行持续地微调更新,以提高系统鲁棒性;
[0054]
(2)本发明通过引入观众互动行为,仅对正常事件进行标注并用于训练,避免了实际使用时产生高额的标注开销,同时动态更新机制能持续维持模型的检测效率。
附图说明
[0055]
图1为异常事件检测方法的流程图;
[0056]
图2为本发明实施例中归一化后的受众互动曲线图;
[0057]
图3为本发明实施例中特征空间的变化曲线图。
具体实施方式
[0058]
下面结合附图对本发明的实施例作进一步的说明。
[0059]
如图1所示,本发明提供了一种面向社交视频直播的异常事件检测方法,包括以下步骤:
[0060]
s1:采集直播视频,并提取观众互动特征和主播动作特征;
[0061]
s2:根据观众互动特征和主播动作特征,利用耦合长短期记忆网络模型生成重构特征,并计算重构误差,获取直播视频的异常得分,将异常得分大于预设得分阈值的直播视频判定为存在异常事件;
[0062]
s3:对耦合长短期记忆网络模型进行动态更新,并利用最新的耦合长短期记忆网络模型进行异常事件检测。
[0063]
在本发明实施例中,通过利用主播行为、观众行为以及两者的相互影响,从而构建了设用于新兴场景的异常检测任务。特征提取在大多数计算机视觉相关任务中起着至关重要的作用。由于使用了大规模视频数据集,预训练的3d-cnn模型在视频识别方面获得了很好的性能。因此,采用在kinetcis400上预训练的resnet50-i3d模型作为动作特征提取器;同时,为了表示观众互动行为,设置了k-元组特征,表示k个时刻与视觉内容相关的实时评论累计数量。
[0064]
从时间方面考虑,这些连续的特征彼此之间具有很强的相关性。为了识别数据序
列中的模式,使用了lstm,它是rnn(循环神经网络)最著名的变体。主播动作特征和观众交互特征可以分别输入lstm,分别提取相应信息。然而在直播视频流中,主播动作和观众互动可能会相互影响。为解决这个问题,对两个lstm进行桥接。在给定时间段内,当前的观众互动行为的潜在状态应该由先前的隐藏状态、当前输入的互动特征和先前主播行为的隐藏状态共同影响。对于主播行为,采用类似的处理,使用当前动作特征、先前的观众和主播行为隐藏状态生成当前主播行为隐藏状态。这个新型的lstm模型被称为coupling-lstm,它充分利用了在线社交视频流的数据特点。
[0065]
从实际情况来看,观众的兴趣会随着时间的推移而发生变化,例如主播可能通过多次使用特定的手势来吸引观众,但观众迟早将不再做出特别的反馈;另一种情况是播出内容发生很大变化。这两种情况都可能改变数据集的特征空间,所以需要更新模型。为了减少计算开销,利用异常检测器中的编码器输出的隐藏状态作为数据的结构。在一段时间内通过计算测量结构之间的相似性,来衡量当前的特征空间是否发生较大改变,从而选择更新模型的时机。
[0066]
在本发明实施例中,步骤s1包括以下子步骤:
[0067]
s11:采集直播视频,并在窗口内生成观众互动评论;
[0068]
s12:将观众互动评论大于设定自适应阈值的视频作为异常视频片段;
[0069]
s13:在异常视频片段中,利用resnet50-i3d网络提取主播动作特征和观众互动特征。
[0070]
在本发明中,关注的观众互动行为是实时评论,例如直播时的聊天弹幕。它们可以被视为一种互动,以展示观众对某些视频内容的感受,观众在观看视频时进行实时评论,每条评论都带有时间戳。与传统的标签或评论相比,实时评论与时间轴上的视频内容更相关。值得注意的是,实时评论可以对视频内容产生影响。例如实时聊天频道中,主播对观众互动做出反馈是很常见的情况。直观上,当视频内容吸引观众注意力并引发互动时,则认为此时包含异常事件。为了利用t时刻的观众互动,需要对观众互动进行量化。首先累积计算在窗口ws内生成的实时评论:d
t
=∑di,di∈ws,其中ws=[d
t-s
,d
t-s 1
,...,d
t s
]。为了标记视频的异常和正常部分,利用观众互动采用自适应阈值来分割视频。观众互动较少的片段被视为正常部分;对于其余部分,手动标记异常片段。
[0071]
对于给定的视频片段ci,采用在kinetcis400上预训练的resnet50-i3d网络模型作为动作特征提取器得到动作特征xi。为了表示观众互动,设置了三元组ai=[d
i-1
,di,d
i 1
]。
[0072]
在本发明实施例中,步骤s11中,窗口ws的表达式为:
[0073]ws
=[d
t-s
,d
t-s 1


,d
t s
]
[0074]
其中,d
t-s
,d
t-s 1
,...,d
t s
表示时刻t-s到时刻t s的观众互动数量;
[0075]
步骤s11中,观众互动评论d
t
的表达式为:
[0076]dt
=∑di,di∈ws[0077]
其中,di表示时刻i的观众互动数量;
[0078]
步骤s13中,主播动作特征x的表达式为:
[0079]
x∈rn×d[0080]
其中,n表示特征个数,r表示实数空间,d表示主播动作特征的维度,
[0081]
步骤s13中,观众互动特征a的表达式为:
[0082]
a∈rn×k[0083]
其中,k表示观众互动特征的维度。
[0084]
在本发明实施例中,步骤s2包括以下子步骤:
[0085]
s21:根据观众互动特征和主播动作特征,构建耦合长短期记忆网络模型;
[0086]
s22:对耦合长短期记忆网络模型进行联合训练,利用联合训练后的耦合长短期记忆网络模型生成重构特征,并计算重构误差,将重构误差作为直播视频的异常得分,将异常得分大于预设得分阈值的直播视频判定为存在异常事件。
[0087]
在本发明实施例中,首先提取主播动作特征x∈rn×d和观众互动特征a∈rn×k。从时间方面考虑,这些连续的特征彼此之间具有很强的相关性。为了识别其中的模式,使用了lstm来挖掘时序中的有效信息。动作特征x和交互特征a分别输入lstm,就能够抓住其中特征分布。但为了能够充分利用直播视频流中主播行为和观众互动可能会相互影响,桥接了两个lstm,它充分利用了在线社交视频流。之后,采用编码器从h
t
生成“预测”,从g
t
生成
[0088]
在本发明实施例中,步骤s21中,耦合长短期记忆网络模型中,主播动作行为的隐藏状态h
t
和观众互动行为的隐藏状态g
t
的表达式分别为:
[0089]ht
=lstm
x
(x
t
,g
t-1
,h
t-1
)
[0090]gt
=lstma(a
t
,h
t-1
,g
t-1
)
[0091]
其中,x
t
表示主播动作的当前输入特征,a
t
表示观众互动的当前输入特征,g
t-1
表示前一时刻观众互动行为的隐藏状态,h
t-1
表示前一时刻主播动作行为的隐藏状态,lstm
x
(
·
)表示主播动作特征的lstm层函数,lstma(
·
)表示观众互动特征的lstm层函数。
[0092]
在本发明实施例中,步骤s22中,对耦合长短期记忆网络模型进行联合训练的具体方法为:根据主播动作特征x和观众互动特征a生成重构特征,根据重构特征生成损失函数l(x,a),根据损失函数l(x,a)生成目标函数loss,进行联合训练,其中,表示重构的主播动作特征,表示重构的观众互动特征。
[0093]
在本发明实施例中,步骤s22中,重构特征的表达式为:
[0094][0095]
其中,表示重构的主播动作特征,表示重构的观众互动特征,m(
·
)表示耦合长短期记忆网络模型,x表示主播动作特征,a表示观众互动特征,ω表示耦合长短期记忆网络模型中所有需要训练的参数;
[0096]
损失函数l(x,a)的表达式为:
[0097][0098]
其中,λ1表示主播动作控制项权重的超参数,λ2表示观众互动控制项权重的超参数,mse(
·
)表示均方误差运算;
[0099]
目标函数loss的表达式为:
[0100]
loss=l(x,a) ||w||f[0101]
其中,||w||f表示模型m的权重矩阵。
[0102]
生成模型通常会估计与输入相似程度作为评判标准。因此,本发明根据重构误差来制定损失函数。此外,对应两个lstm采用联合训练的方式来训练模型。均方误差(mse)用于计算输入和重构的输出之间的误差。损失函数由两个项组成,分别表示主播动作和观众互动特征的重构误差。为了避免过拟合,最终的目标函数被公式化为loss=l(x,a) ||w||f。
[0103]
在本发明实施例中,步骤s22中,直播视频的异常得分score
t
的计算公式为:
[0104][0105]
其中,表示重构的t时刻特征,x
t
表示真实的t时刻特征。
[0106]
在本发明实施例中,步骤s3中,对耦合长短期记忆网络模型进行动态更新的具体方法为:在设定时间段t内,计算特征空间的变化度,若特征空间的变化度大于设定阈值θ,则更新耦合长短期记忆网络模型,否则不更新。
[0107]
动态更新机制则是监控输入数据特征空间中的变化,并设置条件适时对模型进行微调。为了减少计算开销,利用编码器的嵌入层在t时刻的输出e
t
作为数据结构。因为它伴随异常事件检测时产生,并且具有相对较低的维度。在时间段t={t1,t2,...,ts}中,通过测量数据结构之间的相似性来计算特征空间中的变化。设置一个阈值θ来确定模型是否需要更新。因为只学习正常部分的模式,所以同时使用观众互动的信息来选择正常部分并更新模型。
[0108]
在本发明实施例中,步骤s3中,特征空间的变化度e
t
的计算公式为:
[0109][0110]
其中,t={t1,t2,...,ts},sim(
·
)表示相似度运算,ei表示时刻i的特征结构,表示时刻ts的特征结构,ts表示设定时间段t的最终时刻,t1表示设定时间段t的初始时刻。
[0111]
下面结合具体实施例来验证本发明技术方案的有效性。
[0112]
首先收集视频,收集的视频包含弹幕、标签和评论等。在本发明中,总共收集了三种类型的视频:带货(influencer)视频、演说(speech)视频和ted演讲视频。带货视频的内容主要是网红主播对各种产品进行推广,演说视频包含正式的演讲或报告ted演讲视频是演讲者于舞台上进行展示。对于数据集的所有视频,首先调整原始视频的尺寸,然后利用它们生成片段。带货视频一共分为4709个片段,演说视频数据集包含1022个片段,ted演讲视频数据集包含5025个片段。相应的实时评论数量也显示在“弹幕互动”列中。对于所有数据集,每个片段由64帧组成,调整后的分辨率为480
×
480。为了标记视频的异常和正常部分,首先采用自适应阈值根据观众互动的强度来分割视频。观众互动较少的片段被视为正常部分,对于其余部分,通过手动标记得到异常部分。处理后,带货视频数据集分为3389个观众反应小的片段和707个观众互动高的片段;同样,演说视频数据集分为382个观众反应小的片段和261个观众互动高的片段。ted演讲视频数据集由588个异常片段和3869个普通片段组成。在训练阶段,80%的正常片段用作训练集,测试集由其余20%和所有异常片段组成。
数据集总体情况如表1所示:
[0113]
表1
[0114]
数据集视频样例正常样例异常样例弹幕互动带货视频4709338970725971演说视频102238226116191ted演讲视频5025386958811777
[0115]
为了估计基于lstm-vae模型(可变自动编码器)的性能,本发明沿用之前异常检测工作中常用的评判标准,报告了实验的f1-score和auroc。f1-score定义如下:
[0116][0117]
其中,
[0118]
接收器操作特征曲线(roc)和相应的曲线下面积(auroc)同样在异常事件检测工作中被广泛使用。auroc的值越大,说明模型在判断异常方面的性能就越好。
[0119]
为了证明提出方法的有效性,首先将三种竞争类型的异常检测算法与三种基于clstm的算法进行比较:
[0120]
scl是一种经典的基于稀疏性的异常检测方法,通过找到一个稀疏基组合集来表示正常事件。ltr是一种经典的基于自动编码器的方法,它通过对事件的重构误差来检测是否存在异常。vec是一种目前最先进的视频异常检测方法,它通过人为抹除视频序列中的片段,训练dnn从不完整的视频事件中推断出已擦除的部分,从而得到一个异常事件检测器。是一个基于lstm的网络,它只处理主播动作特征并进行异常检测。clstm-a是基于本发明提出的方法,只考虑了主播行为对观众互动的影响。clstm-b是基于本发明提出的方法,考虑了主播行为与观众互动之间的相互影响。
[0121]
特别地,对于clstm模型设计了三种配置。仅利用主播动作特征作为异常事件检测的输入,其隐藏状态更新公式为h
t
=lstm
x
(x
t
,h
t-1
)。clstm-a是一种耦合模型,采用联合训练用观众互动和主播动作同时训练两个lstm,并引入主播动作对观众互动的影响g
t
=lstma(a
t
,h
t-1
,g
t-1
)。clstm-b处理观众互动和视频内容相互影响的情况,主播动作隐藏状态更新公式为h
t
=lstm
x
(x
t
,g
t-1
,h
t-1
)。表2展示了对比算法在三个数据集上的auroc。
[0122]
表2
[0123][0124]
由表2可知,首先,提出的clstm方法在所有数据集上都优于现有的最先进方法。具体来说,提出的模型在三个数据集上相对于最先进的方法获得了>3%、>2%和>3%的auroc改进。对于带货数据集,视频内容和观众互动是相互影响的,因此在数据集上采用clstm-b并获得最佳性能。同时,所有方法在演说数据集上的检测结构都相对较差。与其他两个数据集相比,演讲视频的片段中的主播动作幅度较小,所以无论是正常还是异常片段,在视觉上都是相似的。一般来说,基于深度网络的方法性能优于传统方法(ltr),ltr很难捕获所有数据集的信息,尤其是演说视频数据集。考虑到和clstm-a之间的比较,可以注意到虽然lstm
x
中没有直接利用观众交互信息,但耦合结构以及联合训练改进了训练过程并获得了比单个lstm的模型更好的性能。因此,与经典和最先进的异常事件检测方法相比,所提出的clstm方法在所有数据集上都获得了最佳性能。
[0125]
表3
[0126]
模型名称带货视频演说视频ted演讲视频clstm-a79.6472.7177.20clstm-b80.1072.4177.00
[0127]
利用观众互动行为是本发明的核心问题,实验同样研究了训练阶段和测试阶段引入观众互动的影响。如表2所示,在带货视频数据集上clstm-b取得了比clstm-a更好的表现,这是因为带货视频是通过实时直播流生成,并伴有实时评论。观众可以通过发送实时评论来影响视频内容。相反,演说视频和ted演讲视频数据集的实时评论是上传到视频平台后才发送的。为了进一步研究,在演说视频和ted演讲视频数据集上采用了clstm-b,结果如表3所示。可以观察到在这两个数据集上,clstm-b获得较低的auroc分数,这符合视频内容与观众互动之间的相关性,对于在没有任何观众互动的情况下创作的视频,引入观众互动反而会增加训练阶段的无关信息导致模型效率下降。此外,对于带货视频数据集上的clstm-b,在测试阶段可以选择是否使用观众交互信息。为了研究其效果,首先像训练阶段一样将相应的受众交互特征输入clstm-b中,auroc得分为80.0953%;然后用零向量替换观众互动特征,得到80.0939%的auroc。通过这种微小的改进,证明可以利用观众互动并在测试阶段
做出贡献。
[0128]
表4
[0129]
数据集正常样例(
×
10-4
)异常样例(
×
10-4
)所有样例(
×
10-4
)带货视频1.85810.9556.228演说视频0.30317.61212.298ted演讲视频0.1451.3940.640
[0130]
同时,实验也对观众互动预测的表现进行了报告。归一化后的受众互动曲线如图2所示。图2(a)对应带货视频,图2(b)对应演说视频,图2(c)对应ted视频。由于通过随机选择生成训练集和验证集,曲线的对应部分波动频繁,但在相似的范围内(图中竖向的虚线左侧部分)。对于右侧,如果是来自同一视频的连续片段的观众互动呈现平滑曲线,而不同来源的片段则会产生急剧变化。此外,表4给出了正常部分、异常部分和整个测试部分的平均重构误差。首先,对于所有数据集,正常部分的重构误差与异常部分有很大不同,特别是对于影响者和语音数据集。这表明所提出的模型学习了正常观众交互特征的模式。此外,模型在语音数据集上获得了最大的重构误差,不过预测曲线仍然与真实互动情况保持相似的趋势,如图2所示。实验仅使用部分正常片段训练clstm模型,因此正常片段和异常片段的观众互动之间可能存在隐式相关性。
[0131]
为了测试动态更新的性能,通过组合三个数据集的测试数据来构造人造测试集,以保证特征分布发生变化。如表5所示,单独训练的clstm模型没有一个在人工测试集上获得超过70%的auroc分数。因此,利用编码器嵌入层的输出来测量特征空间的变化,并通过将阈值θ从0变化到1来研究它的影响。如图3所示,当θ从0增加到0.4时,模型采用更新机制后有效性大大提高,并在0.4后增幅较少。这是因为预测模型会随θ增加而更频繁地更新,这让模型很好地更新了正常事件的“模板”。当θ增加到1时,预测模型会针对每个时间段进行更新。为了权衡系统的有效性和效率,θ被设置为0.4。
[0132]
表5
[0133][0134][0135]
本发明的工作原理及过程为:首先通过观众互动以及人工标注将视频片段分为正常片段和异常片段,利用动作识别网络(resnet),从原始视觉数据中提取包含短期时空信息的动作特征;同时将观众互动行为进行编码,得到相应特征。然后针对动作特征以及观众互动特征,提出了基于耦合长短期记忆网络的异常检测器,充分考虑了主播行为与观众行为之间的相互影响,采用自编码器的思路,将重构误差作为异常程度的评分。最后,引入动态更新机制,旨在监控输入数据并设置相应条件,对使用中的模型进行持续地微调更新,以
提高系统鲁棒性。
[0136]
本发明的有益效果为:
[0137]
(1)本发明提出了基于耦合长短期记忆网络的异常检测方法,充分考虑了主播行为与观众行为之间的相互影响,采用自编码器的思路,将重构误差作为异常程度的评分。最后,引入动态更新机制,旨在监控输入数据并设置相应条件,对使用中的模型进行持续地微调更新,以提高系统鲁棒性;
[0138]
(2)本发明通过引入观众互动行为,仅对正常事件进行标注并用于训练,避免了实际使用时产生高额的标注开销,同时动态更新机制能持续维持模型的检测效率。
[0139]
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献