一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

媒体资源异常播放检测方法和装置、电子设备和存储介质与流程

2022-02-19 06:48:54 来源:中国专利 TAG:


1.本技术涉及智能识别技术领域,尤其涉及一种媒体资源异常播放检测方法和装置、电子设备和存储介质。


背景技术:

2.随着线上多媒体技术的发展,通过优质的媒体资源(例如,视频、网文)可以达到较强的吸引用户的效果,并且由于媒体资源的点阅量越高,被推广的优先级越高,且得到的广告收益也越高,因此出现越来越多的对媒体资源进行刷量的情况;并且当前对媒体资源进行刷量呈现规模化、聚集化态势。
3.对于媒体资源进行刷量的识别,在相关技术中,最大难点在于对未知异常样本的发现和标注。由于没有足够的数据集作为训练样本,这使得刷量的媒体资源无法被很好的识别与追踪。
4.由此可见,相关技术中存在无法及时识别与追踪异常播放的媒体资源的问题。


技术实现要素:

5.为了解决上述无法及时识别与追踪异常播放的媒体资源的技术问题,本技术提供了一种媒体资源异常播放检测方法和装置、电子设备和存储介质。
6.第一方面,本技术实施例提供了一种媒体资源异常播放检测方法,包括:
7.确定出多个候选媒体资源中的异常媒体资源,其中,所述异常媒体资源为存在播放量异常的媒体资源;
8.对多个所述候选媒体资源进行集群定位分析,得到至少一个媒体资源集群,其中,每个所述媒体资源集群中包括至少一个所述候选媒体资源;
9.根据每个所述媒体资源集群中包含的所述异常媒体资源的数量,在至少一个所述媒体资源集群中确定异常媒体资源集群;
10.将所述异常媒体资源集群中的所述候选媒体资源确定为目标异常媒体资源。
11.可选地,如前述的方法,所述确定出多个候选媒体资源中的异常媒体资源包括:
12.对每个所述候选媒体资源的第一播放信息进行特征提取,得到每个所述候选媒体资源的播放特征;
13.对每个所述候选媒体资源的播放特征进行异常检测,得到每个所述候选媒体资源的异常检测结果;
14.按照每个所述候选媒体资源的所述异常检测结果,确定出多个所述候选媒体资源中的所述异常媒体资源。
15.可选地,如前述的方法,
16.所述对每个所述候选媒体资源的播放特征进行异常检测,得到每个所述候选媒体资源的异常检测结果包括:将每个所述候选媒体资源的播放特征分别输入多个异常检测模型中的每个异常检测模型进行异常检测,得到每个所述候选媒体资源的多个所述异常检测
结果,其中,所述异常检测结果与所述异常检测模型一一对应;
17.所述按照每个所述候选媒体资源的所述异常检测结果,确定出多个所述候选媒体资源中的所述异常媒体资源包括:基于每个所述候选媒体资源的多个所述异常检测结果,确定出多个所述候选媒体资源中的所述异常媒体资源,其中,所述异常媒体资源的至少一个所述异常检测结果用于指示所述异常媒体资源存在异常。
18.可选地,如前述的方法,所述确定出多个候选媒体资源中的异常媒体资源包括:
19.将多个所述候选媒体资源中的历史异常媒体资源,确定为所述异常媒体资源。
20.可选地,如前述的方法,所述对多个所述候选媒体资源进行集群定位分析,得到至少一个媒体资源集群包括:
21.基于每个所述候选媒体资源的第二播放信息对多个所述候选媒体资源进行相关性计算,在多个所述候选媒体资源中定位得到至少一个所述媒体资源集群,其中,每个所述候选媒体资源具有唯一对应的所述第二播放信息,同一个所述媒体资源集群中,任意两个所述候选媒体资源的所述第二播放信息之间的相关性大于或等于预设值。
22.可选地,如前述的方法,所述根据每个所述媒体资源集群中包含的所述异常媒体资源的数量,在至少一个所述媒体资源集群中确定异常媒体资源集群包括以下之一:
23.将包含的所述异常媒体资源的数量大于或者等于目标数量阈值的所述媒体资源集群,确定为所述异常媒体资源集群;
24.将包含的所述异常媒体资源的数量与包含的媒体资源的总数量的比例大于或者等于目标比例阈值的所述媒体资源集群,确定为所述异常媒体资源集群。
25.可选地,如前述的方法,在所述将所述异常媒体资源集群中的所述候选媒体资源确定为目标异常媒体资源之后,所述方法还包括:
26.对所述目标异常媒体资源的播放信息中的异常播放数据进行清洗,得到所述目标异常媒体资源清洗后的播放信息。
27.第二方面,本技术实施例提供了一种媒体资源异常播放检测装置,包括如下所述装置:
28.第一确定模块,用于确定出多个候选媒体资源中的异常媒体资源,其中,所述异常媒体资源为存在播放量异常的媒体资源;
29.集群定位模块,用于对多个所述候选媒体资源进行集群定位分析,得到至少一个媒体资源集群,其中,每个所述媒体资源集群中包括至少一个所述候选媒体资源;
30.第二确定模块,用于根据每个所述媒体资源集群中包含的所述异常媒体资源的数量,在至少一个所述媒体资源集群中确定异常媒体资源集群;
31.第三确定模块,用于将所述异常媒体资源集群中的所述候选媒体资源确定为目标异常媒体资源。
32.第三方面,本技术实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
33.所述存储器,用于存放计算机程序;
34.所述处理器,用于执行所述计算机程序时,实现如前述任一项所述的方法。
35.第四方面,本技术实施例提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行如前任一项所述的方法。
36.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:通过使用集群定位分析的方式对候选媒体资源进行异常检测,可以有效扩大异常检测的覆盖范围,并且通过先确定异常媒体资源集群,然后基于异常媒体资源集群确定目标异常媒体资源,可以通过发现存在异常的所有的媒体资源集群,定位得到所有存在较高异常概率的目标异常媒体资源,便于后期通过对目标异常媒体资源进行追踪,以确定各个候选媒体资源的真实播放数据。
附图说明
37.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
38.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
39.图1为本技术实施例提供的一种异常媒体资源检测方法的流程图;
40.图2为本技术另一实施例提供的一种异常媒体资源检测方法的流程图;
41.图3为本技术应用例提供的一种异常媒体资源检测方法的流程图;
42.图4为本技术实施例提供的一种异常媒体资源检测装置的框图;
43.图5为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
44.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
45.根据本技术实施例的一个方面,提供了一种媒体资源异常播放检测方法。可选地,在本实施例中,上述异常媒体资源检测方法可以应用于的由终端和服务器所构成的硬件环境中。服务器通过网络与终端进行连接,可用于为终端或终端上安装的客户端提供服务(如广告推送服务、应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器提供数据存储服务。
46.上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:wifi(wireless fidelity,无线保真),蓝牙。终端可以并不限定于为pc、手机、平板电脑等。
47.本技术实施例的资源分配方法可以由服务器来执行,也可以由终端来执行,还可以是由服务器和终端共同执行。其中,终端执行本技术实施例的属性信息的获取方法也可以是由安装在其上的客户端来执行。
48.以由目标服务器来执行本实施例中的媒体资源异常播放检测方法为例,图1为本技术实施例提供的一种媒体资源异常播放检测方法,包括如下所述步骤:
49.步骤s101,确定出多个候选媒体资源中的异常媒体资源,其中,异常媒体资源为存
在播放量异常的媒体资源。
50.本实施例中的异常媒体资源检测方法可以应用于需要在媒体资源集中识别出异常播放的媒体资源的场景,例如:识别刷量视频的场景、识别刷量歌曲的场景、识别刷量直播间的场景等,也可以是识别其他异常播放媒体资源的场景。本技术实施例中以视频为例说明上述的异常媒体资源检测方法,对于其他类型的媒体资源,在不矛盾的情况下,上述的异常媒体资源检测方法同样适用。
51.以刷量视频识别场景为例,通过对所有视频(即,候选媒体资源)进行异常识别,以确定所有视频中的目标异常视频(即,目标异常媒体资源)。
52.当存在对多个候选媒体资源中异常播放的媒体资源进行定位的需求(例如,当定期进行异常播放检测时,并且当前为异常检测的时间点)时,目标服务器可以先确定各个候选媒体资源的播放记录的存储区域;然后从该存储区域中读取得到各个候选媒体资源的播放信息,其中,候选媒体资源可以是各个需要判断是否存在播放量存在异常的媒体资源;最后,再基于各个候选媒体资源的播放信息,确定出多个候选媒体资源中的异常媒体资源。
53.异常媒体资源可以是被判定为存在播放量异常的候选媒体资源。可选地,可以基于各个候选媒体资源的播放信息对各个候选媒体资源进行判断,以确定其中播放量异常的候选媒体资源。
54.例如,可以先使用flink(一种分布式处理框架)从kafka(一种分布式日志系统)中实时采集各个端(例如,手机端、pc端、网页端)的用户观看视频的日志信息,包括点击日志,并将日志信息导入到hadoop(一种分布式系统基础架构)大数据平台上,使用hive数据仓库(基于hadoop的一种数据仓库工具)作为存储工具对各个视频的日志信息进行存储,并可将每个视频的日志信息作为该视频的播放信息。当基于播放信息确定某一视频的异常播放的次数大于预设值(例如,1万),或者异常播放的次数与播放总量之间的比值大于预设比值(例如,0.3)时,判定该视频存在播放量异常的情况,并将该视频作为异常视频。
55.步骤s102,对多个候选媒体资源进行集群定位分析,得到至少一个媒体资源集群,其中,每个媒体资源集群中包括至少一个候选媒体资源。
56.目标服务器可以基于各个候选媒体资源之间的相关性,进行集群定位分析,以得到至少一个媒体资源集群。
57.集群定位分析可以是通过分析各个候选媒体资源之间的相关性,然后按照各个候选媒体资源之间的相关性,对各个候选媒体资源进行分群(例如,图聚类),并使每个媒体资源集群中包至少一个候选媒体资源。
58.媒体资源集群是由各个候选媒体资源构成的集群,一般的,不同的媒体资源集群中可以存在相同的候选媒体资源,并且不同的媒体资源集群中至少包括一个不同的候选媒体资源。
59.例如,可以根据每个视频的播放情况(例如,对视频进行播放的设备、ip等等),对多个视频进行集群定位分析,由于一般情况下,每个视频的播放情况不可能完全一致,因此可以基于各个视频的播放情况中某项信息的重复率,得到各个视频之间的相关性,进而定位得到各个视频团伙(即,媒体资源集群)。
60.步骤s103,根据每个媒体资源集群中包含的异常媒体资源的数量,在至少一个媒体资源集群中确定异常媒体资源集群。
61.在得到各个媒体资源集群之后,需要判断各个媒体资源集群是否为异常媒体资源集群。在一般情况下,一个媒体资源集群中的异常媒体资源的数量越多,该媒体资源集群为异常媒体资源集群的概率也越高,因此,可以根据媒体资源集群中包含的异常媒体资源的数量,确定媒体资源集群是否为异常媒体资源集群。
62.可选的,当媒体资源集群a中的候选媒体资源的数量为n(n为大于等于1的整数)时,将媒体资源集群a确定为异常媒体资源集群;当媒体资源集群b中的候选媒体资源的数量同样为n,但是媒体资源集群b中的候选媒体资源的数量b远大于媒体资源集群a中的候选媒体资源的数量a时(例如,a=10b),则媒体资源集群b中的异常媒体资源的数量占比远低于媒体资源集群a中异常媒体资源的数量占比,因此媒体资源集群可以被确定为正常的媒体资源集群。
63.步骤s104,将异常媒体资源集群中的候选媒体资源确定为目标异常媒体资源。
64.在得到异常媒体资源集群之后,即可将异常媒体资源集群中的所有候选媒体资源都确定为目标异常媒体资源。
65.目标异常媒体资源可以是异常媒体资源集群中的候选媒体资源,即,当某一异常媒体资源集群中包括m个候选媒体资源,则该m个候选媒体资源都被确定为目标异常媒体资源。
66.例如,当一异常视频团伙(即,异常媒体资源集群)中存在视频1、视频2、视频3、视频4、视频5时,即使异常视频只是视频1、视频2、视频3,仍将视频1、视频2、视频3、视频4、视频5都确定为目标异常视频。
67.通过本实施例中的方法,通过使用集群定位分析的方式对候选媒体资源进行异常检测,可以有效扩大异常检测的覆盖范围,并且通过先确定异常媒体资源集群,然后基于异常媒体资源集群确定目标异常媒体资源,可以通过发现存在异常的所有的媒体资源集群,定位得到所有存在较高异常概率的目标异常媒体资源,便于后期通过对目标异常媒体资源进行追踪,以确定各个候选媒体资源的真实播放数据。
68.如图2所示,作为一种可选的实施方式,如前述的方法,所述步骤确定出多个候选媒体资源中的异常媒体资源包括如下所述步骤:
69.步骤s201,对每个候选媒体资源的第一播放信息进行特征提取,得到每个候选媒体资源的播放特征。
70.服务器在获取各个候选媒体资源的播放信息之后,可以对每个候选媒体资源的第一播放信息进行特征提取,并基于提取得到的播放特征在候选媒体资源中确定出异常媒体资源。
71.第一播放信息可以是候选媒体资源的所有日志信息进行汇总后得到的,用于表征该候选媒体资源被播放情况的信息,可以包括但不限于以下至少一项:播放设备、播放ip、播放账户、播放的app版本等等。在得到候选媒体资源的第一播放信息之后,可以通过对第一播放信息进行特征提取,以得到该候选媒体资源的播放特征。
72.进行特征提取的方式可以是,对第一播放信息进行特征计算,并可分别计算不同的特征种类的特征值,例如,特征种类可以包括但不限于以下至少一项:播放情况相关特征(例如,播放次数、播放高峰)、用户相关特征(例如,观看人群分布等等)、设备相关特征(例如,不同品牌终端的播放次数,不同终端类型(例如,pc机、手机)的播放次数);进而可以分
别针对上述各项特征种类计算得到播放情况特征值、用户特征值以及设备特征值,即,播放特征。
73.步骤s202,对每个候选媒体资源的播放特征进行异常检测,得到每个候选媒体资源的异常检测结果。
74.在确定各个候选媒体资源的播放特征之后,可以对每个候选媒体资源的播放特征进行异常检测,以得到与每个候选媒体资源一一对应的异常检测结果。
75.异常检测可以是通过播放特征确定出候选媒体资源是否存在异常的检测方法,可选的,可以采用无监督机器学习的方法,对各个播放特征进行检测,以得到各个候选媒体资源的异常检测结果。
76.异常检测结果可以是表征各个候选媒体资源异常程度的评价值(例如,得分)。
77.例如,可以将播放特征输入无监督机器学习算法中进行检测。并通过无监督机器学习算法得到各个播放特征对应的得分,并将该得分作为播放特征的异常检测结果,并且,一般情况下,得分越高,说明视频相对就越异常。
78.步骤s203,按照每个候选媒体资源的异常检测结果,确定出多个候选媒体资源中的异常媒体资源。
79.在得到每个候选媒体资源的异常检测结果之后,即可按照异常检测结果,确定各个候选媒体资源的异常程度,进而可以从所有候选媒体资源中得到异常媒体资源。
80.异常媒体资源可以是候选媒体资源中,异常检测结果高于预设阈值的媒体资源。
81.例如,在得到各个候选媒体资源的进行异常检测的得分(即,异常检测结果)之后,可以按照得分由高到低的顺序对各个视频进行排序,选取得分值为0.85以上的视频作为异常视频(即,异常媒体资源)。
82.通过本实施例中的方法,可以基于无监督机器学习算法快速确定出候选媒体资源中可能存在异常的异常媒体资源,可以更快的发现所有候选媒体资源中的异常数据,可以有效提高检测的效率。
83.作为一种可选的实施方式,前述步骤s202可以包括:将每个候选媒体资源的播放特征分别输入多个异常检测模型中的每个异常检测模型进行异常检测,得到每个候选媒体资源的多个异常检测结果,其中,异常检测结果与异常检测模型一一对应。
84.在得到每个候选媒体资源的播放特征之后,若采用多个异常检测模型对每个播放特征进行异常检测,可以获取每个异常检测模型对每个播放特征检测得到的异常检测结果。
85.异常检测模型可以是用于对播放特征进行异常检测的,预先设置的无监督机器学习模型。例如,多个异常检测模型可以包括:孤立森林、autoencoder(自编码器,是一类在半监督学习和非监督学习中使用的人工神经网络,其功能是通过将输入信息作为学习目标,对输入信息进行表征学习)。在确定多个异常检测模型之后,即可将每个候选媒体资源的播放特征分别输入多个异常检测模型中的每个异常检测模型进行异常检测,即,当异常检测模型包括:异常检测模型a、异常检测模型b时,可以将每个候选媒体资源分别输入至异常检测模型a、异常检测模型b中进行异常检测。
86.例如,当异常检测模型包括孤立森林和autoencoder时,针对视频a的播放特征a,可以将该播放特征a分别输入孤立森林和autoencoder中,进而得到由孤立森林对播放特征
a进行计算后得到的异常检测结果i和autoencoder对播放特征a进行计算后得到的异常检测结果ii。
87.对应地,在本实施例中,前述步骤s203可以包括:基于每个候选媒体资源的多个异常检测结果,确定出多个候选媒体资源中的异常媒体资源,其中,异常媒体资源的至少一个异常检测结果用于指示异常媒体资源存在异常。
88.由前可知,当存在多个异常检测模型时,每个候选媒体资源都会对应有多个异常检测结果(即,每个异常检测模型都会对该候选媒体资源的播放特征进行计算,得到一个异常检测结果)。
89.基于每个候选媒体资源的多个异常检测结果,确定出多个候选媒体资源中的异常媒体资源,可以是:对于一个候选媒体资源,当其存在的多个异常检测结果中,存在至少一个异常检测结果用于指示异常媒体资源存在异常时,即将该候选媒体资源判定为异常媒体资源。
90.例如,当候选媒体资源包括异常检测结果a、异常检测结果b时,当异常检测结果a、异常检测结果b中的一个(异常检测结果a或异常检测结果b)表征该候选媒体资源存在异常时,即判定该候选媒体资源为异常媒体资源;当异常检测结果a和异常检测结果b都为异常时,也判定该候选媒体资源为异常媒体资源。
91.通过本实施例的方法,可以获取每个异常检测模型对每个播放特征检测得到的异常检测结果,进而可以通过多个异常检测模型避免某一个异常检测模型无法检出异常媒体资源的情况,以提高异常检测的容错率,并提升异常媒体资源的检出率。
92.作为一种可选的实施方式,如前述的方法,所述步骤s101确定出多个候选媒体资源中的异常媒体资源包括:
93.将多个候选媒体资源中的历史异常媒体资源,确定为异常媒体资源。
94.可以按照某一预设的周期(例如,每24小时,或每7天)进行目标异常媒体资源的确定。因此,在本次进行目标一场媒体资源确定之前,可以得到历史时间段(例如,在当前时间之前的所有时间段)中确定的所有历史异常媒体资源。
95.历史异常媒体资源可以是历史时间段中,各个候选媒体资源中确定存在异常播放情况的媒体资源。
96.例如,当存在候选媒体资源a、候选媒体资源b、候选媒体资源c时,在历史时间段中,若候选媒体资源a被确定为历史异常媒体资源时,则将候选媒体资源a直接作为异常媒体资源。
97.通过本实施例中的方法,可以从历史经验数据中,找出异常的历史异常媒体资源作为异常媒体资源,可以使得到的异常媒体资源的置信度更高,并且能够使异常媒体资源的覆盖面更广。
98.作为一种可选的实施方式,如前述的方法,所述步骤s102对多个候选媒体资源进行集群定位分析,得到至少一个媒体资源集群包括如下所述步骤:
99.基于每个候选媒体资源的第二播放信息对多个候选媒体资源进行相关性计算,在多个候选媒体资源中定位得到至少一个媒体资源集群,其中,每个候选媒体资源具有唯一对应的第二播放信息,同一个媒体资源集群中,任意两个候选媒体资源的第二播放信息之间的相关性大于或等于预设值。
100.在确定各个候选媒体资源之后,可以得到每个候选媒体资源的第二播放信息,进而可以通过每个候选媒体资源的第二播放信息,确定任意两个候选媒体资源之间的相关性。
101.第二播放信息可以是用于计算任意两个候选媒体资源之间的相关性的信息,例如,ip信息、ua(即,user agent,用户代理)、设备信息(例如,设备类型、设备品牌、设备编号);其中,第二播放信息可以是第一播放信息中指定信息类型的信息,并且,第二播放信息中可以包括一种或多种信息类型的信息。并且,为了能够确定任意两个候选媒体资源的相关性,一般情况下,每个候选媒体资源的第二播放信息中的信息类型是一致的,例如,当候选媒体资源a的第二播放信息中的信息类型为ip时,则需要与候选媒体资源a进行相关性计算的其他候选媒体资源(例如,候选媒体资源b、候选媒体资源c等)的第二播放信息中的信息类型也为ip。在确定各个候选媒体资源的第二播放信息之后,即可计算得到任意两个候选媒体资源的第二播放信息之间的相关性。
102.定位得到至少一个媒体资源集群的方法可以是,确定任意两个候选媒体资源的第二播放信息的中相同信息的数量或者相同信息的比例;当相同信息的数量超过预设数值或者比例超过预设比值时,判定相关性达到预设下限(即,预设值),并确定该两个候选媒体资源之间存在相关性。
103.例如,当针对于计算视频a和视频b的相关性,且第二播放信息采用ip信息时,可以确定观看视频a的所有第一ip以及观看视频b的所有第二ip,然后计算第一ip和第二ip之间的重合率,当第一ip一共有10000个,第二ip一共有10000个,且第一ip和第二ip中相同的ip具有6000个时,则据此可以得到视频a和视频b的相关性是6000
×
2/(10000 10000)=0.6。当预设值为0.5时,则可以判定视频a和视频b存在相关性。因此视频a和视频b共属于同一个媒体资源集群中。
104.通过本实施例中的方法,可以快速定位得到不同的媒体资源集群,以便于后期基于媒体资源集群快速确定各个目标异常媒体资源。
105.作为一种可选的实施方式,如前述的方法,所述步骤s103根据每个媒体资源集群中包含的异常媒体资源的数量,在至少一个媒体资源集群中确定异常媒体资源集群包括以下所述方法之一:
106.步骤s301,将包含的异常媒体资源的数量大于或者等于目标数量阈值的媒体资源集群,确定为异常媒体资源集群。
107.目标数量阈值可以是用于判定异常媒体资源的数量是否会导致媒体资源集群被认定为异常媒体资源集群的预设的数值。对于某一媒体资源集群,当其中包括的异常媒体资源的数量大于或等于目标数量阈值时,即表征异常媒体资源的数量达到一定的量级,因此该媒体资源集群中的其他候选媒体资源也存在播放量异常的概率也很高。
108.例如,当目标数量阈值为100时,媒体资源集群a中存在120个异常媒体资源时,判定媒体资源集群中异常媒体资源的数量高于目标数量阈值,因此该媒体资源集群a被确定为异常媒体资源集群。
109.步骤s302,将包含的异常媒体资源的数量与包含的媒体资源的总数量的比例大于或者等于目标比例阈值的媒体资源集群,确定为异常媒体资源集群。
110.目标比例阈值可以是用于判定异常媒体资源的占比是否会导致媒体资源集群被
认定为异常媒体资源集群的预设的比例值。对于某一媒体资源集群,当其中包括的异常媒体资源的占比大于或等于目标比例阈值时,即表征该媒体资源集群中异常媒体资源的占比很高,因此该媒体资源集群中的其他候选媒体资源也存在播放量异常的概率也很高。
111.例如,当目标比例阈值为0.7时,媒体资源集群a中一共存在200个候选媒体资源,且存在160个异常媒体资源时,判定媒体资源集群中异常媒体资源的占比高于目标比例阈值,因此该媒体资源集群a被确定为异常媒体资源集群。
112.作为一种可选的实施方式,如前述的方法,在所述步骤s104之后,该方法还包括如下所述步骤:
113.步骤s401,对目标异常媒体资源的播放信息中的异常播放数据进行清洗,得到目标异常媒体资源清洗后的播放信息。
114.在确定异常媒体资源之后,为了确定目标异常媒体资源的真实播放数据,即可对目标异常媒体资源中的异常播放数据进行清洗,以得到目标异常媒体资源清洗后的播放信息。
115.异常播放数据可以是异常媒体资源中,通过刷量等违规操作得到的播放数据。可选的,由于每个终端在对候选媒体资源进行播放后,都会产生对应的日志文件,因此可以通过将目标异常媒体资源的异常播放数据日志文件进行删除,以得到目标异常媒体资源清洗后的播放信息。
116.可选的,步骤s401可以包括如下步骤:
117.通过异常媒体资源的播放信息,获取各个目标设备的设备播放信息,其中,设备播放信息为目标设备对异常媒体资源进行播放的信息;
118.确定设备播放信息中的异常设备播放信息;
119.通过异常设备播放信息对第二模型进行训练,得到更新后第二模型;
120.将目标异常媒体资源的播放信息输入更新后第二模型,识别得到目标异常媒体资源的播放信息中的异常播放信息;
121.在目标异常媒体资源的播放信息中对异常播放信息进行过滤,得到目标异常媒体资源的真实播放信息。
122.在确定异常媒体资源的播放信息之后,由于播放信息是由各个日志文件得到的,日志文件中会记录对异常媒体进行播放的目标设备;因此可以通过异常媒体资源的播放信息,确定对该异常媒体资源进行播放的各个目标设备。
123.在确定目标设备之后,可以以该目标设备作为查询关键字,在hive数据仓库中查询得到该目标设备对异常媒体资源进行播放的设备播放信息。
124.进一步的,为了提高识别的准确率,在通过设备播放信息对第二模型进行训练之前,还可以人工对目标设备的设备播放信息进行进一步审核,并查找出确定为异常的异常设备播放信息,通过该异常设备播放信息对第二模型进行训练。
125.设备播放信息中可以包括但不限于目标设备对异常媒体资源的播放的次数,播放的时间等信息。由于异常设备播放信息是确认存在异常的设备播放信息,因此,可以通过异常设备播放信息对第二模型进行训练,以达到通过最新的异常设备播放信息对第二模型进行更新的目的。其中,第二模型可以是有监督算法识别模型(例如,xgboost、gbdt等等)。
126.在得到更新后第二模型之后,即可将目标异常媒体资源的播放信息输入更新后第
二模型,以通过更新后第二模型识别得到目标异常媒体资源的播放信息中的异常播放信息;并且在得到各个异常播放信息之后,可以对各个异常播放信息进行标识。
127.在得到异常播放信息之后,即可通过对目标异常媒体资源的播放信息中对异常播放信息进行删除,进而得到目标异常媒体资源的真实播放信息。
128.通过本实施例中的方法,可以确定达到对目标异常媒体资源中的异常播放信息快速定位的目的,进而可以得到目标异常媒体资源清洗后的播放信息。
129.如图3所示,还提供一种应用如前任一实施例所述方法的应用例:
130.步骤1:首先使用flink从kafka中实时采集各个端的用户观看视频(即,候选媒体资源)的日志信息,包括点击日志,导入到hadoop大数据平台上,并使用hive数据仓库作为日志信息的存储工具。
131.步骤2:对采集各个视频的播放信息进行特征计算,比如在网页端对每个被播放的剧集进行特征计算,得到播放特征,例如,播放相关特征、用户相关特征、设备相关特征等。
132.步骤3:对计算好的播放特征采用无监督的异常检测机器学习算法,分别采用孤立森林、autoencoder进行检测,得到由孤立森林以及autoencoder得到的异常检测结果。根据异常检测结果,得分越高,说明数据相对就越异常。对异常检测结果进行得分排序,选取得分值为0.85以上的候选媒体资源作为异常媒体资源,其中,异常媒体资源的至少一个异常检测结果用于指示异常媒体资源存在异常。
133.步骤4:从历史经验的数据中,找出异常作弊样本(即,历史异常媒体资源)与步骤3的数据进行合并,从而得到置信度更高,覆盖范围更广的黑种子集团(即,异常媒体资源)。
134.步骤5:然后对步骤1中采集到的视频,基于ip、ua、设备等相关的构图分析,采用图聚类算法(例如,社区发现算法lpa、gcn)对异常数据进行团伙(即,异常媒体资源集群)的定位与分析,从而得到各个关联紧密的相关团伙(g1={u1,u4,...u
k
},...,g
j
={u
j
,u
i
,...u
n
})其中g
j
为团伙名,u
i
为团伙中的视频;
135.步骤6:对步骤5发现的团伙进行分析和定位,当一个团伙中,黑种子(即,异常黑种子基团中的视频)数量达到一定量级或者占比达到一定范围,则判定该团伙为作弊团伙,从而召回更多的异常数据。
136.步骤7:得到作弊团伙以后,可以通过人工分析确定作弊团伙中确定存在作弊的异常设备播放信息,计算异常设备播放信息的特征,通过异常设备播放信息的特征对有监督学习算法进行更新,然后采用更新后的有监督机器学习算法对异常的数据进行清洗和过滤。还原各个视频的播放信息的真实性。
137.如图4所示,根据本技术另一方面的一个实施例,还提供了一种媒体资源异常播放检测装置,包括如下装置:
138.第一确定模块1,用于确定出多个候选媒体资源中的异常媒体资源,其中,异常媒体资源为存在播放量异常的媒体资源;
139.集群定位模块2,用于对多个候选媒体资源进行集群定位分析,得到至少一个媒体资源集群,其中,每个媒体资源集群中包括至少一个候选媒体资源;
140.第二确定模块3,用于根据每个媒体资源集群中包含的异常媒体资源的数量,在至少一个媒体资源集群中确定异常媒体资源集群;
141.第三确定模块4,用于将异常媒体资源集群中的候选媒体资源确定为目标异常媒
体资源。
142.具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
143.作为一种可选的实施方式,如前述的装置,第一确定模块包括:
144.提取单元,用于对每个候选媒体资源的第一播放信息进行特征提取,得到每个候选媒体资源的播放特征;
145.检测单元,用于对每个候选媒体资源的播放特征进行异常检测,得到每个候选媒体资源的异常检测结果;
146.第一确定单元,用于按照每个候选媒体资源的异常检测结果,确定出多个候选媒体资源中的异常媒体资源。
147.具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
148.作为一种可选的实施方式,如前述的装置,
149.检测单元,用于将每个候选媒体资源的播放特征分别输入多个异常检测模型中的每个异常检测模型进行异常检测,得到每个候选媒体资源的多个异常检测结果,其中,异常检测结果与异常检测模型一一对应;
150.第一确定单元,用于基于每个候选媒体资源的多个异常检测结果,确定出多个候选媒体资源中的异常媒体资源,其中,异常媒体资源的至少一个异常检测结果用于指示异常媒体资源存在异常。
151.具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
152.作为一种可选的实施方式,如前述的装置,
153.第一确定模块1,用于将多个候选媒体资源中的历史异常媒体资源,确定为异常媒体资源。
154.具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
155.作为一种可选的实施方式,如前述的装置,
156.集群定位模块2,用于基于每个候选媒体资源的第二播放信息对多个候选媒体资源进行相关性计算,在多个候选媒体资源中定位得到至少一个媒体资源集群,其中,每个候选媒体资源具有唯一对应的第二播放信息,同一个媒体资源集群中,任意两个候选媒体资源的第二播放信息之间的相关性大于或等于预设值。
157.具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
158.作为一种可选的实施方式,如前述的装置,
159.第二确定模块3,用于将包含的异常媒体资源的数量大于或者等于目标数量阈值的媒体资源集群,确定为异常媒体资源集群;或着,
160.用于将包含的异常媒体资源的数量与包含的媒体资源的总数量的比例大于或者等于目标比例阈值的媒体资源集群,确定为异常媒体资源集群。
161.具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例
中的相关描述,此处不再赘述。
162.作为一种可选的实施方式,如前述的装置,还包括清洗模块,所述清洗模块用于对目标异常媒体资源的播放信息中的异常播放数据进行清洗,得到目标异常媒体资源清洗后的播放信息。
163.具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
164.根据本技术的另一个实施例,还提供一种电子设备,包括:如图5所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
165.存储器1503,用于存放计算机程序;
166.处理器1501,用于执行存储器1503上所存放的程序时,实现上述方法实施例的步骤。
167.上述电子设备提到的总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
168.通信接口用于上述电子设备与其他设备之间的通信。
169.存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non

volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
170.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
171.本技术实施例还提供一种计算机可读存储介质,存储介质包括存储的程序,其中,程序运行时执行上述方法实施例的方法步骤。
172.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
173.以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献