一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于异常用户识别的方法、介质及装置与流程

2021-12-17 21:40:00 来源:中国专利 TAG:


1.本公开涉及人工智能领域,具体而言涉及一种用于异常用户识别的方法、介质及装置。


背景技术:

2.随着通信技术和电信行业的高速发展,电信诈骗事件花样迭出,涉案数目逐年递升,对其预防存在一定的困难和挑战。如何高效利用现有数据进行分析挖掘,对欺诈行为及时地做出准确识别,从而有效地预防欺诈行为的发生,为电信业务的决策提供支持,是电信行业的迫切需求。
3.目前对异常用户(诸如,有如骚扰、诈骗、恶意欠费等异常通信行为的用户)的识别技术常见的主要有两种,基于业务规则的匹配检测方法和基于算法模型的异常用户的识别方法。
4.然而,现有的技术存在的问题包括:
5.1、只能应用于有标记和结构化的数据,并且忽略了对数据样本间的关联关系和时序相关性的捕捉,很难适应实际需求和应用;
6.2、传统方法具有延迟效应,往往不能及时地对新出现的异常用户作出快速响应;只有当基于某个规则或特征出现的异常用户大量增长时,才能发现异常;
7.3、基于业务规则的匹配检测方法过度依赖于人工提炼的业务规则和特征工程,效率低,特征表达有限;一旦业务规则不够准确,将会影响异常用户识别的准确性;
8.4、基于算法模型的异常用户识别法(诸如,无监督的聚类方法)对离群点和噪声点敏感,初始值对结果影响大,容易导致模型整体精度不理想,对正常用户进行错判。


技术实现要素:

9.根据本公开的第一方面,提供了一种训练用于异常用户识别的分类器的方法,所述方法包括:基于用户数据采样得到用户数据集,其中,用户数据集中包括有标记数据和无标记数据;基于用户数据集构造用户数据图,其中,用户数据图中的点指示有标记数据和无标记数据;基于用户数据图对图半监督gcn模型进行训练,以得到图特征;根据用户特征属性对有监督分类器进行训练,以提取特征组合;将图特征和特征组合进行拼接,并基于拼接得到的特征训练集成分类器。
10.根据本公开的第二方面,提供了一种用于异常用户识别的方法,所述方法包括:利用根据本公开的第一方面所述的方法训练得到的集成分类器对待识别的用户进行预测;如果预测得到的标记指示该用户为异常用户,则将该用户识别为异常用户。
11.根据本公开的第三方面,提供了一种训练用于异常用户识别的分类器的装置,所述装置包括:数据预处理模块,所述数据预处理模块被配置为:基于用户数据采样得到用户数据集,其中,用户数据集中包括有标记数据和无标记数据,以及基于用户数据集构造用户数据图,其中,用户数据图中的点指示有标记数据和无标记数据;图半监督gcn学习模块,所
述gcn学习模块被配置为基于用户数据图对gcn模型进行训练,以得到图特征;有监督学习模块,所述有监督学习模块被配置为根据用户特征属性对有监督分类器进行训练,以提取特征组合;特征融合模块,所述特征融合模块被配置为将图特征和特征组合进行拼接,并基于拼接得到的特征训练集成分类器。
12.根据本公开的第四方面,提供了一种用于异常用户识别的装置,所述装置被配置为:利用根据本公开的第三方面所述的装置训练得到的集成分类器对待识别的用户进行预测;如果预测得到的标记指示该用户为异常用户,则将该用户识别为异常用户。
13.根据本公开的第五方面,提供了一种非暂态计算机可读存储介质,其上存储有程序,其特征在于,当所述程序由计算机执行时,使所述计算机执行根据本公开的第一方面或第二方面所述的方法。
14.根据本公开的第六方面,提供了一种用于异常用户识别的装置,包括存储器和处理器,所述存储器与所述处理器通信耦合,所述存储器中存储有程序,所述程序当由处理器执行时,使得所述处理器执行根据本公开的第一方面或第二方面所述的方法。
15.根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现根据本公开的第一方面或第二方面所述的方法。
16.通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得更为清楚。
附图说明
17.构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
18.参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
19.图1是图示根据本公开的实施例的用于异常用户识别的装置的示意图;
20.图2是图示根据本公开的实施例的用于异常用户识别的方法的示意图;
21.图3是图示前馈反向传播神经网络的原理的示意图;
22.图4是图示支持向量机的原理的示意图;
23.图5是图示根据本公开的实施例的用于异常用户识别的方法的流程图;
24.图6示出了可以实现根据本公开的实施例的计算设备的示例性配置。
具体实施方式
25.下面将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
26.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。也就是说,本文中的结构及方法是以示例性的方式示出,来说明本公开中的结构和方法的不同实施例。然而,本领域技术人员将会理解,它们仅仅说明可以用来实施的本公开的示例性方式,而不是穷尽的方式。此外,附图不必按比例绘制,一些特征可能被放大以示出具体组件的细节。
27.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适
当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
28.图1是图示根据本公开的实施例的用于异常用户识别的装置100的示意图。如图1所示出的,装置100可以包括数据预处理模块110、模型集成模块120和下游任务模块130。其中,模型集成模块120可以包括gcn(graph convolutional network,图卷积网络)学习模块121、有监督学习模块122和模型集成模块123。
29.数据预处理模块110可以被配置为采用时间序列采集技术,实时采集社交、通话、位置等用户数据,通过设置多个时间粒度和时间窗口,动态构建每个时刻多种时间切片下的社交网络图、通话关系图、位置移动图等。例如,粒度可以是指以每秒、分、小时的时间粒度,时间窗口可以为15分钟、12小时等时间跨度。
30.模型集成模块120可以被配置为针对现有识别方法缺乏动态考虑用户间联动性、标注数据成本大、时效性低等问题,在多个时间尺度下,采用图半监督gcn模型捕获全局网络关系特征,从而提高无标记数据的利用率和特征提取的完整性;同时利用有监督分类器提取特征组合;再结合堆叠法(stacking)动态拼接特征图,自动选择最合适的权重,从而高效、动态地挖掘用户间交互特征与规律,及时、准确地发现异常行为的用户。
31.下游任务模块130可以被配置为通过上述预处理和模型集成两个模块训练,实时预测当前时刻所有用户为异常用户的概率大小,再结合下游的实际需求与任务,为业务决策和采取的策略提供科学的依据。
32.图2是图示根据本公开的实施例的用于异常用户识别的方法的示意图。
33.如图2所示,首先,可以在数据预处理模块110处采用时间序列采样技术,对用户数据进行采样,以获得用户数据集。其中,用户数据可以包括指示用户的社交网络、通话关系和/或位置移动的时序数据以及用户特征属性等静态数据;用户数据集中包括有标记数据和无标记数据,用户数据的标记指示该用户是否为异常用户。通过时间序列采样,采用多个切分粒度和滑动窗口,可以构建通信关系的时变网络,捕捉不同时刻节点间的上下文关联信息,动态实时观察异常情况。
34.然后,可以基于用户数据集构造用户数据图。其中,用户数据图中的点指示用户数据集中的数据,两点之间的连线指示用户数据集中的对应的数据点之间交互关系,点的颜色指示用户数据集中的对应的数据的标记。有标记样本拥有标记信息,可以认为其对应的节点有颜色;而未标记样本的标记信息未知,可以认为其对应的节点没有颜色。因此,图半监督学习可以理解为“色彩”在图上沿着边从“有色节点”扩散到“无色节点”的过程,扩散的程度由边的“粗细”决定。因为可以将图转换为矩阵,所以就能够基于矩阵运算来进行图半监督学习。
35.图作为一种普遍的结构,对于关系数据有极强的刻画能力,可以通过顶点和边的结构表达实体间的相互联系。通过使用图挖掘技术(如图分割、并行编排、图运算等技术),图数据可以高效存储和快速处理,从而解决海量图数据挖掘问题,提高图结构相关数据的处理能力,查询速度也极大的提高。诸如,gremlin、cypher等非常适合在图分析应用。借助大数据处理工具以及深度学习框架,如tensorflow、pytorch等,采用快速卷积,可以直接从基于图结构数据中自动提取时空下的节点特征和图关系特征。
36.有标记的数据集记为d
l
={(x1,y1),(x2,y2),...,(x
l
,y
l
)},无标签的数据集记为d
u
={x
l 1
,x
l 2
,...,x
l u
}。假定y
i
∈y,基于d
l
∪d
u
构建图g=(v,e),图中的节点集合为v=
{x1,

,x
l
,x
l 1


,x
l u
},边集合e可以表示为一个亲和矩阵,常基于高斯函数定义为:
[0037][0038]
其中,i,j∈{1,2,...,m},σ>0是用户指定的高斯函数带宽参数。
[0039]
对角矩阵d=diag(d1,d2,...,d
l u
)的对角元素定义(l u)
×
[y])的非负标记矩阵其第i行元素f
i
=((f)
i1
,(f)
i2


,(f)
i|y|
)
t
为示例x
i
的标记向量,相应的分类
[0040][0041]
于是,有标记样本的标记向量可以由y的前l行表示。
[0042]
利用亲和矩阵w可以构造标记传播矩阵其中,于是有迭代计算式:
[0043]
f(t 1)=αsf(t) (1

α)y,
[0044]
其中,α∈(0,1)代表迭代过程中标记传播项sf(t)的权重。基于下式迭代至收敛可得:
[0045][0046]
由f
*
可以获得d
u
中样本的标记
[0047]
算法描述如下:
[0048][0049]
在gcn学习模块121中,可以如上基于用户数据图对图半监督gcn模型进行训练,以得到图特征。图特征可以包括图关系特征和图节点特征。
[0050]
在有监督学习模块122中,可以根据用户数据集对有监督分类器进行特征提取与有监督的学习训练,以提取特征组合。在根据本公开的实施例中,用于进行有监督训练的用户数据集包括有标记数据。
[0051]
用于有监督训练的多种分类器可以包括cart决策树、随机森林、前馈反向传播神经网络、支持向量机等。
[0052]
(1)cart决策树
[0053]
决策树的构成元素包括:根节点、内部节点、叶节点。根节点只有一个,包含样本全集。内部节点和叶节点有多个。根节点与每个内部节点各自对应一条判别规则,这些节点内包含的样本集合根据对应的判别结果被划分到子节点中。从根节点到某个叶节点的路径包含多个内部节点,对应一条判别序列,该叶节点包含符合对应判别序列的样本集合。随着划分过程的不断深入,节点所包含的样本标记类别趋向一致,即节点的“纯度”不断升高。
[0054]
(2)随机森林
[0055]
随机森林(random forest,rf)由bagging衍生而来。在随机森林中,则是先从节点对应的所有属性中随机抽取k个属性,然后再从中选择最优划分属性。
[0056]
(3)前馈反向传播神经网络
[0057]
前馈反向传播神经网络采用bp(error back propagation)算法,原理如图3所示。
[0058]
使用训练集训练得到前馈反向传播神经网络。
[0059]
(4)支持向量机
[0060]
训练集d={(x1,y1),(x2,y2),

,(x
m
,y
m
)},y
i
∈{

1, 1},分类学习的基本思想是针对训练集d,在样本空间中寻找一个能够划分不同类别样本的超平面,原理参见图4。能够
正确分类的划分超平面可能有很多,但应该选择图中较粗的那个,因为该划分超平面拥有最优的鲁棒性,即,对训练样本的局部扰动拥有最佳的“容忍性”。
[0061]
在特征融合模块123中,可以将通过图半监督学习得到的图特征和通过监督学习得到的特征组合进行融合。在本公开的实施例种,可以将特征直接拼接,也可以将特征加权拼接。加权拼接的权重可以根据需要动态调整。
[0062]
然后,可以基于拼接得到的特征训练用于异常用户识别的集成分类器。经训练的集成分类器可以用于异常用户的识别,输入用户的数据,输出指示该用户是否为异常用户的标记。集成分类器可以是根据以上分类器中的两种或更多种进行模型集成(诸如,堆叠法(stacking))而得到的。应注意的是,模型集成的方法不限于堆叠,而是可以包括其他集成方法。
[0063]
在根据本公开的实施例中,可以利用经训练的集成分类器预测无标记样本的标记,并将无标记样本和该样本的预测的标记视作有标记数据用于分类器的训练。例如,预测得到的标记置信度高的无标记样本可以被视作有标记样本,参与模型的训练。通过这样的迭代,可以将标记置信度高的原本无标记的数据视作有标记的数据参与训练,从而丰富用于训练的数据。
[0064]
在根据本公开的实施例中,除了上文所述的指示用户的社交网络、通话关系和/或位置移动的用户数据之外,还可以将用户的年龄、等级等静态属性作为用户特征属性,用于有监督学习。
[0065]
图5是图示根据本公开的实施例的用于异常用户识别的方法的流程图。如图5所示,在s501处,可以基于用户数据采样得到用户数据集,其中,用户数据集中包括有标记数据和无标记数据;在s502处,可以基于用户数据集构造用户数据图,其中,用户数据图中的点指示有标记数据和无标记数据;在s503处,可以基于用户数据图对图半监督gcn模型进行训练,以得到图特征;在s504处,可以根据用户特征属性对有监督分类器进行训练,以提取特征组合;在s505处,可以将图特征和特征组合进行拼接,并基于拼接得到的特征训练集成分类器。
[0066]
图6示出了能够实现根据本公开的实施例的计算设备600的示例性配置。
[0067]
计算设备600是能够应用本公开的上述方面的硬件设备的实例。计算设备600可以是被配置为执行处理和/或计算的任何机器。计算设备600可以是但不限制于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数据助手(pda)、智能电话、车载计算机或以上组合。
[0068]
如图6所示,计算设备600可以包括可以经由一个或多个接口与总线602连接或通信的一个或多个元件。总线602可以包括但不限于,工业标准架构(industry standard architecture,isa)总线、微通道架构(micro channel architecture,mca)总线、增强isa(eisa)总线、视频电子标准协会(vesa)局部总线、以及外设组件互连(pci)总线等。计算设备600可以包括例如一个或多个处理器604。一个或多个处理器604可以是任何种类的处理器,并且可以包括但不限于一个或多个通用处理器或专用处理器(诸如专用处理芯片)。处理器例如可以被配置为实现例如如图2和/或图5所示的方法。
[0069]
计算设备600还可以包括或被连接至非暂态存储设备614,该非暂态存储设备614可以是任何非暂态的并且可以实现数据存储的存储设备,并且可以包括但不限于盘驱动
器、光存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁性介质、压缩盘或任何其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取数据、指令和/或代码的其他任何介质。计算设备600还可以包括随机存取存储器(ram)610和只读存储器(rom)612。rom 612可以以非易失性方式存储待执行的程序、实用程序或进程。ram 610可提供易失性数据存储,并存储与计算设备600的操作相关的指令。可单独地或以任何组合方式来使用前述实施方案的各个方面、实施方案、具体实施或特征。可由软件、硬件或硬件与软件的组合来实现前述实施方案的各个方面。
[0070]
例如,前述实施方案可体现为计算机可读介质上的计算机可读代码。计算机可读介质为可存储数据的任何数据存储设备,所述数据其后可由计算机系统读取。计算机可读介质的示例包括只读存储器、随机存取存储器、cd

rom、dvd、磁带、硬盘驱动器、固态驱动器和光学数据存储设备。计算机可读介质还可分布在网络耦接的计算机系统中使得计算机可读代码以分布式方式来存储和执行。
[0071]
例如,前述实施方案可采用硬件电路的形式。硬件电路可以包括组合式逻辑电路、时钟存储设备(诸如软盘、触发器、锁存器等)、有限状态机、诸如静态随机存取存储器或嵌入式动态随机存取存储器的存储器、定制设计电路、可编程逻辑阵列等的任意组合。
[0072]
在一个实施方案中,可以通过用诸如verilog或vhdl的硬件描述语言(hdl)编码和设计一个或多个集成电路或者结合使用离散电路来实现根据本公开的硬件电路。
[0073]
综上所述,根据本公开的第一方面,提供了一种训练用于异常用户识别的分类器的方法,所述方法包括:基于用户数据采样得到用户数据集,其中,用户数据集中包括有标记数据和无标记数据;基于用户数据集构造用户数据图,其中,用户数据图中的点指示有标记数据和无标记数据;基于用户数据图对图半监督gcn模型进行训练,以得到图特征;根据用户特征属性对有监督分类器进行训练,以提取特征组合;将图特征和特征组合进行拼接,并基于拼接得到的特征训练集成分类器。
[0074]
在根据本公开的实施例中,集成分类器是根据以下有监督分类器中的至少两种进行堆叠得到的:cart决策树、随机森林、前馈反向传播神经网络、支持向量机。
[0075]
在根据本公开的实施例中,所述用户数据包括指示用户的社交网络、通话关系和/或位置移动的数据;所述用户数据的标记指示用户是否为异常用户;所述用户数据图中的点指示用户数据集中的数据,两点之间的连线指示用户数据集中的对应的数据点之间的交互关系,点的颜色指示用户数据集中的对应的数据的标记。
[0076]
在根据本公开的实施例中,所述图特征包括图关系特征和图节点特征。
[0077]
在根据本公开的实施例中,所述方法还包括:利用经训练的集成分类器预测无标记样本的标记,并在预测置信度高的情况下将所述无标记样本和预测的标记作为有标记数据用于分类器的训练。
[0078]
在根据本公开的实施例中,基于用户数据采样得到用户数据集包括:以不同的时间粒度和时间窗口对用户数据进行采样,以获得多个时刻的多个时间切片的用户数据集。
[0079]
根据本公开的第二方面,提供了一种用于异常用户识别的方法,所述方法包括:利用根据本公开的第一方面所述的方法训练得到的集成分类器对待识别的用户进行预测;如果预测得到的标记指示该用户为异常用户,则将该用户识别为异常用户。
[0080]
根据本公开的第三方面,提供了一种训练用于异常用户识别的分类器的装置,所
述装置包括:数据预处理模块,所述数据预处理模块被配置为:基于用户数据采样得到用户数据集,其中,用户数据集中包括有标记数据和无标记数据,以及基于用户数据集构造用户数据图,其中,用户数据图中的点指示有标记数据和无标记数据;图半监督gcn学习模块,所述gcn学习模块被配置为基于用户数据图对gcn模型进行训练,以得到图特征;有监督学习模块,所述有监督学习模块被配置为根据用户特征属性对有监督分类器进行训练,以提取特征组合;特征融合模块,所述特征融合模块被配置为将图特征和特征组合进行拼接,并基于拼接得到的特征训练集成分类器。
[0081]
在根据本公开的实施例中,集成分类器是根据以下有监督分类器中的至少两种进行堆叠得到的:cart决策树、随机森林、前馈反向传播神经网络、支持向量机。
[0082]
在根据本公开的实施例中,所述用户数据包括指示用户的社交网络、通话关系和/或位置移动的数据;所述用户数据的标记指示用户是否为异常用户;所述用户数据图中的点指示用户数据集中的数据,两点之间的连线指示用户数据集中的对应的数据点之间的交互关系,点的颜色指示用户数据集中的对应的数据的标记。
[0083]
在根据本公开的实施例中,所述图特征包括图关系特征和图节点特征。
[0084]
在根据本公开的实施例中,所述装置还被配置为:利用经训练的集成分类器预测无标记样本的标记,并在预测置信度高的情况下将所述无标记样本和预测的标记作为有标记数据用于分类器的训练。
[0085]
在根据本公开的实施例中,基于用户数据采样得到用户数据集包括:以不同的时间粒度和时间窗口对用户数据进行采样,以获得多个时刻的多个时间切片的用户数据集。
[0086]
根据本公开的第四方面,提供了一种用于异常用户识别的装置,所述装置被配置为:利用根据本公开的第三方面所述的装置训练得到的集成分类器对待识别的用户进行预测;如果预测得到的标记指示该用户为异常用户,则将该用户识别为异常用户。
[0087]
根据本公开的第五方面,提供了一种非暂态计算机可读存储介质,其上存储有程序,其特征在于,当所述程序由计算机执行时,使所述计算机执行根据本公开的第一方面或第二方面所述的方法。
[0088]
根据本公开的第六方面,提供了一种用于异常用户识别的装置,包括存储器和处理器,所述存储器与所述处理器通信耦合,所述存储器中存储有程序,所述程序当由处理器执行时,使得所述处理器执行根据本公开的第一方面或第二方面所述的方法。
[0089]
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现根据本公开的第一方面或第二方面所述的方法。
[0090]
本公开的基于图的半监督学习与模型集成的异常用户识别的方法和装置针对现有识别方法缺乏动态考虑用户间联动性、标注数据成本大、模型识别时效性低等问题,提出一种基于动态通信关系的网络,在多个时间尺度下,采用图半监督gcn模型捕获全局网络关系特征,提高了无标记数据的利用率和特征提取的完整性与实时性;再结合堆叠法动态拼接特征图,自动选择最合适的权重,从而高效、动态地挖掘用户间交互特征与规律,及时、准确地发现异常行为的用户(广告、诈骗、恶意欠费等)。
[0091]
该方法不仅充分利用无标记数据信息,减少人工标注代价,有效挖掘用户的全局特性,避免无标注数据的浪费,提高模型学习性能;而且着重考虑用户间交互的时变性,通过动态融合用户在不同时刻的通信网络交互特征和基本信息,实现特征互补,实时追踪提
前预知用户的异常,提高模型的精度、泛化能力以及识别的时效性。
[0092]
和现有技术相比,根据本公开的方法和装置的优势包括:
[0093]
采用图网络表示与半监督学习,一方面可充分利用未标记的数据来提高监督学习的性能,节约人工标记成本;另一方面提高特征获取的效率与多样性,减少了对训练集要求,适用于实际应用中各种领域的分析挖掘;
[0094]
着重考虑用户样本间交互的时变性与通信网络的关联性,克服了传统方法无法直接、实时处理图结构数据的缺陷,有利于降低识别的滞后性和提高模型的精度;
[0095]
融合不同表征的数据,通过模型集成动态加权特征图,映射到同一个空间,从而对动态网络关系和静态属性联合建模,实现特征互补,以达到更快、更准地识别出异常用户,实现实时预测预警,提升电信客户满意度、避免电信运营商及其用户的损失。
[0096]
虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是说明性的而不限制本发明的范围。应该认识到的是,前述方法中的一些步骤不一定按照图示的顺序执行,而是它们可以被同时、以不同顺序或以重叠方式执行。此外,本领域技术人员可以根据需要增加一些步骤或省略一些步骤。前述系统中的一些部件不是必须按照图示的布置,本领域技术人员可以根据需要增加一些部件或省略一些部件。本领域技术人员应该理解,上述实施例可以在不脱离本发明的范围和实质的情况下被修改。本发明的范围是通过所附的权利要求限定的。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献