一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种融合同质图与二分图的电信诈骗安全联邦检测方法

2022-07-02 08:39:21 来源:中国专利 TAG:


1.本发明属于大数据分析与挖掘领域,涉及一种融合同质图与二分图的电信诈骗安全联邦检测方法。


背景技术:

2.随着移动通信的发展以及各类网络应用的普及,全球电信网络诈骗形势愈演愈烈,且有逐步向高科技靠拢、向网络诈骗转变的趋势。在互联网技术飞速发展的今天,电信网络诈骗日益成为世界各国的社会“顽疾”之一。目前来看,全球电信网络诈骗的实施仍以电话联络为主,且日益呈现智能化、产业化、同质化等新特点新问题,诈骗对象也逐步从广撒网式向精准诈骗转变。诈骗方式也逐渐从电话、短信、电子邮件向社交网站、手机应用蔓延扩散,各种诈骗手段不断翻新,技术对抗性持续增强,诈骗脚本紧跟社会热点、紧贴个人隐私,诈骗模式也逐渐从境内诈骗向跨境诈骗转变。
3.目前,工业界中诈骗号码检测的方案主要有基于规则的专家系统和基于机器学习的模型系统两种方案。基于规则的专家系统需要反欺诈专家对大量的包括正常和异常的电信数据进行人工分析,准确地识别诈骗分子的欺诈行为方式,找到能够有效区分是否欺诈的重要特征,并编写专家规则进行欺诈行为的检测。因此基于规则的专家系统强烈依赖于反欺诈专家的专业知识和业务知识,如果专家不能及时敏锐地发现日益复杂的欺诈模式,那么就会造成巨大的损失。
4.伴随着数据规模不断扩大以及机器计算能力的不断増强,出现了基于机器学习的模型系统。基于机器学习的模型通常是根据历史交易数据进行特征分析,之后利用机器学习分类算法在特征数据集上训练和评估模型,然后应用于诈骗号码检测。不管是基于规则的专家系统还是基于机器学习的模型系统,都是从历史数据中发现交易欺诈时重复出现的个体行为模式。随着电信诈骗的专业化程度不断提高,诈骗分子可以通过改变自身欺诈手法来逃避欺诈检测,但是诈骗分子难以改变其全部的关联关系。当关联网络覆盖到一个较大范围时,诈骗分子即使再小心也会露出蛛丝马迹。因此,在大规模数据的背景下,如何挖掘有效特征来提高模型欺诈检测的效果是目前科研工作者探索的新方向。
5.在数据安全越来越受到重视的今天,直接使用电信大数据往往存在巨大的难度。各运营商及相关企业之间,甚至同一机构的不同业务部门之间都存在数据整合困难的问题,因此将不同部门提取到的电信用户特征数据进行联合训练也是当前的研究重点。


技术实现要素:

6.有鉴于此,为了能够充分利用各运营商通信业务数据与公安部门的诈骗号码标签数据来识别诈骗号码,本发明在基于图嵌入学习基础上,提出一种基于语音短信社交图与手机应用访问二分图的诈骗号码特征提取与分类方法。
7.为达到上述目的,本发明提供如下技术方案:
8.一种融合同质图与二分图的电信诈骗安全联邦检测方法,包括以下步骤:
9.s1:基于电信运营商的用户业务数据,提取用户的语音通话数据、短信通信数据以及手机应用访问数据,并进行预处理;
10.s2:利用预处理后的数据构建电信用户社交网络同质图与用户手机应用二分图数据集,图数据集中包括语音社交网络同质图、短信社交网络同质图及手机应用访问二分图三种类型的带权图,其中边的权重设置根据不同业务的特点进行统计特征提取与权值聚合;
11.s3:针对社交网络同质图构建同质图嵌入网络,针对用户访问手机应用二分图构建二分图嵌入网络,采用图嵌入学习方式对用户节点进行采样得到邻居节点共现序列,再通过重构嵌入函数与共现信息负采样迭代训练得到各节点的嵌入表示;将训练得到的嵌入特征进行融合作为用户的嵌入表示;
12.s4:不同参与方根据本地数据特点提取本地电信用户特征,并采用安全联邦梯度提升树分类模型对不同机构的本地数据进行联合训练;不同机构之间的样本数据通过可靠的第三方服务器进行加密数据样本对齐与加密模型参数交换,从而实现多方模型联合训练,在训练过程中采用二阶段训练法,其中第一阶段训练用于对特征进行筛选,第二阶段训练用于对筛选后的特征进行分类,并输出诈骗号码的最终预测结果。
13.进一步,步骤s1具体包括:利用从电信运营商处采集的用户不同业务数据构建诈骗号码检测数据集;按照不同业务数据特征将数据分为以下四类:用户基础信息数据、语音通话数据、短信通信数据以及手机应用访问数据;对采集的数据进行数据清洗操作,包括异常值处理、缺失值处理及规范化处理;同时根据已经掌握的电信诈骗报案信息对提取的电信用户进行标注,诈骗用户标注为1,非诈骗用户标注为0。
14.进一步,步骤s2中,对语音和短信社交网络同质图及用户访问手机应用二分图构建的过程包括:针对语音与短信数据,根据语音通话的主被叫关系提取电信用户语音社交图g1;根据短信通信的上下行收发关系构建短信社交图g2;针对用户上网日志数据,按照用户访问手机应用的记录对数据进行汇总合并得到手机应用访问二分图g3;三类图数据均为带权图形式,其中语音社交图的边权重按照主被叫之间的通联关系特征进行加权求值,短信社交图的边权重按照收发用户的通联关系特征进行加权求值,用户访问手机应用二分图的边权重按照用户访问手机应用的上网情况特征进行加权求值。
15.进一步,步骤s2中所述利用预处理后的数据构建电信用户社交网络同质图与用户手机应用二分图数据集,具体包括:
16.语音社交网络图g1=(u1,e1)与短信社交网络g2=(u2,e2),其中ui是用户节点集合,ei是用户与用户通联关系集合;边集合中的每条边(i,j)∈e,拥有一对用户节点对(ui,uj),同时拥有一个权重w
ij
≥0,代表两个用户之间的交互情况;
17.对于语音社交网络图g1中用户对(ui,uj)之间的有向边权重通过提取(ui,uj)之间通话特征集合特征集合f1包括但不限于通话次数特征f
1(1)
、总通话时长特征平均通话时长特征通话时间段特征是否长途通话特征主叫在网时长特征被叫在网时长特征然后对集合中所有元素进行加权求和得到该边的权重,权重求取公式如下式所示:
[0018][0019]
其中αi为加权系数,n为提取的语音通话特征总数;
[0020]
对于短信社交网络图g2的有向边权重通过提取(ui,uj)之间通话特征集合)之间通话特征集合特征集合f2包括但不限于发送次数特征f
1(2)
、短信总字节数特征短信平均字节数特征短信发送时间段特征是否为验证码短信特征发送方在网时长特征接收方在网时长特征然后对集合中所有元素进行加权求和得到该边的权重,权重求取公式如下式所示:
[0021][0022]
其中βi为加权系数,m为提取的短信通信特征总数;
[0023]
手机应用访问二分图g3=(u3,v3,e3),其中u3表示用户节点集合,v3表示手机应用节点集合;表示用户访问手机应用的关系边集合,每条边有一个非负权重w
ij
≥0,表示用户访问手机应用的上网使用情况;对于手机应用访问二分图g3中用户手机应用关系对(ui,vj)之间的有向边权重通过提取(ui,vj)之间上网特征集合特征集合f3包括但不限于访问次数特征f
1(3)
、访问总时长特征平均访问时长特征f
3(3)
、访问总消耗流量特征平均消耗流量特征用户在网时长特征手机应用类别特征然后对集合中所有元素进行加权求和得到该边的权重,权重求取公式如下式所示:
[0024][0025]
其中γi为加权系数,k为从用户访问app数据中提取的特征总数。
[0026]
进一步,步骤s3具体包括以下步骤:
[0027]
s31:根据所构建的社交网络同质图、短信社交网络同质图及手机应用访问二分图分别采用相应的图嵌入模型对用户节点进行图嵌入训练;
[0028]
s32:根据同质图节点之间的一阶与二阶邻居相似性找出用户节点的邻居序列集合,根据二分图的显式关系与隐式关系找出用户节点的邻居序列集合;
[0029]
s33:分别将一阶相似性训练得到的节点嵌入和二阶训练得到的节点嵌入进行拼接得到同质图用户节点的嵌入向量,将显式关系与隐式关系联合优化训练得到二分图用户节点嵌入向量。
[0030]
进一步,步骤s3中,对于同质图,将用户节点从图域映射到嵌入域,即在给定用户节点索引i时,直接获得节点ui的嵌入ui,该映射函数表示为:
[0031][0032]
其中,ei∈{0,1}n表示用户节点ui的独热编码(one-hot encoding),其中n=|u|表示用户节点数量;ei表示向量中对应的第i个元素ei[i]为1,其他元素均为0;wn×d是要学习
的嵌入参数矩阵,其中d是嵌入的维度;矩阵w的第i行就是节点ui的嵌入表示;
[0033]
对于二分图,由于原始的二分图g3中存在两种类型的节点集,考虑到诈骗号码检测任务只需关注用户节点特征,因此需将基于用户节点的同质图拆分出来gu作为隐式关系进行特征提取,然后将二分图各节点从图域映射到嵌入域,分别用ui与vi表示用户节点ui∈u3与手机应用节点vi∈v3的嵌入向量;
[0034]
提取用户节点在图域中的关键结构信息其中同质图网络根据节点的一阶与二阶相似性重构节点的领域信息二分图网络则根据图域节点的显式关系和隐式关系分别建模提取用户节点在图域中的关键结构信息
[0035]
利用嵌入域的嵌入表示重构所提取的图域共现信息和重构的信息表示为和
[0036]
通过对基于共现信息与重构信息的目标函数进行优化,学习映射函数与重构器中涉及到的所有参数;
[0037]
对于同质图而言,一阶相似度需要优化的目标函数为:
[0038][0039]
二阶相似度需要优化的目标函数为:
[0040][0041]
对于二分图g3,显式关系进行建模的优化目标函数为:
[0042][0043]
隐式关系进行建模的优化目标函数为:
[0044][0045]
通过对基于共现信息与重构信息的目标函数o5进行优化,学习映射函数与重构器中涉及到的所有参数。二分图的最终联合优化总体目标函数为:
[0046]
maximize o5=-μo3 ηo4[0047]
其中,μ与η是要指定的超参数,用于组合联合优化中的不同组件。
[0048]
进一步,步骤s4具体包括以下步骤:
[0049]
s41:将同质图与二分图嵌入向量进行拼接得到的节点最终嵌入特征并结合用户基础特征和标签信:息输入安全联邦梯度提升树分类模型进行初次训练;
[0050]
s42:将一阶段训练得到的特征按照重要性进行排序,筛选出排名前n的特征,分发给不同参与方对特征进行优选;
[0051]
s43:不同参与方进行特征筛选后,再次进行二阶段联邦梯度提升树分类训练,并输出诈骗号码预测结果;
[0052]
s44:将用户最终分类结果进行处理,输出可疑诈骗号码名单。
[0053]
进一步,安全联邦梯度提升树模型的二阶段训练过程包括加密样本对齐与加密模
型训练;训练过程中通过中心服务器对模型的中间计算结果与参数进行加密交换最终得到最优的模型参数组合;加密方式采用基于rsa算法与散列函数的方式进行;在训练过程中,本地数据只在本地进行计算,并将计算结果加密后传输给中心服务器,其他参与方无法获得本地数据详情。因此能够保证本地数据的安全。
[0054]
本发明的有益效果在于:本发明解决了诈骗用户检测任务中针对电信用户历史话单与上网数据的交互性特征进行特征提取的问题,并结合特征工程采集的用户基本信息特征用于机器学习模型分类预测。为传统诈骗号码检测任务提供了一种更多元的数据特征提取方法。本发明可以与其他传统诈骗号码检测模型进行相互融合与补充,在诈骗号码检测任务中具有很好地泛化能力。并且本发明所需采集的数据可以以匿名化的加密数据形式进行处理,同样可以达到相同的特征提取效果,在一定程度上,对于用户隐私安全的保护有积极地现实意义。本发明能够结合不同电信运营商及其他相关机构的数据作为模型输入进行联合训练,并且所使用的安全联邦机器学习模型能够保证各参与方的数据不会泄露给彼此。能够保证数据安全的同时充分利用多方数据进行电信欺诈检测。对于当前隐私数据的使用越来越严格的场景,本方案能够很好解决数据隔离与数据碎片化问题。本发明在多方联合建模中采用二阶段训练方式,能够对多方数据特征进行特征筛选,在一定程度上能够提高模型的泛化能力。该方法属于模型优化的一种方式,可以应用到不同训练模型中。
[0055]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0056]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0057]
图1是本发明方法的步骤示意图;
[0058]
图2是本发明方法的总流程示意图;
[0059]
图3是本发明采用的语音短信社交图嵌入模块示意图;
[0060]
图4是本发明采用的手机应用访问二分图嵌入模块示意图;
[0061]
图5是本发明采用的本地机器学习分类模块示意图;
[0062]
图6是本发明使用的安全联邦多方训练模型示意图;
[0063]
图7是本发明中的安全联邦加密训练示意图。
具体实施方式
[0064]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0065]
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0066]
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0067]
本发明提出了一种融合同质图与二分图的电信诈骗安全联邦检测方法,如图1所示,具体包括以下步骤:
[0068]
从电信运营商处采集的用户不同业务数据构建诈骗号码检测数据集。首先按照不同业务数据特征将数据分为以下四类:用户信息数据、语音通话数据、短信通信数据以及手机应用访问数据。对采集的多元数据进行异常值处理、缺失值处理及规范化处理等数据清洗操作,同时根据已经掌握的电信诈骗报案信息对提取的电信用户进行标注,诈骗用户标注为1,非诈骗用户标注为0。
[0069]
利用预处理后的数据构建电信用户社交网络同质图与用户手机应用二分图数据集,数据集中包含了用户的标签信息用来进行诈骗号码二分类训练与测试。具体构建过程如下:
[0070]
语音社交网络图g1=(u1,e1)与短信社交网络g2=(u2,e2),其中ui是用户节点集合,ei是用户与用户通联关系集合。边集合中的每条边(i,j)∈e,拥有一对用户节点对(ui,uj),同时拥有一个权重,即w
ij
≥0,代表两个用户之间的交互情况。对于语音社交网络图g1中用户对(ui,uj)之间的有向边权重通过提取(ui,uj)之间通话特征集合特征集合f1包括但不限于通话次数特征f
1(1)
,总通话时长特征平均通话时长特征通话时间段特征是否长途通话特征主叫在网时长特征被叫在网时长特征等,然后对集合中所有元素进行加权求和得到该边的权重,权重求取公式如下式所示:
[0071][0072]
其中αi为加权系数,n为提取的语音通话特征总数。同样对于短信社交网络图g2的有向边权重通过提取(ui,uj)之间通话特征集合特征集合f2包括但不限于发送次数特征f
1(2)
,短信总字节数特征短信平均字节数特征f
3(2)
,短信发送时间段特征是否为验证码短信特征发送方在网时长特征接收方在网时长特征等,然后对集合中所有元素进行加权求和得到该边的权重,权重求取公式如下式所示:
[0073][0074]
其中βi为加权系数,m为提取的短信通信特征总数。
[0075]
手机应用访问二分图g3=(u3,v3,e3),其中u3表示用户节点集合,v3表示手机应用节点集合。表示用户访问手机应用的关系边集合,每条边有一个非负权重w
ij
≥0,表示用户访问手机应用的上网使用情况。对于手机应用访问二分图g3中用户app关系对(ui,vj)之间的有向边权重通过提取(ui,vj)之间上网特征集合特征集合f3包括但不限于访问次数特征f
1(3)
,访问总时长特征平均访问时长特征f
3(3)
,访问总消耗流量特征平均消耗流量特征用户在网时长特征手机应用类别特征等,然后对集合中所有元素进行加权求和得到该边的权重,权重求取公式如下式所示:
[0076][0077]
其中γi为加权系数,k为从用户访问app数据中提取的特征总数。
[0078]
针对语音短信社交图构建同质图嵌入网络,针对手机应用访问二分图构建二分图嵌入网络,采用无监督学习的方式对用户节点进行采样得到邻居节点共现序列,再通过重构嵌入函数与共现信息负采样迭代训练得到各节点的嵌入表示。
[0079]
将各嵌入模型输出的节点嵌入特征进行拼接操作,并筛选出其中具有标签数据的样本数据,按标签属性将其按比例分割为训练集与测试集作为分类模型的输入,通过模型在训练集与测试集上的迭代训练最终得到最优模型用于诈骗号码的分类预测。最终使用该模型对其他用户数据进行预测,并将预测结果输出到疑似诈骗号码数据库中供运营商作参考。
[0080]
本发明还提供了一种融合同质图与二分图的电信诈骗安全联邦检测装置,如图2,具体包括:
[0081]
原始数据采集模块,首先连接到运营商的数据仓库,周期性的通过hivesql提取用户通信数据与用户访问手机应用数据,按照时间周期将数据记录合并汇总得到三张用户通信表保存到存储模块中,三个表格分别为语音通话数据、短信通信数据及手机应用流量使用情况数据。
[0082]
图数据预处理模块,周期性读取存储器中存储的语音通话数据表、短信通信数据表及手机应用流量使用情况数据表,通过合并汇总提取出各表中用户与用户及用户与手机应用之间的交互关系,并以邻接表形式的形式将三种交互图数据进行存储。
[0083]
图嵌入特征提取模块,针对上述处理后的三种图结构数据,分为两种类型分别进行特征提取。第一种类型为基于语音与短信数据的电信用户社交网络同质图g1和g2。第二种类型为基于手机应用流量使用情况的手机应用访问二分图g3。
[0084]
图3为同质图的特征嵌入网络示意图。对于同质图g1和g2的嵌入特征提取,其具体步骤包括:
[0085]
步骤一:节点嵌入映射模块,用于将用户节点从图域映射到嵌入域,即在给定用户
节点索引i时,可直接获得节点ui的嵌入ui,该映射函数可表示为:
[0086][0087]
其中,ei∈{0,1}n表示用户节点ui的独热编码(one-hot encoding),其中n=|u表示用户节点数量。ei表示向量中对应的第i个元素ei[i]为1,其他元素均为0。wn×d是要学习的嵌入参数矩阵,其中d是嵌入的维度。矩阵w的第i行就是节点ui的嵌入表示。
[0088]
步骤二:图域共现信息提取模块,用于提取用户节点在图域中的关键结构信息即根据节点的一阶与二阶相似性重构节点的领域信息
[0089]
其中,一阶相似度指网络中用户节点之间的局部两两相似性,形式化描述为若节点ui与uj之间存在直连边,则直连边的权重w
ij
即为两个顶点的相似度;若不存在直连边,则一阶相似度为0。对于节点ui与uj之间的无向边,其相似性联合概率分布定义为:
[0090][0091]
在嵌入域,节点之间的经验分布定义如下:
[0092][0093]
其中,vi∈rd表示节点ui在嵌入域的d维向量表示。
[0094]
二阶相似度是指网络中用户节点的邻居节点所具有相似性。形式化定义为,令pu=(w
u,1
,w
u,2
,

,w
u,|v|
)表示节点u与所有其他节点间的一阶相似度,则节点u与v的二阶相似度可以用pu与pv的相似度来表示。若节点u与v之间没有共同的邻居节点,则u与v的二阶相似度为0。二阶相似性可以表达图的全局性特征。
[0095]
对于二阶相似性,需要对每个节点引入两个嵌入向量来表征,一个是表征节点自身的嵌入向量,即中心节点嵌入u
cen
;另一个是作为其他节点的上下文节点的嵌入向量,即邻域节点嵌入u
con
。因此在图域,对于任意边(ui,uj)∈e,二者的联合分布定义为:
[0096][0097]
其中,w
ij
为节点ui与uj的边的权重,di为顶点ui的邻居节点数,n(ui)为节点ui的领域节点集合。
[0098]
而在嵌入域,节点之间的条件概率当ui存在时uj存在的概率定义为:
[0099][0100]
其中,表示节点ui的中心节点嵌入,表示节点ui的邻域节点嵌入,|v|表示领域节点数目。
[0101]
步骤三:嵌入域信息重构模块,利用嵌入域的嵌入表示重构所提取的图域共现信息重构的信息表示为
[0102]
步骤四:目标函数优化模块,通过对基于共现信息与重构信息的目标函数进行优化,学习映射函数与重构器中涉及到的所有参数。
[0103]
其中,一阶相似度使用kl散度来衡量两个概率分布之间的差异。忽略常数项后得
到一阶相似度的优化目标函数为:
[0104][0105]
二阶相似度同样采用kl散度来计算不同分布的差异,忽略常数项后得到二阶相似度的优化目标函数为:
[0106][0107]
图4是二分图嵌入的网络架构示意图。对于二分图g3的嵌入特征提取,其具体步骤包括:
[0108]
步骤一:二分图重构模块,原始的二分图g3中存在两种类型的节点集,考虑到诈骗号码检测任务只需关注用户节点特征,因此在此模块中只需将基于用户节点的同质图拆分出来gu作为隐式关系进行特征提取。
[0109]
步骤二:节点嵌入映射模块,用于将二分图各节点从图域映射到嵌入域,分别用ui与vi表示用户节点ui∈u3与手机应用节点vi∈v3的嵌入向量。
[0110]
步骤三:图域共现信息提取模块,用于提取用户节点在图域中的关键结构信息
[0111]
步骤四:嵌入域信息重构模块,利用嵌入域的嵌入表示重构所提取的图域共现信息重构的信息表示为
[0112]
对于二分图g3的显式关系进行建模,给定节点对(ui,vj)∈e3,其中ui∈u3和v3∈v3,在图域内两节点间的联合概率为:
[0113][0114]
而在嵌入域内节点的经验分布为:
[0115][0116]
对于显式关系而言,用kl散度衡量图域与嵌入域分布的差异,因此目标函数为:
[0117][0118]
忽略常数项后最终目标函数为:
[0119][0120]
对于二分图的隐式关系同质图gu,采用基于一阶相似度的同质图嵌入进行训练优化。其用户节点联合概率分布、嵌入域节点经验分布及需要优化的目标函数如下所示:
[0121]
[0122][0123][0124]
步骤四:目标函数优化模块,通过对基于共现信息与重构信息的目标函数o5进行优化,学习映射函数与重构器中涉及到的所有参数。最终联合优化总体目标函数为:
[0125]
maximize o5=-μo3 ηo4[0126]
其中,o3为二分图节点显式关系目标函数,o4为二分图节点隐式关系目标函数,μ与η是要指定的超参数,用于组合联合优化中的不同组件。
[0127]
通过上述图嵌入模块迭代优化,得到用户的三类嵌入向量特征表示x1,x2,x3。
[0128]
图5是本发明所采用的诈骗用户检测本地分类模型架构,图6为联合多方本地模型进行安全联邦学习的联合训练模型架构。对于多个参与方的本地模型,首先通过诈骗用户检测模块,将数据处理模块整理的用户基础信息特征x0与用户嵌入特征x1,x2,x3进行拼接得到电信用户特征组合表,结合实际报警信息得到的电信用户标签数据,组合构成诈骗用户检测数据集。对于多个参与方采用上述同种方式构建样本数据集,之后各个参与方通过作为协调方的中心服务器对运算过程进行加密样本实体对齐,并对各方本地数据模型的运算结果进行加密运算与交换,通过不断迭代优化最终得到最优的模型参数用于诈骗号码的结果预测,并将预测为诈骗号码的用户导出到可疑用户列表供进一步研究与使用。本模块中,各方机构所使用的本地分类模型包括但不限于逻辑回归、决策树、深度学习网络、集成学习等。
[0129]
图7为安全联邦多方联合加密训练示意图。在训练过程中采用二次训练的方式,其中第一次训练用于进行特征筛选,各参与方特征在第一次训练完成后得到特征重要性权值,根据该数值对特征进行排序筛选出排名前50的特征。然后让拥有这些特征的参与方进行二次联合建模,并将二次训练的结果作为输出提供给标签拥有方运营商。运营商从预测结果中提取数可以诈骗号码名单作为参考。
[0130]
在一个优选实施例中,当出现新的类型的电信诈骗方式时,对新的诈骗样本进行分类标注,选取正常用户和新型诈骗用户样本数据并输入到已训练好的模型中,通过对模型参数进行迭代优化使得模型能够适应新的诈骗类型的检测。
[0131]
本发明实施例通过在不同过程中选择不同类型以及不同数量的数据集,能够实现基于语音短信社交图与手机应用访问二分图的电信用户欺诈检测方法,检测识别出电信用户中的欺诈用户。
[0132]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献