一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于异构神经网络技术的VoIP恶意行为检测方法及系统与流程

2022-07-31 07:18:19 来源:中国专利 TAG:

一种基于异构神经网络技术的voip恶意行为检测方法及系统
技术领域
1.本发明涉及网络信息安全领域,觉涉及一种基于异构神经网络技术的voip恶意行为检测方法及系统。


背景技术:

2.voip(voice over internet protocol)是指通过互联网传输语音和多媒体内容的技术,其原理是将用户的语音从音频信号转化为数字信号,可以通过wi-fi或运营商的移动数据网络发送数据。voip的快速发展,也带来了许多安全威胁,如一些攻击者利用voip线路,对用户发起骚扰或诈骗活动,会导致用户的通话线路被阻塞。
3.针对voip有害行为的发现分析技术,多数利用呼叫记录、voip流量等数据。对于呼叫记录而言,主要包括呼叫者和被呼叫者的用户和服务域名,其中用户名可以是电话号码,服务域名是主机的完全限定域名(fqdn)或ip地址。对于voip流量而言,主要包括流量记录中消息传输的路径消息,即ip之间的关系;同时还包括流量记录中消息传输的路径信息,即ip之间的转发关系。当前技术往往利用上述数据进行统计分析或提取特征后进行模型识别,如专利cn111556013a就是基于voip流量利用统计得到的各类指标,判断某些指标是否超过阈值,一旦超过阈值就将定义有害行为。一般而言,voip良性与有害行为之间,在用户名和服务域名,以及电话号码之间的关联关系存在不同,例如设备和活动聚集性等方面。现有研究缺乏对多种数据集的关联分析,无法挖掘voip行为中的隐式关系和显式关系。已有专利cn111556013a是利用从voip流量中提取出的特征进行统计分析,在数据源方面较为单一;没有挖掘voip行为中的隐藏关系。


技术实现要素:

4.本发明的目的是提供一种基于异构神经网络技术的voip恶意行为检测方法及系统,能够利用多种数据源的信息,通过挖掘异构信息网络中的隐式关系和隐藏模式发现有害voip行为。
5.为达到上述目的,本发明采用以下技术方案:
6.一种基于异构神经网络技术的voip恶意行为检测方法,包括以下步骤:
7.从voip多数据源中抽取出信息对象;
8.根据信息对象的关联关系提取各信息对象之间的元路径,由全部相关的元路径构造全节点邻接矩阵,根据该全节点邻接矩阵构建异构信息网络,该异构信息网络中的节点表示信息对象,边表示信息对象之间的连接关系元路径;
9.根据与信息对象相关的不同的元路径,获取异构信息网络和对应的邻接矩阵,通过训练gem模型利用异构信息网络的邻接矩阵及其特征矩阵,得到节点向量表示;
10.根据节点向量表示,计算不同节点之间的相似度,将相似度大于某一阈值的节点聚为一类;
11.对于同一类的节点,利用该类中部分节点标签对该类中所有节点打上相同标签,
得到标注好的数据;
12.基于标注好的数据,监督分类算法对输入的节点向量表示进行学习分类,获取有害的voip节点。
13.进一步地,voip多数据源包括voip流量数据、呼叫详细记录和voip应用知识库信息,该voip流量数据包括电话号码和非电话号码形式的voip用户名,该呼叫详细记录包括ip类型的服务域名和fqdn类型的服务域名,该voip应用知识库信息包括通过人工或模型对voip流量数据和呼叫详细记录进行用户危险等级标注。
14.进一步地,所述部分节点标签来自于voip应用知识库信息。
15.进一步地,利用基于正负采样的交叉熵损失函数对gem模型进行训练,该交叉熵损失函数的表达式如下:
[0016][0017]
其中,节点j是节点i随机游走访达的邻居;in~pn(i)表示负采样:节点jn是从节点i的负采样分布pn中采样得到,q为采样样本数,σ是非线性激活函数,hi,hj表示第i,j个节点的embedding向量,e表示两个节点的关系描述,log底数为10。
[0018]
进一步地,所述分类算法为逻辑回归、支持向量机、决策树、随机森林、xgboost、lightgbm、catboost中的一种。
[0019]
一种基于异构神经网络技术的voip恶意行为检测系统,包括存储器和处理器,在该存储器上存储有计算机程序,该处理器执行该程序时实现上述方法的步骤。
[0020]
一种计算机可读存储介质,存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
[0021]
本方法对多数据源的voip信息进行了提取,结合了呼叫详细记录和voip流量,从而提取了包括用于标识呼叫者和被叫者的用户名和服务域名、流量记录中消息传输的路径信息、电信账号的通话记录信息等信息。针对voip异构网络信息,在图表示学习过程中,筛选出了最优损失函数。与已有方法相比只关注单一数据源相比,本方法采用了三类数据源,分别是:1)voip流量数据,2)呼叫详细记录,3)voip应用知识库信息,其中voip应用知识库信息主要包括通过人工/模型标记的用户危险等级等信息。与已有方法未挖掘voip行为中的隐藏关系相比,本方法通过多维信息多关联分析,能够挖掘voip行为中的隐式关系和隐藏模式,以提高检测能力。在voip有害行为涉及到的信息对象包括但不限于用户名、完全限定域名(fqdn)、ip地址、电话号码等。这些信息对象构成的关联网络属于异构信息网络,即构成的对象和连接包括多个不同的类型。与使用同构信息网络相比,异构信息网络包含更多的信息,更有利于进行隐式关系和隐藏模式挖掘。较之现有的技术仅利用单一数据源,本发明利用了多种voip数据源,能够充分利用了voip信息对象,便于进行多维信息融合和关联网络构建。较之现有技术仅利用统计方法,本发明利用了图表示学习方法,可以充分学习到节点之间的交互信息,能够挖掘voip行为中的隐式关系和隐藏模式,以提高voip有害行为检测管理能力,有助于打击恶意服务,净化网络环境。
附图说明
[0022]
图1是本发明实施例的异构信息网络实例图。
[0023]
图2是本发明实施例的异构信息网络实例的网络模式图。
具体实施方式
[0024]
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
[0025]
本实施例公开了一种基于异构神经网络技术的voip恶意行为检测方法,在多voip数据源下使用异构信息网络检测恶意voip行为,本实施例使用的voip多数据源形成的异构信息网络实例如图1所示,具体而言,包括以下处理步骤:
[0026]
步骤一:从多数据源中抽取出信息对象。
[0027]
本实施例中的多数据源信息包括:m∈m为电话号码的集合,n∈n为非电话号码形式的voip用户名的集合,p∈p为ip类型的服务域名集合,q∈q为fqdn类型的服务域名集合。
[0028]
步骤二:将信息对象的关联关系构建成异构信息网络。
[0029]
从上述多源数据集可以看出,在voip有害应用及服务平台的分析发现中,涉及到的信息对象包括但不限于用户名、完全限定域名(fqdn)、ip地址、电话号码等。基于这些不同类型的信息对象构成的关联网络,属于异构信息网络(hin),即构成的对象和连接包括多个不同的类型。整体异构信息网络的构建基于上述多源据源据进行构建,其中该网络中的节点表示信息对象,边表示信息对象之间的连接关系,具体如图1、图2所示。通常来说,呼叫者与被呼叫者的账号均通过用户名和服务域名进行标识,形式为用户名@服务域名。而用户名一般为电话号码和非电话号码两种注册形式,后者存在与前者一一对应映射关系的可能性。
[0030]
为了构建异构网络,首先需要构造不同类型对象的邻接矩阵。此处以fqdn为例,介绍邻接矩阵构建方式。基于对voip网络模式的观察,所提取的fqdn基本元路径包括:
[0031][0032][0033][0034][0035][0036][0037][0038]
当数据包含信息更加充分时,可进一步根据上述网络模式提取更多数量的元路径。每条元路径实际都是一个小的邻接矩阵,数据中的所有与fqdn相关的连接元路径共同构成了fqdn的全节点邻接矩阵。一条元路径在异构信息网络中可能包含一条边,也可能包含多条边。
[0039]
步骤三:采用图神经网络对异构信息网络进行表征学习输出恶意行为。
[0040]
根据fqdn到fqdn的不同元路径,抽取出对应的异构信息网络g=《v,e》,以及对应
的邻接矩阵a,v为节点,表示信息对象;e为边,表示元路径。模型的目标是能够利用多个异构信息网络邻接矩阵a及其各自的特征矩阵x完成图嵌入过程,即获得节点向量表示。获取节点表示的方法已经被学术界和工业界广泛采用。本实施例具体利用gem模型获取节点向量表示。为使本模型更加贴合voip有害识别场景,在训练参数过程中,本实施例利用了基于正负采样的交叉熵损失函数,具体如下:
[0041][0042]
其中,节点j是节点i随机游走访达“邻居”;in~pn(i)表示负采样:节点jn是从节点i的负采样分布pn中采样的,q为采样样本数,σ是非线性激活函数,hi,hj表示第i,j个节点的embedding向量,e表示两个节点的关系描述,log底数为10。
[0043]
考虑到同一voip对象可能产生相似的网络行为,获得节点向量表示之后,本实施例采用例如向量点积等多种相似度计算方式,进行节点隐性关联关系挖掘;具有而言,就是计算不同节点之间的相似性,将相似度大于阈值(根据实际需求设置)的节点聚为一类。同一类中的节点具有相同的网络行为,结合voip应用知识库信息获得部分节点标签,可以对同一类中的所有节点打标签,这有利于的丰富训练数据。基于标注好的数据,本发明利用分类算法进行有监督学习的节点分类,获取有害的voip节点。具体的分类算法可以选取当前主流的机器学习算法,包括逻辑回归、支持向量机(support vector machine,svm)、决策树、随机森林、xgboost、lightgbm、catboost等。
[0044]
虽然本发明已以实施例公开如上,然其并非用以限定本发明,本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换,均应涵盖于本发明的保护范围内,本发明的保护范围以权利要求所限定者为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献