一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

网络服务的检测方法、装置、电子设备及存储介质与流程

2022-11-08 18:30:23 来源:中国专利 TAG:
1.本发明涉及数据处理
技术领域
:,具体涉及一种网络服务的检测方法、装置、电子设备及存储介质。
背景技术
::2.目前对于已经注册备案的网站,通过监管和安全手段进行安全防护,但对于私开web服务、未备案网站的发现主要是通过从核心交换机获取镜像流量分析其中http(超文本传输协议,hypertexttransferprotocol)链接的http分析技术,或者通过注入初始url(统一资源定位符,uniformresourcelocator)然后爬虫主动遍历网站间的链接并分析这些链接达到发现网站的两种方法来实现。3.然而对于http分析方法,需要获取全量流量信息,需要占用大量的存储资源、带宽资源,分析过程也需要大量的it资源来支撑,且需要获取实时流量,占用核心交换机负荷过大,容易导致核心交换机负载过大,进而影响网络稳定性,导致核心交换机访问访问用户感知变差。对于爬虫遍历的方法,部分web网站私开者可以有意识的绕开爬虫,在开发web时不允许爬虫进行爬取,或网站设立时间短与其他网站关联关系较弱,会导致网址识别失败,且使用爬虫技术随机性比较大,同样存在分析时间长,占用资源过大的问题。技术实现要素:4.基于现有技术中存在的问题,本发明实施例提出一种网络服务的检测方法、装置、电子设备及存储介质。5.第一方面,本发明实施例提供了一种网络服务的检测方法,包括:6.获取ip网络的netflow数据流;7.从所述netflow数据流中提取用于识别网络服务的流量指标,并将所述流量指标输入web访问识别模型,识别所述流量指标是否为非离群点流量指标,其中,所述web访问识别模型是基于网站的netflow数据流样本预先训练得到;8.如果是非离群点流量指标,则确定所述netflow数据流对应网络服务,并上报所述netflow数据流以确定所述网络服务是否已备案。9.进一步地,所述获取ip网络的netflow数据流,包括:10.启动udp监听线程,通过所述udp监听线程从所述ip网络的路由器上采集netflow数据;11.将netflow数据写入队列;12.从所述队列取出netflow数据,并拆分所述netflow数据,得到netflow拆分数据;13.将netflow拆分数据写入内存数据表;14.从所述内存数据表中读取netflow拆分数据,并对所述netflow拆分数据进行聚合,得到netflow数据流;15.存储所述netflow数据流。16.进一步地,所述存储所述netflow数据流,包括:17.以预定的文件存储格式,将所述netflow数据流存储到分布式文件系统hdfs。18.进一步地,在从所述netflow数据流中提取用于识别网络服务的流量指标,并将所述流量指标输入web访问识别模型,识别所述流量指标是否为非离群点流量指标之前,还包括:基于网站的netflow数据流样本对所述web访问识别模型进行训练。19.进一步地,所述基于网站的netflow数据流样本对所述web访问识别模型进行训练,包括:20.从所述网站的netflow数据流样本中提取所述流量指标,得到流量指标样本集合;21.对所述流量指标样本集合进行排序,并基于排序结果得到所述流量指标样本集合的上四分位值和下四分位值;22.基于所述上四分位值和下四分位值,确定非离群点流量指标的范围。23.进一步地,在确定所述netflow数据流对应网络服务之后,还包括:24.将所述netflow数据流的所述流量指标更新所述流量指标样本集合,以便基于更新后的流量指标样本集合修正所述非离群点流量指标的范围。25.进一步地,所述用于识别网络服务的流量指标包括源端口信息、bps信息和平均包长中的部分或全部。26.第二方面,本发明的实施例提供一种网络服务的检测装置,包括:27.获取模块,用于获取ip网络的netflow数据流;28.识别模块,用于从所述netflow数据流中提取用于识别网络服务的流量指标,并将所述流量指标输入web访问识别模型,识别所述流量指标是否为非离群点流量指标,其中,所述web访问识别模型是基于网站的netflow数据流样本预先训练得到;29.网络服务确定模块,用于在所述流量指标是非离群点流量指标时,确定所述netflow数据流对应网络服务,并上报所述netflow数据流以确定所述网络服务是否已备案。30.第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的网络服务的检测方法。31.第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的网络服务的检测方法。32.由上述技术方案可知,本发明实施例提供的网络服务的检测方法、装置、电子设备及存储介质,通过从netflow数据流中提取少量的可用于识别网络服务的流量指标,对流量指标进行检测,不需要对整体流量信息进行检测,从而,提升了检测的效率,并且可以实时地检测。另外,通过web访问识别模型确定出流量指标是否为非离群点流量指标的方式确定netflow数据流是否对应网络服务,可以有效提升检测准确率。附图说明33.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。34.图1是本发明一实施例提供的网络服务的检测方法的流程图;35.图2是本发明另一实施例提供的网络服务的检测方法的流程图;36.图3是本发明一实施例提供的web访问识别模型训练示意图;37.图4是本发明一实施例提供的网络服务的检测装置的结构框图;38.图5是本发明一实施例提供的电子设备的结构示意图。具体实施方式39.下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。40.以下结合附图描述根据本发明实施例的网络服务的检测方法、装置、电子设备及存储介质。41.图1示出了本发明一实施例提供的网络服务的检测方法的流程图。如图1所示,并结合图2,本发明一个实施例提供的网络服务的检测方法,包括如下内容:42.s101:获取ip网络的netflow数据流。43.具体地,netflow可对不同类型的业务流进行准确的流量和流向分析与计量,而且可以对各种类型数据包进行区分。由于ip网络的非面向连接特性,网络中不同类型业务的通信可能是任意一台终端设备向另一台终端设备发送的一组ip数据包,这组数据包实际上就构成了运营商网络中某种业务的一个数据流flow。如果管理系统能对全网传送的所有flow进行区分,准确记录传送时间、传送方向和flow的大小,就可以对全网所有业务的流量和流向进行分析和统计。44.netflow可用于网络设备对数据交换进行加速,并可同步实现对高速转发的ip数据流flow进行测量和统计,可以减少交换机在数据转发过程中的负荷,能有效保证数据实时性的同时不影响该交换机下面业务感知。另外netflow技术根据ip数据包的7个属性,快速区分网络中传送的各种不同类型业务的flow。对区分出的每个flow,netflow技术可以进行单独跟踪和准确计量,记录其传送方向和目的地等流向特性,统计其起始和结束时间、服务类型、包含的数据包数量和字节数量等流量信息。45.获取ip网络的netflow数据流相对于现有技术中采集全部流量分析http的方法更加简洁,同时数据量大幅减少且更加规范,能够在存储、分析过程中具有更大的优势。46.在本发明的一个实施例中,本步骤中获取ip网络的netflow数据流,包括:启动udp监听线程,通过udp监听线程从ip网络的路由器上采集netflow数据;将netflow数据写入队列;从队列取出netflow数据,并拆分netflow数据,得到netflow拆分数据;将netflow拆分数据写入内存数据表;从内存数据表中读取netflow拆分数据,并对netflow拆分数据进行聚合,得到netflow数据流;存储netflow数据流。47.具体地,如图2所示,为了实现大流量数据及时接收并降低丢包率,netflow流量采集与聚合采用多线程实现。首先定义流记录结构,启动udp监听线程,通过udp监听线程从ip网络的路由器上采集netflow数据,之后将netflow数据写入队列,然后从队列取出netflow数据,再根据定义的结构将netflow数据进行拆分,分离出源ip、目的ip、源端口、目的端口、数据包大小、协议类型等信息,这些信息即netflow拆分数据,然后将这些数据写入内存数据表,即压入datatable中。最后,对源ip、目的ip、源端口、目的端口、数据包大小、协议类型等netflow拆分数据进行聚合,得到netflow数据流并存储netflow数据流。48.本发明的实施例,通过udp监听线程从ip网络的路由器上采集netflow数据,将netflow数据写入队列并拆分netflow数据,再对netflow拆分数据进行聚合,得到netflow数据流,通过使用netflow流量采集与聚合结构,能够实现大流量数据及时接收并降低丢包率。49.在本发明的一个实施例中,存储netflow数据流,包括:以预定的文件存储格式,将netflow数据流存储到分布式文件系统hdfs。50.具体地,netflow数据存储选用hdfs(分布式文件系统,hadoopdistributedfilesystem)技术,将netflow数据以文本记录文件的形式保存在hdfs上,实现海量数据的存储及共享复用能力。例如,hdfs存储文件以utf-8编码,每行一条netflow数据,字段之间以“`”字符分隔。51.s102:从netflow数据流中提取用于识别网络服务的流量指标,并将流量指标输入web访问识别模型,识别流量指标是否为非离群点流量指标,其中,web访问识别模型是基于网站的netflow数据流样本预先训练得到。52.具体地,用于识别网络服务的流量指标也就是指用于判断是否符合web访问特征的数据流,例如源ip分布、源端口分布、bps流量等。在本发明的一个实施例中,用于识别网络服务的流量指标包括源端口信息、bps信息和平均包长中的部分或全部。53.离群点是指一个时间序列中,远离序列的一般水平的极端大值和极端小值。通常ip网络中web服务产生的流量指标都符合正态分布,即ip网络中web服务产生的流量指标为非离群点流量指标。当分析非web服务流量时,流量指标数据的分布将发生偏离,此时就会产生离群点。因此,根据采集到的netflow数据,构建单指标维度的非离群集分析模型即web访问识别模型,通过检测网络流量中的多个指标是否分别匹配各自单指标维度的非离群集分析模型,就可以检测web服务流量。54.在本发明的一个实施例中,在从netflow数据流中提取用于识别网络服务的流量指标,并将流量指标输入web访问识别模型,识别流量指标是否为非离群点流量指标之前,还包括:基于网站的netflow数据流样本对web访问识别模型进行训练。55.具体地,基于网站的netflow数据流样本对web访问识别模型进行训练,根据建立的基于netflow数据的web访问模型,可以从netflow数据中高效抽取出web访问数据,无需对全量netflow数据进行分析,实现web访问数据高效抽取。同时可以对确定提供web服务的netflow数据再次输入模型,从而进一步提升web访问指标模型的准确性,持续使用过程中不断提升基于netflow数据的web访问模型的质量。56.在本发明的一个实施例中,基于网站的netflow数据流样本对web访问识别模型进行训练,包括:从网站的netflow数据流样本中提取流量指标,得到流量指标样本集合;对流量指标样本集合进行排序,并基于排序结果得到流量指标样本集合的上四分位值和下四分位值;基于上四分位值和下四分位值,确定非离群点流量指标的范围。57.具体地,如图3所示,web访问识别模型训练的过程如下:58.1)数据预处理:按照服务器ip端口维度,对netflow流量数据进行汇聚;59.2)搜集模型训练数据:将netflow流量中服务器端口80流量按照单个指标统计,输出样本集d={x1,x2……,xm};其中,1-m指流量计数,计算样本集d在各特征维度的平均值avg;60.3)对样本集d进行排序,取各维度排序中间第m/2的值的作为中位数mid,取各维度排序第m/4位、第3m/4位,分别为下四分位和上四分位值;61.4)计算各维度上四分位和下四分位的差dist;变量j从1到m,重复执行以下动作:如果j小于(上四分位 2*dist),并且j大于(下四分位-2*dist),将当前j话单作为非离群点,并添加到集合outlier中,最终输出单指标非离群集合outlier={o1,o2,..,oi}。62.通过上述步骤可以建立高可信度的web访问识别模型。63.s103:如果是非离群点流量指标,则确定netflow数据流对应网络服务,并上报netflow数据流以确定网络服务是否已备案。64.具体地,在上述步骤101中获取了ip网络的netflow数据流,步骤102从netflow数据流中提取用于识别网络服务的流量指标,并将流量指标输入web访问识别模型,识别流量指标是否为非离群点流量指标。在本步骤中,如果步骤102中的识别流量指标是非离群点流量指标,则确定netflow数据流对应网络服务,并上报netflow数据流以确定网络服务是否已备案。65.例如,将从netflow数据流中提取的流量指标如源端口信息、bps信息和平均包长输入web访问识别模型之后,得到结果为源端口信息在对应指标的非离群点集合outlier(源端口)、bps在对应指标的非离群点集合outlier(bps)、平均包长在对应指标的非离群点集合outlier(平均包长),由此可知上述指标均为非离群点流量指标,因此确定netflow数据流对应网络服务,并上报netflow数据流以确定网络服务是否已备案。66.在本发明的一个实施例中,在确定netflow数据流对应网络服务之后,还包括:将netflow数据流的流量指标更新流量指标样本集合,以便基于更新后的流量指标样本集合修正非离群点流量指标的范围。67.根据本发明实施例的网络服务的检测方法,通过从netflow数据流中提取少量的可用于识别网络服务的流量指标,对流量指标进行检测,不需要对整体流量信息进行检测,从而,提升了检测的效率,并且可以实时地检测。另外,通过web访问识别模型确定出流量指标是否为非离群点流量指标的方式确定netflow数据流是否对应网络服务,可以有效提升检测准确率。68.图4示出了本发明一实施例提供的网络服务的检测装置的结构示意图,如图4所示,本发明实施例提供的网络服务的检测装置,包括:69.获取模块410,用于获取ip网络的netflow数据流。70.识别模块420,用于从所述netflow数据流中提取用于识别网络服务的流量指标,并将所述流量指标输入web访问识别模型,识别所述流量指标是否为非离群点流量指标,其中,所述web访问识别模型是基于网站的netflow数据流样本预先训练得到。71.网络服务确定模块430,用于在所述流量指标是非离群点流量指标时,确定所述netflow数据流对应网络服务,并上报所述netflow数据流以确定所述网络服务是否已备案。72.根据本发明实施例的网络服务的检测装置,通过从netflow数据流中提取少量的可用于识别网络服务的流量指标,对流量指标进行检测,不需要对整体流量信息进行检测,从而,提升了检测的效率,并且可以实时地检测。另外,通过web访问识别模型确定出流量指标是否为非离群点流量指标的方式确定netflow数据流是否对应网络服务,可以有效提升检测准确率。73.需要说明的是,本发明实施例的网络服务的检测装置的具体实现方式与本发明实施例的网络服务的检测方法的具体实现方式类似,具体请参见方法部分的描述,为了减少冗余,具体此处不做赘述。74.基于相同的发明构思,本发明又一个实施例提供了一种电子设备,参见图5,所述电子设备具体包括如下内容:处理器501、存储器502、通信接口503和通信总线504;75.其中,所述处理器501、存储器502、通信接口503通过所述通信总线504完成相互间的通信;所述通信接口503用于实现各设备之间的信息传输;所述处理器501用于调用所述存储器502中的计算机程序,所述处理器执行所述计算机程序时实现上述网络服务的检测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:获取ip网络的netflow数据流;从所述netflow数据流中提取用于识别网络服务的流量指标,并将所述流量指标输入web访问识别模型,识别所述流量指标是否为非离群点流量指标,其中,所述web访问识别模型是基于网站的netflow数据流样本预先训练得到;如果是非离群点流量指标,则确定所述netflow数据流对应网络服务,并上报所述netflow数据流以确定所述网络服务是否已备案。76.基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述网络服务的检测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述的步骤:获取ip网络的netflow数据流;从所述netflow数据流中提取用于识别网络服务的流量指标,并将所述流量指标输入web访问识别模型,识别所述流量指标是否为非离群点流量指标,其中,所述web访问识别模型是基于网站的netflow数据流样本预先训练得到;如果是非离群点流量指标,则确定所述netflow数据流对应网络服务,并上报所述netflow数据流以确定所述网络服务是否已备案。77.此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。78.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。79.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的指标监控方法。80.此外,在本发明中,诸如“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。81.此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。82.此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。83.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12当前第1页12
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献