网络异常检测的制作方法

2021-12-04 02:22:00 来源：中国专利 TAG：

1.本公开涉及网络异常检测。

背景技术：

2.蜂窝通信网络为诸如移动设备和数据终端的订户设备提供诸如语音、视频、分组数据、消息传送和广播的通信内容。蜂窝通信网络可以包括多个基站，这些基站能够支持跨越分散的地理区域的多个订户设备的通信。通常，当用户设备，诸如移动电话，从一个基站附近移动到另一个基站时，蜂窝网络的移动和固定组件交换无线电测量和控制消息，以确保移动设备总是准备好从诸如互联网或语音服务的外部网络接收数据和向外部网络发送数据。然而不幸的是，蜂窝通信网络产生不利地影响这些测量和控制消息的网络性能问题。因此，在没有准确的方式来检测网络性能问题的情况下，蜂窝网络可能无法确保用户设备能够根据网络能力以可靠的方式接收和发送数据。

技术实现要素：

3.本公开的一个方面提供了一种用于检测网络异常的方法。该方法包括在数据处理硬件处从蜂窝网络接收控制消息。该方法进一步包括由数据处理硬件从控制消息提取一个或多个特征。该方法还包括由数据处理硬件使用预测模型预测控制消息的潜在标签，该预测模型被配置为接收从控制消息提取的一个或多个特征作为特征输入。这里，在训练控制消息的集合上训练预测模型，其中，每个训练控制消息包括一个或多个对应特征和实际标签。该方法进一步包括由数据处理硬件确定潜在标签的概率满足置信度阈值。该方法还包括由数据处理硬件分析控制消息以确定控制消息是否对应于影响蜂窝网络的网络性能的相应网络性能问题。当控制消息对应于影响网络性能的相应网络性能问题时，该方法包括由数据处理硬件将网络性能问题传送到负责网络性能问题的网络实体。
4.本发明的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，使用预测模型预测潜在标签包括预测潜在标签上的概率分布，所预测的潜在标签包括潜在标签上的概率分布中的潜在标签之一。在这些实施方式中，预测潜在标签包括选择与潜在标签上的概率分布中的最高概率相关联的潜在标签。在一些示例中，预测模型包括被配置为预测一种或多种类型的标签的多类分类模型。预测模型可以包括深度神经网络或递归神经网络。每个训练控制消息的实际标签包括用于与训练控制消息相关联的用户设备(ue)装置的类型分配码或蜂窝网络的网络元件的标识符。在一些配置中，蜂窝网络根据通用分组无线服务隧道协议(gtp
‑
c)或diameter协议来传送控制消息。可选地，控制消息对应于在单个网络会话期间由蜂窝网络的用户发送的多个控制消息中的一个。在一些示例中，从控制消息提取的一个或多个特征包括消息类型概要向量，该消息类型概要向量表示消息类型在蜂窝网络的用户的单个会话内出现的次数。在一些实施方式中，特征包括在与蜂窝网络的用户的单个会话相关联的时间段内传送的数据量。
5.在一些示例中，当控制消息无法对应于相应网络性能问题时，该方法包括在数据
处理硬件处从蜂窝网络接收后续控制消息并且由数据处理硬件从后续控制消息中提取一个或多个对应特征。该方法还包括由数据处理硬件识别从后续控制消息提取的一个或多个对应特征中的至少一个与从控制消息提取的一个或多个特征匹配，在使用预测模型来预测用于后续控制消息的对应潜在标签之前，由数据处理硬件移除从作为预测模型的特征输入的后续控制消息提取的一个或多个特征中的所识别的至少一个。
6.在一些实施方式中，当控制消息无法对应于相应的网络性能问题时，该方法包括由数据处理硬件识别从控制消息提取的一个或多个特征。这里，该方法还包括在使用预测模型来预测用于后续控制消息的对应潜在标签之前，由数据处理硬件通过移除包括与从控制消息提取的所识别的一个或多个特征中的任何一个匹配的一个或多个对应特征的每个训练控制消息来修改训练控制消息的集合；以及由数据处理硬件利用修改的训练控制消息的集合重新训练预测模型。
7.本公开的另一方面提供了一种用于检测网络异常的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储当在数据处理硬件上执行时使数据处理硬件执行操作的指令。该操作包括从蜂窝网络接收控制消息。该操作进一步包括使用预测模型预测控制消息的潜在标签，该预测模型被配置为接收从控制消息提取的一个或多个特征作为特征输入。这里，在训练控制消息的集合上训练预测模型，其中，每个训练控制消息包括一个或多个对应特征和实际标签。该操作进一步包括确定潜在标签的概率满足置信度阈值。该操作还包括分析控制消息以确定控制消息是否对应于影响蜂窝网络的网络性能的相应网络性能问题，并且当控制消息对应于影响网络性能的相应网络性能问题时，将网络性能问题传送到负责网络性能问题的网络实体。
8.该方面可以包括以下可选特征中的一个或多个。在一些实施方式中，使用预测模型预测潜在标签包括预测潜在标签上的概率分布，其中，所预测的潜在标签包括潜在标签上的概率分布中的潜在标签中的一个。在这些实施方式中，预测潜在标签包括选择与潜在标签上的概率分布中的最高概率相关联的潜在标签。在一些示例中，预测模型包括被配置为预测一种或多种类型的标签的多类分类模型。预测模型可以包括深度神经网络或递归神经网络。每个训练控制消息的实际标签包括用于与训练控制消息相关联的用户设备(ue)装置的类型分配码或蜂窝网络的网络元件的标识符。在一些配置中，蜂窝网络根据通用分组无线服务隧道协议(gtp
‑
c)或diameter协议来传送控制消息。可选地，控制消息对应于在单个网络会话期间由蜂窝网络的用户发送的多个控制消息中的一个。在一些示例中，从控制消息提取的一个或多个特征包括消息类型概要向量，该消息类型概要向量表示消息类型在蜂窝网络的用户的单个会话内出现的次数。在一些实施方式中，特征包括在与蜂窝网络的用户的单个会话相关联的时间段内传送的数据量。
9.在一些示例中，当控制消息无法对应于相应网络性能问题时，该操作包括从蜂窝网络接收后续控制消息并且从后续控制消息中提取一个或多个对应特征。这里，该操作还包括识别从后续控制消息提取的一个或多个对应特征中的至少一个与从控制消息提取的一个或多个特征匹配，在使用预测模型来预测用于后续控制消息的对应潜在标签之前，移除从作为预测模型的特征输入的后续控制消息提取的一个或多个特征中的所识别的至少一个。
10.在一些实施方式中，当控制消息无法对应于相应的网络性能问题时，该操作包括
识别从控制消息提取的一个或多个特征。这里，该操作还包括在使用预测模型来预测用于后续控制消息的对应潜在标签之前，通过移除包括与从控制消息提取的所识别的一个或多个特征中的任何一个匹配的一个或多个对应特征的每个训练控制消息来修改训练控制消息的集合；以及利用修改的训练控制消息的集合重新训练预测模型。
11.在附图和以下描述中阐述了本公开的一个或多个实施方式的细节。其他方面、特征和优点将从说明书和附图以及权利要求书中显而易见。
附图说明
12.图1是示例通信网络的示意图。
13.图2a
‑
2d是用于图1的通信网络的示例异常检测器的示意图。
14.图3是用于检测网络异常的示例方法的流程图。
15.图4是可以被用于实现本文中描述的系统和方法的示例计算设备的示意图。
16.在各个附图中，相同的附图标记表示相同的元件。
具体实施方式
17.蜂窝网络可能遭受一系列网络问题(例如，退化的硬件、网络元件之间的错误配置、对网络设备的不可靠更新或升级等)。网络问题可能影响网络性能并导致蜂窝网络的用户(即，蜂窝网络的订户)对蜂窝网络具有不良的用户体验。不良的用户体验可能导致用户沮丧，甚至可能导致用户切换网络运营商(即，网络提供商)作为解决网络性能问题的手段。
18.网络提供商(或运营商)具有解决这些问题的动机，因为网络问题可能影响他们的客户忠诚度并且可能对他们的蜂窝服务具有不利影响。在没有解决网络问题的情况下，这些问题可能会导致网络运营商的业务损失并且潜在地损害网络运营商的商誉和/或品牌。然而，通常网络运营商不会第一手体验网络性能问题。换句话说，蜂窝网络的用户是通常受网络性能问题影响的用户。这意味着网络运营商通常可能必须依赖于网络用户在网络问题发生时报告网络问题。然而，用户报告以解决网络问题存在一些问题。首先，网络用户不仅需要认识到他们正在经历的问题可能是由于他们的蜂窝网络，而且还需要花费他们的时间以某种方式向网络运营商报告该问题。显然，对于未能认识到他们正在经历不太理想的性能的用户，这种方法不太可能很好地起作用。例如，用户变得习惯于低于平均的网络性能或者没有意识到网络性能应该更好。这里，这种类型的用户可能永远不会通知网络运营商存在网络性能问题，而是简单地改变蜂窝网络提供商，认为另一个提供商可能导致更好的性能。换句话说，原始蜂窝提供商可能永远没有机会解决该问题。此外，当用户确实向网络运营商报告网络性能问题时，网络运营商执行对所报告的问题的调查。这些调查可能是劳动密集型过程，其可能由于缺乏可用资源来调查/解决所有报告的问题而使一些用户问题未解决。特别地，网络运营商可能经常必须优先考虑劳动力资源来操作蜂窝网络，而不是调查所报告的用户问题。
19.另一种方法是网络运营商监测蜂窝网络以检测可能指示网络性能问题的异常。异常是指在蜂窝网络的信令期间的唯一发生(或不同行为)。这里，异常本身对于唯一发生是指示有害行为(例如，网络性能问题)的发生还是指示非有害行为(例如，不是网络性能问题)的发生是不可知的。然而，通过识别异常，网络运营商可以分析异常以确定异常是否对
应于网络性能问题。
20.检测蜂窝网络内的异常传统上具有其缺点。例如，取决于蜂窝使用和流量，蜂窝网络可能具有大量的日志数据(例如，网络日志、进程间日志、使用统计等)。筛选大量数据以识别异常可能是资源密集型的。因此，当检测到影响网络性能的异常时，检测异常的实体(例如，网络运营商)可以开发规则以在其他情况下更容易地检测相同或相似的异常。因此，该传统形式的异常检测生成一个或多个规则以识别与正常行为的偏差。例如，规则定义特定消息类型通常以每秒五次的速率发生。当该特定消息类型每秒出现更多或更少次时，该规则将允许系统将该偏差检测为异常。不幸的是，这种形式的异常检测的问题是实体必须首先指定什么被认为是正常行为，以识别具有在指定的正常之外的行为的异常。这里，该方法仅适用于由已知规则指示的已知异常。换句话说，将不会检测到影响网络性能的新异常，直到规则具体地解决新异常(或者应该发生的正常行为而不是新的异常)。这种方法缺乏能够预测可能导致性能问题的新异常的任何能力。因此，预测性异常检测器可以更准确地使用异常来检测网络性能问题。
21.图1图示了通信网络100(也被称为蜂窝网络)，其可以是长期演进(lte)网络、5g网络和/或支持由第三代合作伙伴计划(3gpp)指定的多种接入技术的多址网络，诸如通用分组无线业务(gprs)、全球移动通信系统/增强型数据速率gsm演进(gsm/edge)、通用移动电信系统/高速分组接入(umts/hspa)、lte和lte高级网络技术。蜂窝网络100(例如，lte网络)能够进行订户设备102、102a
‑
b，诸如移动电话和数据终端，与基站104之间的高速数据分组的无线通信。订户设备102可以互换地被称为用户设备(ue)装置和/或移动设备102。例如，lte是基于gsm/edge和eimts/hspa网络技术的无线通信标准，并且被配置为除了核心网络改进之外，还可以通过使用不同的无线电接口来增加电信的容量和速度。不同类型的蜂窝网络100可以支持各种带宽处的不同频带/频率，以允许ue设备102传送数据(例如，数据分组)。为了说明，lte支持从1.4mhz到20mhz的可扩展载波带宽，并且支持频分双工(fdd)和时分双工(tdd)，而5g支持范围从5mhz到100mhz的带宽，其中一些带宽与lte重叠。
22.ue设备102可以是能够通过网络100发送和/或接收语音/数据的任何电信设备。ue设备102可以包括但不限于移动计算设备，诸如膝上型计算机、平板计算机、智能电话和可穿戴计算设备(例如，耳机和/或手表)。ue设备102还可以包括具有其他形状因素的其他计算设备，诸如包括在台式计算机、智能扬声器/显示器、车辆、游戏设备、电视或其他电器(例如，联网的家庭自动化设备和家用电器)中的计算设备。ue设备102订阅由通信网络100的网络运营商提供的网络服务。网络运营商还可以被称为移动网络运营商(mno)、无线服务提供商、无线运营商、蜂窝公司或移动网络运营商。
23.ue设备102可以通过通信网络100(或5g/3g/2g网络)与诸如分组数据网络(pdn)的外部网络30通信。参考图1，通信网络100是lte网络，其包括第一部分，演进通用陆地无线接入网(e
‑
utran)部分106，和第二部分，演进分组核心(epc)部分108。第一部分106包括用于移动网络的3gpp的lte升级路径的空中接口110(即，演进通用陆地无线电接入(e
‑
utra))、ue设备102和多个基站104。lte空中接口110使用用于下行链路的正交频分多址(ofdma)无线电接入和用于上行链路的单载波fdma(sc
‑
fdma)。因此，第一部分106经由一个或多个基站104通过空中接口110提供支持数据分组的无线电通信的无线电接入网络(ran)和/或从外部网络30到ue设备102的其他表面。
24.每个基站104可以包括演进节点b(也称为enodeb或enb)。enb104包括连接到空中接口110(例如，移动电话网络)以直接与ue设备102通信的硬件。例如，enb 104可以通过空中接口110向ue设备102发送下行链路lte/3g/5g信号(例如，通信)并从ue设备102接收上行链路lte/3g/5g信号。基站104可以具有相关联的覆盖区域104
area
，其对应于一个或多个ue设备102通过基站104与网络100进行通信的区域。enb 104使用s1接口来与epc 108通信。s1接口可以包括用于与移动性管理实体(mme)112通信的sl
‑
mme接口和用于与服务网关(sgw)116接口的sl
‑
u接口。因此，s1接口与用于与epc 108通信的回程链路相关联。
25.epc 108提供被配置为在lte网络100上汇聚语音和数据的框架。epc 108在网际协议(ip)服务架构上统一语音和数据，并且语音被视为仅另一个ip应用。epc 108包括但不限于若干网络元件，诸如mme112、服务gprs支持节点(sgsn)114、sgw 116、策略和计费规则功能(pcrf)118、归属订户服务器(hss)120以及分组数据节点网关(pgw)122，pgw 122也可以被称为网络网关设备122，并且当网络对应于3g网络时，网络网关设备122包括网关gprs支持节点(ggsn)而不是pgw 122。可选地，当网络对应于5g或5g 网络时，网络网关设备122可以包括具有由5g和/或5g 网络定义的命名约定的网关节点。mme 112、sgsn 114、sgw 116、pcrf 118、hss 120和pgw 122可以是独立组件，或者这些组件中的至少两个可以被集成在一起。epc 108与ue设备102和外部网络30通信以在其间路由数据分组。
26.网络100包括允许ue设备102、基站104和各种网络元件(例如，mme 112、sgsn 114、sgw 116、pcrf 118、hss 120和pgw 122)在网络100的使用期间彼此协作的接口。信息流贯穿整个网络100沿着这些接口流动，并且通常这些接口可以被划分为用户平面和控制平面。用户平面路由用户平面流量，并且包括ue设备102和基站104之间的具有子层的用户平面协议栈，诸如分组数据汇聚协议(pdcp)、无线电链路控制(rlc)和介质访问控制(mac)。在网络元件之间以实线示出的特定于用户平面的一些接口如下：基站104与sgw 116之间的sl
‑
u接口，其用于在切换期间的每个承载用户平面隧道和基站间路径切换；具有2g接入或3g接入的ue设备102与pgw 122之间的s4接口，其用于控制和移动性支持，并且在一些情况下，用户平面隧道；以及e
‑
utran部分106(例如，ue设备102)与sgw 116之间的s12接口(未示出)，其用于用户平面隧道作为运营商配置选项。其他类型的通信网络(例如，3g、5g等)可以包括除了图1中针对网络100描绘的用户平面接口之外的其他用户平面接口。
27.控制平面负责利用控制平面协议控制和支持用户平面功能。具体地，控制平面控制e
‑
utran接入连接(例如，附接和脱离网络100的e
‑
utran部分106)、控制所建立的网络接入连接的属性(例如，ip地址的激活)、控制所建立的网络连接的路由路径(例如，以支持用户移动性)、和/或控制基于(例如，由ue设备102的用户)对网络100的需求的网络资源的指派。在网络元件之间以虚线示出的特定于控制平面的一些接口如下：基站104与mme 112之间的sl
‑
mme接口，其保证信令消息的递送；sgsn 114与mme 112之间的s3接口，其能够进行用于空闲和/或活动状态下的3gpp间接入网络移动性的用户/承载信息交换；sgw 116与pgw 122之间的s5/s8接口，其中，在非漫游场景中使用s5接口来基于ue设备102移动性提供重定位并且连接到pdn的非并置网关，而s8接口连接到公共陆地移动网络(plmn)；协调mme 112之间的切换的s10接口；mme 112与sgw116之间的si1接口，其用于传送信号消息；mme 112与hss 120之间的s6a接口，其能够传送与用户接入相关的订阅和认证数据；hss 120与sgsn 114之间的s6d接口，其还能够传送与用户接入相关的订阅和认证数据；以及支持ue设备102
身份检查的s13接口(未示出)。其他类型的通信网络(例如，3g、5g等)可以包括除了图1中针对网络100描绘的控制平面接口之外的其他控制平面接口。
28.当特定ue设备102连接到网络100时，一个或多个控制消息128在各种网络元件之间(例如，在演进分组核心108和e
‑
utran部分106的网络元件之间)被发送。例如，如图1所图示，基站104向mme112发送指示新ue设备102正在尝试连接到网络100的控制消息128。作为另一示例，sgw 116向mme 112发送控制消息128，该控制消息128指示来自外部网络30的数据已经到达特定ue设备102，并且ue设备102需要被唤醒(或寻呼)以建立隧道以便接受等待数据。控制平面接口可以使用诸如通用分组无线电服务隧道控制(gtp
‑
c)协议或diameter协议的控制平面协议来发送这样的控制消息128。用于发送控制消息128的协议的类型可以取决于接口。例如，s3、s5/s8和s10接口使用gtp
‑
c协议，并且s11、s6a、s6d和s13接口使用diameter协议。
29.mme 112是用于lte网络100的关键控制节点。mme 112管理会话和状态，并且跨网络100认证和跟踪ue设备102。例如，mme 112可以执行各种功能，诸如但不限于控制非接入层(nas)的信令和安全性、ue设备102的认证和移动性管理、ue设备102的网关的选择以及承载管理功能。sgsn 114可以以类似于mme 112的一些方式起作用。例如，sgsn 114跟踪ue设备102的位置并执行安全和接入控制功能。在一些示例中，sgsn 114负责(例如，待机模式ue设备102的)移动性管理、逻辑链路管理、认证、计费功能和/或处理过载情况。sgw 116执行与用于用户设备102的ip数据传送相关的各种功能，诸如数据路由和转发以及移动性锚定。sgw 116可以执行诸如缓冲、路由和转发用于移动设备102的数据分组的功能。
30.pcrf 118是负责epc 108中的实时策略规则和计费的节点。在一些示例中，pcrf 118被配置为访问订户数据库(即，ue设备用户)以做出策略决策。可以通过pcrf 118和网络网关设备122之间的动态策略交互来控制服务质量管理。pcrf 118的信令可以建立或修改eps承载(即，ue设备102和pgw 122之间的虚拟连接)的属性。在诸如lte语音(volte)的一些配置中，pcrf 118分配用于建立呼叫并将所请求的带宽分发到具有所配置的属性的呼叫承载的网络资源。
31.hss 120参考包括所有ue设备用户数据的所有ue设备102的数据库。通常，hss 120负责呼叫和会话建立的认证。换句话说，hss 120被配置为传送用于用户接入和ue上下文认证的订阅和认证数据。hss120与mme 112交互以认证ue设备102和/或ue设备用户。mme使用diameter协议(例如，经由s6a接口)与plmn上的hss 120通信。
32.pgw 122(即，网络网关设备)执行各种功能，诸如但不限于网际协议(ip)地址分配、ue设备102的数据连接性的维护、ue设备102的分组过滤、服务级选通控制和速率执行、客户端和服务器的动态主机配置协议(dhcp)功能、以及网关通用分组无线服务(ggsn)功能。
33.在一些实施方式中，网络网关设备122的数据处理硬件124(例如，pgw或ggsn或具有如由5g和/或5g 网络的命名约定的网关节点)接收与至少一个设备102相关联的控制消息128。数据处理硬件124可以基于至少一个ue设备102与基站104的覆盖区域104
area
内的网络100的交互来接收控制消息128。
34.进一步参考图1，通信网络100还包括异常检测器200。在一些示例中，异常检测器200是网络网关设备122的一部分(例如，pgw或ggsn或具有由5g和/或5g 网络定义的另一命
名约定的网关节点)。例如，网络网关设备122的数据处理硬件124和/或存储器硬件126托管异常检测器200并执行异常检测器200的功能。在一些实施方式中，异常检测器200与e
‑
utran部分106和epc 108通信，但是驻留在外部网络30(例如，与外部网络30相对应的数据处理硬件)上。换句话说，外部网络30可以是具有其自己的数据处理硬件或(例如，与网络网关设备122共享的)共享数据处理硬件的分布式系统(例如，云环境)。在其他配置中，除了网络网关设备122之外的网络元件实现异常检测器200。附加地或可替代地，异常检测器200驻留在网络100的多于一个网络元件上。
35.通常，异常检测器200被配置为基于一个或多个控制消息128来检测在网络100内发生的异常。利用检测到的异常，异常检测器200分析该异常是否对应于影响网络100的性能的网络性能问题202。换句话说，异常检测器200识别网络100内的唯一事件(即，异常)，并确定该唯一事件是否对网络100的性能有害(或对用户体验产生负面影响)。当异常检测器200识别出检测到的异常影响网络性能时，异常检测器200被配置为通知负责网络性能问题202的网络实体40或者将网络性能问题202中继到知道负责实体或与负责实体通信的实体。例如，异常检测器200可以向网络运营商发信号通知或通知对应于所检测到的异常的网络性能问题202。在一些实施方式中，异常检测器200将指示网络异常的一个或多个控制消息128传送到网络实体40。这里，网络实体40可以进一步分析一个或多个控制消息128以帮助解决网络问题202。
36.参考图2a
‑
2d，异常检测器200通常包括收集器210、提取器220、预测器230和分析器240。收集器210被配置为从网络100接收至少一个控制消息128。在一些实施方式中，收集器210包括用于从网络100收集控制消息128的数据存储212，以便用作用于记录与控制消息128相对应的数据的中央数据库。利用收集器210，异常检测器200可以以各种方式处理控制消息128以创建可以被用于检测异常的训练数据(例如，训练控制消息)。例如，收集器210将来自ue设备102的单个会话的控制消息128分组在一起(例如，在数据存储212内)。在一些示例中，会话是指从用户(经由ue设备102)发起createsessionrequest或createsessionrequest消息时到当用户利用deletesessionresponse或deletepdpcontextrequest消息终止会话时的时间段。作为另一示例，收集器210将控制消息128分组在一起以指示在特定时间段内(例如，在会话期间)(例如，在上行链路方向、下行链路方向或两者上)被传送的数据129的量。利用被分组在一起的这些控制消息128，收集器210形成针对特定时间段的数据129的总量的表示。
37.在其它配置中，收集器210收集作为序列的日志数据，使得控制消息128串接在一起作为时间序列(例如，t0～t3)。这里，控制消息128的串可以由实体(例如，特定用户或ue设备102)或由实体的会话聚合。如果这些序列变得太长，则收集器210可以被配置为将这些序列分解成固定长度的子序列，并将原始序列的任何标识符与每个子序列相关联。或者，序列可以具有标签(例如，特定实体或ue设备102)，其在收集器210分解序列时将无法传送到一个或多个子序列。
38.提取器220被配置为从一个或多个控制消息128和/或对应于控制消息128的日志数据中提取信息。提取器220可以从一个或多个控制消息128(或其部分)中提取一个或多个特征222和/或一个或多个标签224。每个特征222和/或标签224是指从控制消息128导出的特性。在一些示例中，标签224是网络元件、ue设备102、ue设备的用户或基站104的特性，其
通常由于网络100的3gpp标准化而被混淆。换句话说，尽管提取器220可以直接从控制消息128(或与控制消息128相关的日志数据)生成实际标签224，但是当网络100兼容3gpp时，不应该可能简单地从一个或多个控制消息128上下文地确定实际标签224。标签224的一个这样的示例是识别无线设备(例如，ue设备102的移动电话类型)的类型分配码(tac)。标签224的其它示例可以包括但不限于对应于网络100的网络元件的标识符(例如，mme标识符、基站标识码(bsic)、国际移动设备标识(imei)、e
‑
utran小区标识(eci)/e
‑
utran小区全局标识符(ecgi)等)。
39.另一方面，特征222对应于从控制消息128导出的与形成标签224的特性不同的另一特性。这里，与标签224不同，即使当网络100兼容3gpp时，控制消息128的特征222也可以是可辨别的。特征222的一些示例包括控制消息类型(例如，表示为整数)、gtp
‑
c消息的原因类型、相邻消息之间经过的时间量(例如，当收集器210对控制消息128进行排序时)等。在一些示例中，提取器220从不同控制消息协议提取不同特征222。例如，从gtp
‑
c消息提取的特征222将不同于从diameter消息提取的特征222。在一些示例中，由提取器220提取的特征222被交叉以创建新特征222。特征222的交叉是指两个或更多个特征222的一部分的组合。例如，提取器220将消息类型特征222和原因值特征222进行交叉以生成消息类型
‑
原因值特征222。通过交叉特征222，提取器220可以提供附加的训练数据集，潜在地增加异常检测器200检测异常的能力。
40.提取器220是否提取特征222和/或标签224可以取决于异常检测器200的阶段。在第一阶段(例如，训练阶段)，异常检测器200训练以能够预测网络异常。为了训练异常检测器200，提取器220从收集器210处的一个或多个控制消息128中提取信息。所提取的信息形成训练控制消息226，其包括一个或多个特征222和实际标签224。通过将实际标签224作为基础事实(ground true)包括在训练控制消息226中，异常检测器200学习哪些特征222可以对应于哪个标签224。在第二阶段(例如，推断)中，在训练异常检测器200之后，提取器220不再提供具有特征222和标签224两者的训练控制消息226。相反，提取器220从控制消息128中提取一个或多个特征222，并依赖于所训练的异常检测器200来预测标签224。换句话说，由于处理每个控制消息128以从其中提取实际标签224是时间敏感的，因此以实时方式不可行的，因此所训练的异常检测器200可以仅使用从控制消息128提取的特征222作为特征输入来预测潜在标签234。
41.预测器230被配置为使用预测模型232来预测与由提取器220从控制消息128中提取的一个或多个特征222相关联的用于控制消息128的潜在标签234。理想地，由于3gpp的标准化，预测器230应该不可能生成预测p，其中，潜在标签234匹配(即，正确地预测)给定控制消息128的实际标签224。因此，当预测器230从至少一个控制消息128(例如，控制消息128的特征222)预测与实际标签224匹配的潜在标签234时，该匹配指示(多个)控制消息128和标签224、234之间的唯一相关性(即，所检测到的异常)。
42.当预测器230生成正确的预测p时，分析器240分析相关的控制消息128和/或对应于控制消息128的日志数据。这里，分析器240分析控制消息128以确定控制消息128是否对应于影响网络100的网络性能的网络性能问题202。换句话说，分析器240确定所检测到的异常是否是由于有害行为引起的唯一相关性，或者所检测到的异常是否仅仅是对网络性能或用户体验影响很小或没有影响的唯一行为。当分析器240确定检测到的控制消息128的异常
影响网络性能时，分析器240将该有害行为标记为待修复。为了修复该行为，分析器240可以将网络性能问题202传送到负责网络性能问题202的网络实体40(例如，网络运营商或ue装置提供商)。
43.在一些配置中，分析器240执行聚类。在网络100发生太多异常要进行调查的情况下，聚类可能是有益的。分析器240不是调查每个和每一检测到的异常，而是将检测到的异常聚类成类似的组。通过聚类成组，分析器240可以对可能对网络100具有更多不利影响的较大集群进行优先级排序(例如，按网络影响或网络影响的可能性/概率对集群进行排序)。此外，当分析器240依赖于人工分析来确定检测到的异常是否对应于网络性能问题202时，分析器240可以使用自动编码器来执行降维。由自动编码器进行的降维被配置为通过关联大数据集中的冗余特征来减少大数据集(即，大量异常)。这里，作为根据梯度下降训练的神经网络，自动编码器通过尝试识别数据集中的新结构或唯一性来执行降维。换句话说，自动编码器可以隔离网络100的更独特异常，这些异常可以更可能与应该被分析的网络性能问题202相关。通过组合聚类和自动编码，大量异常可以被形成为更小的组(聚类)，然后被进一步减少以有效利用人力和/或计算资源。
44.预测器230使用预测模型232预测潜在标签234。在一些示例中，预测模型232是神经网络(例如，深度神经网络(dnn)、递归神经网络(rnn)或卷积神经网络(cnn))。为了生成预测p，预测模型232经历模型训练。这里，使用与控制消息128和/或其相关日志数据相对应的示例(也称为训练数据或训练数据集)来进行预测模型232的训练。在一些实施方式中，提取器220将训练控制消息226的集合228生成为训练预测模型232的示例(例如，图2b所示)。在一些配置中，每个训练控制消息226对应于在收集器210处处理的控制消息128。提取器220可以通过从控制消息128连同用于控制消息128的实际标签224提取一个或多个特征222来形成每个训练控制消息226。在一些示例中，当多于一个控制消息128具有相同的标签224时，这些控制消息128的特征222被组合成训练控制消息226的一个示例或集合228。例如，提取器220创建消息类型向量摘要以考虑组合中包括的每种类型的控制消息128。消息类型向量摘要可以包括用于每个可能的消息类型的一个条目，以表示(例如，在单个会话内)遇到特定控制消息128的次数。
45.为了训练预测模型232，预测器230将训练控制消息226的集合228划分为训练集合226
t
和验证集合226v。在一些示例中，除了训练集226
t
和验证集226v之外，训练控制消息226还被分成测试集。预测模型232在训练集226
t
上训练，同时使用验证集226v来确定何时停止训练(例如，以防止过度拟合)。当预测模型232的性能达到特定阈值时或者当预测模型232在验证集226v上的性能停止下降时，训练可以停止。在一些示例中，训练集226
t
评估预测模型23的最终性能。在一些实施方式中，预测模型232被训练为多类分类模型。作为多类分类模型，预测模型232输出表示关于每个类的概率p
b
的意见的概率分布p
bdis
。例如，当预测模型232预测tac时，每个tac将是不同的类，使得预测模型232将输出用于每个tac类的概率分布。
46.在一些示例中，训练和评估预测模型232的过程连续地发生，以提供可能出现的新网络问题202的早期检测。一旦训练完成，来自训练的预测p就可以被反馈到预测模型232中。这些预测p可以对应于训练集226
t
、验证集226v、测试集或其任何组合。换句话说，预测模型232被配置为从对训练数据(例如，训练控制消息226的集合228)的训练来评估其预测
p。该方法可以确保预测模型232已经完成训练并且准备好预测潜在标签234。
47.参考图2b和2d，在一些示例中，预测器230的预测模型232生成用于潜在标签234的预测p的概率p
b
。为了评估潜在标签234的概率p
b
，预测器230可以应用置信度阈值236。置信度阈值236指示潜在标签234的概率p
b
对应于需要分析器240针对有害行为进行评估的异常的置信度水平。换句话说，当潜在标签234的预测概率p
b
满足置信度阈值236时，预测器230将与潜在标签234相对应的控制消息128传送到分析器240。例如，当置信度阈值236为90％时，指示大于90％的tac的潜在标签234的预测p的概率p
b
指示应该传递到分析器240以进一步分析的置信度预测p。
48.在一些配置中，预测模型232输出/预测潜在标签234a
‑
n上的概率分布p
bdis
。在这些配置中，概率分布p
bdis
中的每个潜在标签234a
‑
n包括相应的概率p
b
。在一些示例中，预测器230通过选择在潜在标签234a
‑
n上的概率分布p
bdis
中具有最高概率p
b
的潜在标签234a
‑
n来预测潜在标签234。在图2b和2d所示的示例中，潜在标签234a具有在潜在标签234a
‑
n上的概率分布p
bdis
中的百分之九十一(91％)的最高概率p
b
，因此，预测器230选择潜在标签234a并将概率p
b
(91％)与置信度阈值(90％)进行比较。因此，在该示例中，预测器230确定所选择的潜在标签234a的概率p
b
满足置信度阈值236，并将相应的控制消息128传递到分析器240，以确定控制消息128是否对应于影响网络性能的相应网络性能问题202。在一些场景中，预测器230向分析器240传送概率分布p
bdis
中具有满足置信度阈值236的相应概率p
b
的每个潜在标签234a
‑
n。
49.在一些配置中，预测模型232是(比dnn模型)更适合于顺序数据的rnn模型。为rnn模型，提取器220生成特征222的序列。换句话说，提取器220可以从顺序控制消息128(或来自顺序控制消息128的顺序特征222)形成训练控制消息226。利用顺序特征222，每个序列可以是训练示例，使得顺序特征222将被分成训练数据集、验证数据集和测试数据集。除了优选顺序数据之外，rnn模型相对类似于先前描述的预测模型232操作。
50.在一些示例中，预测模型232难以区分类似地执行的不同潜在标签234。例如，当预测tac时，可能存在相同地执行的若干tac(例如，三个tac)。这种相同的行为导致预测模型232确信地知道tac是三个tac中的一个，但不能准确地预测哪个tac。为了克服这个问题，预测器230可以使用主成分分析(pca)来识别类似地执行的标签234的分组(例如，类似于三个tac)。使用pca，潜在标签234的预测p可以是向量，其中，pca识别标签224的哪些分组被共同地一起预测。例如，pca将识别三个tac应该一起被考虑，因为这三个tac的主成分向量将具有指示它们应该被分组(或考虑)在一起的强峰。
51.参考图2c和2d，异常检测器200还可以包括过滤器250。过滤器250被配置为防止类似检测到的异常的冗余分析。换句话说，当已经检测到异常时，异常检测器200生成过滤器250。过滤器250可以用于有害行为的异常或用于非有害行为(即，可接受行为)的异常。一旦分析器240已经确定对应于异常的控制消息128是否影响网络性能，则对类似的控制消息128或类似的控制消息128的序列执行该相同的分析可以推迟异常检测资源检测新的异常或需要被分析的异常。因此，过滤器250试图防止重复分析。例如，当分析器240确定控制消息128对应于影响网络性能的相应网络问题202时，相应网络问题202和/或控制消息128被报告给负责的网络实体40。这里，重新分析类似的控制消息128并将其报告给网络实体40将是冗余的，因为相应的网络问题202已经被报告并且将由负责的网络实体40在适当的时候
解决。另一方面，当分析器240确定控制消息不影响网络性能时，与控制消息128相关联的异常是无害的，因此是可接受的。因此，重新分析随后的类似控制消息128将是无意义的。
52.异常检测器200通常可以在两种场景下应用过滤器250：(1)在输入到预测模型232之前，在从控制消息128提取的特征222上；或(2)在用于训练预测模型232的训练控制消息226的集合228上。在一些示例(即，第一场景)中，在已经训练预测模型232之后，但是在从后续控制消息128提取的一个或多个特征222被输入到所训练的预测模型232以用于后续潜在标签234的预测p之前，异常检测器200应用过滤器250。这里，异常检测器200识别从后续控制消息128中提取的一个或多个对应特征222的至少一个与从具有指示网络异常的预测潜在标签234的先前控制消息128中提取的一个或多个特征222匹配(即，预测的潜在标签234满足置信度阈值236)。此后，在使用预测模型232预测后续控制消息128的对应潜在标签234之前，异常检测器200应用过滤器250以从用作预测模型232的特征输入中去除从后续控制消息128提取的一个或多个对应特征222中的所识别的至少一个特征。因此，由预测模型232在预测器230处对于潜在标签234输出的任何预测p将不基于从具有指示网络异常的预测潜在标签234的先前控制消息128中提取的特征222，而与分析器240确定网络异常是无害的还是有影响的网络性能无关。例如，图2c图示了灰色阻挡和/或移除三个特征222中的一个的过滤器250，其被传送到预测器230以预测后续控制消息128的潜在标签234。
53.在其他示例(即，第二场景)中，诸如在图2d中，异常检测器200重新训练预测模型232，使得从先前被识别为具有指示网络异常的潜在标签234的预测p的控制消息128中提取的任何特征222从训练控制消息226的集合228中被移除。无论控制消息128是否对应于网络性能问题202，该方法也可以是可应用的。为了重新训练预测模型232，异常检测器200首先识别从具有指示网络异常的潜在标签234的先前控制消息128中提取的一个或多个特征222。然后，在使用预测模型232预测后续控制消息128的对应潜在标签234之前，异常检测器200通过移除包括与从在前控制消息128提取的所识别的一个或多个特征222中的任何一个匹配的一个或多个对应特征222的每个训练控制消息226来修改训练控制消息226的集合228。此后，异常检测器200在修改的训练控制消息226的的集合228上重新训练预测模型232。例如，图2d描绘了过滤器250通过从训练控制消息226的重新训练集(即，修改的集合228)中移除三个训练控制消息226中的一个来修改训练控制消息226的集合228。一旦已经移除一个或多个训练控制消息226，过滤器250就在修改的训练控制消息226的集合228上重新训练预测模型232。换句话说，如果预测模型232未被训练以检测哪些特征222指示异常，则该异常将随后未被检测到，并因此被忽略。
54.附加地或可替代地，当检测到的异常指示相应的网络性能问题202并且网络性能问题202随后已经被解决时，异常检测器200可以被配置为移除与解决的网络性能问题202相关的任何过滤器250。在预测模型232是rnn模型的配置中，异常检测器200可以选择性地应用过滤器250。换句话说，过滤器250可以移除与检测到的异常的(多个)特定控制消息128相对应的特征222的序列的部分，而不移除作为特征222的整个序列。有利地，滤波器250可以在序列被分成更小的序列之前移除该序列的该部分。例如，当过滤器250识别何时存在太多具有小时间段的createsessionrequest消息时，能够完全或部分地移除这些单独的消息。
55.图3图示了用于检测网络异常的示例性方法300的流程图。在操作302处，方法300
从蜂窝网络100接收控制消息128。在操作304处，方法300从控制消息128提取一个或多个特征222。在操作306处，方法300使用预测模型232预测用于控制消息的潜在标签234，预测模型232被配置为接收从控制消息128提取的一个或多个特征222作为特征输入。在训练控制消息226的集合上训练预测模型232，其中，每个训练控制消息226包括一个或多个对应特征222和实际标签224。在操作308处，方法300确定潜在标签234的概率p
b
满足置信度阈值236。在操作310处，方法300分析控制消息128以确定控制消息128是否对应于影响蜂窝网络100的网络性能的相应网络性能问题202。在操作312处，当控制消息128对应于影响网络性能的相应网络性能问题时，方法300将网络性能问题202传送到负责网络性能问题202的网络实体40。
56.在一些示例中，当控制消息128无法对应于相应的网络性能问题202时，方法300从蜂窝网络100接收后续控制消息128，并从后续控制消息128中提取一个或多个相应的特征222。在这些示例中，方法300还识别从后续控制消息128提取的一个或多个对应特征222中的至少一个与从控制消息128提取的一个或多个特征222匹配。这里，在使用预测模型232预测后续控制消息的对应潜在标签234之前，方法300移除从后续控制消息128提取的一个或多个特征222中的所识别的至少一个特征作为预测模型232的特征输入。在一些实施方式中，当控制消息128无法对应于相应的网络性能问题202时，方法300识别从控制消息128提取的一个或多个特征222。这里，除了识别一个或多个特征222之外，在使用预测模型232来预测后续控制消息128的对应潜在标签234之前，方法300通过移除包括与从控制消息128提取的所识别的一个或多个特征222中的任何一个匹配的对应特征中的一个或多个的每个训练控制消息226来修改训练控制消息226的集合228，并且利用修改的训练控制消息226的集合228重新训练预测模型232。
57.图4是可以被用于实现本文档所描述的系统(例如，异常检测器200)和方法(例如，方法300)的示例性计算设备400的示意图。计算设备400旨在代表各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其它适当的计算机。本文所示的组件、它们的连接和关系以及它们的功能仅是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实施方式。
58.计算设备400包括处理器410(即数据处理硬件)、存储器420(即存储器硬件)、存储设备430、连接到存储器420和高速扩展端口450的高速接口/控制器440，以及连接到低速总线470和存储设备430的低速接口/控制器460。组件410、420、430、440、450和460中的每个组件使用各种总线被互连，并且可以被安装在公共主板上或以其它适当的方式被安装。处理器410能够处理用于在计算设备400内执行的指令，包括存储在存储器420中或存储在存储设备430上的指令，以在诸如耦合到高速接口440的显示器480的外部输入/输出设备上显示用于图形用户界面(gui)的图形信息。在其它实施方式中，可以适当地使用多个处理器和/或多个总线，以及多个存储器和存储器类型。此外，可以连接多个计算设备400，其中每个设备提供必要操作的部分(例如，作为服务器组、刀片服务器组或多处理器系统)。
59.存储器420在计算设备400内非暂时性地存储信息。存储器420可以是计算机可读介质、(多个)易失性存储器单元或(多个)非易失性存储器单元。非暂时性存储器420可以是用于临时或永久地存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备400使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(rom)/可编
程只读存储器(prom)/可擦可编程只读存储器(eprom)/电子可擦可编程只读存储器(eeprom)(例如，通常用于固件，诸如启动程序)。易失性存储器的示例包括但不限于随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、相变存储器(pcm)以及磁盘或磁带。
60.存储设备430能够为计算设备400提供大容量存储。在一些实施方式中，存储设备430是计算机可读介质。在各种不同的实施方式中，存储设备430可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似的固态存储设备，或设备阵列，包括在存储区域网络或其它配置中的设备。在另外的实施方式中，计算机程序产品有形地被体现为信息载体。该计算机程序产品包含在被执行时执行诸如上述那些方法的一种或多种方法的指令。信息载体是计算机或机器可读介质，诸如存储器420、存储设备430或处理器410上的存储器。
61.高速控制器440管理计算设备400的带宽密集型操作，而低速控制器460管理较低带宽密集型操作。这种职责分配仅是示例性的。在一些实施方式中，高速控制器440被耦合到存储器420、显示器480(例如，通过图形处理器或加速器)和可以接受各种扩展卡(未示出)的高速扩展端口450。在一些实施方式中，低速控制器460被耦合到存储设备430和低速扩展端口490。可以包括各种通信端口(例如，usb、蓝牙、以太网、无线以太网)的低速扩展端口490可以，例如，通过网络适配器被耦合到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪或诸如交换机或路由器的网络设备。
62.如图所示，可以以多种不同形式来实现计算设备400。例如，计算设备400可以被实现为标准服务器400a或在这样的服务器400a组中多次被实现、被实现为膝上型计算机400b或被实现为机架服务器系统400c的一部分。
63.本文中所描述的系统和技术的各种实施方式能够以数字电子和/或光学电路、集成电路、专门设计的asic(应用专用集成电路)、计算机硬件、固件、软件和/或其组合被实现。这些各种实施方式能够包括在一个或多个计算机程序中的实现，该计算机程序是在包括至少一个可编程处理器的可编程系统上可执行的和/或可解释的，该可编程处理器可以是专用的或通用的，耦合为从存储系统、至少一个输入设备以及至少一个输出设备接收数据和指令，并将数据和指令发送到这些设备。
64.这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且能够以高级过程和/或面向对象的编程语言和/或以汇编/机器语言被实现。本文中使用的术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品、非暂时性计算机可读介质、用于向可编程处理器提供机器指令和/或数据的装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(pld)，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
65.本说明书中所描述的过程和逻辑流程能够由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器来执行。过程和逻辑流程也能够由专用逻辑电路执行，例如，fpga(现场可编程门阵列)或asic(应用专用集成电路)。例如，适合于执行计算机程序的处理器包括通用和专用微处理器，以及任何种类的数字计算机的任何一种或多种处理器。通常，处理器将从只读存储器或随机存取存储器或
两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括一个或多个用于存储数据的大容量存储设备，例如磁盘、磁光盘或光盘，或被可操作地耦合为从其接收数据或对其传送数据，或者两者。然而，计算机不需要具有此类设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括半导体存储器设备，例如eprom、eeprom和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及cd rom和dvd
‑
rom盘。处理器和存储器能够由专用逻辑电路补充或被并入专用逻辑电路中。
66.为了提供与用户的交互，本公开的一个或多个方面能够在具有显示设备和可选的键盘与定点设备的计算机上被实现，显示设备例如是crt(阴极射线管)、lcd(液晶显示器)监视器或触摸屏，以向用户显示信息，定点设备例如是鼠标和轨迹球，用户能够通过其向计算机提供输入。其它类型的设备也能够被用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入能够以任何形式被接收，包括声音、语音或触觉输入。另外，计算机能够通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互；例如，通过响应于从web浏览器收到的请求，将网页发送到用户客户端设备上的web浏览器。
67.已经描述了许多实施方式。然而，应理解，在不脱离本公开的精神和范围的情况下，可以做出各种修改。因而，其它实施方式也在所附权利要求的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

网络异常检测的制作方法

相关文献

最热文献