一种基于非参数建模的交通序列数据异常检测方法及系统与流程

2021-09-07 22:15:00 来源：中国专利 TAG：异常交通数据建模序列

1.本发明涉及交通数据异常检测技术领域，尤其涉及一种基于非参数建模的交通序列数据异常检测方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.在过去的几十年里，随着科学技术的快速发展，人们的旅行需求日益增加。其中，汽车作为最常见和最方便的交通工具，在数量和质量上都有了爆炸性的增长。随着交通流量的大幅增长，给城市道路交通带来了巨大的挑战，导致交通拥堵、事故等异常情况，给人们的生活带来了极大的不便和风险。因此，利用高效的异常检测来治理交通拥堵已经成为21世纪的主要社会问题之一。
4.道路交通数据的许多异常检测方法都是基于已有的相关数据信息，在现有的方法和规则内，利用机器学习技术实现交通数据的异常检测，从而指导下一步的交通规划。如果能够准确检测交通数据的异常情况，就可以合理规划城市交通，减少交通拥堵，减少交通事故，大大提高人们的出行效率和安全性。因此，寻找能够有效检测交通序列数据异常的算法尤为重要。
5.针对交通序列数据的异常检测，国内外已经采用了许多不同的方法进行深入的研究和探讨。但由于交通事件在时间和空间上的异构性，以及交通数据的海量性和实时性，对算法的准确性和效率提出了很高的要求。大多数传统算法一方面在上交通数据的拟合上往往存在一定程度的残差和异方差，无法和异常检测器有效配合对，另一方面处理速度较慢，无法快速的对大量交通数据给出异常得分。

技术实现要素：

6.为了解决上述问题，本发明提出了一种基于非参数建模的交通序列数据异常检测方法及系统，该方法基于多子模型异方差(msm
‑
h)建模算法来预处理交通序列数据，以获得标准化残差，然后将其给到预期相似性估计(expose)检测器，得到相应的异常分数。不仅能快速对大量的序列数据进行处理，且对交通数据的异常检测有较高的准确度。
7.在一些实施方式中，采用如下技术方案：
8.一种基于非参数建模的交通序列数据异常检测方法，包括：
9.获取设定路段的交通流量数据以及工作日时间表数据；
10.将相同工作日的交通流量数据放在一起，形成以不同工作日进行分类的多个子序列数据；
11.对每个子序列数据进行建模，通过线性拟合的方法将每个子序列模型与每一天的交通流量数据进行拟合；同时消除子序列模型与真实数据之间的异方差；得到标准化残差曲线；
12.基于所述标准化残差曲线，利用expose异常检测方法得到每一个时刻的交通序列数据异常分数，进而对交通序列异常数据进行判断。
13.作为进一步地方案，对每个子序列数据进行建模，具体包括：
14.对于每一个子序列数据，提取任一时间点下所有交通流量数据的中值，作为该时间点的交通流量数据；
15.对整个时间序列进行上述操作，得到每个子序列数据的初步模型。
16.作为进一步地方案，通过线性拟合的方法将每个子序列模型与每一天的交通流量数据进行拟合，具体包括：
17.计算每个子序列模型曲线与每一天的交通流量数据的残差，通过线性拟合的方法将每个子序列模型曲线与每一天的交通流量数据进行拟合，给定该曲线的系数和常数；从而得到适应每个工作日的拟合曲线。
18.作为进一步地方案，所述消除子序列模型与真实数据之间的异方差，具体方法为：
19.找出某一观测值下所有真实数据与该观测值的方差，当拟合曲线出现该观测值时，用该观测值与真实值的差除以所述得到的方差，就能够消去模型与真实数据间的异方差。
20.作为进一步地方案，基于所述标准化残差曲线，利用expose异常检测方法得到每一个时刻的交通序列数据异常分数，具体包括：
21.通过输入每一个时刻的交通序列数据观测值，在希尔伯特空间中计算核均值映射与特征映射的内积，采用核函数k度量不同输入空间的相似性，进而计算出一数值以说明该数据在正常数据集分布中的似然值，来给出它的异常分数。
22.作为进一步地方案，基于得到的每一个时刻的交通序列数据异常分数，对交通序列异常数据进行判断，具体包括：通过交通序列数据异常分数，结合设定的阈值，将异常分数大于设定阈值的数据判定为异常数据。
23.作为进一步地方案，如果判断某一时刻交通序列数据存在异常，则将所述异常数据与异常数据库中的数据进行匹配，确定解决方案；所述异常数据库存储有历史交通异常数据及相对应的解决方案。
24.在另一些实施方式中，采用如下技术方案：
25.一种基于非参数建模的交通序列数据异常检测系统，包括：
26.数据获取模块，用于获取设定路段的交通流量数据以及工作日时间表数据；
27.数据分类模块，用于将相同工作日的交通流量数据放在一起，形成以不同工作日进行分类的多个子序列数据；
28.标准化残差模块，用于对每个子序列数据进行建模，通过线性拟合的方法将每个子序列模型与每一天的交通流量数据进行拟合；同时消除子序列模型与真实数据之间的异方差；得到标准化残差曲线；
29.数据异常判断模块，用于基于所述标准化残差曲线，利用expose异常检测方法得到每一个时刻的交通序列数据异常分数，进而对交通序列异常数据进行判断。
30.在另一些实施方式中，采用如下技术方案：
31.一种终端设备，其包括处理器和存储器，处理器用于实现各指令；存储器用于存储多条指令，所述指令适于由处理器加载并执行上述的基于非参数建模的交通序列数据异常
检测方法。
32.在另一些实施方式中，采用如下技术方案：
33.一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的基于非参数建模的交通序列数据异常检测方法。
34.与现有技术相比，本发明的有益效果是：
35.(1)参数建模是指对数学模型的构建提前设定一些参数，例如某些点的系数，常数，导数等，即对要建立的数学模型做出了一定范围的假设，这样做的缺点是任何对于未知模型的假设都可能是错误的，而非参数建模的数学模型完全是由真实数据驱动，由真实数据的分布情况搭建，且向真实数据靠拢，因此相比参数建模更加的准确和灵活。本发明的数据建模过程是由数据驱动的非参数建模方法，并且对异方差具有良好的处理能力。
36.(2)由于关于分布的假设可能是错误的，容易导致错误的预测，因此，本发明采用expose异常检测方法，不仅能快速对大量的序列数据进行处理，且对交通数据的异常检测有较高的准确度。
37.本发明的其他特征和附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本方面的实践了解到。
附图说明
38.图1是本发明实施例中交通序列数据的建模过程示意图；
39.图2是本发明实施例中采用expose方法进行异常检测的过程示意图。
具体实施方式
40.应该指出，以下详细说明都是例示性的，旨在对本技术提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
41.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本技术的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
42.实施例一
43.交通序列数据异常检测的核心是利用过去的数据集准确预测未来的观测数据，然后通过比较观测值与实际值的误差来评估数据的异常程度，最后给出其异常分数。因此，通过建模拟合数据，合理预测未来观测值和适当的异常分数是异常检测有效性的关键。
44.基于此，根据本发明的实施例，公开了一种基于非参数建模的交通序列数据异常检测方法，包括以下步骤：
45.(1)获取设定路段的交通流量数据以及工作日时间表数据；
46.具体地，交通流量数据包括：固定时间间隔下，某条道路所经过的车流量。例如：16：00～16：05某条沟路；
47.工作日时间表数据包括：一整天的交通流量数据作为一组工作日时间表数据。
48.(2)将相同工作日的交通流量数据放在一起，形成以不同工作日进行分类的多个
子序列数据；
49.本实施例中，以时间为横轴，流量数据为纵轴，初步画图，观察数据的相关规律和特征分布，我们发现天与天之间存在明显的流量变化规律，这其中尤以相同工作日下数据流量的变化规律最明显。
50.因此本实施例将相同的工作日一整天的数据放在一起构建成多个子序列，然后针对每一个子序列建模。
51.本实施例中，将所有的周一的交通流量数据放到一起建模，所有的周二的交通流量数据放到一起建模，所有的周三的交通流量数据放到一起建模，以此类推，总共建立七个子模型。
52.(3)对每个子序列数据进行建模，通过线性拟合的方法将每个子序列模型与每一天的交通流量数据进行拟合；同时消除子序列模型与真实数据之间的异方差；得到标准化残差曲线；
53.考虑到拟合数据要对总体序列数据具有一定的代表性，我们选取了子序列中每个相同时刻，所有数据的中值来代表该数据，然后迭代到整个时间序列，进行建模，这样可以在针对每个子序列构建出初步的粗略的模型。
54.具体地，结合图1，对每个子序列数据进行建模的过程如下：
55.将所有该工作日一整天的交通序列数据放到一起，计算在任一固定的时间点下，所有该工作日此时刻交通流量的中值，然后用相同的方法迭代到整个时间轴上，就能够构建出代表所有该工作日下交通流量数据的一条较为平滑的流量曲线模型m
i
。直到最后的工作日迭代完成，我们就构建了多个交通序列的子模型。
56.考虑到车辆出行的复杂程度以及各种原因可能造成的交通流量变化，我们初步建立的模型和真实数据间存在明显的残差和异方差；本实施例中，首先通过线性拟合的方法将曲线m
i
与每一天的数据进行拟合，给定该曲线m
i
的系数和常数。
57.作为具体地实施方式，取一定的相同时间间隔，例如五分钟，某条道路经过的汽车流量为一个数据，每隔5分钟取一次，然后以此类推到一整天，最后以时间为横轴，车流量为纵轴就能绘制出一整天的交通流量数据，我们将所有周一的交通数据放到一起，取相同时间点所有数据的中值，绘制初步拟合曲线，然后通过比较拟合曲线与每一天实际曲线的差值来给定拟合曲线相应的合适的系数和常数，让其向每一天的实际曲线靠拢，达到较准确的拟合效果。
58.计算曲线m
i
与每一天的数据残差，通过线性拟合的办法，给定曲线m
i
在不同时间点的系数和常数，来适应每个工作日的流量数据的特异性，我们就可以得到针对每个不同工作日的新的拟合曲线m’i
，这样我们就成功解决了交通流量真实数据与拟合数据存在较大残差的问题。
59.另外，考虑交通数据时间上和空间上具有一定的异构型，我们得到的模型与数据间依然存在明显的异方差，这种波动无法准确的表示交通流量的真实情况，明显降低了异常检测的效率和准确性，因此我们要明确，当某一观测值出现时，可接受的波动幅度，即找出某一观测值下所有真实数据与该观测值的方差。当拟合曲线出现该观测值时，用该观测值与真实值的差除以先前得到的方差就可以消去模型与真实数据间的异方差，得到一条较为平稳直观的标准化残差曲线。例如：某天15:00时的原始车流量数据为60，而我们通过建
模后的拟合值为50，则当前的差为10。然后收集所有子模型中当拟合值为50时的所有真实数据，例如：60、65、55、45等等，得到了当拟合值出现50时，所有真实数据的分布，从而计算出拟合值为50时的标准差。最后，我们可以用10除以标准差来解决数据的异方差。
60.(4)基于所述标准化残差曲线，利用expose异常检测方法得到每一个时刻的交通序列数据异常分数，进而对交通序列异常数据进行判断。
61.具体地，结合图2，将得到的标准化残差，给到异常检测器expose中，基于expose算法，通过输入的观察值，在希尔伯特空间中计算核均值映射与特征映射的内积，采用核函数k度量不同输入空间的相似性，进而计算出一数值以说明该数据在正常数据集分布中的似然值，来给出它的异常分数。
62.具体到expose算法给出期望相似度的过程，本实施例主要使用了几个重要的核心概念：首先是核函数，它是基于现有的低维空间向量，通过特征映射的方式，映射到高维空间后，来计算其内积。
63.但是计算无穷维度的积分是非常繁杂的，因此又引入了可再生核希尔伯特空间(rkhs,reproducing kernel hilbert space)：当我们定义一种核函数的映射条件，固定核函数的一个参数为x，就能得到该无穷维矩阵第x行的一元函数，然后将每一项除去对应的基底，就能得到相应的向量空间。
64.因此，我们并不需要知道这个映射是什么，特征空间在哪里，只要核函数是对称正定的，就必然存在特定的映射和特征空间。
65.当给定再生核希尔伯特空间时，就可以省略掉原本函数之间计算无穷维度的积分的步骤，得到核函数。最后特征映射与核均值映射(核函数的数学期望)的内积即为概率分布p下的期望相似度。
66.本实施例中，异常分数是机器学习算法中对于分类算法的评判标准，主要用于绘制roc曲线，异常检测算法的实际输出结果会自动设置最合适的阈值，对于数据是否异常进行判定；通过交通序列数据异常分数，结合设定的阈值，将异常分数大于设定阈值的数据判定为异常数据。
67.(5)将得到的异常分数给到输出端，由操作员进行选择并对交通进行统一的调度和管理，例如：调整红绿灯时长，调整可变更车道，调整车辆引流等。
68.本实施例中，如果判断某一时刻交通序列数据存在异常，则可以将异常数据与异常数据库中的数据进行匹配，得到针对该异常数据的解决方案；例如：封一半路，或者其他道路引流；并且预测异常走向，判断恢复正常的时间。
69.如果异常数据库中没有存储该异常数据，则提示操作员对该异常数据进行处理，同时将该异常数据及相对应的解决方案存入异常数据库。
70.实施例二
71.根据本发明的实施例，公开了一种基于非参数建模的交通序列数据异常检测系统，包括：
72.数据获取模块，用于获取设定路段的交通流量数据以及工作日时间表数据；
73.数据分类模块，用于将相同工作日的交通流量数据放在一起，形成以不同工作日进行分类的多个子序列数据；
74.标准化残差模块，用于对每个子序列数据进行建模，通过线性拟合的方法将每个
子序列模型与每一天的交通流量数据进行拟合；同时消除子序列模型与真实数据之间的异方差；得到标准化残差曲线；
75.数据异常判断模块，用于基于所述标准化残差曲线，利用expose异常检测方法得到每一个时刻的交通序列数据异常分数，进而对交通序列异常数据进行判断。
76.需要说明的是，上述各模块的具体实现方式已经在实施例一中进行了详细的说明，不再赘述。
77.实施例三
78.根据本发明的实施例，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的基于非参数建模的交通序列数据异常检测方法。为了简洁，在此不再赘述。
79.应理解，本实施例中，处理器可以是中央处理单元cpu，处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic，现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
80.存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。
81.在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
82.实施例一中的基于非参数建模的交通序列数据异常检测方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。
83.本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
84.实施例四
85.在一个或多个实施方式中，公开了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行实施例一中所述的基于非参数建模的交通序列数据异常检测方法。
86.上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于非参数建模的交通序列数据异常检测方法及系统与流程

相关文献

最热文献