一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向路网排放核算的多层级卡口质量控制方法与流程

2022-11-23 17:29:09 来源:中国专利 TAG:


1.本发明属于交通卡口质量控制技术领域,涉及一种面向路网排放核算的多层级卡口质量控制方法。


背景技术:

2.在交通管理中,面向路网排放核算,现有的卡口质量控制方法几乎都是根据卡口的数据采集以及过车检测特点,采用相应的数据质量检验方法和流程,自动检测设备脱机、故障、网络异常等设备运行异常状况以及数据全空、时间戳错误、数据重复、数据量异常、识别率异常、测速不准等数据的质量问题。但此类卡口质量控制方法会面临如下问题:
3.(1)不论什么样的情况都采用相同的控制方法,无限制地追求精度,浪费了大量地算例,难以进行实际地应用。
4.(2)没有对出现问题的数据进行归类,有问题的数据包括缺失数据、重复数据和异常值等等,导致对数据的处理不够精细。
5.(3)没有对数据进行格式的统一,数据可能包含不一致的值。例如数据格式不统一;日期、时间格式不统一;编码不统一等等,导致难以进行后续的数据挖掘。
6.基于此,设计一种面向路网排放核算的多层级卡口质量控制方法,针对卡口数据质量控制,对卡口数据进行分类,找出卡口数据存在的问题,并针对这些问题,建立提升数据质量的方法。


技术实现要素:

7.本发明的目的是针对现有的技术存在上述问题,提出了一种面向路网排放核算的多层级卡口质量控制方法,本发明要解决的技术问题是:如何提高卡口数据质量。
8.本发明的目的可通过下列技术方案来实现:
9.一种面向路网排放核算的多层级卡口质量控制方法,包括数据质量控制处理和数据质量提升处理,多层级卡口质量控制的步骤如下:
10.步骤一,资料整理与现状分析,包括对卡口的情况进行预调查、对卡口数据进行处理、对卡口数据进行分类以及整理数据并将对数据源进行分析;
11.对卡口的情况进行预调查:对卡口现场调查的光线,位置以及录像清晰度有初步的判断,以提高实际调查的质量;
12.对卡口数据进行处理:一条卡口数据至少包括以下字段:拍摄卡口、拍摄时间、车牌和车型以及卡口的地理位置;在所给卡口数据中删除经纬度异常的车辆,进一步筛选出主路卡口;
13.对卡口数据进行分类:将卡口数据划分为三个等级,分别是卡口级、卡口群以及区域级;
14.其中,卡口级指的是单个卡口;
15.卡口群包括:干线群-多个相邻卡口构成上下游且两两之间无岔路;交叉口群-位
于同一交叉口但不同进出道;广义节点群-满足流量守恒的多个卡口,等效为一个卡口;
16.区域级是指由多个卡口群构成,且形成较为独立的功能区;
17.步骤二,通过错误数据识别、分类、致因分析,建立错误数据识别模型;建立错误数据识别模型包括错误识别方法的建立、错误识别方法校验、错误数据分类及致因分析、数据质量及可靠性评估;对错误数据进行分类,首先将错误数据分为卡口级、卡口群级和区域级,然后对每一级的错误数据进行识别,最后在网络层面进行综合质量评估;
18.对错误数据进行分类,整理后得到的结果为:
19.卡口级:(1)重复记录;(2)部分字段缺失记录;(3)错误记录;
20.卡口群级:(1)多重记录:某时间段内同一号牌在上下游卡口同时出现的数据记录;(2)异常记录:某时间段内同一号牌以异常速度出现在多个上下游卡口的数据记录,或相邻的上下游卡口数据出现严重不对称;(3)整条字段缺失记录;
21.区域级:(1)多重记录:某时间段内同一号牌在多个卡口同时出现的数据记录;(2)异常记录:某时间段内同一号牌以异常速度出现在多个卡口的数据记录;(3)整条字段缺失记录;
22.步骤三,数据的修正和补充,包括基于数据错误类型的修复方法选择、数据质量改善方法测试及比选、数据质量改善方法评估;在对错误数据识别的基础上,对错误数据进行修正及补充,找出卡口数据存在的问题,问题类型包括缺失、格式不一致、重复、异常,针对这些问题,建立提升数据质量的方法;
23.步骤四,针对卡口数据出现的问题依次进行清洗。
24.本发明面向路网排放核算的多层级卡口数据,通过数据质量控制处理和数据质量提升处理来提高卡口数据的质量;对卡口数据进行分类,将卡口数据划分为三个等级,分别是卡口级、卡口群级以及区域级,并找出卡口数据存在的问题,如缺失、格式不一致、重复、异常等,针对这些问题,对收集到的问题数据进行识别、归类和致因分析,建立错误数据识别模型,根据不同类型的问题数据进行修复,建立提升数据质量的方法,针对问题数据一对一进行数据质量提升,最终将处理完成的数据用于交通研究中。
25.步骤一中,对卡口的情况进行预调查,预调查的要素有:卡口附近有没有其他卡口,能较容易分辨;卡口附近是否有过街天桥,方便录像调查;经过卡口的车辆类型是否比较齐全;卡口点位到学校距离是否适中;通过预调查提高获取数据的质量和可靠性。
26.步骤一中,整理数据并将对数据源进行分析,包括采集方法及字段信息介绍和数据特征,数据特征包括错误类型、分布特征、精度等信息。
27.步骤二中,网络层面综合质量评估是基于历史卡口数据、交调数据的货运通道及货运网络进行数据的提取,依靠复杂网络理论进行权重确定,最后进行加权评价。
28.步骤二中,数据质量及可靠性评估指标包括缺失率和异常率;卡口数据的质量评估首先需要发现卡口数据存在的问题,进行预处理,然后针对问题数据一对一进行数据质量提升,最终将处理完成的数据用于交通研究中。
29.(1)缺失率是指某段时间范围内某交通调查设备未采集到数据的数量占该时段内该交通调查设备理论上应该采集到的数据量的百分比,一条数据至少包括了以下字段:拍摄卡口、拍摄时间、车牌和车型以及卡口的地理位置;缺失率计算公式如下:
[0030][0031]
上式中,im:缺失率;
[0032]dm
:某段时间范围内某交通调查设备未采集到数据的数量;
[0033]dt
:该时段内该交通调查设备理论上应该采集到的数据量;
[0034]
(2)异常率
[0035]
异常率指某时段内在筛选出的问题数据量占该时段内实际采集到的数据数量的百分比,异常率计算公式如下:
[0036][0037]
上式中,if:错误率;
[0038]df
:某时段内筛选出的问题数据量;
[0039]
d:该时段内实际采集到的数据数量。
[0040]
上述步骤中,错误识别方法包括单点识别和多点识别,多点识别包括多点同时识别、轨迹断片识别、多条同时缺失识别和异常逻辑识别;对于数据质量及可靠性评估包括单点评估、卡口群评估和区域评估;对错误数据的致因分析包括潜在因素和致因推理,对于数据的质量提升包括单点修复和多点修复,顺序上来说,对单个卡口数据进行单点修复后,对于卡口群和区域级数据根据相似矩阵和时空关联性进行多点修复。
[0041]
步骤三中,对于缺失数据处理方式包括缺失值填补、删除数据和不处理,填补方法包括人工填补、特殊值处理、平均值填充、热卡填充、k-近邻方法,进行缺失数据质量提升;对于重复数据处理方式包括按关键信息去重和按规则去重的方法进行处理;对于异常值处理方式包括删除异常值、平均值代替、视为缺失值和不处理的方法进行处理;对于格式不一致数据处理方式包括去除不需要的字符和一致化处理的方法进行处理;其中删除数据和不处理的处理方式限于影响较小或无影响的错误数据。
[0042]
步骤三中,数据错误类型的修复方法包括基于仿真模型修复法、基于预测原理修复法、基于插值原理修复法和基于统计学习修复法。
[0043]
基于仿真模型修复法:通过建立仿真模型对错误数据进行修复;
[0044]
基于预测原理修复法:在检测点位的历史数据基础上建立预测模型,并利用模型的预测值来替换该检测点位当前的问题数据或填补缺失数据,如建立平滑自回归模型(arima)进行修复;
[0045]
基于插值原理修复法:基于历史或近邻数据利用现有插值方法进行填补;通过从同一检测位所获取的前几天同一时刻的数据通过加权平均来修复有问题的数据,或通过参考近邻几个检测点位的数据,并通过平均或是加权平均来估计缺失或被污染的数据,进行修复;
[0046]
基于统计学习修复法:将要修复的数据视作为一个待估参数,通过多次抽样的方式来估计该数据的替代值,进行修复,如人工神经网络方法、马尔科夫模特卡罗方法(mcmc)。
[0047]
与现有技术相比,本面向路网排放核算的多层级卡口质量控制方法具有以下优点:
[0048]
1、本发明面向路网排放核算的多层级卡口数据,通过数据质量控制处理和数据质量提升处理来提高卡口数据的质量;将卡口数据划分为三个等级,分别是卡口级、卡口群级以及区域级,通过这种分类,对收集到的问题数据进行归类,通过错误数据识别、分类、致因分析,建立错误数据识别模型,并根据错误数据类型进行修正和补充,能够提高数据质量和可靠性,便于路网排放的精准核算。
[0049]
2、通过建立错误数据识别模型,对错误数据进行分类,将错误数据分为卡口级、卡口群级和区域级,然后对每一级的错误数据进行识别,最后在网络层面进行综合质量评估和致因分析,再对数据进行精准修复,修复后的数据质量好,精确度高。
[0050]
3、根据不同层级对问题数据进行分类,可以获知不同等级的卡口更容易出现的问题,便于交通研究。
[0051]
4、本发明面向实际应用,在进行数据质量控制前进行预处理,先对卡口情况进行预调查提高实际调查的质量,并筛选出主路卡口,然后对卡口进行分类,通过对问题数据的识别、分析,能够根据实际情况识别出关键的卡口,同时可以忽略无关紧要的错误数据,提高卡口数据的处理效率。
附图说明
[0052]
图1是本发明卡口质量控制方法处理流程示意图;
[0053]
图2是本发明卡口问题数据处理的技术路线示意图;
[0054]
图3是选取的五个具有代表性卡口的数据质量进行分析雷达图;
[0055]
图4是环形路口的示意图。
具体实施方式
[0056]
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
[0057]
请参阅图1-2,本实施例提供了一种面向路网排放核算的多层级卡口质量控制方法,包括数据质量控制处理和数据质量提升处理,多层级卡口质量控制的步骤如下:
[0058]
步骤一,资料整理与现状分析,包括对卡口的情况进行预调查、对卡口数据进行处理、对卡口数据进行分类以及整理数据并将对数据源进行分析;
[0059]
对卡口的情况进行预调查:对卡口现场调查的光线,位置以及录像清晰度有初步的判断,以提高实际调查的质量;预调查的要素有:卡口附近有没有其他卡口,能较容易分辨;卡口附近是否有过街天桥,方便录像调查;经过卡口的车辆类型是否比较齐全;卡口点位到学校距离是否适中;通过预调查提高获取数据的质量和可靠性。
[0060]
对卡口数据进行处理:一条卡口数据至少包括以下字段:拍摄卡口、拍摄时间、车牌和车型以及卡口的地理位置;在所给卡口数据中删除经纬度异常的车辆,进一步筛选出主路卡口;
[0061]
对卡口数据进行分类:将卡口数据划分为三个等级,分别是卡口级、卡口群以及区域级;
[0062]
其中,卡口级指的是单个卡口;
[0063]
卡口群包括:(1)干线群-多个相邻卡口构成上下游且两两之间无岔路;(2)交叉口群-位于同一交叉口但不同进出道;(3)广义节点群-满足流量守恒的多个卡口,等效为一个
卡口;
[0064]
区域级是指由多个卡口群构成,且形成较为独立的功能区;
[0065]
整理数据并将对数据源进行分析,包括采集方法及字段信息介绍和数据特征(错误类型、分布特征、精度等)。
[0066]
步骤二,通过错误数据识别、分类、致因分析,建立错误数据识别模型;建立错误数据识别模型包括错误识别方法的建立、错误识别方法校验、错误数据分类及致因分析、数据质量及可靠性评估;对错误数据进行分类,首先将错误数据分为卡口级、卡口群级和区域级,然后对每一级的错误数据进行识别,最后在网络层面进行综合质量评估。
[0067]
网络层面综合质量评估是基于历史卡口数据、交调数据的货运通道及货运网络进行数据的提取,依靠复杂网络理论进行权重确定,最后进行加权评价。
[0068]
对错误数据进行分类,整理后得到的结果为:
[0069]
卡口级:(1)重复记录(1类重复);(2)部分字段缺失记录;(3)错误记录;
[0070]
卡口群级:(1)多重记录(2类重复):某时间段内同一号牌在上下游卡口同时出现的数据记录;(2)异常记录:某时间段内同一号牌以异常速度出现在多个上下游卡口的数据记录,或相邻的上下游卡口数据出现严重不对称;(3)整条字段缺失记录;
[0071]
区域级:(1)多重记录(2类重复):某时间段内同一号牌在多个卡口同时出现的数据记录;(2)异常记录:某时间段内同一号牌以异常速度出现在多个卡口的数据记录;(3)整条字段缺失记录;
[0072]
其中,数据质量及可靠性评估指标包括缺失率和异常率;卡口数据的质量评估首先需要发现卡口数据存在的问题,进行预处理,然后针对问题数据一对一进行数据质量提升,最终将处理完成的数据用于交通研究中。
[0073]
(1)缺失率是指某段时间范围内某交通调查设备未采集到数据的数量占该时段内该交通调查设备理论上应该采集到的数据量的百分比,一条数据至少包括了以下字段:拍摄卡口、拍摄时间、车牌和车型以及卡口的地理位置;缺失率计算公式如下:
[0074][0075]
上式中,im:缺失率;
[0076]dm
:某段时间范围内某交通调查设备未采集到数据的数量;
[0077]dt
:该时段内该交通调查设备理论上应该采集到的数据量;
[0078]
(2)异常率
[0079]
异常率指某时段内在筛选出的问题数据量占该时段内实际采集到的数据数量的百分比,异常率计算公式如下:
[0080][0081]
上式中,if:错误率;
[0082]df
:某时段内筛选出的问题数据量;
[0083]
d:该时段内实际采集到的数据数量。
[0084]
步骤三,数据的修正和补充,包括基于数据错误类型的修复方法选择、数据质量改善方法测试及比选、数据质量改善方法评估;在对错误数据识别的基础上,对错误数据进行
修正及补充,找出卡口数据存在的问题,问题类型包括缺失、格式不一致、重复、异常,针对这些问题,建立提升数据质量的方法;
[0085]
对于缺失数据处理方式包括缺失值填补、删除数据和不处理,填补方法包括人工填补、特殊值处理、平均值填充、热卡填充、k-近邻方法,进行缺失数据质量提升;对于重复数据处理方式包括按关键信息去重和按规则去重的方法进行处理;对于异常值处理方式包括删除异常值、平均值代替、视为缺失值和不处理的方法进行处理;对于格式不一致数据处理方式包括去除不需要的字符和一致化处理的方法进行处理;其中删除数据和不处理的处理方式限于影响较小或无影响的错误数据。
[0086]
步骤四,针对卡口数据出现的问题依次进行清洗。
[0087]
上述步骤二中,错误识别方法包括单点识别和多点识别,多点识别包括多点同时识别、轨迹断片识别、多条同时缺失识别和异常逻辑识别;对于数据质量及可靠性评估包括单点评估、卡口群评估和区域评估;对错误数据的致因分析包括潜在因素和致因推理;上述步骤三中,对于数据的质量提升包括单点修复和多点修复,顺序上来说,对单个卡口数据进行单点修复后,对于卡口群和区域级数据根据相似矩阵和时空关联性进行多点修复。
[0088]
上述步骤三中,数据错误类型的修复方法包括基于仿真模型修复法、基于预测原理修复法、基于插值原理修复法和基于统计学习修复法;
[0089]
基于仿真模型修复法:通过建立仿真模型对错误数据进行修复;
[0090]
基于预测原理修复法:在检测点位的历史数据基础上建立预测模型,并利用模型的预测值来替换该检测点位当前的问题数据或填补缺失数据,如建立平滑自回归模型(arima)进行修复;
[0091]
基于插值原理修复法:基于历史或近邻数据利用现有插值方法进行填补;通过从同一检测位所获取的前几天同一时刻的数据通过加权平均来修复有问题的数据,或通过参考近邻几个检测点位的数据,并通过平均或是加权平均来估计缺失或被污染的数据,进行修复;
[0092]
基于统计学习修复法:将要修复的数据视作为一个待估参数,通过多次抽样的方式来估计该数据的替代值,进行修复,如人工神经网络方法、马尔科夫模特卡罗方法(mcmc)。
[0093]
上述对错误数据的修复方法(修复基于仿真模型修复法、基于预测原理修复法、基于插值原理修复法和基于统计学习修复法),均属于现有对数据进行修复的常用处理方式,其处理过程属于现有技术手段,本领域技术人员可以实现,上述修复方法的具体修复过程不再加以赘述。
[0094]
如图3所示,图3为选取的五个具有代表性卡口的数据质量进行分析雷达图。选取5个代表性的卡口对卡口数据的数据质量进行分析,选取卡口为亦庄桥北、高家堡村东路南郊钢材市场、林萃路北五环口南、香山路林业学院口和鲁谷桥东。从图3中可以得知:
[0095]
1、鲁谷桥东异常率最大;
[0096]
2、林萃路北五环口南重复率最高;
[0097]
3、高家堡村东路南郊钢材市场缺失率最大;
[0098]
4、数据重复率较异常率、缺失率高。
[0099]
如图4所示,图4为环形路口,存在相邻卡口a、b,经调查发现相同时间段内卡口a的
流量为3530,卡口b的流量为472,采用本发明质量控制方法进行卡口质量控制。
[0100]
在此情况下,卡口a为主路卡口,卡口b可以剔除,主要对卡口a的数据质量进行控制。
[0101]
卡口a的缺失率为0.15%,缺失数据为5,鉴于缺失数据较少,可以人工手动进行填补,若缺失数据较多,可以采用k-近邻(使用欧式距离来确定与具有缺失值最近的几个样本,然后使用它们的均值来填充)或热卡填充(在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充)的方法。
[0102]
卡口a的重复率为0.17%,重复数据可用关键信息去重,例如以id等唯一关键信息去除重复数据。
[0103]
数据的异常率为0.21%,若数据较少,可以将异常数据直接删除,亦可以基于历史或近邻数据利用现有插值方法进行填补。基于插值修复法,是将从同一检测位所获取的前几天同一时刻的数据通过一定的处理(如加权平均)来修复有问题的数据;或参考近邻几个检测点位的数据,并通过平均或是加权平均的方法来估计缺失或被污染的数据,进行修复。
[0104]
本实施例提供了一种面向路网排放核算的多层级卡口质量控制方法,对卡口数据进行分类,进行卡口数据质量控制,一条数据至少包括了以下字段:拍摄卡口、拍摄时间、车牌和车型以及车辆出现的地点(卡口的地理位置)。卡口被分为三个等级,分别是卡口级、卡口群级和区域级,其中在卡口群这一等级中,会出现十字路口和环形路口存在较多卡口的情况,但是由于在一条道路中,本身车流量的变化不大,故不需要所有卡口的数据完全精确,当有个别数据出现问题时,该问题可视情况进行忽略,只需要识别出关键的卡口,就可以避免浪费。在区域级的卡口中,也存在类似的情况,我们也可对部分问题进行忽略,由此还可以体现出本发明面向实际应用的特点。针对卡口数据质量控制,找出卡口数据存在的问题,如缺失、格式不一致、重复、异常等,并基于这些问题,对收集到的问题数据进行归类,通过错误数据识别、分类、致因分析等方法,建立错误数据识别模型,并根据错误数据类型进行修正和补充,建立提升数据质量的方法,提高数据质量和可靠性,以便于更好的进行交通研究。
[0105]
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下做出各种变化。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献