一种基于数据清洗规则的可信认证方法及系统与流程

2022-02-20 12:34:57 来源：中国专利 TAG：

本发明涉及计算机技术领域，尤其涉及一种基于数据清洗规则的可信认证方法及系统。

背景技术

数字信息化时代，数据信息量快速增长，大量机构及其子机构信息系统数据量也飞速增长，并建立了自己的数据中心，基于数仓做数据挖掘和分析，但随之也伴随着一系列数据质量问题。在大数据场景下数据质量存在各种问题：各个系统业务由于缺乏一致性和准确性检测或校验可能自身存在数据质量问题，没有准确性保障；在分布式场景下各个业务模块之间独立，数据分库分表存储标准各异，没有统一数据标准；异构数据源接入或者数据流转中缺乏相关监控措施，没有规范性。久而久之而未能有效管理数据，未能有效利用数据，数据湖可能会形成数据沼泽和信息黑洞隐形的宝贵数据资源将更难以进行挖掘，更难以充分利用。数据质量的好坏直接影响着数据挖掘、应用服务以及运维管理的质量，因此，接入应用系统中的数据需满足准确性、一致性、完整性及规范性的要求，为业务应用服务提供可靠的数据。数据清洗即是采集得到的数据进行数据的过滤和筛选也是对数据进行重新审查和校验的过程。针对目前受关注的通信安全相关问题，数据清洗还能够对采集终端上传或捕获到的异常数据进行筛选和隔离处理，从而能够有效地阻碍不良侵入等异常数据上传的同时保护了现有数据库的存储安全性。

目前的数据清洗方案通常都是将所有超出规范化设置的数据阈值的异常数据信息一次性筛除过滤，虽然这样能够有效地降低异常侵入破坏通信安全的风险，有效地保障了数据库存储数据的安全，但是其常常也会将一些由支撑采集活动的基本参数/网络传输参数的不稳定而造成的异常数据过滤掉，此部分异常数据虽然可能超出了现有的数据阈值，但其实际记录的相关数据信息本身是具有价值的，且不具备侵害风险的，因此在实际数据清洗过程中，需要能够对此类异常数据进行准确研判，并将其与外部侵入或故障造成的异常数据进行有效区分，从而能够为相关的数据系统获取足够准确且更全面的原始数据信息。

在一栋建筑中所涉及的嵌入式操作系统就能够对整栋建筑中的机电设备进行运行情况相关数据采集、状态监测和控制，操作系统能够对采集到的原始数据信息进行信息处理、数据计算、数据分析、逻辑判断和图像识别等，从而保障各类机电设备高效、安全的运行和管理。安全通信应用运行过程中，会捕捉到大量的审计和监控数据，这些数据都会上传到服务器端，有了大量的数据，就可以利用机器学习技术进行数据的分析。同时，在传统的安全监控和安全审计应用中，入侵检测规则都是基于报警系统的分析结果以及人工手动下发规则的配置，这样的工作方式既消耗人工工作量，同时也降低了入侵检测的准确性和实时性。

中国专利CN112069157A公开了一种车间数据可信度判断的方法，包括数据抓取步骤，数据抓取客户端按照采样周期获取的采样数据转换成消息串发送至消息服务器，从消息服务器中的消息列表获得抓取指令，根据抓取指令得到目标数据；数据清洗步骤配置有读写器和粗清洗判别策略，读写器获取目标数据，并根据粗清洗判别策略判断目标数据是否存在内部粗清洗功能，如存在则处于定时模式下的读写器将当前的目标数据与上一时刻的目标数据进行比对记录有效数据；有效数据按照粗差去噪策略得到筛选数据，簇内节点获取筛选数据发送至簇头节点，簇头节点根据分簇融合策略进行融合处理后发送到中心处理节点。该发明能够调整滑动窗口的大小，解决采集数据错误、正确率低的问题。但是该专利无法针对工业设备由于电压暂降或传输网络短暂异常造成的数据异常进行筛选，无法提供有效、准确的数据清洗，可能会误将含有无威胁的数据删除。该专利的判断系统非常脆弱，一旦可信度判断服务器出现故障就会导致整个系统的可信度判断服务全部停止工作；随着感知层规模的扩大，可信度判断服务器的负责性快速增长，造成可信度判断服务器管理、维护的开销增加；终端设备数量巨大，大量的终端设备同时接入可信度判断服务器申请认证服务时会对网络、服务器带来巨大的压力，会造成可信度判断服务器运行变慢，甚至会出现网络拥塞、服务器停止运行。

因此，本申请针对现有技术的缺陷提供了一种能够对服务总体进行拆分、通过对边缘网关进行授权的方式下放多种认证功能到具备对应授权的边缘网关且能够准确地完成数据清洗降低数据缺失的一种可信认证方法。

此外，一方面由于对本领域技术人员的理解存在差异；另一方面由于发明人做出本发明时研究了大量文献和专利，但篇幅所限并未详细罗列所有的细节与内容，然而这绝非本发明不具备这些现有技术的特征，相反本发明已经具备现有技术的所有特征，而且申请人保留在背景技术中增加相关现有技术之权利。

技术实现要素：

针对现有技术之不足，本发明的技术方案提供的是一种基于数据清洗规则的可信认证方法，其至少包括作为终端传感设备进行传感数据采集的数据采集单元，所述数据采集单元周期性地将其采集的传感数据以设定格式上传至数据云端，所述数据云端通过对所述数据采集单元上传的传感数据进行数据清洗的方式完成传感数据的安全监控和安全审计，使得数据云端能够与其属于同一通信网络中的若干所述数据采集单元进行用户需求的通信应用；所述数据云端还根据数据采集单元上传的数据建立数据模型，从而通过建立的数据模型进行传感数据的预测和判定，并在判定一个传感数据存在异常时，所述数据云端通过预警模块发出预警提醒。其优势在于，本申请的数据云端利用模型进行数据预测的计算工作，判定数据包是否攻击。在模型预测计算的同时，云端也会根据新的数据来调整模型中参数，进而使得模型更加具有适应性，提高模型的泛化能力。数据清洗单元的安全审计应用主要提供对系统中所有操作行为的有效记录，包括网络通信日志、系统日志等。当应用越权执行特定命令时，实时进行告警、阻断以确保目标系统的安全。

根据一种优选的实施方式，所述数据云端至少包括能够对接收的传感数据进行数据清洗的数据清洗单元和进行上传数据分类存储的数据存储单元，所述数据云端按照将其服务主体拆分为与多个并行的所述数据清洗单元相关联的认证子体，使得单个所述数据清洗单元能够完成数据网络中的属于同一传输网络通道上的多个数据采集单元的数据清洗和分析。其优势在于，本申请容错性高，采用分布式的认证系统架构，当某个边缘网关发生故障时不会影响其他边缘网关认证服务的正常运行；每个边缘网关上的程序都是相对独立部署、独自运行的，与其他网关之间的服务祸合度低、互不影响，方便灵活组织代码以及对边缘网关进行升级维护和管理；由于采用分布式的系统结构由边缘网关直接对分组中的终端进行身份认证，云平台只需要对边缘网关进行认证授权、管理调度和数据同步，这样就可以提高认证效率，同时减降低高并发情况下对云端服务器的压力。

根据一种优选的实施方式，所述数据清洗单元通过预设的数据阈值过滤出所述传感数据的数据序列中的第一异常数据并对第一异常数据进行二次验证，筛选出由数据采集的支撑参数或数据传输通道的构建参数发生波动而产生的第二异常数据；所述数据清洗单元还对补充所述第二异常数据的数据序列进行连接性拼接，其中，所述第二异常数据能够与处理后的数据序列进行补充，使得清洗后的传感数据得到重建和对其缺失的至少部分数据序列进行恢复。其优势在于，本申请将由供能参数/网络传输参数的不稳定而造成的异常数据筛选出，此部分异常数据虽然超出现有的数据阈值，但其实际记录的相关数据信息本身是具有价值的，且不具备侵害风险的，因此在数据清洗过程中，将此类异常数据与外部侵入或故障造成的异常数据进行有效区分，从而能够为相关的数据系统获取足够准确且更全面的原始数据信息。

根据一种优选的实施方式，所述第一异常数据是通过对该传感数据进行采集的数据采集单元所属的同一采集网络或采集支路上的其他数据采集单元是否存在同一时间的传感数据异常进行对比验证的方式完成所述第二异常数据的筛选。其优势在于，通过将无威胁异常数据进行提取并重新补充至数据序列中，有效地提高传感数据的完整性和准确性，方便设备与数据库之间的信息交互。

根据一种优选的实施方式，所述第一异常数据进行二次验证还包括对采集到该第一异常数据对应的数据采集单元的同一通信网络中的其他数据采集单元在同一时间采集的传感数据是否存在异常，并将验证结果作为所述第二异常数据的筛选条件。

根据一种优选的实施方式，所述数据采集单元能够将其采集传感数据通过网络传输通道上传至所述数据云端的数据存储单元中，使得所述数据云端获得所述传感数据的数据序列；所述数据清洗单元根据所处的业务场景和分析规则可选择地制定不同清洗策略，并通过选取的清洗策略完成传感数据的重建和至少部分缺失数据的恢复。

根据一种优选的实施方式，在所述数据清洗单元根据周期性采集的传感数据在时间轴上的变化而设置一个分割数据变化度临界点的数据阈值的情况下，基于传感数据的时域特性进行数据序列中异常数据的过滤是根据预设的数据阈值从传感数据中筛除具有异常数据的数据序列；然后所述数据清洗单元将单个周期采集的数据序列分割为多个数据片段，并依据数据阈值筛除至少一个数据片段中的异常数据。

根据一种优选的实施方式，单个周期采集的数据序列通过预设的单位时间长度将其分割为多个数据片段，其中，同一数据序列上的不同数据片段之间互不交叠。所述数据清洗策略的规则是根据数据分析的规则结果进行定义的，且数据清洗单元通过在数据对象上执行预定义的分析查看规则并报告或者告警标识异常数据，捕获到异常数据后对其进行数据清洗任务。

本申请还提供一种基于数据清洗规则的可信认证系统，至少包括数据采集单元和数据云端，其中，所述数据采集单元获取待清洗的传感数据，并将传感数据上传至数据云端进行清洗处理；所述数据云端通过预设的数据阈值过滤出所述传感数据的数据序列中的第一异常数据，所述数据云端还能够对第一异常数据进行二次验证，筛选出由数据采集的支撑参数或数据传输通道的构建参数发生波动而产生的第二异常数据；所述数据云端对补充所述第二异常数据的数据序列进行连接性拼接。其优势在于，本申请的数据云端利用模型进行数据预测的计算工作，判定数据包是否攻击。在模型预测计算的同时，云端也会根据新的数据来调整模型中参数，进而使得模型更加具有适应性，提高模型的泛化能力。数据清洗单元的安全审计应用主要提供对系统中所有操作行为的有效记录，包括网络通信日志、系统日志等。当应用越权执行特定命令时，实时进行告警、阻断以确保目标系统的安全。此外，本专利能够将由网络传输参数的不稳定而造成的异常数据筛选出，此部分异常数据虽然超出现有的数据阈值，但其实际记录的相关数据信息本身是具有价值的，且不具备侵害风险的，因此在数据清洗过程中，将此类异常数据与外部侵入或故障造成的异常数据进行有效区分，从而能够为相关的数据系统获取足够准确且更全面的原始数据信息。

根据一种优选的实施方式，所述数据云端能够根据第一异常数据过滤掉第二异常数据后的第三异常数据向预警模块发送采集到第三异常数据的数据采集单元的设备信息。

附图说明

图1是本发明的一种基于数据清洗规则的可信认证方法及系统的优选实施例的工作流程示意图；

图2是本发明的一种基于数据清洗规则的可信认证方法及系统的优选实施例的数据清洗流程示意图；

图3是本发明的一种基于数据清洗规则的可信认证方法及系统的数据清洗设备的一种结构示意图。

附图标记列表

1：数据采集单元；2：数据清洗单元；3：预警模块；4：数据清洗设备；21：数据清洗单元；22：数据存储单元；41：处理器；42：存储器；43：输入输出设备；44：总线。

具体实施方式

下面结合附图进行详细说明。

一种基于数据清洗规则的可信认证方法，其包括数据采集单元1、数据云端2和预警模块3。

根据图1示出的具体实施方式，数据采集单元1能够将终端传感设备周期性采集到传感数据和存在异常事件的数据均上传至数据云端2。数据云端2基于收集到的数据源进行数据分析和学习建模，从而建立能够对上传的数据包是否存在攻击的判断检测模型，为通信流量提供智能化的入侵检测，并帮助可信认证系统更好地进行入侵检测、异常数据筛除和防御工作。在数据云端2检测到某一终端传感设备上传的数据包存在威胁时，其还能够通过输出控制指令给预警模块3的方式向人工监测人员做出入侵和异常状态提醒。数据云端2包括能够对接收的传感数据进行数据清洗的数据清洗单元21和数据存储单元22。数据清洗单元21能够对数据采集单元1上传的由终端传感设备采集到的传感数据进行安全监控和安全审计。数据清洗单元21数据处理操作使得数据云端2所连接的属于同一控制网络中的若干终端设备与数据存储单元22之间能够进行安全的通信应用。数据清洗单元21的安全审计应用主要提供对系统中所有操作行为的有效记录，包括网络通信日志、系统日志等。当应用越权执行特定命令时，实时进行告警、阻断以确保目标系统的安全。

优选地，数据采集单元1负责搜集嵌入式系统网络通信环境中的数据包，并且将数据包经过整理，按照指定格式上传至数据云端2。数据云端2首先是包括接收来自其控制的数据网络中的若干个数据采集单元1采集的数据，并且建立数据仓库，做好数据存储功能。数据云端2还从建立好的数据仓库中获取数据，然后进行数据清洗、数据分析，然后选取对应的机器学习模型进行函数拟合以及参数调整，训练出对应的模型。数据云端2还利用模型进行数据预测的计算工作，判定数据包是否攻击。在模型预测计算的同时，云端也会根据新的数据来调整模型中参数，进而使得模型更加具有适应性，提高模型的泛化能力。数据采集单元1作为客户端，会向云端提供网络通信的数据；而数据云端2中的机器学习模型作为服务端，会预警模块3向用户反馈预测的结果，及时地通知通信网络过程中的数据包是否存在风险。

优选地，现有的集中式认证机制是将所有的终端设备接入认证服务器，由认证服务器对终端设备进行统一的认证授权。虽然这种认证机制便于实施且方便对终端设备进行端到端的管理控制，但是却存在以下安全缺陷：

(1)认证系统非常脆弱，一旦认证服务器出现故障就会导致整个系统的认证服务全部停止工作；

(2)随着感知层规模的扩大，认证服务器的负责性快速增长，造成认证服务器管理、维护的开销增加；

(3)终端设备数量巨大，大量的终端设备同时接入认证服务器申请认证服务时会对网络、服务器带来巨大的压力，会造成认证服务器运行变慢，甚至会出现网络拥塞、服务器停止运行；

(4)安全性低，由于认证服务器存储了系统中所有终端设备的信息和密钥信息，一旦认证服务器被攻破，所有设备的信息都会丢失。

针对上述问题，本申请在数据云端2中建立了物联网终端分布式认证机制，即将原本复杂的单一综合性处理器主体(服务总体)拆分成多个单独的个体，从而通过边缘认证个体对至少一部分终端传感设备采集的传感数据进行认证。优选地，个体之间可以相对独立运行并通过一个统一标准的协议进行互联互通。优选地，数据云端2能够将其管辖控制的数据网络中的属于同一传输网络通道上的多个终端传感数据划分至同一认证个体进行数据清洗和分析，从而能够在该传输网络通道上的某一个数据异常时，能够通过分析同一传输通道上的其他终端传感设备同时间点采集到的数据是否也存在相同或相似的异常，从而判断该数据是否可信，能否进行下一阶段的通信应用或直接过滤掉。优选地，物联网终端分布式认证机制包括：按照微服务的思想将设备注册、安全认证、设备管理等服务解祸拆分成独立的业务模块。云平台对接入核心网的边缘网关进行安全认证，对合法的边缘网关进行授权，将设备管理、身份认证等功能下放到具备对应授权的边缘网关中。边缘网关可以直接对分组中的终端进行身份认证，并将认证结果、协商密钥以及设备信息与云端实时同步。与传统的集中式认证机制相比，该认证机制具备以下优点：

(1)容错性高：由于采用了分布式的认证系统架构，当某个边缘网关发生故障时不会影响其他边缘网关认证服务的正常运行；

(2)独立部署与运行：每个边缘网关上的程序都是相对独立部署、独自运行的，与其他网关之间的服务祸合度低、互不影响，方便灵活组织代码以及对边缘网关进行升级维护和管理；

(3)由于采用了分布式的系统结构由边缘网关直接对分组中的终端进行身份认证，云平台只需要对边缘网关进行认证授权、管理调度和数据同步，这样就可以提高认证效率，同时减降低高并发情况下对云端服务器的压力。

实施例1

一种用于嵌入式操作进行安全通信的可信认证系统，其包括数据采集单元1和具有数据清洗单元21的数据云端2。数据采集单元1可以为各种适用于不同应用场景且与通信网络连接的数据信息采集终端设备。数据采集单元1采集到的数据信息能够以通信的方式输送至数据清洗单元21进行处理。作为数据采集单元1的数据信息采集终端设备能够对与其关联的某一传感数据进行采集，从而获得该传感数据的采样数据。数据采集单元1能够将其采集传感数据通过网络传输通道上传至数据清洗单元21的采样数据库中，使得数据清洗单元21获得对应传感数据的数据序列。数据清洗单元21能够对存储在采样数据库中的数据序列进行清洗，从而获得可靠、准确的数据，为相关系统的后续应用或分析提供基础数据。

优选地，多种不同且同区域的数据采集单元1能够以分类储存的方式存储在数据清洗单元21的同一采样数据库的不同位置。优选地，数据采集单元1和数据清洗单元之间可以是无线或有线数据网络连接。优选地，数据采集单元1采集的传感数据可以是任意具有监测需求的传感数据，例如，温度、监控视频、运行参数等。优选地，数据采集单元1可以是能够对上述所涉及的任意单一传感数据进行采集的传感器或采集模块。例如传感数据为温度，则数据采集单元可以是温度传感器的穿戴设备或嵌入式设备；传感数据为一定空间内的图像，则数据采集单元可以是能够持续对一定区域进行视频拍摄的摄像单元。优选地，设置在一定空间范围内进行同一对象的多种传感数据采集的多个数据采集单元1采集到的传感数据能够通过同一采集网络连接，并以同一数据通信通道或同一网络下不同数据通信通道进行传感数据的上传和分类存储。优选地，数据清洗单元21可以是任意与数据网络连接且能够接收数据采集单元1采集数据的服务器、计算机等等任何具有数据存储和数据处理功能的设备。

实施例2

如图2所示，本申请的数据清洗单元21还涉及的基于数据清洗规则的可信认证方法，其包括：

S1：获取一个传感数据或一个采集终端的采样信息的数据序列；

S2：基于数据阈值对该数据序列中的第一异常数据进行过滤、筛除；

S3：对第一异常数据进行二次验证，判断是否属于供能波动或传输障碍造成的数据异常，并将由数据传输通道的构建参数发生波动(传输网络波动)而产生第二异常数据从而第一异常数据中过滤后生成第三异常数据；

S4：将第二异常数据与筛出第一异常数据的数据序列进行组合，并对去除第三异常数据后的数据序列进行拼接，从而获得均匀处理后的连续数据段；

S5：对筛除掉第三异常数据后的其他传感数据进行存储或利用过滤后的数据完成指定的通信应用。

数据传输通道的构建参数波动即是能够完成数据运输的通信网络中的广域网或线路的不稳定，持续出现一个时通时断或瞬断的现象，造成路由协议频繁进行计算，使得进行输送的传感数据由于传输的不稳定造成数据序列中掺杂部分非必要(异常)的数据序列片段，从而数据序列传输后变成了失信状态的数据序列而无法通过常规的数据筛除，但此部分传感数据中原始的可信数据序列依然未被破坏，该数据的可用性和可信度仍为改变，实质是仍可以作为可信数据进行上传和存储的。

优选地，当采样数据为温度等存在一个持续不间断变化的物理数据时，实际某一人体或设备的温度在发生变化时，是存在一个渐变的过程，其变化度的快慢与实际目标及目标环境有关。例如，一台机电设备的冷却水温度是按照在均匀时间间隔上进行一定的速率进行升高的，不会存在一个跳变的温度数据。如果出现一个跳变的温度数据，则属于采集过程中的异常情况，并不是采集对象的温度发生跳变。优选地，此种情况的发生属于采样数据本身不合理，且使用现有的噪声滤波方法是无法识别过滤的。优选地，数据清洗单元21基于传感数据的时域特性在过滤掉上传的数据序列中的异常数据后的数据序列中的数据均为符合时域特性且可靠、准确的数据。

优选地，根据步骤S2-3过滤掉存在问题或威胁的第三异常数据后，剩余的数据序列在时间轴上可能存在缺失，导致一定时间段进行组合的数据序列在时间上不连续和/或不均匀。为了能够便于选取一定长度时间段的所有数据序列进行使用，数据清洗单元21对筛除掉第三异常数据后的数据序列中的多个数据段在时间上进行均匀处理，以便于提供可靠、时间上连续且均匀地连续数据段，以供后续使用。优选地，连续数据段是指去除第三异常数据后的数据序列中，所有相邻数据对应的时间间隔均小于预设的时间间隔阈值的数据片段。优选地，传感数据的采样周期和频率根据实际的应用场景和传感数据的不同选择性进行适应性调节。本实施例能够基于不同的采集环境并结合传感数据本身的物理和数据特征进行时域采样的数据序列获取，并能够传感数据时域特性去除第三异常数据，并在时间上，均匀处理去除第三异常数据后的数据序列中的连续数据段，实现对时域采样的数据序列的清洗，最终获得可靠、准确的采样数据，进而提高基于采样数据进行相关分析的准确性。

优选地，步骤S2基于传感数据的时域特性进行数据序列中第一异常数据的过滤操作可以包括以下步骤：

S201：根据周期性采集的传感数据在时间轴上的变化，设置一个分割数据变化度临界点的数据阈值；

S202：根据数据阈值，筛除具有异常数据的第一数据序列，并将单个周期采集的数据序列分割为多个数据片段；

S203：根据数据阈值筛除至少一个数据片段中的第一异常数据。

优选地，时间阈值反映传感数据的时域特性，即传感数据随时间变化的特性。例如，以连续采集的人体温度为例，通常人体体温在5分钟内的变化不会超过1度，在将采集周期设置为5分钟的情况下，则用于表征数据变化量的数据阈值则可以设置为1度。当某一周期内采集的多个时间点的温度的变化差值大于1度时，则判定该体温数据为第一异常数据。

优选地，在步骤S202中，基于步骤2021设置的数据阈值，将单个周期采集的数据序列分割为多个数据片段，每个数据片段的单位时间长度为采集周期1/10。优选地，将数据序列划分为多个数据片段时，至少一个数据片段之间不具有交叠。

优选地，在步骤S203中，利用时间阈值对筛除多个数据片段中的第一异常数据。优选地，对数据片段中的第一数据片段来说，可以采用以下方式去除其中的第一异常数据：去除第一数据片段中超出数据范围的数据；和/或去除第一数据片段中波动率大于波动阈值的数据。

优选地，去除第一数据片段中超出数据范围的数的步骤，可以为：计算第一数据片段中的数据的均值和方差，分别记为μ和σ；根据所述均值和方差，设置数据范围的上边界和下边界，分别记为μ ρσ和μ-ρσ；去除第一数据片段中大于上边界μ ρσ的数据以及小于下边界μ-ρσ的数据，即仅保留第一数据片段中位于上边界μ ρσ和下边界μ-ρσ之间的数据。其中，ρ是一个系数，可根据应用场景和传感数据而定。

优选地，去除第一数据片段中波动率大于波动阈值的数据的步骤，可以为：计算第一数据片段中的数据的微分；去除第一数据片段中微分的绝对值大于微分阈值的数据。在该可选实施方式中，数据的波动率通过微分来体现，波动率阈值通过微分阈值来体现。可以将数据序列中所有数据的微分的绝对值与微分阈值比较，一般超过微分阈值的微分会成片出现。这些成片出现的微分的绝对值大于微分阈值的数据属于变化异常的数据，例如可能是采集刚开始阶段，或者是采集结束阶段，或者是某种原因导致采集对象丢失，这些数据一般属于第一异常数据。

实施例3

本实施例是对实施例2的进一步改进，重复的内容不再赘述。

数据清洗单元21可以获取的是某一采集传感器采集到的特定传感数据与时域采样相关的数据序列。即，数据清洗单元21可以获取数据采集单元1对该传感数据进行时域采样而形成的数据序列。优选地，数据采集单元1会在对该传感数据进行时域采样的过程中对采集到的数据按照时间顺序有序的添加时间戳，使得数据清洗单元21获取的采样数据均是带有与该数据被采集时间点相关联的时间戳。优选地，数据采集单元1采集的数据还是可以是在指定时间点开始并以设定的时间间隔进行传感数据的等距采样而获得的不带时间戳的采样数据。数据清洗单元21在进行数据清洗前能够根据数据采集的初始时间和间隔时间的长度来对有序上传的采样数据添加时间戳，从而获得该传感数据的时域采样的数据序列。

优选地，通常采集到的传感数据(传感数据)本身作为一种监测状态的展示，使得其本身是具有物理和数学特性的，即该传感数据是具有一定的时域特性的，该类数据在一个连续的时间段内的变化时平缓或往复规律出现的，不会存在变化量过大的突变。例如，在一个区域内系统同时接收多台机电设备的运行参数，在非外力操控下，其运行状态、输出功率参数通常属于一个较为稳定的状态，不会存在较为明显输出功率参数的变化。

优选地，在同一个数据网络中存在有多个能够进行采集终端设备数据并将采集的设备信息数据周期性的上传至数据网络中的处理后台中，每个终端设备都具有其特定的IP地址，使得每个IP连接的数据通道每一次上传的数据信息都是具有相近的数据内容和数据格式，其中，连续多个周期上传的数据信息的变化也是缓慢变化的，且数据序列的至少一个数据段始终是能够与其他采集周期内的数据序列相互对应的，使得能够数据清洗单元21能够判定每一次上传的数据均属于终端设备正常运行状态下的工况标识。当采集到的某一次数据序列的特定数据段无法与历史数据序列相互匹配时，且该数据序列的其余数据段与前一次上传的数据序列对应数据段存在明显差异时则会判定该数据序列的属于采集过程中异常情况或者认定该数据序列存在入侵威胁而将其筛除。

根据实施例2中步骤S3中所涉及的内容，在实际数据整理和人工评判过程中发现在部分异常的数据序列所对应的时间点，该传感设备相关联的终端设备是处于一个正常运行工况的也不存在被外部侵入的问题，而出现数据异常的原因在于支撑数据采集操作和传输活动的支撑参量发生波动而造成输出状态的起伏。针对无法与历史数据或数据规则进行数据段匹配的数据序列进行二次过滤。优选地，针对第一异常数据的研判，数据清洗单元21能够将初次筛选过滤出的第一异常数据进行二次筛选。具体地，数据清洗单元21在识别检测到某一个IP地址上传有一个异常数据时，则对与该IP地址属于同一网络区域的想接近的IP地址上传的数据进行识别检测。数据清洗单元21通过判断其与IP是否也存在相同或相似的数据异常情况，若整个片区同一网络环境下的终端设备均出现相同的数据序列异常则可能为该区域内网络异常等造成的上传数据异常，故判定该时间点同一区域环境上传的数据不存在侵入威胁，该部分数据(第二异常数据)可以作为正常数据上传至数据库进行存储。反之，若该第一异常数据所在的终端设备的同区域其他终端设备采集到的数据均为正常数据，且不存在无法匹配或识别的情况，则判定该IP地址的终端设备故障或存在外部侵入而造成数据异常，该终端设备上传的数据(第三异常数据)对数据库是存在威胁或造成存储数据外泄风险。数据清洗单元21能够将该第三异常数据对应的IP地址或终端设备信息发送至预警模块3，方便用户及时对异常情况进行溯源处理。

优选地，数据清洗单元21的二次筛选过程还可以结合该IP所属系统网络中，其他数据采集单元是否存在相同变化异常数据信息变动，存在即为数据采集活动和传输活动支撑参量等原因造成数据的异常，反之则认定为异常侵入。如果仅存在个别或几个出现问题，则可以认定该单元为第三异常数据，另外，还能够直接判断出该数据的真实性，确认是否为物理性侵入而导致单个摄像头的内部被记录和篡改，使得该摄像头仅能够单独地为中央控制和检测室所获取的摄像数据是被篡改的单独一定时间周期的循环播放的异常数据或外部侵入数据。本申请通过对常规筛除的第一异常数据进行二次筛选，方便此类数据序列存储的信息仍然能够上传至对应的数据库进行存储或相应的数据序列所包含的数据请求能够通过认证而进行指定数据库的正常数据访问。

优选地，针对现有互联网通讯的不确定性和不稳定性，在进行传感数据进行传输过程中需要考虑断网续传的需求，从而能够保持一定监测时间段内数据的完整性。尤其是，在出现断网通讯故障造成的数据积压的补偿传输时，将出现大量并发数据同时传送的问题。服务器无法判断哪些数据可靠，哪些数据需要丢弃，故此需要将经过清洗的数据进行发送。数据清洗单元2能够从堆积的工业传感数据中找出数据序列中时间标记等异常带来的明显第二异常数据，以“重建、恢复或丢弃”的方式进行预处理(数据清洗)后，再进行分批上传，不仅可避免堆积数据大于单个上传周期所包含的数据量而对传输通道造成一定程度传输阻碍以及后续数据上传的滞后。

实施例4

数据清洗是系统改进数据质量主要方式，系统提供通用数据清洗方式，主要包括重复数据去除、缺失值填充、日期标准化、字典标准化、数据脱敏等清洗方法。用户可以根据分析检测数据结果选择相应方式进行清洗或用户自定义数据清洗方式。数据清洗一般通过用户构建作业方式进行，清洗作业必须包括数据源输入、数据输出源及清洗转换规则。针对数据清洗常见质量信息问题设计并实现通用数据清洗方法。数据清洗首先需要分析异常数据产生的原因，结合业务场景和分析规则制定清洗策略，然后执行清洗方法来改进数据质量。用户可以直接基于原数据进行清洗，也可以参考数据分析报告，针对数据质量问题采用对应的清洗策略来清除异常数据，提高数据质量，获得满足业务需求的数据。优选地，一种清洗方法可以集成为一种清洗组件。数据清洗以作业方式展示，清洗作业包括输入组件、清洗组件及输出组件。输入组件主要用于配置清洗对象信息，清洗组件封装了各种清洗方法，针对不同的数据质量问题选择不同的清洗组件进行清洗。输出组件提供建立数据模型，用于清洗后数据的写入。实施数据清洗时用户可以根据分析检测数据结果选择相应方式清洗或者用户自定义清洗方式。

如图2所示，数据清洗规则可以是根据数据分析的规则结果进行定义的，并根据分析的规则结果来选择合适的清洗方法进行数据清洗。通过在数据对象上执行预定义的分析查看规则并报告或者告警标识异常数据，捕获到异常数据后对其进行数据清洗任务。一个清洗任务即清洗作业包括数据输入、清洗转换规则、数据输出。确定清洗对象后构建数据清洗作业，首先配置数据输入组件信息，然后选择清洗组件，定义清洗转换规则，最后创建数据输出模型，选择输出组件配置输出信息。其中数据输出模型表主要用于数据清洗后数据的写入，主要防止覆盖了源数据同时后面可以对输出对象进行检测是否达到清洗目标。构建完清洗作业后执行预定义的清洗转换规则，修正检测到的异常数据，改进数据质量。针对数据输出对象周期性检测看是否达到清洗目标，达到清洗目标后干净数据回流目标数据源。

清洗方法采用组件化开发，系统可扩展清洗组件，通过开发新的组件集成到系统即可，系统中主要集成了通用性的清洗方法包括数据去重、空值填充、数据脱敏、字典标准化和日期标准化。

(1)数据去重，信息常存在多个记录代表同一对象，接入系统后就存在重复数据，有时记录中即使有个别字段存在差异，但表示的仍然是同一个对象。数据去重主要检测相似重复数据，并去除重复数据。系统采用基于分布式数据集检测重复数据并去重，目标是利用尽量少的资源来达到比较精确的去重效果。数据去重组件主要使用Spark的RDD算子实现，基于Spark提供的combineByKey去重算子实现分区排序去重。读取数据集，遍历所有的元素，combineByKey()按照元素的键值进行分组，遍历过程中同分区相同记录使用mergeValue()进行累加，形成map中每个Key(Col_id)下多组相同记录集，经shuffle归并排序后，对不同分区值进行归并累加。最后在遍历合并结果集时选取重复数据中一条数据实现去重并写入库中。

(2)空值填充，针对由于收集、处理失误或机器损坏导致空值、空串或空记录等情景，系统通过空值填充来处理数据缺失问题。空值填充就是采用一定的方法，对数据记录中缺失值确定一个合理估计值然后进行填充。对于数据记录中空值或空字符串情形，系统提供多种处理策略。用户可以选择同属性常量值进行填充，可以选择均值、众数、中位数作为缺失值的代替值，可以选择同属性随机列值进行填充。

(3)数据脱敏，针对数据共享或交换场景，系统设计并实现对敏感数据信息隐藏和保护机制。系统主要针对数值类型和字符类型的数据进行处理，数据脱敏算法利用替换方法实现对敏感数据的擦除，从而将敏感数据隐藏起来。系统主要实现对数值类型和字符类型的数据进行脱敏处理。

在进行数据脱敏操作时，用户需要在截面配置需要脱敏的数据对象、脱敏策略及脱敏的范围和替换值。系统处理数值类型时会先将其转化对应的字符类型然后统一按字符类型处理。首先初始化脱敏组件信息，处理相关参数及异常参数，然后针对不同的脱敏策略进行替换处理。正则表达式脱敏主要是通过正则对脱敏范围数据进行表达式匹配，将匹配的部分替换为指定字符串，若匹配失败则结果不变。系统默认的脱敏处理是Hash方法，对其需要脱敏数据用其对应的hash值进行替换。用户也可以指定常量值进行替换。

(4)标准化，分为日期标准化和字典标准化。日期标准化顾名思义按其指定的标准日期格式进行格式化。系统实现日期标准化的逻辑较简单，按照用户指定的格式标准化数据日期值。字典标准化主要通过定义标准化字典对数据表中指定数据列做映射替换实现其标准化，进行字典标准化清洗需先建立标准化字典表。字典清洗的主要目的是根据字典值标准化不符合规范的数值，通过字典值进行标准化清洗。在进行字典清洗前需要建立字典表，字典表是系统相关业务行业术语、系统中同一类公用的、取值恒定或者公认的数据信息进行统一归纳、定义和描述。建立字典表后对数据对象进行关联，配置数据元与字典值间映射，最后根据字典映射规则进行标准化清洗。

建立字典表信息时，字典表需包含字典编码、原始字典值信息、字典值信息及对应映射。需要注意的是，如果在选择关联字典表时，需建立字典列表对应的字典，所以在进行清洗任务时需先检查属性列是否关联字典表规则。关联规则时选择待配置字典规则数据集，选择数据集下的表对象，选择需要配置字典规则的表字段。

对创建的字典清洗作业，字典清洗时，需先检查字典表是否存在，若选择关联字典表不存在，需先建立列对象对应的字典表，配置字典规则。如果有字典表，首先根据数据表对象的属性列查询字典表信息，将清洗数据集与字典表数据规则比较，然后按字典值进行标准化清洗。如果源数据集数据满足字典规则按字典值进行替换，如果不满足则保持原始数据。清洗完成后数据写入目标数据源。

实施例5

为实现上述实施例的数据清洗方法，本申请还提供一种数据清洗设备。

如图3所示的是本申请提供的数据清洗设备的一种结构示意图，本申请实施例提供的数据清洗设备4包括处理器41、存储器42、输入输出设备43和总线44。优选地，处理器41、存储器42、输入输出设备43分别与总线44相连，该存储器42中存储有用于进行数据清洗处理的程序数据。处理器41用于执行程序数据以实现数据清洗方法。优选地，处理器41还可以称为CPUCentral Processing Unit，中央处理单元)。处理器41可能是一种集成电路芯片，具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器41也可以是任何常规的处理器等。

本申请还提供一种计算机存储介质，计算机存储介质用于存储程序数据和数据采集单元1上传并经过数据清洗单元处理后的各类传感器检测数据的存档。优选地，程序数据在被处理器执行时，用以实现数据清洗。

优选地，在线监测数据标准化是针对各类型不一致数据的情况，将数据按比例进行缩放转化，使之落入一个小的特定区间。监测数据的标准化，主要包括数据同趋化处理和无量纲化处理，既保证运算的边界，又凸显出监测数据的本质含义。由于不同在线监测数据具有不同量纲和量纲单位，这样的数据标准情况会对在线监测数据分析结果产生一定的影响。为确保降低量纲对监测数据间的影响，需要进行标准化处理在线监测数据。通过将各数据标准处于同一量纲水平上，能够综合分析各数据，形成对比评价结果。基于不同的业务场景，数据标准化处理针对不同的信息字段，采用不同的处理算法以及处理方式。针对监测设备自动采集获得的指标监测数据，基于数据分析建模的需要，可以使用标准化算法来自动化预处理。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于数据清洗规则的可信认证方法及系统与流程

相关文献

最热文献