一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于消息中间件的数据预处理方法、系统及电子设备与流程

2022-10-26 05:18:56 来源:中国专利 TAG:


1.本发明涉及一种轨道交通智能运维领域,更具体地说,它涉及一种基于消息中间件的数据预处理方法、系统及电子设备。


背景技术:

2.在信息化快速发展的时代,数据在其中扮演者不可或缺的重要角色,是所有信息化建设工作最重要的基础,轨道交通(铁路和城市轨道交通)行业信息化建设同样如此。为实现轨道交通行业各类应用系统之间数据有效共享、快速交换,数据共享概念应运而生,为深层次挖掘,数据分析提供重要基础。
3.然而各类异构信息系统之间的数据交换,由于数据不同源、标准不统一、难以整合,如何明确各类业务系统之间数据共享的接口规范,确保数据的规范性和准确性成为其中难点之一。现有数据共享技术多为应用系统之间分别定义接口协议通过网络直接交换数据,数据量庞大,数据质量不可控。


技术实现要素:

4.本发明为了解决现有技术所存在的不足之处,提供了一种基于消息中间件的数据预处理方法、系统及电子设备,依据预处理模型自动为轨道交通数据匹配对应的预处理步骤,规范预处理过程,提升预处理可靠性,保证数据有效性,并可通过预处理的结果对预处理模型中所含有的信息进行优化,在下一次输入同类型业务数据时,可根据预处理模型实现对轨道交通数据的自动预处理,实现了预处理模型的复用,从而解决了数据量庞大且数据质量不可控的问题,提高了数据的价值。
5.本发明的上述技术目的是通过以下技术方案得以实现的:
6.第一方面,本发明提供了一种基于消息中间件的数据预处理方法,包括:
7.获取轨道交通数据;
8.建立预设有各类业务数据的预处理模型;
9.在消息中间件的缓存队列进行消费时,自动按照所述预处理模型对所述轨道交通数据进行预处理,其中将预处理通过的轨道交通数据存入对应的业务数据表,将预处理不通过的轨道交通数据的错误信息进行处理,根据处理的结果选择是否补入至所述预处理模型。
10.进一步的,获取轨道交通数据,具体为:编写的数据拉取定时任务定时调用第三方应用系统提供的restful接口,获取轨道交通数据,并将所述轨道交通数据发送至消息中间件的缓存队列。
11.进一步的,建立预设有各类业务数据的预处理模型,具体为:根据业务数据将需要校验的关键信息编码,并对照编码指定各类业务数据的预处理模型,其中预处理模型包括业务名称信息、业务编码信息以及业务顺序信息。
12.进一步的,所述业务名称信息、业务编码信息以及业务顺序信息依次包括部门修
正、线路修正、线路区站修正、行别修正、锚段修正、股道修正、隧道修正、支柱修正、关键设备修正、检测设备类型修正、检测设备修正、用户缺陷分类修正、用户缺陷等级修正、检修台账类型修正以及故障原因修正;其中,业务编码信息按照所述业务顺序信息依次进行编码。
13.进一步的,在消息中间件的缓存队列进行消费时,具体为:编写订阅消息代码对轨道交通数据进行实时订阅,基于所述订阅消息代码对所述缓存队列中的轨道交通数据进行消费。
14.进一步的,将预处理通过的轨道交通数据存入对应的业务数据表,具体为:
15.将通过的轨道交通数据自动规整为标准数据实体,并存入mongodb数据库对应的业务数据表,其中消息中间件将自动对通过的轨道交通数据所对应的各类业务数据按照预处理模型的数据信息进行清洗、标准化以及入库处理规整为标准数据实体。
16.进一步的,将预处理不通过的轨道交通数据的错误信息进行处理,根据处理的结果选择是否补入至所述预处理模型,具体为:
17.将预处理不通过的轨道交通数据的每一条业务数据中所有错误信息进行更正和/或删除,获得符合业务数据的轨道交通数据;
18.遍历所述预处理模型中的各类业务数据与符合业务数据的轨道交通数据进行对比,若存在则不需要将补入至所述预处理模型中,反之则将符合业务数据的轨道交通数据补入至所述预处理模型中。
19.进一步的,所述消息中间件为kafak。
20.第二方面,本发明提供了一种基于消息中间件的数据预处理系统,包括:
21.数据获取模块,用于获取轨道交通数据;
22.模型建立模块,用于建立预设有各类业务数据的预处理模型;
23.数据预处理模块,用于在消息中间件的缓存队列进行消费时,自动按照所述预处理模型对所述轨道交通数据进行预处理,其中将预处理通过的轨道交通数据存入对应的业务数据表,将预处理不通过的轨道交通数据的错误信息进行处理,根据处理的结果选择是否补入至所述预处理模型。
24.第三方面,本发明提供了一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序时实现第一方面所述方法的步骤。
25.与现有技术相比,本发明具有以下有益效果:
26.1、依据预处理模型自动为轨道交通数据匹配对应的预处理步骤,规范预处理过程,提升预处理可靠性,保证数据有效性,并可通过预处理的结果对预处理模型中所含有的信息进行优化,在下一次输入同类型业务数据时,可根据预处理模型实现对轨道交通数据的自动预处理,实现了预处理模型的复用,从而解决了数据量庞大且数据质量不可控的问题,提高了数据的价值。
27.2、本发明可应用于各类应用系统之间通用数据的交换,保证数据的完整性和正确性;
28.3、本发明规范第三方应用系统的接口,统一标准化的数据接口,奠定数据共享基础。
附图说明
29.此处所说明的附图用来提供对本发明实施例的进一步理解,构成本技术的一部分,并不构成对本发明实施例的限定。在附图中:
30.图1为本发明实施例一提供的一种基于消息中间件的数据预处理方法的流程示意图;
31.图2为本发明实施例提供的一种基于消息中间件的数据预处理方法的数据流向示意图;
32.图3为本发明实施例二提供的一种基于消息中间件的数据预处理系统的结构框图;
33.图4为本发明实施例三提供的一种电子设备的结构框图。
具体实施方式
34.为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
35.实施例一
36.在信息化快速发展的时代,数据在其中扮演者不可或缺的重要角色,是所有信息化建设工作最重要的基础,轨道交通(铁路和城市轨道交通)行业信息化建设同样如此。为实现轨道交通行业各类应用系统之间数据有效共享、快速交换,数据共享概念应运而生,为深层次挖掘,数据分析提供重要基础。
37.然而各类异构信息系统之间的数据交换,由于数据不同源、标准不统一、难以整合,如何明确各类业务系统之间数据共享的接口规范,确保数据的规范性和准确性成为其中难点之一。现有数据共享技术多为应用系统之间分别定义接口协议通过网络直接交换数据,数据量庞大,数据质量不可控的问题,因此本技术实施例一提供了一种基于消息中间件的数据预处理方法,解决了数据量庞大且数据质量不可控的问题,提高了数据的价值。消息中间件是基于队列与消息传递技术,在网络环境中为应用系统提供同步或异步、可靠的消息传输的支撑性软件系统。
38.如图1所示,方法包括:
39.步骤s1,获取轨道交通数据。
40.轨道交通数据包括铁路和轨道的基础数据,其来源铁路基础设施的台账记录,如线路、区站、锚段、支柱等;铁路和轨道的检测数据,其来源6c装置设备检测出来的结果数据,如1c检测数据、2c检测数据、4c检测数据等;铁路和轨道的检修数据,其来源于日常检修维护作业的过程及结果数据,如工作票、检修计划、检修作业、检修台账等。
41.步骤s2,建立预设有各类业务数据的预处理模型。
42.具体的,对于各类业务数据的预处理模型,通过预处理模型来实现对预处理过程步骤的控制,并将预处理模型中的业务类型采用数据库表的方式维护起来以便于扩展。对于预处理步骤是一种将数据处理步骤规范和编码化的方法,示例性的,铁路的检测作业预处理步骤需要按顺序修正线路、行别,故可将线路修正、行别修正分别编码为2,4,这样在输出为2,4的这一组数字编码时,依据数字的前后顺序得出该作业的操作顺序,也可依据操作
顺序得出该作业的名称。对于各类业务作业的步骤是有行业标准规范,例如不仅是对于轨道交通方面的检修、检测等,还可以是电力系统的检修、检测、送电、断电等,又或者是其他领域的作业,均需要执行相应的操作处理步骤,比如在进行倒闸操作的合闸送电与分闸停电检修。
43.步骤s3,在消息中间件的缓存队列进行消费时,自动按照所述预处理模型对所述轨道交通数据进行预处理,其中将预处理通过的轨道交通数据存入对应的业务数据表,将预处理不通过的轨道交通数据的错误信息进行处理,根据处理的结果选择是否补入至所述预处理模型。
44.在本实施例中,采用基于消息中间件的方式来实现对获取的轨道交通数据进行实时消费,以此实现预处理模型按照业务类型的步骤判断实时采集的轨道交通数据是否与预处理模型内部的数据表对应,若对应则预处理通过,即将预处理通过的轨道交通数据存入对应的业务数据表,而对于不通过的轨道交通数据,则说明数据可能出现错误信息,其可能包括操作顺序出现错误,编码出现错误,或是业务数据对应的操作步骤出现错误,则需要对错误信息进行处理,包括更正和/或删除处理,从而使得出现错误的数据变为正确的数据,并且符合行业标准规范,而对于正确的数据所对应的业务类型可遍历预处理模型的数据的预处理步骤是否含有相应的业务类型,若有则不需要将处理的结果补入至预处理模型,若无即将处理的结果补入到预处理模型中,在下一次输入同类型业务数据问题,根据处理的结果实现自动预处理,从而提升数据预处理的可靠性,保证数据有效性。
45.参见图2所示,本实施例提供一种基于消息中间件的数据预处理系统,目的在于实现第三方应用系统和共享数据中心的数据交换,其中包含数据获取,消息订阅,数据预处理和处理。其中数据获取模块用于获取第三方应用系统的基础数据、检测数据、检修数据并发送至消息中间件kafka。消息订阅用于kafka消息的订阅。数据预处理用于消费预处理所有业务数据,处理用于处理未通过的原始数据,系统可以提供可视化界面便于查询统计预处理结果。
46.本技术实施例提供的数据预处理方法,依据预处理模型自动为轨道交通数据匹配对应的预处理步骤,规范预处理过程,提升预处理可靠性,保证数据有效性,并可通过预处理的结果对预处理模型中所含有的信息进行优化,在下一次输入同类型业务数据时,可根据预处理模型实现对轨道交通数据的自动预处理,实现了预处理模型的复用,从而解决了数据量庞大且数据质量不可控的问题,提高了数据的价值。
47.在一种实施方案中,获取轨道交通数据,具体为:编写的数据拉取定时任务定时调用第三方应用系统提供的restful接口,获取轨道交通数据,并将所述轨道交通数据发送至消息中间件的缓存队列。
48.具体的,参见图2所示,可基于xxl-job编写数据拉取定时任务,定时调用第三方应用系统提供的restful接口,以此获取轨道交通数据,故此,本实施例中规范第三方应用系统接口的风格,统一标准化数据接口,奠定数据共享的基础。由于本技术是基于消息中间件的数据预处理方法,故此需要将获取的轨道交通数据发送至消息中间件的缓存队列,属于公知常识,不做多余的叙述。
49.在一种实施方案中,建立预设有各类业务数据的预处理模型,具体为:根据业务数据将需要校验的关键信息编码,并对照编码指定各类业务数据的预处理模型,其中预处理
模型包括业务名称信息、业务编码信息以及业务顺序信息。
50.具体的,由于获取的轨道交通数据包括基础数据、检修数据以及检测数据等,每个业务数据均有需要校验的关键信息,对关键信息编码,例如,部门修正编码为1,线路修正编码为2,考虑到关键信息的数量问题,故此编码一般采用数字系列,而对于业务的顺序信息,则根据数字的大小进行排序,数字按从小到大依次排序,在进行检验时也是依据编码所对应的业务数据的业务名称信息进行预处理。需要说明的是,预处理的过程即为数据互相匹配的过程,若数据中的任何一个步骤匹配验证失败则判定为预处理不通过,反之则通过。
51.可选的,所述业务名称信息、业务编码信息以及业务顺序信息依次包括部门修正、线路修正、线路区站修正、行别修正、锚段修正、股道修正、隧道修正、支柱修正、关键设备修正、检测设备类型修正、检测设备修正、用户缺陷分类修正、用户缺陷等级修正、检修台账类型修正以及故障原因修正;其中,业务编码信息按照所述业务顺序信息依次进行编码。
52.具体的,1-部门修正,2-线路修正,3-线路区站修正,4-行别修正,5-锚段修正,6-股道修正,7-隧道修正,8-支柱修正,9-关键设备修正,10-检测设备类型修正,11-检测设备修正,12-用户缺陷分类修正,13-用户缺陷等级修正,14-检修台账类型修正,15-故障原因修正。各种业务数据的预处理步骤按照以上业务类型定制相应的预处理步骤,本实施例中其他数据类型预处理项编码对照表举例如表1所示。例如检测缺陷数据预处理步骤为:部门修正-》线路修正-》线路区站修正-》行别修正-》锚段修正-》隧道修正-》支柱修正-》用户缺陷分类修正-》用户缺陷等级修正,那么定义检测缺陷数据预处理项编码应为1,2,3,4,5,7,8,12,13。
53.表1预处理步骤编码对照表
[0054][0055]
在一种实施方案中,在消息中间件的缓存队列进行消费时,具体为:编写订阅消息代码对轨道交通数据进行实时订阅,基于所述订阅消息代码对所述缓存队列中的轨道交通数据进行消费。
[0056]
具体的,将自动遵循预处理步骤对订阅消息代码的检测作业数据按照线路、行别顺序验证其线路、行别信息是否与系统基础数据中的线路、行别数据匹配,若其中任何一个步骤验证失败则判定为预处理不通过,数据将存入错误信息,等待进一步的处理。反之判定为预处理通过,将自动规整为标准数据实体存入mongodb数据库对应业务数据表。
[0057]
在一种实施方案中,将预处理通过的轨道交通数据存入对应的业务数据表,具体为:
[0058]
将通过的轨道交通数据自动规整为标准数据实体,并存入mongodb数据库对应的
业务数据表,其中消息中间件将自动对通过的轨道交通数据所对应的各类业务数据按照预处理模型的数据信息进行清洗、标准化以及入库处理规整为标准数据实体。
[0059]
具体的,数据预处理完成则将标准数据实体存入分布式集群mongodb数据库对应的业务数据表中,若不通过则将每个步骤消费不成功的结果记录到mongodb数据库的kfk_consumer_error表中;mongodb分布式数据库与常规关系型数据库比主要优点未支撑横向扩容,方便对海量业务数据的存储扩容。
[0060]
在一种实施方案中,将预处理不通过的轨道交通数据的错误信息进行处理,根据处理的结果选择是否补入至所述预处理模型,具体为:
[0061]
将预处理不通过的轨道交通数据的每一条业务数据中所有错误信息进行更正和/或删除,获得符合业务数据的轨道交通数据;
[0062]
遍历所述预处理模型中的各类业务数据与符合业务数据的轨道交通数据进行对比,若存在则不需要将补入至所述预处理模型中,反之则将符合业务数据的轨道交通数据补入至所述预处理模型中。
[0063]
具体的,查询在消息中间件中消费不成功的结果记录(即预处理过程中预处理不通过产生的错误信息)。基于可视化界面对未通过数据进行处理,一次性处理所有错误信息,例如某一条缺陷数据有部门、行别、支柱三个错误,那么人工预处理界面将提供一次将3个步骤全部处理完毕,并选择是否形成步骤,如果选择形成步骤,本步骤将进入步骤待处理表,等待审核,审核通过后将应用于预处理模型的下次相关数据预处理中。
[0064]
目前主流的消息中间件有activemq、rabbitmq、rocketmq、kafka、zeromq等,而在本技术的实施例中所采用的消息中间件为kafak。
[0065]
实施例二
[0066]
如图3所示,本技术实施例二提供了一种基于消息中间件的数据预处理系统,包括:
[0067]
数据获取模块110,用于获取轨道交通数据;
[0068]
模型建立模块120,用于建立预设有各类业务数据的预处理模型;
[0069]
数据预处理模块130,用于在消息中间件的缓存队列进行消费时,自动按照所述预处理模型对所述轨道交通数据进行预处理,其中将预处理通过的轨道交通数据存入对应的业务数据表,将预处理不通过的轨道交通数据的错误信息进行处理,根据处理的结果选择是否补入至所述预处理模型。
[0070]
本技术实施例提供的数据预处理系统,依据预处理模型自动为轨道交通数据匹配对应的预处理步骤,规范预处理过程,提升预处理可靠性,保证数据有效性,并可通过预处理的结果对预处理模型中所含有的信息进行优化,在下一次输入同类型业务数据时,可根据预处理模型实现对轨道交通数据的自动预处理,实现了预处理模型的复用,从而解决了数据量庞大且数据质量不可控的问题,提高了数据的价值。
[0071]
本实施例二更进一步的一个实施例中,数据获取模块110,具体用于:编写的数据拉取定时任务定时调用第三方应用系统提供的restful接口,获取轨道交通数据,并将所述轨道交通数据发送至消息中间件的缓存队列。
[0072]
本实施例二更进一步的一个实施例中,模型建立模块120,具体用于:根据业务数据将需要校验的关键信息编码,并对照编码指定各类业务数据的预处理模型,其中预处理
模型包括业务名称信息、业务编码信息以及业务顺序信息。
[0073]
本实施例二更进一步的一个实施例中,所述业务名称信息、业务编码信息以及业务顺序信息依次包括部门修正、线路修正、线路区站修正、行别修正、锚段修正、股道修正、隧道修正、支柱修正、关键设备修正、检测设备类型修正、检测设备修正、用户缺陷分类修正、用户缺陷等级修正、检修台账类型修正以及故障原因修正;其中,业务编码信息按照所述业务顺序信息依次进行编码。
[0074]
本实施例二更进一步的一个实施例中,数据预处理模块130,具体还用于:编写订阅消息代码对轨道交通数据进行实时订阅,基于所述订阅消息代码对所述缓存队列中的轨道交通数据进行消费。
[0075]
本实施例二更进一步的一个实施例中,数据预处理模块130,具体还用于:
[0076]
将通过的轨道交通数据自动规整为标准数据实体,并存入mongodb数据库对应的业务数据表,其中消息中间件将自动对通过的轨道交通数据所对应的各类业务数据按照预处理模型的数据信息进行清洗、标准化以及入库处理规整为标准数据实体。
[0077]
本实施例二更进一步的一个实施例中,数据预处理模块130,具体还用于:
[0078]
将预处理不通过的轨道交通数据的每一条业务数据中所有错误信息进行更正和/或删除,获得符合业务数据的轨道交通数据;
[0079]
遍历所述预处理模型中的各类业务数据与符合业务数据的轨道交通数据进行对比,若存在则不需要将补入至所述预处理模型中,反之则将符合业务数据的轨道交通数据补入至所述预处理模型中。
[0080]
本实施例二更进一步的一个实施例中,所述消息中间件为kafak。
[0081]
需要理解的是,本实施例二各个模块所实现的功能均以在实施例一的各个方法步骤做出详细说明,故此不再做多余叙述。
[0082]
实施例三
[0083]
如图4所示,本实施例提供了一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序时实现实施例一所述方法的步骤。
[0084]
图4是本发明提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(communicationinterface)411、存储器(memory)412和总线(bus)413,其中,处理器410,通信接口411,存储器412通过总线413完成相互间的通信。处理器410可以调用存储器412中的逻辑指令,以执行如下方法:
[0085]
获取轨道交通数据;
[0086]
建立预设有各类业务数据的预处理模型;
[0087]
在消息中间件的缓存队列进行消费时,自动按照所述预处理模型对所述轨道交通数据进行预处理,其中将预处理通过的轨道交通数据存入对应的业务数据表,将预处理不通过的轨道交通数据的错误信息进行处理,根据处理的结果选择是否补入至所述预处理模型。
[0088]
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得
一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0089]
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献