一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于AI技术的数据治理方法和系统与流程

2022-03-23 01:40:25 来源:中国专利 TAG:

一种基于ai技术的数据治理方法和系统
技术领域
1.本发明涉及计算机相关领域,具体而言,涉及一种基于ai技术的数据治理方法和系统、存储介质及电子装置。


背景技术:

2.目前,大数据时代的到来,很多企业的业务数据呈爆炸式增长,数据的采集、处理以及数据应用可以提高企业的竞争优势。而数据治理需要专业的技术和管理人员操作,对实际应用有较高门槛要求。
3.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

4.本发明实施例提供了一种基于ai技术的数据治理方法、系统、存储介质及电子装置,以至少解决现有技术中,业务数据精度较低的技术问题。
5.根据本发明实施例的一个方面,提供了一种基于ai技术的数据治理方法,包括:从生产系统中采集业务数据;通过应用知识库,识别所述业务数据;在所述业务数据中存在已知差异数据的情况下,根据所述已知差异数据,对生产系统数据进行修复。
6.进一步地,所述方法还包括:在所述业务数据中存在未知差异数据的情况下,对所述未知差异数据进行分析和处理,得到分析处理结果;根据所述分析处理结果,对所述生产系统数据进行修复。
7.进一步地,所述通过应用知识库,识别所述业务数据之前,所述方法还包括:预先根据不同的业务数据建立所述应用知识库。
8.进一步地,所述在所述业务数据中存在未知差异数据的情况下,对所述未知差异数据进行分析和处理,得到分析处理结果之后,所述方法还包括:根据所述分析处理结果更新所述应用知识库。
9.进一步地,所述在所述业务数据中存在未知差异数据的情况下,对所述未知差异数据进行分析和处理,得到分析处理结果之后,所述方法还包括:根据所述分析处理结果确定所述业务数据的质量报告。
10.进一步地,所述对生产系统数据进行修复之后,所述方法还包括:从所述生产系统数据中获取数据对象;将所述数据对象转换为map对象;从引擎模板中获取指定的模板文件;查找所述引擎模板语言,解析语句逻辑结构,输出目标文件,其中,所述目标文件在被执行时用于处理业务数据。
11.根据本发明实施例的另一方面,还提供了一种基于ai技术的数据治理系统,包括:采集单元,用于从生产系统中采集业务数据;识别单元,用于通过应用知识库,识别所述业务数据;第一修复单元,用于在所述业务数据中存在已知差异数据的情况下,根据所述已知差异数据,对生产系统数据进行修复。
12.进一步地,所述系统还包括:分析处理单元,用于在所述业务数据中存在未知差异
数据的情况下,对所述未知差异数据进行分析和处理,得到分析处理结果;第二修复单元,用于根据所述分析处理结果,对所述生产系统数据进行修复。
13.进一步地,所述系统还包括:建立单元,用于所述通过应用知识库,识别所述业务数据之前,预先根据不同的业务数据建立所述应用知识库。
14.进一步地,所述系统还包括:更新单元,用于所述在所述业务数据中存在未知差异数据的情况下,对所述未知差异数据进行分析和处理,得到分析处理结果之后,根据所述分析处理结果更新所述应用知识库。
15.进一步地,所述系统还包括:确定单元,用于所述在所述业务数据中存在未知差异数据的情况下,对所述未知差异数据进行分析和处理,得到分析处理结果之后,根据所述分析处理结果确定所述业务数据的质量报告。
16.进一步地,所述系统还包括:第一获取单元,用于所述对生产系统数据进行修复之后,从所述生产系统数据中获取数据对象;转换单元,用于将所述数据对象转换为map对象;第二获取单元,用于从引擎模板中获取指定的模板文件;输出单元,用于查找所述引擎模板语言,解析语句逻辑结构,输出目标文件,其中,所述目标文件在被执行时用于处理业务数据。
17.根据本技术实施例的第三个方面,提供了一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述基于ai技术的数据治理方法。
18.根据本技术实施例的第四个方面,提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述基于ai技术的数据治理方法。
19.与现有技术相比较,本发明的有益效果在于:
20.在本发明实施例中,通过从生产系统中采集业务数据;通过应用知识库,识别业务数据;在业务数据中存在已知差异数据的情况下,根据已知差异数据,对生产系统数据进行修复,即通过应用知识库识别出业务数据中的差异数据,进而根据差异数据修复生产系统数据,通过闭环稽核流程不断提高业务系统的精准度,进而解决了现有技术中,业务数据精度较低的技术问题。本发明创造在基于知识库的数据稽核加上工方面具有一定优势与创造性,主要体现在:通过分析已采集到的业务数据,对发现的异常数据差异进行分析,建立并完善知识库及规则库;通过应用知识库,识别出已知差异,对未知差异集中资源进行分析和处理,并对生产系统数据进行修复,通过闭环稽核流程可不断提高业务系统的精准度。在对数据进行修改后,还建立业务数据的数据血缘,进而方便业务数据的追源。本发明基于ai的数据血缘自动标注技术,支持异构数据源的自动化配置,在pb级以上超大规模数据中发现关键性数据,评估和记录数据血缘,进行数据质量稽核,具有构建全链路自动化的价值评估能力。
附图说明
21.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
22.图1是根据本发明实施例的一种基于ai技术的数据治理方法的移动终端的硬件结
构框图;
23.图2是根据本发明实施例的一种基于ai技术的数据治理方法的流程图;
24.图3是根据本发明实施例的一种基于知识库的基于ai技术的数据治理方法的流程图;
25.图4是根据本发明实施例的一种基于自动化脚本编译和代码编写的ai技术进行数据治理的流程图;
26.图5是根据本发明实施例的一种基于ai技术的数据治理系统的结构示意图。
具体实施方式
27.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
28.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一序列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.本技术实施例所提供的基于ai技术的数据治理方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种基于ai技术的数据治理方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输装置106以及输入输出装置108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
30.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的基于ai技术的数据治理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
31.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而
可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
32.在本实施例中还提供了一种基于ai技术的数据治理方法,图2是根据本发明实施例的基于ai技术的数据治理方法的流程图,如图2所示,该基于ai技术的数据治理方法流程包括如下步骤:
33.步骤s202,从生产系统中采集业务数据。
34.步骤s204,通过应用知识库,识别业务数据。
35.步骤s206,在业务数据中存在已知差异数据的情况下,根据已知差异数据,对生产系统数据进行修复。
36.在本实施例中,上述数据治理方案可以包括但不限于应用对大数据处理,如购物平台中的用户的购物数据、视频平台中的用户浏览数据等等。
37.其中,上述应用知识库可以包括但不限于指家系统设计所应用的规则集合,包含规则所联系的事实及数据,它们的全体构成知识库。具有咨询性质的知识库。
38.需要说明的是,在本实施例中,可以根据预先训练的模型对业务数据进行修改,修改的方式包括但不限于对数据进行降噪,其中数据降噪可以包括但不限于去除数据中的空值数据,根据预先训练的模型中的映射关系,对数据进行降噪处理。
39.还需要说明的是,对数据进行修改之前还可以先对数据进行排序,再去除数据中的重复数据。
40.还需要说明的是,在对数据进行修改后,还可以建立业务数据的数据血缘,进而方便业务数据的追源。
41.在本实施例中,可以基于ai的数据血缘自动标注技术,支持异构数据源的自动化配置,在pb级以上超大规模数据中发现关键性数据,评估和记录数据血缘,进行数据质量稽核,构建全链路自动化的价值评估能力。支持批计算、流计算等多种计算模型,有向导下数据分析执行时效比无向导提高6倍以上;深度学习模型实现数百万级参数的学习能力。
42.通过本技术提供的实施例,通过从生产系统中采集业务数据;通过应用知识库,识别业务数据;在业务数据中存在已知差异数据的情况下,根据已知差异数据,对生产系统数据进行修复,即通过应用知识库识别出业务数据中的差异数据,进而根据差异数据修复生产系统数据,也就是说,通过闭环稽核流程不断提高业务系统的精准度,进而解决了现有技术中,业务数据精度较低的技术问题。
43.可选的,上述方法还可以包括:在业务数据中存在未知差异数据的情况下,对未知差异数据进行分析和处理,得到分析处理结果;根据分析处理结果,对生产系统数据进行修复。
44.可选的,通过应用知识库,识别业务数据之前,上述方法还可以包括:预先根据不同的业务数据建立应用知识库。
45.可选的,在业务数据中存在未知差异数据的情况下,对未知差异数据进行分析和处理,得到分析处理结果之后,上述方法还可以包括:根据分析处理结果更新应用知识库。
46.可选的,在业务数据中存在未知差异数据的情况下,对未知差异数据进行分析和处理,得到分析处理结果之后,上述方法还可以包括:根据分析处理结果确定业务数据的质量报告。
47.可选的,对生产系统数据进行修复之后,上述方法还可以包括:从生产系统数据中获取数据对象;将数据对象转换为map对象;从引擎模板中获取指定的模板文件;查找引擎模板语言,解析语句逻辑结构,输出目标文件,其中,目标文件在被执行时用于处理业务数据。
48.在本实施例中,可以自动生成数据治理脚本。
49.作为一种可选的实施例,本技术还提供了一种基于知识库的数据治理方法。如图3所示,基于知识库的数据治理方法的流程图。
50.在本实施例中,通过分析已采集到的业务数据,对发现的异常数据差异进行分析。建立并完善知识库及规则库;通过应用知识库,识别出已知差异,对未知差异集中资源进行分析和处理,并对生产系统数据进行修复,通过闭环稽核流程不断提高业务系统的精准度。
51.作为一种可选的实施例,本技术还提供了一种基于自动化脚本编译和代码编写的ai技术进行数据治理的流程方法。如图4示出了基于自动化脚本编译和代码编写的ai技术进行数据治理的流程图。
52.在本实施例中,可以通过预先整理的应用知识库,识别出业务数据中存在的差异数据,并对差异数据进行修改,进而得到用于业务需要求的数据,从而为基于数据得到处理结果奠定基础。
53.其中,可以基于ai自动化技术识别出业务数据中存在的差异数据,即自动化脚本编译和代码编写的ai技术。
54.对外提供治理脚本,便于各种环境使用治理模型;利用脚本验证治理结果;扩展性强,可实现多种个性化需求。根据数据治理模型制定相应的规则模板;根据业务属性和模板文件生成xml文件和j2ee代码文件;根据实际需求生成治理脚本。
55.还需要说明的是,通过nlp识别结合gan训练网络学习生成数据治理代码:利用给定的自然语言描述文本转换成计算机能够理解并且可执行的代码。具体的方法可以包括:
56.步骤s41,采用gan网络的生成器根据自然语言描述生成程序片段;其中,生成器是一个encoder-decoder深度学习框架;
57.步骤s42,采用双向lstm网络作为encoder,对自然语言描述序列进行编码;
58.步骤s43,采用单向lstm网络作为decoder,将encoder编码的自然语言语义结构建为程序的抽象语法树;
59.步骤s44,将编程语言引入到代码生成过程中;
60.步骤s45,训练gancoder,将gan网络的生成器和判别器一起训练;
61.步骤s46,利用训练好的模型从自然语言自动生成数据治理脚本。
62.通过本技术提供的实施例,可以实现数据编码的自动化。
63.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
64.在本实施例中还提供了一种基于ai技术的数据治理系统,该系统用于实现上述实
施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
65.图5是根据本发明实施例的基于ai技术的数据治理系统的结构示意图,如图5所示,该基于ai技术的数据治理系统包括:
66.采集单元51,用于从生产系统中采集业务数据。
67.识别单元53,用于通过应用知识库,识别业务数据。
68.第一修复单元55,用于在业务数据中存在已知差异数据的情况下,根据已知差异数据,对生产系统数据进行修复。
69.通过本技术提供的实施例,采集单元51从生产系统中采集业务数据;识别单元53通过应用知识库,识别业务数据;第一修复单元55在业务数据中存在已知差异数据的情况下,根据已知差异数据,对生产系统数据进行修复,即通过应用知识库识别出业务数据中的差异数据,进而根据差异数据修复生产系统数据,也就是说,通过闭环稽核流程不断提高业务系统的精准度,进而解决了现有技术中,业务数据精度较低的技术问题。
70.可选的,上述系统还可以包括:分析处理单元,用于在业务数据中存在未知差异数据的情况下,对未知差异数据进行分析和处理,得到分析处理结果;第二修复单元,用于根据分析处理结果,对生产系统数据进行修复。
71.可选的,上述系统还可以包括:建立单元,用于通过应用知识库,识别业务数据之前,预先根据不同的业务数据建立应用知识库。
72.可选的,上述系统还可以包括:更新单元,用于在业务数据中存在未知差异数据的情况下,对未知差异数据进行分析和处理,得到分析处理结果之后,根据分析处理结果更新应用知识库。
73.可选的,上述系统还可以包括:确定单元,用于在业务数据中存在未知差异数据的情况下,对未知差异数据进行分析和处理,得到分析处理结果之后,根据分析处理结果确定业务数据的质量报告。
74.可选的,上述系统还可以包括:第一获取单元,用于对生产系统数据进行修复之后,从生产系统数据中获取数据对象;转换单元,用于将数据对象转换为map对象;第二获取单元,用于从引擎模板中获取指定的模板文件;输出单元,用于查找引擎模板语言,解析语句逻辑结构,输出目标文件,其中,目标文件在被执行时用于处理业务数据。
75.需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
76.本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
77.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
78.s1,从生产系统中采集业务数据;
79.s2,通过应用知识库,识别业务数据;
80.s3,在业务数据中存在已知差异数据的情况下,根据已知差异数据,对生产系统数
据进行修复。
81.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
82.本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
83.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
84.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
85.s1,从生产系统中采集业务数据;
86.s2,通过应用知识库,识别业务数据;
87.s3,在业务数据中存在已知差异数据的情况下,根据已知差异数据,对生产系统数据进行修复。
88.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
89.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
90.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献