一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于人工智能的大数据清洗方法及系统与流程

2023-02-04 15:48:58 来源:中国专利 TAG:


1.本发明涉及数据过滤清洗领域,具体涉及一种基于人工智能的大数据清洗方法及系统。


背景技术:

2.数据清洗是指发现并纠正数据文件中可识别的错误的一道程序,其能够及时的清洗掉数据中的特定内容,以保证数据安全可靠;
3.数据清洗过滤过程中,即需要使用到清洗方法及系统来快速的准确度清除掉数据中的特定内容。
4.现有的大数据清洗方法及系统,在实际使用过程中,清洗过滤效率较慢,给大数据清洗方法及系统的使用带来了一定的影响,因此,提出一种基于人工智能的大数据清洗方法及系统。


技术实现要素:

5.本发明所要解决的技术问题在于:如何解决现有的大数据清洗方法及系统,在实际使用过程中,清洗过滤效率较慢,给大数据清洗方法及系统的使用带来了一定的影响的问题,提供了一种基于人工智能的大数据清洗方法及系统。
6.本发明是通过以下技术方案解决上述技术问题的,本发明包括初始数据导入模块、数据分类模块、过滤信息导入模块、过滤选定模块、第一过滤模块、第二过滤模块、第三过滤模块、第四过滤模块、二次过滤模块、结果输出模块与综合评价模块;
7.所述初始数据导入模块用于用户导入待清洗的数据,待清洗数据被发送到数据分类模块;
8.所述数据分类模块用于对待清洗的数据进行处理获取到数据分类信息,所述数据分类信息包括单一分类数据与混合分类数据,所述单一分类数据与混合分类数据的数据类型包括视频数据、音频数据、文字数据与图片数据;
9.所述过滤信息导入模块用于用户导入过滤特征信息,过滤特征信息包括视频特征、音频特征、文字特征与图片特征;
10.所述过滤选定模块用于根据数据分类信息选定数据过滤模式,过滤模式包括单一过滤模式与综合过滤模式;
11.所述第一过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对待清洗的数据进行视频特征的初步清洗,获取到第一过滤数据;
12.所述第二过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对待清洗的数据进行图片特征的初步清洗,获取到第二过滤数据;
13.所述第三过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对待清洗的数据进行音频特征的初步清洗,获取到第三过滤数据;
14.所述第四过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对
待清洗的数据进行文字特征的初步清洗,获取到第四过滤数据;
15.所述初步清洗后的信息被发送到二次过滤模块,所述二次过滤模块对过滤特征信息进行处理获取到相似特征信息,并对初步清洗后的信息进行相似特征的过滤,过滤后的清洗结束数据被导入到结果输出模块与综合评价模块;
16.所述结果导出模块用于将清洗结束数据发送到预设接收终端,所述综合评价模块用于对清洗结束数据进行处理生成清洗评价信息,之后将清洗评价信息发送到管理员接收终端。
17.进一步在于,所述单一过滤模式与综合过滤模式的具体处理过程如下:当选定为单一过滤模式时,提取出导入到的过滤特征信息,之后选定对应的一个过滤模块进行特征过滤;
18.当选定为综合过滤模式时,提取出导入到的过滤特征信息,之后选定对应多个过滤模块进行特征过滤。
19.进一步在于,所述第一过滤模块的具体过滤过程如下:提取出导入的过滤特征信息,从过滤特征信息中提取出视频特征信息,将视频特征信息导入到原始的待清洗的数据中,从待清洗的数据中检索出与该视频特征信息相似度超过预设值的视频特征信息,将其标记为第一清洗特征信息,记录下第一清洗特征信息的数量与位置信息后,将第一清洗特征信息从原始的待清洗的数据中清除获取到第一过滤数据;
20.所述第二过滤模块的具体过滤过程如下:提取出过滤特征信息,从过滤特征信息中提取出图片特征信息,将图片特征信息导入到原始的待清洗的数据中,从待清洗的数据中检索出与该特征信息相似度超过预设值的图片特征信息,将其标记为第二清洗特征信息,记录下第二清洗特征信息的数量与位置信息后,将第二清洗特征信息从原始的待清洗的数据中清除获取到第二过滤数据;
21.所述第三过滤模块的具体过滤过程如下:提取出的过滤特征信息,从过滤特征信息中提取出音频特征信息,将音频特征信息导入到原始的待清洗的数据中,从待清洗的数据中检索出与该特征信息相似度超过预设值的音频特征信息,将其标记为第三清洗特征信息,记录下第三清洗特征信息的数量与位置信息后,将第三清洗特征信息从原始的待清洗的数据中清除获取到第三过滤数据;
22.所述第四过滤模块的具体过滤过程如下:提取出的过滤特征信息,从过滤特征信息中提取出文字特征信息,将文字特征信息导入到原始的待清洗的数据中,从待清洗的数据中检索出与该特征信息相似度超过预设值的文字特征信息,将其标记为第四清洗特征信息,记录下第四清洗特征信息的数量与位置信息后,将第四清洗特征信息从原始的待清洗的数据中清除获取到第四过滤数据;
23.所述第一过滤数据、第二过滤数据、第三过滤数据与第四过滤数据中均包括原始数据、过滤后的数据、清洗特征位置信息与清洗特征数量信息。
24.进一步在于,所述二次过滤模块对第一过滤数据进行的具体二次过滤过程如下:提取出第一过滤数据,对第一过滤数据进行二次清洗,此时提取出视频特征信息,将视频特征信息导入到人工智能平台,人工智能平台对视频特征信息进行分析,获取到其视频特征的具体内容,之后检索出与该视频内容相似度大于预设值的视频内容信息,将其标记为二次视频检索特征,将二次视频检索特征导入到第一过滤数据中,对第一过滤数据中的过滤
后的数据进行二次视频检索特征的检索,检索出所有与二次视频检索特征相似度大于预设值时的特征将其位置标记出后,储存为视频清洗完成信息。
25.进一步在于,所述二次过滤模块对第二过滤数据与第三过滤数据的处理过程与二次过滤模块对第一过滤数据进行的过程相同;
26.所述二次过滤模块对第四过滤数据进行处理的具体过程如下:提取出第四过滤数据,对第四过滤数据进行二次清洗,此时提取出文字特征信息,将文字特征信息导入到人工智能平台,人工智能平台对文字特征信息进行分析,获取到文字内容的含义信息,之后从互联网站检索出与该文字内容相同的信息,再去除掉与文字特征信息多音字内容部分后,将其标记为二次文字检索特征,将二次文字检索特征导入到第四过滤数据中,对第四过滤数据中的过滤后的数据进行二次文字检索特征的检索,检索出所有与二次文字检索特征相似度大于预设值时的特征将其位置标记出后,储存为文字清洗完成信息。
27.进一步在于,所述清洗评价信息包括清洗快速信息、清洗正常信息与清洗异常信息,所述综合评价模块对清洗结束数据进行处理生成清洗评价信息的具体过程如下:在进行数据清洗过程中,记录下数据的导入时间点、第一次数据过滤的时长、第二次数据过滤的时长与清洗完成的时间点,对导入时间点、第一次数据过滤的时长、第二次数据过滤的时长与清洗完成的时间点进行处理获取到评价参数信息,当评价参数信息大于预设值时,即生成清洗异常信息,当评价参数信息预设值范围内时,即生成清洗正常信息,当评价参数信息小于预设值时,即生成清洗快速信息。
28.进一步在于,所述清洗参数的具体处理过程如下:提取出数据的导入时间点、第一次数据过滤的时长、第二次数据过滤的时长与清洗完成的时间点,将数据的导入时间点标记为a1,将第一次数据过滤的时长标记为a2,将第二次数据过滤的时长标记为a3,将清洗完成的时间点标记为a4,计算出清洗完成的时间点a4与导入时间点a1之间的差值获取到整体时长aa1,再计算出第一次数据过滤的时长a2与第二次数据过滤的时长a3的和获取到数据清洗时长aa2,之后计算出整体时长aa1与数据清洗时长aa2之间的差值,即获取到清洗参数。
29.一种基于人工智能的大数据清洗方法,所述清洗方法包括以下步骤:
30.步骤一:用户经过身份验证后登录进大数据清洗系统,之后通过初始数据导入待清洗的数据;
31.步骤二:导入待清洗数据后数据分类模块对待清洗的数据进行处理获取到数据分类信息;
32.步骤三:之后用户再通过过滤信息导入模块导入过滤特征信息;
33.步骤四:分类完成后并导入到过滤特征信息通过过滤选定模块选定数据清洗模式;
34.步骤五:选定好过滤模式之后第一过滤模块、第二过滤模块、第三过滤模块与第四过滤模块对原始的未过滤数据进行初次的过滤清洗;
35.步骤六:初次过滤清洗完成后将清洗数据导入到二次过滤模块,二次过滤模块对接收到的数据再次进行过滤获取到清洗结束数据;
36.步骤七:清洗结束数据生成后结果输出模块将清洗结束数据发送到对应的接收终端,综合评价模块对清洗结束数据进行处理生成清洗评价信息,并将清洗评价信息发送到
管理员接收终端。
37.本发明相比现有技术具有以下优点:该基于人工智能的大数据清洗方法及系统,通过在用户导入需要清洗的数据后,对数据进行了细化的分类处理,对于不同类型的数据进行不同类型的数据清洗,对于单一类型的数据进行了快速的单一清洗,能够有效的加快清洗效率,对于多种类型的数据,将其拆分后再进行单一模式的清洗,加快了混合类数据的清洗速度,从而实现了快速的对数据进行细致的清洗,并且设置了二次过滤模块,对数据进行了更进一步的清洗,从而保证清洗的彻底性,有效的减少了数据清洗不彻底导致的数据无法使用到状况发生,让该系统在保证了清洗效率的同时清洗数据的效果更好,在每次清洗完成后,对清洗结果进行了评估获取到评估结果,对评估结果进行分析,即能够了解到该系统的评估效率,在发现清洗效率异常时,及时的警示管理人员对系统进行参数调整维护,以保证数据清洗效率,让该系统更加值得推广使用。
附图说明
38.图1是本发明的系统框图。
具体实施方式
39.下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
40.如图1所示,本实施例提供一种技术方案:一种基于人工智能的大数据清洗系统,包括初始数据导入模块、数据分类模块、过滤信息导入模块、过滤选定模块、第一过滤模块、第二过滤模块、第三过滤模块、第四过滤模块、二次过滤模块、结果输出模块与综合评价模块;
41.所述初始数据导入模块用于用户导入待清洗的数据,待清洗数据被发送到数据分类模块;
42.所述数据分类模块用于对待清洗的数据进行处理获取到数据分类信息,所述数据分类信息包括单一分类数据与混合分类数据,所述单一分类数据与混合分类数据的数据类型包括视频数据、音频数据、文字数据与图片数据;
43.所述过滤信息导入模块用于用户导入过滤特征信息,过滤特征信息包括视频特征、音频特征、文字特征与图片特征;
44.所述过滤选定模块用于根据数据分类信息选定数据过滤模式,过滤模式包括单一过滤模式与综合过滤模式;
45.所述第一过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对待清洗的数据进行视频特征的初步清洗,获取到第一过滤数据;
46.所述第二过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对待清洗的数据进行图片特征的初步清洗,获取到第二过滤数据;
47.所述第三过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对待清洗的数据进行音频特征的初步清洗,获取到第三过滤数据;
48.所述第四过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对
待清洗的数据进行文字特征的初步清洗,获取到第四过滤数据;
49.所述初步清洗后的信息被发送到二次过滤模块,所述二次过滤模块对过滤特征信息进行处理获取到相似特征信息,并对初步清洗后的信息进行相似特征的过滤,过滤后的清洗结束数据被导入到结果输出模块与综合评价模块;
50.所述结果导出模块用于将清洗结束数据发送到预设接收终端,所述综合评价模块用于对清洗结束数据进行处理生成清洗评价信息,之后将清洗评价信息发送到管理员接收终端;
51.本发明通过在用户导入需要清洗的数据后,对数据进行了细化的分类处理,对于不同类型的数据进行不同类型的数据清洗,对于单一类型的数据进行了快速的单一清洗,能够有效的加快清洗效率,对于多种类型的数据,将其拆分后再进行单一模式的清洗,加快了混合类数据的清洗速度,从而实现了快速的对数据进行细致的清洗,并且设置了二次过滤模块,对数据进行了更进一步的清洗,从而保证清洗的彻底性,有效的减少了数据清洗不彻底导致的数据无法使用到状况发生,让该系统在保证了清洗效率的同时清洗数据的效果更好,在每次清洗完成后,对清洗结果进行了评估获取到评估结果,对评估结果进行分析,即能够了解到该系统的评估效率,在发现清洗效率异常时,及时的警示管理人员对系统进行参数调整维护,以保证数据清洗效率,让该系统更加值得推广使用。
52.所述单一过滤模式与综合过滤模式的具体处理过程如下:当选定为单一过滤模式时,提取出导入到的过滤特征信息,之后选定对应的一个过滤模块进行特征过滤;
53.当选定为综合过滤模式时,提取出导入到的过滤特征信息,之后选定对应多个过滤模块进行特征过滤;
54.综合过滤模式选定好之将分类完成中的对待清洗的数据中各个种类信息发送到对应的过滤模块中,进行单独清洗过滤,从而省去了轮流过程的麻烦,加快了整体数据清洗过滤的速度,提升了清洗过滤的效率,让该系统能够更加快速的完成数据的过滤清洗。
55.所述第一过滤模块的具体过滤过程如下:提取出导入的过滤特征信息,从过滤特征信息中提取出视频特征信息,将视频特征信息导入到原始的待清洗的数据中,从待清洗的数据中检索出与该视频特征信息相似度超过预设值的视频特征信息,将其标记为第一清洗特征信息,记录下第一清洗特征信息的数量与位置信息后,将第一清洗特征信息从原始的待清洗的数据中清除获取到第一过滤数据;
56.所述第二过滤模块的具体过滤过程如下:提取出过滤特征信息,从过滤特征信息中提取出图片特征信息,将图片特征信息导入到原始的待清洗的数据中,从待清洗的数据中检索出与该特征信息相似度超过预设值的图片特征信息,将其标记为第二清洗特征信息,记录下第二清洗特征信息的数量与位置信息后,将第二清洗特征信息从原始的待清洗的数据中清除获取到第二过滤数据;
57.所述第三过滤模块的具体过滤过程如下:提取出的过滤特征信息,从过滤特征信息中提取出音频特征信息,将音频特征信息导入到原始的待清洗的数据中,从待清洗的数据中检索出与该特征信息相似度超过预设值的音频特征信息,将其标记为第三清洗特征信息,记录下第三清洗特征信息的数量与位置信息后,将第三清洗特征信息从原始的待清洗的数据中清除获取到第三过滤数据;
58.所述第四过滤模块的具体过滤过程如下:提取出的过滤特征信息,从过滤特征信
息中提取出文字特征信息,将文字特征信息导入到原始的待清洗的数据中,从待清洗的数据中检索出与该特征信息相似度超过预设值的文字特征信息,将其标记为第四清洗特征信息,记录下第四清洗特征信息的数量与位置信息后,将第四清洗特征信息从原始的待清洗的数据中清除获取到第四过滤数据;
59.所述第一过滤数据、第二过滤数据、第三过滤数据与第四过滤数据中均包括原始数据、过滤后的数据、清洗特征位置信息与清洗特征数量信息;
60.第一过滤模块用来对视频数据进行初步的清洗过滤,去除掉数据中的与视频特征相似的部分,第一过滤模块用来对图片数据进行初步的清洗过滤,去除掉数据中的与图片特征相似的部分,第三过滤模块用来对音频数据进行初步的清洗过滤,去除掉数据中的与音频特征相似的部分,第四过滤模块用来对文字数据进行初步的清洗过滤,去除掉数据中的与文字特征相似的部分,记录下清洗特征信息的数量与位置信息后是为了在清洗完成后让用户能够直观的了解到清洗的数据信息,来判定该数据是否能够正常使用。
61.所述二次过滤模块对第一过滤数据进行的具体二次过滤过程如下:提取出第一过滤数据,对第一过滤数据进行二次清洗,此时提取出视频特征信息,将视频特征信息导入到人工智能平台,人工智能平台对视频特征信息进行分析,获取到其视频特征的具体内容,之后检索出与该视频内容相似度大于预设值的视频内容信息,将其标记为二次视频检索特征,将二次视频检索特征导入到第一过滤数据中,对第一过滤数据中的过滤后的数据进行二次视频检索特征的检索,检索出所有与二次视频检索特征相似度大于预设值时的特征将其位置标记出后,储存为视频清洗完成信息;
62.所述二次过滤模块对第二过滤数据与第三过滤数据的处理过程与二次过滤模块对第一过滤数据进行的过程相同;
63.二次过滤的设置,能够有效的提升数据清洗过滤效果,更加彻底的清洗掉对应特征的数据,并且通过传统的过滤方法进行数据清洗过滤时,对于不同类型的数据进行逐步的单个种类的清洗过滤,其耗费时间长,本案中已经进行了数据分类后将多种不同的数据同步进行的数据过滤清洗大大加快了清洗速度,因此即使在此进行二次过滤,其效率也比传动过滤清洗方法速度快,因此在实现了提升效率的同时,大大提升了过滤效果;
64.所述二次过滤模块对第四过滤数据进行处理的具体过程如下:提取出第四过滤数据,对第四过滤数据进行二次清洗,此时提取出文字特征信息,将文字特征信息导入到人工智能平台,人工智能平台对文字特征信息进行分析,获取到文字内容的含义信息,之后从互联网站检索出与该文字内容相同的信息,再去除掉与文字特征信息多音字内容部分后,将其标记为二次文字检索特征,将二次文字检索特征导入到第四过滤数据中,对第四过滤数据中的过滤后的数据进行二次文字检索特征的检索,检索出所有与二次文字检索特征相似度大于预设值时的特征将其位置标记出后,储存为文字清洗完成信息;
65.因为文字清洗过程中存在多音字的问题,通过上述过程,能够有效的避免文字多音字含义不用导致的数据被误清洗的状况发生,有效的提升该系统的数据过滤清洗准确性。
66.所述清洗评价信息包括清洗快速信息、清洗正常信息与清洗异常信息,所述综合评价模块对清洗结束数据进行处理生成清洗评价信息的具体过程如下:在进行数据清洗过程中,记录下数据的导入时间点、第一次数据过滤的时长、第二次数据过滤的时长与清洗完
成的时间点,对导入时间点、第一次数据过滤的时长、第二次数据过滤的时长与清洗完成的时间点进行处理获取到评价参数信息,当评价参数信息大于预设值时,即生成清洗异常信息,当评价参数信息预设值范围内时,即生成清洗正常信息,当评价参数信息小于预设值时,即生成清洗快速信息;
67.通过上述过程,能够及时的发现数据清洗的效率变化,在发现数据清洗效率异常时,及时的发出警示信息警示管理人员进行维护,保证数据清洗过滤效率。
68.所述清洗参数的具体处理过程如下:提取出数据的导入时间点、第一次数据过滤的时长、第二次数据过滤的时长与清洗完成的时间点,将数据的导入时间点标记为a1,将第一次数据过滤的时长标记为a2,将第二次数据过滤的时长标记为a3,将清洗完成的时间点标记为a4,计算出清洗完成的时间点a4与导入时间点a1之间的差值获取到整体时长aa1,再计算出第一次数据过滤的时长a2与第二次数据过滤的时长a3的和获取到数据清洗时长aa2,之后计算出整体时长aa1与数据清洗时长aa2之间的差值,即获取到清洗参数;
69.通过上述过程获取到更加准确的清洗参数,从而保证清洗评价结果的准确性。
70.一种基于人工智能的大数据清洗方法,所述清洗方法包括以下步骤:
71.步骤一:用户经过身份验证后登录进大数据清洗系统,之后通过初始数据导入待清洗的数据;
72.步骤二:导入待清洗数据后数据分类模块对待清洗的数据进行处理获取到数据分类信息;
73.步骤三:之后用户再通过过滤信息导入模块导入过滤特征信息;
74.步骤四:分类完成后并导入到过滤特征信息通过过滤选定模块选定数据清洗模式;
75.步骤五:选定好过滤模式之后第一过滤模块、第二过滤模块、第三过滤模块与第四过滤模块对原始的未过滤数据进行初次的过滤清洗;
76.步骤六:初次过滤清洗完成后将清洗数据导入到二次过滤模块,二次过滤模块对接收到的数据再次进行过滤获取到清洗结束数据;
77.步骤七:清洗结束数据生成后结果输出模块将清洗结束数据发送到对应的接收终端,综合评价模块对清洗结束数据进行处理生成清洗评价信息,并将清洗评价信息发送到管理员接收终端。
78.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
79.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
80.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献