一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于人工智能的大数据清洗方法及系统与流程

2023-02-04 15:48:58 来源:中国专利 TAG:

技术特征:
1.一种基于人工智能的大数据清洗系统,其特征在于,包括初始数据导入模块、数据分类模块、过滤信息导入模块、过滤选定模块、第一过滤模块、第二过滤模块、第三过滤模块、第四过滤模块、二次过滤模块、结果输出模块与综合评价模块;所述初始数据导入模块用于用户导入待清洗的数据,待清洗数据被发送到数据分类模块;所述数据分类模块用于对待清洗的数据进行处理获取到数据分类信息,所述数据分类信息包括单一分类数据与混合分类数据,所述单一分类数据与混合分类数据的数据类型包括视频数据、音频数据、文字数据与图片数据;所述过滤信息导入模块用于用户导入过滤特征信息,过滤特征信息包括视频特征、音频特征、文字特征与图片特征;所述过滤选定模块用于根据数据分类信息选定数据过滤模式,过滤模式包括单一过滤模式与综合过滤模式;所述第一过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对待清洗的数据进行视频特征的初步清洗,获取到第一过滤数据;所述第二过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对待清洗的数据进行图片特征的初步清洗,获取到第二过滤数据;所述第三过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对待清洗的数据进行音频特征的初步清洗,获取到第三过滤数据;所述第四过滤模块用于接收数据过滤模式后,对过滤特征信息进行处理,之后对待清洗的数据进行文字特征的初步清洗,获取到第四过滤数据;所述初步清洗后的信息被发送到二次过滤模块,所述二次过滤模块对过滤特征信息进行处理获取到相似特征信息,并对初步清洗后的信息进行相似特征的过滤,过滤后的清洗结束数据被导入到结果输出模块与综合评价模块;所述结果导出模块用于将清洗结束数据发送到预设接收终端,所述综合评价模块用于对清洗结束数据进行处理生成清洗评价信息,之后将清洗评价信息发送到管理员接收终端。2.根据权利要求1所述的一种基于人工智能的大数据清洗系统,其特征在于:所述单一过滤模式与综合过滤模式的具体处理过程如下:当选定为单一过滤模式时,提取出导入到的过滤特征信息,之后选定对应的一个过滤模块进行特征过滤;当选定为综合过滤模式时,提取出导入到的过滤特征信息,之后选定对应多个过滤模块进行特征过滤。3.根据权利要求1所述的一种基于人工智能的大数据清洗系统,其特征在于:所述第一过滤模块的具体过滤过程如下:提取出导入的过滤特征信息,从过滤特征信息中提取出视频特征信息,将视频特征信息导入到原始的待清洗的数据中,从待清洗的数据中检索出与该视频特征信息相似度超过预设值的视频特征信息,将其标记为第一清洗特征信息,记录下第一清洗特征信息的数量与位置信息后,将第一清洗特征信息从原始的待清洗的数据中清除获取到第一过滤数据;所述第二过滤模块的具体过滤过程如下:提取出过滤特征信息,从过滤特征信息中提取出图片特征信息,将图片特征信息导入到原始的待清洗的数据中,从待清洗的数据中检
索出与该特征信息相似度超过预设值的图片特征信息,将其标记为第二清洗特征信息,记录下第二清洗特征信息的数量与位置信息后,将第二清洗特征信息从原始的待清洗的数据中清除获取到第二过滤数据;所述第三过滤模块的具体过滤过程如下:提取出的过滤特征信息,从过滤特征信息中提取出音频特征信息,将音频特征信息导入到原始的待清洗的数据中,从待清洗的数据中检索出与该特征信息相似度超过预设值的音频特征信息,将其标记为第三清洗特征信息,记录下第三清洗特征信息的数量与位置信息后,将第三清洗特征信息从原始的待清洗的数据中清除获取到第三过滤数据;所述第四过滤模块的具体过滤过程如下:提取出的过滤特征信息,从过滤特征信息中提取出文字特征信息,将文字特征信息导入到原始的待清洗的数据中,从待清洗的数据中检索出与该特征信息相似度超过预设值的文字特征信息,将其标记为第四清洗特征信息,记录下第四清洗特征信息的数量与位置信息后,将第四清洗特征信息从原始的待清洗的数据中清除获取到第四过滤数据;所述第一过滤数据、第二过滤数据、第三过滤数据与第四过滤数据中均包括原始数据、过滤后的数据、清洗特征位置信息与清洗特征数量信息。4.根据权利要求1所述的一种基于人工智能的大数据清洗系统,其特征在于:所述二次过滤模块对第一过滤数据进行的具体二次过滤过程如下:提取出第一过滤数据,对第一过滤数据进行二次清洗,此时提取出视频特征信息,将视频特征信息导入到人工智能平台,人工智能平台对视频特征信息进行分析,获取到其视频特征的具体内容,之后检索出与该视频内容相似度大于预设值的视频内容信息,将其标记为二次视频检索特征,将二次视频检索特征导入到第一过滤数据中,对第一过滤数据中的过滤后的数据进行二次视频检索特征的检索,检索出所有与二次视频检索特征相似度大于预设值时的特征将其位置标记出后,储存为视频清洗完成信息。5.根据权利要求1所述的一种基于人工智能的大数据清洗系统,其特征在于:所述二次过滤模块对第二过滤数据与第三过滤数据的处理过程与二次过滤模块对第一过滤数据进行的过程相同;所述二次过滤模块对第四过滤数据进行处理的具体过程如下:提取出第四过滤数据,对第四过滤数据进行二次清洗,此时提取出文字特征信息,将文字特征信息导入到人工智能平台,人工智能平台对文字特征信息进行分析,获取到文字内容的含义信息,之后从互联网站检索出与该文字内容相同的信息,再去除掉与文字特征信息多音字内容部分后,将其标记为二次文字检索特征,将二次文字检索特征导入到第四过滤数据中,对第四过滤数据中的过滤后的数据进行二次文字检索特征的检索,检索出所有与二次文字检索特征相似度大于预设值时的特征将其位置标记出后,储存为文字清洗完成信息。6.根据权利要求1所述的一种基于人工智能的大数据清洗系统,其特征在于:所述清洗评价信息包括清洗快速信息、清洗正常信息与清洗异常信息,所述综合评价模块对清洗结束数据进行处理生成清洗评价信息的具体过程如下:在进行数据清洗过程中,记录下数据的导入时间点、第一次数据过滤的时长、第二次数据过滤的时长与清洗完成的时间点,对导入时间点、第一次数据过滤的时长、第二次数据过滤的时长与清洗完成的时间点进行处理获取到评价参数信息,当评价参数信息大于预设值时,即生成清洗异常信息,当评价参数信
息预设值范围内时,即生成清洗正常信息,当评价参数信息小于预设值时,即生成清洗快速信息。7.根据权利要求6所述的一种基于人工智能的大数据清洗方法及系统,其特征在于:所述清洗参数的具体处理过程如下:提取出数据的导入时间点、第一次数据过滤的时长、第二次数据过滤的时长与清洗完成的时间点,将数据的导入时间点标记为a1,将第一次数据过滤的时长标记为a2,将第二次数据过滤的时长标记为a3,将清洗完成的时间点标记为a4,计算出清洗完成的时间点a4与导入时间点a1之间的差值获取到整体时长aa1,再计算出第一次数据过滤的时长a2与第二次数据过滤的时长a3的和获取到数据清洗时长aa2,之后计算出整体时长aa1与数据清洗时长aa2之间的差值,即获取到清洗参数。8.一种基于人工智能的大数据清洗方法,所述方法基于权利要求1到7任一所述的清洗系统,其特征在于,所述清洗方法包括以下步骤:步骤一:用户经过身份验证后登录进大数据清洗系统,之后通过初始数据导入待清洗的数据;步骤二:导入待清洗数据后数据分类模块对待清洗的数据进行处理获取到数据分类信息;步骤三:之后用户再通过过滤信息导入模块导入过滤特征信息;步骤四:分类完成后并导入到过滤特征信息通过过滤选定模块选定数据清洗模式;步骤五:选定好过滤模式之后第一过滤模块、第二过滤模块、第三过滤模块与第四过滤模块对原始的未过滤数据进行初次的过滤清洗;步骤六:初次过滤清洗完成后将清洗数据导入到二次过滤模块,二次过滤模块对接收到的数据再次进行过滤获取到清洗结束数据;步骤七:清洗结束数据生成后结果输出模块将清洗结束数据发送到对应的接收终端,综合评价模块对清洗结束数据进行处理生成清洗评价信息,并将清洗评价信息发送到管理员接收终端。

技术总结
本发明公开了一种基于人工智能的大数据清洗方法及系统,包括初始数据导入模块、数据分类模块、过滤信息导入模块、过滤选定模块、第一过滤模块、第二过滤模块、第三过滤模块、第四过滤模块、二次过滤模块、结果输出模块与综合评价模块;所述初始数据导入模块用于用户导入待清洗的数据,待清洗数据被发送到数据分类模块;所述数据分类模块用于对待清洗的数据进行处理获取到数据分类信息,所述数据分类信息包括单一分类数据与混合分类数据,所述单一分类数据与混合分类数据的数据类型包括视频数据、音频数据、文字数据与图片数据;本发明能够更加快速准确的进行数据过滤清洗。加快速准确的进行数据过滤清洗。加快速准确的进行数据过滤清洗。


技术研发人员:王磊 杨柳
受保护的技术使用者:慕学星凡(成都)科技有限公司
技术研发日:2022.10.29
技术公布日:2023/2/3
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献