一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据分析系统和数据分析方法与流程

2021-11-09 22:12:00 来源:中国专利 TAG:

技术特征:
1.一种数据分析系统,包括:一处理器,用以取得至少一数据表,该数据表包括多个栏位,该些栏位中各自存储一栏位数据;一存储装置,用以存储该数据表;一栏位形态分析装置,用以依据该些栏位数据分析出一栏位形态;一栏位分类装置,用以判断该些栏位各自的一栏位类别;以及一栏位关联装置,用以计算跨数据表中该些栏位之间各自的一相似度,依据该些相似度判断该些栏位之间各自的一关联性;其中,该处理器依据该些栏位类别、该栏位形态及此些关联性产生一栏位数据描述档,该处理器判断该栏位数据描述档是否异常。2.如权利要求1所述的数据分析系统,其中当处理器产生该栏位数据描述档,判断该栏位数据描述档是否异常时,通过一显示器显示异常与否。3.如权利要求1所述的数据分析系统,其中该栏位数据描述档被判断为异常的情况包括:该栏位数据描述档不完整,或该栏位数据描述档存在错误。4.如权利要求1所述的数据分析系统,其中当处理器判断该栏位数据描述档异常时,自动修正该栏位数据描述档的内容。5.如权利要求1所述的数据分析系统,其中自动修正包括新增/更新栏位数据描述、新增或更新栏位数据群组数、新增或更新栏位允许空值、新增或更新栏位数据上下界、是否允许忽略异常数据、及/或新增或更新相同数据表中有关系的栏位。6.如权利要求1所述的数据分析系统,其中该数据形态分析装置判断该栏位形态是否为一数值栏位形态,若该数据形态分析装置判断该栏位形态为该数值栏位形态,则该数据形态分析装置判断该些栏位数据是否为数值,若该数据形态分析装置判断该些栏位数据为数值,则该数据形态分析装置确认该栏位数据描述档中的该栏位形态为该数值栏位形态,若该数据形态分析装置判断该些栏位数据不为数值,则该数据形态分析装置修正该栏位形态为一非数值栏位形态。7.如权利要求1所述的数据分析系统,其中该数据形态分析装置判断该栏位形态是否为一数值栏位形态,若该数据形态装置判断该栏位形态不为该数值栏位形态,则该数据形态分析装置判断该些栏位数据是否为数值,若该数据形态分析装置判断该些栏位数据为数值,则该数据形态分析装置将该栏位数据描述档中的该栏位形态修正为该数值栏位形态。8.如权利要求5所述的数据分析系统,其中若该数据形态分析装置判断该些栏位数据不为数值,则该数据形态分析装置判断该些栏位数据是否为多个时间数据,若该数据形态分析装置判断该些栏位数据为该些时间数据,则将该栏位数据描述档中的该栏位形态修正为该时间栏位形态。9.如权利要求8所述的数据分析系统,若该数据形态分析装置判断该些栏位数据不为该些时间数据,则判断该些栏位数据是否为一文字数据或一布林值数据,若该数据形态分析装置判断该些栏位数据为该文字数据或该布林值数据,则对应该些栏位数据,将该栏位数据描述档中的该栏位形态修正为一文字形态或一布林值形态。10.如权利要求1所述的数据分析系统,其中该栏位分类装置将该些栏位数据各自进行
断词,将断词后的多个字词各自转换为一字词特征,将该些字词特征输入一分类模型,该分类模型依据该些字词特征输出该栏位类别。11.如权利要求1所述的数据分析系统,其中该处理器取得多个数据表,该栏位关联装置从不同的该些数据表中任选两个数据表视为一第一数据表与一第二数据表,从该第一数据表中选择一第一栏位,从该第二数据表中选择一第二栏位,该第一栏位包括一第一断词数据,该第二栏位包括一第二断词数据,产生第一断词数据与该第二断词数据之间的一相似度,当该栏位关联装置判断该相似度大于一相似度门限值时,建立该第一栏位与该第二栏位之间的该关联性。12.如权利要求11所述的数据分析系统,其中该相似度是以计算该第一断词数据与该第二断词数据之间的一最小编辑距离,并依据该最小编辑距离计算产生该相似度。13.如权利要求11所述的数据分析系统,其中该栏位分类装置是依据该第一断词数据与该第二断词数据计算欧几里得距离、曼哈顿距离、汉明距离、明可夫斯基距离、余弦相似度、jaccard相似度、编辑距离或皮尔森相关系数以产生该相似度。14.如权利要求9所述的数据分析系统,其中该栏位分类装置通过决策树演算法、贝叶斯分类演算法、k-近邻演算法、支持向量机演算法,以判断该些栏位各自的该栏位类别。15.一种数据分析方法,包括:取得一数据表,该数据表包括多个栏位,该些栏位中各自存储一栏位数据;依据该些栏位数据分析出一栏位形态;判断该些栏位各自的一栏位类别;计算跨数据表中该些栏位之间各自的一相似度,依据该些相似度判断该些栏位之间各自的一关联性;以及依据该些栏位类别、该栏位形态及该些关联性产生一栏位数据描述档,进而判断该栏位数据描述档是否异常。

技术总结
一种数据分析系统和数据分析方法,该数据分析方法包括:取得一数据表,数据表包括多个栏位,此些栏位中各自存储一栏位数据;依据此些栏位数据分类出一栏位形态;判断此些栏位各自的一栏位类别;计算此些栏位之间各自的一相似度,依据此些相似度判断此些栏位之间各自的一关联性;以及依据此些栏位类别、栏位形态及关联性产生一栏位数据描述档,再通过判断栏位数据描述档是否异常,以评估数据品质。以评估数据品质。以评估数据品质。


技术研发人员:邵志杰 刘正邦 龚如心
受保护的技术使用者:台达电子工业股份有限公司
技术研发日:2020.05.08
技术公布日:2021/11/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献