一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于逆矩阵的冗余数据判别方法

2022-06-02 10:12:33 来源:中国专利 TAG:


1.本发明涉及数据挖掘技术领域,特别涉及一种基于逆矩阵的冗余数据判别方法。


背景技术:

2.随着大数据时代的到来,数据和信息的重要性越来越大。数据以视频、音频、图片、文字等方式形式存在,当前大数据时代的开拓性导致了数据存在冗余的现象。在对数据进行数据挖掘的过程中,实际并不需要所有的数据,排除冗余数据留下有价值的数据才是关键,这就需要进行“数据治理”。随着数据量的增大,如何快速地判别出数据堆里是否存在冗余数据也变得越来越难,寻求一种高效快速的冗余数据判别方法成为一种必然。


技术实现要素:

3.本发明所要解决的技术问题是提供一种基于逆矩阵的冗余数据判别方法,高效快速,以解决现有技术中导致的上述多项缺陷。
4.为实现上述目的,本发明提供以下的技术方案:一种基于逆矩阵的冗余数据判别方法,包括如下步骤:
5.1)把需要分析的数据对象数值化;
6.2)对数值化后的数据集转化成矩阵;
7.3)利用增广矩阵变换,对矩阵进行求逆矩阵变换;
8.4),根据是否存在逆矩阵来判断该数据对象是否存在冗余信息;当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理。
9.优选的,所述步骤1)中,在图片、文字、数据库中提取数据资源,记为d,然后把d数值化。
10.优选的,所述步骤2)中,将d转化为数据集x,即,
[0011][0012]
其中,x为m
×
n的多维数据。
[0013]
优选的,所述步骤3)中,所述对矩阵x进行逆矩阵求解;
[0014]
在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵xa,即增广矩阵,
[0015]
[0016]
通过矩阵行列变换,看是否能够转化成矩阵xb,即,
[0017][0018]
优选的,所述步骤4)中,假设特征数据集x中第a行与第b行存在冗余数据x
aj
和x
bj
,j=1,2,

n;由于存在冗余的数据,即数据不存在信息,x
aj
和x
bj
有一个数据无价值,即x
aj
或x
bj
元素可为0。x的增广矩阵xa中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到xb,从而可检测特征数据集中是否存在冗余数据;
[0019]
根据xb存在与否,来判断x是否存在冗余数据:
[0020]
如果xb存在,则矩阵x不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
[0021]
如果xb不存在,则矩阵x存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
[0022]
采用以上技术方案的有益效果是:通过把需要判别是否存在冗余信息的数据转化为矩阵形式,简单易操作;只需确定所转化的矩阵是否存在逆矩阵,就可给出该数据中是否存在冗余信息的结论,简单明了。
附图说明
[0023]
图1为本发明一种基于逆矩阵的冗余数据判别方法的流程图。
具体实施方式
[0024]
下面详细说明本发明的优选实施方式。
[0025]
根据图1所示,一种基于逆矩阵的冗余数据判别方法,首先是将需要分析的数据对象进行数值化,接着转化成矩阵形式,然后对该矩阵求逆,看是否能够求出逆矩阵,最后根据是否存在逆矩阵来判断该数据对象是否存在冗余信息。当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理,为下一步“数据治理”做准备。
[0026]
把“数据治理”中的需要分析的数据对象,首先在图片、文字、数据库中提取数据资源,记为d,然后把d数值化,转化为数据集x,即
[0027][0028]
其中,x为m
×
n的多维数据。
[0029]
然后,对矩阵x进行逆矩阵求解。在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵xa,即增广矩阵
[0030][0031]
通过矩阵行列变换,看是否能够转化成矩阵xb,即
[0032][0033]
假设特征数据集x中第a行与第b行存在冗余数据x
aj
和x
bj
,j=1,2,

n。由于存在冗余的数据,即数据不存在信息,x
aj
和x
bj
有一个数据无价值,即x
aj
或x
bj
元素可为0。x的增广矩阵xa中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到xb,从而可检测特征数据集中是否存在冗余数据。
[0034]
根据xb存在与否,来判断x是否存在冗余数据:
[0035]
如果xb存在,则矩阵x不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
[0036]
如果xb不存在,则矩阵x存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
[0037]
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。这里以某专业某班级学生的成绩分数为例:
[0038]
实例1:
[0039]
假设该班3名同学的各科成绩如下表。
[0040]
姓名高等数学大学英语数据结构张三969768李四899878王五658976
[0041]
学生成绩表提取数据资源整合为数据集:
[0042]
数据集x求逆增广矩阵为:
[0043]
通过矩阵行列转换得出:
[0044]
由此可得x1的逆矩阵:
[0045]
结论:数据集x1可求出逆矩阵,即xb存在,说明x1中不存在冗余数据。
[0046]
实例2:
[0047]
假设该班3名同学的各科成绩如下表。
[0048]
姓名高等数学大学英语数据结构张三969768李四899878张三969768
[0049]
数据集为:
[0050]
数据集x2求逆增广矩阵为:
[0051]
此时,无法通过矩阵变换,得到xb。
[0052]
结论:数据集x2求不出逆矩阵,即xb不存在,说明x2中存在冗余数据。从表格中可以看出,第一行和第三行数据是重复的。此时下一步应该对数据进行冗余处理。
[0053]
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献