一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于非监督学习的数据真实性的甄别方法及系统与流程

2022-07-31 08:07:22 来源:中国专利 TAG:


1.本发明涉及大数据处理技术领域,具体涉及一种基于非监督学习的数据真实性的甄别方法及系统。


背景技术:

2.在社会发展过程中,各行各业都会产生不同的数据,比如:道路桥梁等各种测试数据、药物临床试验申报数据等等,这些数据申报上去后,需要审核和甄别其是否为真实数据。
3.目前市场上关于数据鉴别方法中大多停留在浅层的数据分析,根据长时间数据分析而取得的专家经验,以及运用大量高质量数据训练得到规律。例如:在市场上基于数据的甄别方法有:一种基于多判据融合的异常数据甄别方法,此技术需要大量的覆盖面极大的数据,数据分4组,然后对每一组进行建模,最后将模型得出的概率进行合并。再将合并的结果按照设定的准则进行判断。
4.利用专家经验,需要人工一个个的审核,效率低,并且,人为的选择与构建判断指标,具有一定的局限性和延后性,只能根据历史经验进行筛选和甄别,只能从已经发生得案例中学习,无法具备前瞻性。除此之外,一旦规则发生改变,判断条件也需要重新选择,增加了整个流程的复杂程度。
5.基于传统有监督的机器学习方法,需要大量的高质量的数据,去充分了解和学习规律,但是对于虚假数据数据,难以捕捉大量数据去学习全量规律,有监督的机器学习要拟线性关系,对离群值较为敏感,从而无法有效甄别数据真伪。


技术实现要素:

6.为解决现有技术中的问题,本发明提供一种基于非监督学习的数据真实性的甄别方法及系统。
7.本发明一种基于非监督学习的数据真实性的甄别方法,包括如下步骤:
8.s1:构建样本数据表;
9.s2:对样本数据表中的各个样本数据进行标签化和标准化处理,建立基于样本的多维度特征数据表,标签包括0和1,0代表真实数据样本,1代表虚假数据样本;
10.s3:通过一定的模型对多维度特征数据表进行特征压缩或者特征筛选;
11.s4:分别对步骤s3处理后的多维度特征数据表进行数据处理,并划分为训练数据集和测试数据集,所述训练数据集包括虚假样本训练数据集和真实样本训练数据集;
12.s5:利用虚假样本训练数据集训练并调整虚假数据模型m1的参数,利用真实样本训练数据集训练并调整真实数据模型m0的参数;
13.s6:利用测试数据集测试虚假数据模型m1和真实数据模型m0,每个样本获得一个真实数据概率与虚假数据数据概率,选取概率值高的类别作为预测结果;
14.s7:利用获得的预测结果与对应的实际样本标签进行比对,判断准确性是否达标,
如果是,得到最终的真实数据模型m0和虚假数据模型m1,如果否,返回执行步骤s3。
15.本发明作进一步改进,还包括步骤s8:利用最终的真实数据模型m0和虚假数据模型m1,对样本数据进行甄别。
16.本发明作进一步改进,步骤s2中,对样本数据进行标签化处理的方法为:
17.根据最终审查结果,给多维度特征数据表中的样本打标签,多维度特征数据表分为2类:虚假数据样本1和真实数据样本0,如此完成了对一个样本的标签化处理,并将该标签作为目标变量。
18.本发明作进一步改进,对标签化处理后的结果进行标准化处理,所述标准化处理包括:异常值处理、类别型变量的处理、缺失值处理和特征标准化处理,其中,
19.异常值处理:对所述多维度特征数据表中的每条数据的每个变量分别进行数据分布统计,并根据统计结果进行异常值处理;
20.类别型变量的处理:分别统计所述多维度特征数据表中的全部变量,对各个变量进行分组,并将每个组中的数据重新分配一定值;
21.缺失值处理:分别统计所述多维度特征数据表中全部变量的缺失率,并根据统计的缺失率进行处理;
22.特征标准化处理:用于对处理后的数据转换为标准化格式,然后将其进行无量纲化处理,将数据的分布调整为标准正太分布,完成其标准化处理过程。
23.本发明作进一步改进,步骤s5的具体处理方法包括以下子步骤:
24.s51:分别利用所述虚假样本训练数据集、真实样本训练数据集数据训练迭代决策树gbdt模型,通过交叉验证和网格搜索调整所述gbdt模型的参数,利用调整参数后的gbdt模型生成特征重要性指标;
25.s52:分别利用所述虚假样本训练数据集、真实样本训练数据集的数据重新训练调整参数后的gbdt模型并生成特征重要性指标,利用所述特征重要性指标筛选出训练集数据中的关键维度数据,将新生成的特征数据按标签分为1样本和0样本,并分别按一定比例分成训练集和测试集,得到1样本训练集,1样本测试集,0样本训练集,0样本测试集;
26.s53:采用0样本训练集分别训练不同的真实数据模型的参数,然后采用0样本测试集对真实数据模型进行测试,获取最佳的真实数据模型参数;采用1样本训练集分别训练不同的虚假数据模型的参数,然后采用1样本测试集对虚假数据模型进行测试,获取最佳的虚假数据模型参数。
27.本发明作进一步改进,步骤s53中,采用的模型包括高斯混合gmm模型、kmeans模型、ap模型、lr逻辑回归算法、支持向量机svm、决策树模型中的一种或多种。
28.本发明作进一步改进,步骤s53采用的模型为gmm模型、kmeans模型和ap模型,其中,
29.使用0样本训练集对高斯混合gmm模型进行训练并调整高斯混合gmm模型的参数,构建gmm真实数据模型,使用1样本训练集对gmm模型进行训练并调整gmm模型的参数,构建gmm虚假数据模型,合并gmm真实数据模型和gmm虚假数据模型得到gmm数据模型;
30.使用0样本训练集对均值聚类kmeans模型进行训练并调整kmeans模型的参数,构建kmeans真实数据模型,使用1样本训练集对kmeans模型进行训练并调整kmeans模型的参数,构建kmeans虚假数据模型,合并kmeans真实数据模型和kmeans虚假数据模型得到
kmeans数据模型;
31.使用0样本训练集对近邻传播ap模型进行训练并调整ap模型的参数,构建ap真实数据模型,使用1样本训练集对ap模型进行训练并调整ap模型的参数,构建ap虚假数据模型,合并ap真实数据模型和ap虚假数据模型得到ap数据模型。
32.本发明作进一步改进,gmm模型训练和调整过程如下:
33.用0样本训练集训练不同超参数组合的0样本gmm模型,计算0样本训练集中每个样本的对数似然概率,将其从高到低排序,选择一概率值作为标准,计算0样本测试集中每个样本的对数似然概率,统计0样本测试集中高于标准的样本所占比例,最后除以一定的比例,找到一组超参数组合的gmm模型,使得0样本测试集中预测概率值高的样本最多,最终得到真实数据模型m0的最佳参数组合,对于1样本采用相同的方式调整参数;
34.对于kmeans模型,由于没有对数似然概率的概念,采用样本到最近簇中心的距离,距离越小,评分越高;对于ap模型,采用归属度的概念,即样本选择某个节点作为它的聚类中心的合适程度。
35.本发明作进一步改进,步骤s6处理过程为:
36.将0样本测试集与1样本测试集的每个数据,输入gmm真实数据模型,得到测试集每个样本的真实数据概率值,输入gmm虚假数据模型,得到测试集每个样本的虚假数据概率值,对于每个样本,较高值的模型即为该样本的gmm预测值;
37.将0样本测试集与1样本测试集的每个数据,输入kmeans真实数据模型,得到测试集每个样本的真实数据概率值,输入kmeans虚假数据模型,得到测试集每个样本的虚假数据概率值,对于每个样本,较高值的模型即为该样本的kmeans预测值;
38.将0样本测试集与1样本测试集的每个数据,输入ap真实数据模型,得到测试集每个样本的真实数据概率值,输入ap虚假数据模型,得到测试集每个样本的虚假数据概率值,对于每个样本,较高值的模型即为该样本的ap预测值。
39.本发明作进一步改进,步骤s7的处理过程为:
40.s71:将所述gmm预测值、kmeans预测值、ap预测值与样本真实标签比对,根据比对结果判断模型是否稳定;
41.s72:将多个数据模型的结果通过一定策略结合,组成集成模型,结合后的结果为集成模型的预测结果,利用获得的预测结果与对应的实际样本标签进行比对,根据比对结果确定所述复审模型的稳定性,获取稳定性最好的集成模型即为最终的真实数据模型m0和虚假数据模型m1。
42.本发明还提供一种系统,用于实现所述基于非监督学习的数据真实性的甄别方法,包括:
43.构建模块:用于构建样本数据表;
44.处理模块:用于对样本数据表中的各个样本数据进行标签化和标准化处理,建立基于样本的多维度特征数据表,标签包括0和1,0代表真实数据样本,1代表虚假数据样本;
45.特征压缩筛选模块:用于通过一定的模型对多维度特征数据表进行特征压缩或者特征筛选;
46.数据集划分模块:用于分别对多维度特征数据表进行数据处理,并划分为训练数据集和测试数据集,所述训练数据集包括虚假样本训练数据集和真实样本训练数据集;
47.模型参数调整模块:用于利用虚假样本训练数据集训练并调整虚假数据模型m1的参数,利用真实样本训练数据集训练并调整真实数据模型m0的参数;
48.结果预测模块:用于利用测试数据集测试虚假数据模型m1和真实数据模型m0,每个样本获得一个真实数据概率与虚假数据数据概率,选取概率值高的类别作为预测结果;
49.最终模型构建模块:用于利用获得的预测结果与对应的实际样本标签进行比对,准确性达标,得到最终的真实数据模型m0和虚假数据模型m1。
50.与现有技术相比,本发明的有益效果是:通过数据预处理、特征处理、特征筛选和高斯混合分布模型等手段,能够有效的甄别出数据的真伪,提高了数据异常评估精度,也提高了数据集的准确性及可利用价值,解决了传统机器学习方法处理有限且重要的数据时面临的真实性无法保证、数据质量低、训练难度大等问题,从而为后续试验、审查、审批等事宜提供有效的数据保障。
附图说明
51.为了更清楚地说明本技术或现有技术中的方案,下面将对实施例或现有技术描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
52.图1为本发明方法流程图;
53.图2为本发明一个实施例多维度特征数据表示意图;
54.图3为本发明一个实施例所述甄别模型训练方法流程图;
55.图4为自定义评分指标柱状图;
56.图5为本发明一个实施例测试准确率提升示意图。
具体实施方式
57.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
58.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
59.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
60.如图1所示,本发明一种基于非监督学习的数据真实性的甄别方法,包括如下步骤:
61.s1:构建样本数据表;
62.s2:对样本数据表中的各个样本数据进行标签化和标准化处理,建立基于样本的多维度特征数据表,标签包括0和1,0代表真实数据样本,1代表虚假数据样本;
63.s3:通过一定的模型对多维度特征数据表进行特征压缩或者特征筛选;
64.s4:分别对步骤s3处理后的多维度特征数据表进行数据处理,并划分为训练数据集和测试数据集,所述训练数据集包括虚假样本训练数据集和真实样本训练数据集;
65.s5:利用虚假样本训练数据集训练并调整虚假数据模型m1的参数,利用真实样本训练数据集训练并调整真实数据模型m0的参数;
66.s6:利用测试数据集测试虚假数据模型m1和真实数据模型m0,每个样本获得一个真实数据概率与虚假数据数据概率,选取概率值高的类别作为预测结果;
67.s7:利用获得的预测结果与对应的实际样本标签进行比对,判断准确性是否达标,如果是,得到最终的真实数据模型m0和虚假数据模型m1,如果否,返回执行步骤s3。
68.本发明还包括步骤s8:利用最终的真实数据模型m0和虚假数据模型m1,对样本数据进行甄别,从而获得最终的甄别结果。
69.以下结合实施例对本发明进行详细说明。
70.作为本发明的一个实施例,本例用于农作物实验数据的甄别。
71.步骤s1:构建样本数据表x’。
72.本例从不同的数据库、数据api中提取数据信息,合并多个数据库中的数据为一份样本数据表x’。
73.首先确定选取数据的范围,比如,选取中国近5年,也就是2016-2021年,某一品种农作物的生长、实验的数据作为样本数据,大概有1万个,然后,从数据库中匹配每个样本数据的特征信息,建立基于农作物的多维度特征数据。
74.从数据库中关联匹配上述1万个样本的特征信息。如图2所示,关联后的样本数据对应的多维度特征记录,有20个特征信息(var1-20),每个特征信息对应不同的特征,比如株高、光照时间等等。
75.步骤s2:对样本数据表中的各个样本数据进行标签化和标准化处理,建立基于样本的多维度特征数据表x,标签包括0和1,0代表真实数据样本,1代表虚假数据样本。
76.本例中,对样本数据进行标签化处理的方法为:
77.根据最终审查结果,给多维度特征数据表中的样本打标签,多维度特征数据表分为2类:虚假数据样本1和真实数据样本0,如此完成了对一个样本的标签化处理,并将该标签作为目标变量(target)。例如,在审查过程中,鉴定为虚假数据的,target项为1,代表虚假数据样本,如果通过审查的,标记为真实数据,target项为0,代表真实数据样本。
78.然后,对标签化处理后的结果进行标准化处理,所述标准化处理包括:异常值处理、类别型变量的处理、缺失值处理和特征标准化处理,其中,
79.异常值处理:对所述多维度特征数据表中的每条数据的每个变量分别进行数据分布统计,并根据统计结果进行异常值处理,对所述多维度特征数据表中的200000条数据的每个变量(每列)分别进行数据分布统计,并根据统计结果进行异常值处理。例如,根据数据分布统计,发现变量var10这一列中出现了异常值,则可以使用该变量的中位数去替换异常值。
80.类别型变量的处理:分别统计所述多维度特征数据表中的全部变量,对各个变量
进行分组,并将每个组中的数据重新分配一定值。具体地,分别统计所述多维度特征数据表中的全部变量,例如变量var3是类别型变量,对应的10000个样本使用了33种取值,则该变量的取值个数已经超过了10个,在本实施例中采用决策树将该变量的33个取值进行重新分为4组,然后对变量var3的10000个数值进行重新分配,处理后变为1,2,3,4四种取值以便于计算和选择。
81.缺失值处理:分别统计所述多维度特征数据表中全部变量的缺失率,并根据统计的缺失率进行处理。例如,根据缺失率统计,发现变量var11这一列中的缺失率等于90%,在处理中将缺失率超过60%定义为缺失率过高,即失去参考价值,因此直接删除这一列数据。再例如,根据缺失率统计,发现变量var2是类别型变量,取值为null(缺失)占比为30%,属于具有参考价值的数据,将该变量的缺失值null作为单独的一类,并用-1替换;类似地,对于数字型变量的缺失情况,假设变量var1的缺失率处于可参考范围,则对于缺失项进行处理,例如可以先统计该变量非缺失值的中位数,然后用中位数填补缺失值。
82.特征标准化处理:经过上述三个步骤的处理后,类别型变量如var2,var3等采取onehot编码方式进行处理,数字型变量如var1等采用z-score标准化的方法进行处理。
83.至此,完成了多维度特征数据的处理,将所述10000个样本,按照一定的比例随机划分训练集和测试集,在本实施例中,使用4:1的比例,即训练集使用8000个样本用于训练模型,测试集使用2000个样本用于预测、评估模型的效果并确定反虚假统计阈值。至此完成数据处理。
84.值得注意的是,本实施例所采用的数据处理方式和样本比例划分仅用于解释说明,本领域技术人员应当根据具体实际需求选择数据处理和比例划分的方式和方法,以便于后续模型训练和测试为设计准则。
85.然后将其进行无量纲化处理,将数据的分布调整为标准正太分布,完成其标准化处理过程。根据标签将特征数据分为真实数据样本集和虚假数据样本集。
86.步骤s3:通过一定的模型对多维度特征数据表进行特征压缩或者特征筛选。
87.本例在多维度特征数据表x的特征工程未完成时,通过lgbm等模型对多维度特征数据表x进行特征压缩或者特征筛选。
88.s4:分别对步骤s3处理后的多维度特征数据表x进行数据处理,并划分为训练数据集和测试数据集,所述训练数据集包括虚假样本训练数据集和真实样本训练数据集。
89.s5:利用虚假样本训练数据集训练并调整虚假数据模型m1的参数,利用真实样本训练数据集训练并调整真实数据模型m0的参数。
90.如图3所示,步骤s5的具体处理方法包括以下子步骤:
91.(1)分别利用所述虚假样本训练数据集、真实样本训练数据集数据训练迭代决策树gbdt模型,通过交叉验证和网格搜索调整所述gbdt模型的参数。
92.具体地,本例利用网格搜索的评分方式,每次尝试所有的超参数组合,选出效果最好的参数组合。利用交叉验证将数据集拆分为训练集和测试集,充分利用数据训练多次,在多次后选择好的评分方式求平均返回,然后找到最大的参数组合。gbdt模型的特点在于不像决策树模型那样仅由一棵决策树构成,而是由多棵决策树构成,通常设置有上百棵树,而且每棵树规模都较小(即树的深度会比较浅)。使用模型的时候,对于输入的一个样本实例会赋予一个初值,遍历每一棵决策树,例如使用每一棵树去拟合前n棵树的残差,即每一棵
树都依赖与前一棵树的结果,通过交叉验证和网格搜索调整所述gbdt模型的参数,使得所述gbdt模型更符合甄别模型的应用。其中,通过网格搜索对gbdt模型的参数进行优化,通过交叉验证对优化了参数的gbdt模型进行验证,验证所述gbdt模型的拟合程度,本实施例中使用sklearn工具包中的gridsearchcv函数进行验证,将参数输入到gridsearchcv函数中,自动得出最优化的结果和参数,然后接着平均所有训练的结果。
93.本发明在数据降维方面采用了gbdt算法,此处还可以使用其他具有降维功能的算法,例如:pca(主成分分析),lda(linear discriminant analysis)、lle(局部线性嵌入)pca是一种线性降维方法,能够使用较少的数据维度,同时保留住较多的元数据点的特性,但是pca的分类效果并不好。lda是需要有监督的线性降维算法。能够让降维后的数据点更加容易区分。lle是一种局部线性降维算法,能够使得降维之后保持流形结构。
94.(2)利用所述训练集数据重新训练调整参数后的gbdt模型并生成特征重要性指标。经重新训练后,通过gbdt模型中的各决策树对训练集数据进行决策分类,找出所述训练集数据中多个维度的征信数据之间的关联关系,并生成特征重要性指标。利用所述特征重要性指标筛选出所述训练集数据中的关键维度数据。
95.(3)分别利用所述虚假样本训练数据集、真实样本训练数据集的数据重新训练调整参数后的gbdt模型并生成特征重要性指标,利用所述特征重要性指标筛选出训练集数据中的关键维度数据,将新生成的特征数据按标签分为1样本和0样本,并分别按一定比例分成训练集和测试集,得到1样本训练集,1样本测试集,0样本训练集,0样本测试集。
96.本例利用所述特征重要性指标对训练集数据进行筛选,并挑选出权重高并且具有关联关系的特征数据。在实例中,从20多条的特征标签中筛选出的高特征如株高、种子数量等。将新生成的特征数据按标签分为1样本和0样本,并分别按4:1分成训练集和测试集,得到1样本训练集、1样本测试集、0样本训练集、0样本测试集。
97.(4)采用0样本训练集分别训练不同的真实数据模型的参数,然后采用0样本测试集对真实数据模型进行测试,获取最佳的真实数据模型参数;采用1样本训练集分别训练不同的虚假数据模型的参数,然后采用1样本测试集对虚假数据模型进行测试,获取最佳的虚假数据模型参数。
98.本例采用的模型包括高斯混合gmm模型、kmeans模型和、ap模型,可以采用其中的一种或多种。本例采用三种模型的组合,最终形成最终的数据模型。
99.本例使用0样本训练集对高斯混合gmm模型进行训练并调整高斯混合gmm模型的参数,构建gmm真实数据模型,使用1样本训练集对gmm模型进行训练并调整gmm模型的参数,构建gmm虚假数据模型,合并gmm真实数据模型和gmm虚假数据模型得到gmm数据模型。
100.其中,gmm模型训练和调整过程如下:
101.用0样本训练集训练不同超参数组合的0样本gmm模型,计算0样本训练集中每个样本的对数似然概率,将其从高到低排序,选择50%处作为标准,计算0样本测试集中每个样本的对数似然概率,统计0样本测试集中高于标准的样本所占比例,最后除以一定的比例(此比例为自定义或者行业标准)。此评分的意义在于:找到一组超参数组合的gmm模型,使得测试集中预测概率值高的样本最多,如此,我们可以近似认为高于标准值的样本为真实数据样本,低于标准值的样本为虚假数据样本。对于1样本采用相同的方式调整参数。如图4所示,为自定义评分指标在0样本gmm模型上的柱状图,最佳参数组合为:covariance_type:
tied,n_components:4。
102.如图5所示,随着训练轮数的增加,集成数据模型的准确度逐渐增加,在第650次迭代过程中,准确度达到94%左右,说明本实施例的gmm模型符合建模要求,能够在一定程度上甄别出数据造假的样本,能够初步满足符合相关单位对虚假数据的评估需求。
103.对于下述kmeans模型,由于没有对数似然概率的概念,改为样本到最近簇中心的距离,距离越小,评分越高。对于下述ap模型,改为采用归属度的概念,即样本选择某个节点作为它的聚类中心的合适程度。
104.本例kmeans模型训练和调整过程如下:
105.使用0样本训练集对均值聚类kmeans模型进行训练并调整kmeans模型的参数,构建kmeans真实数据模型,使用1样本训练集对kmeans模型进行训练并调整kmeans模型的参数,构建kmeans虚假数据模型,合并kmeans真实数据模型和kmeans虚假数据模型得到kmeans数据模型。
106.本例ap模型训练和调整过程如下:
107.使用0样本训练集对近邻传播ap模型进行训练并调整ap模型的参数,构建ap真实数据模型,使用1样本训练集对ap模型进行训练并调整ap模型的参数,构建ap虚假数据模型,合并ap真实数据模型和ap虚假数据模型得到ap数据模型。
108.步骤s6:利用测试数据集测试虚假数据模型m1和真实数据模型m0,每个样本获得一个真实数据概率与虚假数据数据概率,选取概率值高的类别作为预测结果。
109.具体地,本例的处理过程为:
110.将0样本测试集与1样本测试集的每个数据,输入gmm真实数据模型,得到测试集每个样本的真实数据概率值,输入gmm虚假数据模型,得到测试集每个样本的虚假数据概率值,对于每个样本,较高值的模型即为该样本的gmm预测值;
111.将0样本测试集与1样本测试集的每个数据,输入kmeans真实数据模型,得到测试集每个样本的真实数据概率值,输入kmeans虚假数据模型,得到测试集每个样本的虚假数据概率值,对于每个样本,较高值的模型即为该样本的kmeans预测值;
112.将0样本测试集与1样本测试集的每个数据,输入ap真实数据模型,得到测试集每个样本的真实数据概率值,输入ap虚假数据模型,得到测试集每个样本的虚假数据概率值,对于每个样本,较高值的模型即为该样本的ap预测值。
113.将所述gmm预测值、kmeans预测值、ap预测值与样本真实标签比对,根据比对结果判断模型是否稳定。
114.本发明融合了gmm,k-means,ap三种模型进行组合,并将三种模型再配以权重,配以投票机制,联合判断是否为虚假数据。使用gmm可支持混合属性。使用概率让一个数据点属于多个簇。使用均值和标准差,簇可以呈现出椭圆形而不是仅仅限制于圆形。先计算所有数据对每一个分模型的响应度,再根据响应度计算每个分模型的参数,最后进行迭代。可以直接为标签数据进行作用。使用k-means模型则可以对于每一个数据簇,遍历所有数据点更新数据簇。并且对于每一个数据簇,重新计算其中心。重复以上步骤直到每个数据点都无法再更新类标签,起到优化问题。无需指定聚类“数量”参数。ap聚类不需要指定k或者是其他描述聚类个数的参数,这使得先验经验成为应用的非必需条件,应用范围增加。明确聚类中心点,样本中的所有数据点都可能成为ap算法中的聚类中心。
115.在学习器选择方面,本发明选择了gmm、kmeans、ap模型算法,同时还可以选择其他具有聚类中心的无监督聚类算法,或者有监督算法,例如:lr逻辑回归算法、支持向量机svm、决策树模型等等。lr逻辑回归算法是使得函数的值和样本的值最接近,拟合的是样本属于某类的概率。需要特征离散化,需要大量的样本支持。支持向量机svm是一种有监督的学习模型,用来进行模式识别,分类以及回归。利用核函数把平面投射成曲面提高svm的适用范围。决策树是一种监督学习算法,将特征空间划分为一系列矩阵,然后给每一个矩阵安置简单的模型。各类数据的数量差距不能太大,忽略属性的相关性。
116.步骤s7:本例采用不同算法完成上述训练与测试过程,生成多个数据模型,将多个数据模型的结果通过投票策略结合,集合的结果为集成模型的预测结果,利用获得的预测结果与对应的实际样本标签进行比对,根据比对结果确定所述数据模型的稳定性。
117.在机器学习中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(在某些方面表现的比较好)。集成学习就是组合这里的多个模型以期得到一个更好更全面的模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。
118.在本示例中,将gmm数据模型、kmeans数据模型和ap数据模型通过使用投票法结合起来,其最终预测结果为所有模型中出现最多的额结果,遵从了少数服从多数的原则,降低了模型的方差,增强了模型的鲁棒性,最终的预测效果优于任何一个基模型的预测效果。在本实例中如下图所见,加上gmm、kmeans以及ap三个数据模型的综合得到的结果与真实标签比例中,达到82%高于其他三个模型单独的正确结果。三模型综合的结果与真实标签一致的有474个,真实标签一共575个。
119.在集成策略方面,本发明采用了投票的结合策略,除此之外,还有bagging和stacking的结合策略,都适用于本发明。bagging采用随机采样多次得到多个采样集,每一个采样集训练一个模型,最后取平均。stacking将训练好的模型对所有训练集进行预测,将所有的预测值组合成训练集再对此训练集进行预测。
120.综上,本实时例的有益效果是:
121.对比起传统规则方法,无监督学习能够挖掘基本信息数据中的浅层规则学和深层结构,对比基于专家经验的方法,无监督学习不需要大量的经验积累形成专业性的规则,直接拿通过数据本身内部的属性进行归类,因此对于鉴别数据间的差异性都从数据本身下手,无需强相关的数据进行训练寻找到规律进行引导;并且可以跨越不同的场景和行业,从数据自身的特性下手,无需行业相关的专业经验,做到及时性和拓展性。
122.通过数据预处理、特征处理、特征筛选和高斯混合分布模型等手段,能够有效的甄别出数据的真伪,提高了数据异常评估精度,也提高了数据集的准确性及可利用价值,解决了传统机器学习方法处理有限且重要的数据时面临的真实性无法保证、数据质量低、训练难度大等问题,从而为后续试验、审查、审批等事宜提供有效的数据保障。
123.作为本发明的另一个实施例,本例也可以将本发明的甄别方法用于经济、金融数据的甄别上,比如,高新企业申报等,为宏观政务、企业运营检测等业务提供了有效的数据保障。同时,减低假冒诈骗的信息的流传,从而有利于产业的健康发展。针对政府颁布的各项惠企补贴和扶持政策,本发明所述方法可以有效监督企业在申请了这类专项扶持资金之
后,资金能够有效的利用在政策要求的部分,避免因扶持资金的乱用而造成的资金浪费,同时也能甄别出一些数据造假企业,使得政府的拨款能够更高效的被利用在更合适的地方,对国家建设产生更大的助力。
124.本发明具有以下创新点:
125.(1)采用多种无监督聚类模型集成、共同决策,解决了一个有监督分类任务;
126.(2)模型应用创新:采用gmm、kmeans、ap等为无监督聚类模型,无需大量历史数据,充分挖掘已有数据。没有采用lr,svm,决策树等常见的有监督分类算法,可以在数量样本不足的情况下,提高甄别的精度。
127.(3)评价体系创新:本发明采用自定义评分系数作为评价指标对聚类模型进行评估,从而选取最佳的模型;
128.(4)本方法应用领域广阔,除了医学、药学、农业等领域外,本发明也可以用于保护在甄别企业数据真假,从而使得在各项政府福利政策申请得的情况下能够使得政府资金真正能够配给有资格,符合要求的企业。也能够让企业信息更加的透明。
129.本发明从数据本身出发不受到场景以及行业的限制,任何需要鉴别数据的异常情况都可使用本专利方法,例如:电信诈骗手机号、通过手机号码背后的信息进行数据的分析归类可归类出哪些是诈骗电话号码;还例如:活动薅羊毛用户,有些用户的参加活动纯粹是为了活动的礼品或者奖励,也可通过本专利参与活动用户的信息查别出薅羊毛客户的类别。
130.以上所述之具体实施方式为本发明的较佳实施方式,并非以此限定本发明的具体实施范围,本发明的范围包括并不限于本具体实施方式,凡依照本发明所作的等效变化均在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献