一种基于relieff特征选择和BP_Adaboost算法的经济状况不佳家庭预测分类模型

2022-05-06 09:08:24 来源：中国专利 TAG：

一种基于relieff特征选择和bp_adaboost算法的经济状况不佳家庭预测分类模型
技术领域
1.本发明属于计算机技术领域，具体涉及一个将机器学习与gis结合起来的精准脱离经济状况不佳状态的系统，提出了一种基于relieff特征选择和bp_adaboost算法的经济状况不佳家庭预测分类模型。

背景技术：

2.精准脱离经济状况不佳状态是一个周期性长、容易出现脱离经济状况不佳反复的一项艰巨任务，且成果直接影响着乡村经济发展的进展，要实现家庭经济状况不佳的状态脱离，防止出现区域性经济状况不佳的反复，在开展精准脱离经济状况不佳状态的工作时，需要结合计算机技术，进行信息化管理。机器学习与gis技术相结合的精准脱离经济状况不佳状态的系统，可以通过经济状况不佳家庭的特征对经济状况不佳家庭进行分类，也可以将脱离经济状况不佳状态的的工作的进度及成果展示出来，更切合脱离经济状况不佳状态的工作者的实际需求。国内外学者先后使用了多种算法进行实验验证分析，其中包括支持向量机、随机森林、bp神经网络等等。在实际应用中，经济状况不佳家庭的数据量庞大，且常常伴随着数据缺失、虚假、特征与标签相关性差的问题；采取特征选择的方式对数据进行处理，可以避免数据本身质量问题而导致分类的准确度降低。针对以上问题，本发明采用基于relieff特征选择和bp_adaboost算法对经济状况不佳家庭数据进行分类预测，并结合支持向量机、随机森林、 adaboost算法进行对比分析。最后，结合gis将算法整合到精准脱离经济状况不佳状态的系统之中。

技术实现要素：

3.针对上述问题，本发明公开了一种基于relieff特征选择和bp_adaboost算法的经济状况不佳家庭预测分类模型，包括如下步骤：
4.s1：对数据集进行预处理：
5.(1)特征选取：选取家庭人口、教育情况、健康状况、劳动力、工作情况、年均收入、人均住房以及人均耕地的特征属性作为机器学习数据集的特征向量使用；
6.(2)过滤异常：针对上述数据集中存在的一些离群点，找出并踢除在采集过程中出现的缺失、异常问题的数据；
7.(3)特征编码：对统计数据特征为文本的数据进行标签编码，将其转换为机器学习训练使用的特征向量；
8.s2：对数据集进行划分：将s1数据集中连续的两个数据按照各占百分之五十分别放入训练集和测试集；
9.s3：将训练集的数据代入到相应的算法中建立数学模型：
10.(1)数据选择和网络初始化：数据集中选出m组数据来作为分类器的训练数据，对测试数据集的分布权值进行初始化，将权值设置为d
t
(i)＝1/m，根据数据集的输入及输出
维度定下网络的结构，完成以上步骤后，对bp神经网络权值和阈值进行初始化；
11.(2)弱分类器预测：在模型建立的过程中需要通过bp神经网络训练出数个弱分类器，假设第t个弱分类器的预测序列为g(t)，其误差为e
t
，计算公式如式(1.1)所示：
12.e＝∑id(i)i＝1，2，...，m(g(t)≠y)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.1)
13.(3)计算预测序列权重：权重α
t
可以通过预测结果的误差e
t
通过式(1.2)求得：
[0014][0015]
(4)测试数据权重调整：由第(3)步中求得的权重来对训练样本集的权重进行更新，更新的公式如式(1.3)所示：
[0016][0017]
(5)强分类函数：当分类器经过一定轮数的训练之后会得到若干组分类器，设t轮t组的分类函数为f(g
t
，a
t
)，将所有的弱分类函数进行组合后可得到强分类函数h(x)，公式如式 (1.4)所示：
[0018][0019]
(6)更新样本权重：设r为relieff算法从经济状况不佳家庭数据训练集中随机选择出的样本，relieff算法会从与r类型相同的样本之中再找出其最近邻的样本h，再从与r是不同类型的样本中找出其最近邻的样本m，更新每个样本的权重，设diff(a，r1，r2)为在样本r2特征a上的差，计算方式如式(1.5)所示：
[0020][0021]
那么更新权重w(a)的计算公式为式(1.6)所示：
[0022][0023][0024]
其中，在式(1.1)中，g(t)表示预测分类结果，y表示期望分类结果，在式(1.3)中b
t
表示归一化因子，其作用是保证权重比例不变的前提下，分布权值的和为1，式(1.6)中mj(c) 表示类c中的第j个最邻近样本；
[0025]
s4：把测试集中的数据通过建立好的数据模型进行分类预测：
[0026]
s5：将数据模型预测的结果与真实标签相比较，根据模型评估方法及原则对各个模型进行评估。
[0027]
一种基于relieff特征选择和bp_adaboost算法的经济状况不佳家庭预测分类模型的应用，设计脱离经济状况不佳状态的监测系统。
[0028]
进一步的，所述脱离经济状况不佳状态的监测系统采用三层架构，包括表现层(ui)、应用层(bll)、数据访问层。
[0029]
进一步的，所述脱离经济状况不佳状态的监测系统功能模块包括数据管理、脱离经济状况不佳状态的策略、分析预测。
[0030]
本发明与现有技术相比，有如下优点：
[0031]
(1)具有更高的模型评估指数：relieff_bp_adaboost的精确率相对于支持向量机提升了13.89％，相对于随机森林提升了8.41％，相对于adaboost提升了4.32％。 relieff_bp_adaboost的特异度相对于支持向量机提升了24.57％，相对于随机森林提升了 12.98％，相对于adaboost提升了6.06％。relieff_bp_adaboost的auc相对于支持向量机提升了3.99％，相对于随机森林提升了3.48％，相对于adaboost提升了1.2％。
[0032]
(2)工作成果清晰可视化，更切合脱离经济状况不佳状态的工作者的实际需求：精准脱离经济状况不佳状态的是一个周期性长、容易出现脱离经济状况不佳反复的一项艰巨任务，且成果直接影响着乡村经济发展的进展，要实现经济状况不佳状态的脱离，防止出现区域性经济状况不佳反复，在开展精准脱离经济状况不佳状态的工作时，需要结合计算机技术，进行信息化管理，机器学习与gis技术相结合的精准脱离经济状况不佳状态的系统，可以通过经济状况不佳家庭的特征对经济状况不佳家庭进行分类，也可以将脱离经济状况不佳状态的的工作的进度及成果展示出来。
[0033]
(3)系统为脱离经济状况不佳状态的工作者提供一个可视化的展示平台，让脱离经济状况不佳状态的工作者清晰的了解到各个村镇的经济状况不佳家庭的教育水平、务工情况、劳动力水平、健康状况、家庭住房情况等信息，工作人员可以通过及时走访调查来遏制情况的恶化，系统结合gis展示出到地图上，并与图表信息联动，可以清晰的了解到整体局势，避免大规模经济状况不佳反复的情况发生。
附图说明
[0034]
图1为地图与统计展示页面图。
[0035]
图2为预测结果展示页面图。
[0036]
图3为建立及分析经济状况不佳家庭预测分类模型的流程图。
[0037]
图4为bp_adaboost算法流程。
[0038]
图5为模型评估指标对比图。
[0039]
图6为脱离经济状况不佳状态的监测系统结构。
[0040]
图7为脱离经济状况不佳状态的监测系统运行流程图。
具体实施方式
[0041]
下面结合附图对本发明做详细说明，如图1-7所示：一种基于relieff特征选择和 bp_adaboost算法的经济状况不佳家庭预测分类模型，包括如下步骤：
[0042]
s1：对数据集进行预处理：对数据进行标签编码的同时，去除数据集中的空缺值以及噪声，以免导致建立的数据模型不稳定、不准确，具体操作如下：
[0043]
(1)特征选取：选取家庭人口、教育情况、健康状况、劳动力、工作情况、年均收入、人均住房以及人均耕地的特征属性作为机器学习数据集的特征向量使用；
[0044]
(2)过滤异常：针对上述数据集中存在的一些离群点，找出并踢除在采集过程中出现的缺失、异常问题的数据；
[0045]
(3)特征编码：对统计数据特征为文本的数据进行标签编码，将其转换为机器学习训练使用的特征向量；
[0046]
s2：对数据集进行划分：数据集将连续的两个数据分别放入训练集和测试集，两者各占占百分之五十，避免有局部地区的特征因未采样而导致模型预测不准确的情况出现；
[0047]
s3：将训练集的数据代入到相应的算法中建立数学模型：bp_adaboost使用的是bp神经网络作为基分类器实现的，如图4所示，bp_adaboost具体的实现过程如下：
[0048]
(1)数据选择和网络初始化：数据集中选出m组数据来作为分类器的训练数据，对测试数据集的分布权值进行初始化，将权值设置为d
t
(i)＝1/m，根据数据集的输入及输出维度定下网络的结构，完成以上步骤后，对bp神经网络权值和阈值进行初始化；
[0049]
(2)弱分类器预测：在模型建立的过程中需要通过bp神经网络训练出数个弱分类器，假设第t个弱分类器的预测序列为g(t)，其误差为e
t
，计算公式如式(1.1)所示：
[0050]
e＝∑
i d(i)i＝1，2，...，m(g(t)≠y)
ꢀꢀꢀꢀꢀꢀꢀ
(1.1)
[0051]
(3)计算预测序列权重：权重α
t
可以通过预测结果的误差e
t
通过式(1.2)求得：
[0052][0053]
(4)测试数据权重调整：由第(3)步中求得的权重来对训练样本集的权重进行更新，更新的公式如式(1.3)所示：
[0054][0055]
(5)强分类函数：当分类器经过一定轮数的训练之后会得到若干组分类器，设t轮t组的分类函数为f(g
t
，a
t
)，将所有的弱分类函数进行组合后可得到强分类函数h(x)，公式如式 (1.4)所示：
[0056][0057]
(6)更新样本权重：设r为relieff算法从经济状况不佳家庭数据训练集中随机选择出的样本，relieff算法会从与r类型相同的样本之中再找出其最近邻的样本h，再从与r是不同类型的样本中找出其最近邻的样本m，更新每个样本的权重，设diff(a，r1，r2)为在样本r2特征a上的差，计算方式如式(1.5)所示：
[0058][0059]
那么更新权重w(a)的计算公式为式(1.6)所示：
[0060][0061]
其中，式(1.1)中g(t)表示预测分类结果，y表示期望分类结果；式(1.3)中b
t
表示归一化因子，其作用是保证权重比例不变的前提下，分布权值的和为1；式(1.6)中mj(c) 表示类c中的第j个最邻近样本；
[0062]
s4：把测试集中的数据通过建立好的数据模型进行分类预测：
[0063]
s5：将数据模型预测的结果与真实标签相比较，根据模型评估方法及原则对各个
模型进行评估。
[0064]
一个良好的机器学习模型不仅仅表现在精度上，且多数情况下，对于同一组样本，可能存在多种精度接近的机器学习模型，需要引入模型评估的指标来对模型的优劣进行划分。机器学习的模型评估需要科学的完成实验内容的前提下，引入科学的理论指标对模型进行评估。数学模型的评估指标针是多方面的，各个指标反映的是模型不同方面的性能。模型的优劣不仅仅取决于算法的精度，更取决于所需求的评估指标是否达到了要求。
[0065]
(1)混淆矩阵：
[0066]
混淆矩阵是一种通过特定矩阵用来呈现算法性能的可视化表示，通常是为监督学习的算法提供模型评估参考。在混淆矩阵中，呈现了每种标签的分类预测情况，矩阵为n*n的矩阵，其中，n表示分类预测标签的个数。
[0067]
在二分类问题中，预测标签仅有两类，为了便于对模型进行评估，通常会将重要的一类称为正类，另外一类称为负类，根据其在测试数据集上分类预测结果与数据集的差异划分出四种情况：tp—模型将正类预测为正类的数目；fn—模型将正类预测为负类的数目；fp—模型将负类预测为正类的数目；tn—模型将负类预测为负类的数目。
[0068][0069]
表1混淆矩阵
[0070]
在混淆矩阵中，tp、fp、tn、fn都是对分类结果与数据集标签的差异个数统计。在实际生产之中，这种评估方式通常不能直观的区分出分类算法的优劣。为了更好的对分类模型进行评估，在混淆矩阵统计结果的基础之上，又拓展出了新的模型评估指标，分别是准确率 (accuracy)，精确率(precision)，召回率(recall)，特异度(specificity)。计算方法如表2所示：
[0071][0072]
表2评估指标
[0073]
(2)roc与auc：
[0074]
roc是receiver operating characteristic的简称，该理论提出后，最初的用途是通过分析雷达信号来时间检测敌机。随着科技的发展，这一概念逐渐被引入到其他领域使用，先后被心理学及医学采用，再后来就成为了机器学习的模型评估指标之一。
[0075]
roc曲线会根据分类器预测结果为正例的可能性对预测结果进行排列，再按照排
列后的顺序通过式(1.7)及式(1.8)计算出roc曲线的横纵坐标，将其结果在坐标图上表示出来，就得到了roc曲线。roc曲线的横纵坐标分别表示的是真正例率与假正例率，计算方式如式(1.7)及式(1.8)所示：
[0076][0077][0078]
在实际生产应用中，roc曲线通常是以现交叉情况出现的，这时就无法直接从roc曲线图上区分学习器的优劣。roc曲线下的面积是可以通过计算来获得的，这一指标可以作为 roc曲线判断依据的扩展，这一指标被称为auc(area under roc curve)。
[0079]
设围成roc曲线的坐标为{(x1，y1)，(x2，y2)，...，(xm，ym)}，(x1＝0，xm＝1)，则auc可以通过式(1.9)计算得到：
[0080][0081]
auc的结果评价情况可以划分为几个部分：
[0082]
(1)当auc＝1时，机器学习的数学模型为完美模型，这种情况只存在于理想之中；
[0083]
(2)当0.5《auc《1时，分类模型是较好的模型，预测结果有一定的参考价值，auc的值越高，表明预测结果的可靠性越高；
[0084]
(3)当auc＝0.5时，机器学习模型的预测结果基本没有任何参考价值，和随机猜测相差不大；
[0085]
(4)当auc《0.5时，这种情况其实也并不存在，auc的值小于0.5时，表明机器学习模型在进行反向预测，其模型的真实情况应该与0.5《auc《1是一样的。
[0086]
将支持向量机、随机森林、adaboost、relieff_bp_adaboost算法的实验结果汇总，如表 3所示：
[0087][0088]
表3模型评估表
[0089]
将上述评估指标绘出柱状图，如图5所示，由上表3可以看出，relieff_bp_adaboost的准确率相对于支持向量机提升了2.16％，相对于随机森林提升了1.19％，相对于adaboost提升了0.7％。relieff_bp_adaboost的精确率相对于支持向量机提升了13.89％，相对于随机森林精确率8.41％，相对于adaboost提升了4.32％。relieff_bp_adaboost的精确率相对于支持向量机降低了12.23％，相对于随机森林降低6.39％，相对于adaboost降低了2.75％。 relieff_bp_adaboost的特异度相对于支持向量机提升了24.57％，相对于随机森林提升了 12.98％，相对于adaboost提升了6.06％。relieff_bp_adaboost的auc相对于支持向量机提升了3.99％，相对于随机森林提升了3.48％，相对于
adaboost提升了1.2％。
[0090]
在以上模型评估指标中，精确率及特异度均为表现模型对正样本的敏感度的指标，在脱离经济状况不佳状态的数据中则表现为对脱离经济状况不佳家庭的预测更为准确，可以避免出现将大量脱离经济状况不佳家庭预测为经济状况不佳家庭的情况，给脱离经济状况不佳状态的人员增加工作负担。auc则是模型性能的评估其值越高意味着性能越好。基于relieff 算法特征选择的bp_adaboost在准确度、精确度、特异度、auc表现均优于其他模型，表明基于relief算法特征选择的bp_adaboost在经济状况不佳家庭数据分类预测上综合性能最好。因此，本发明中脱离经济状况不佳状态的系统将采用基于relief算法特征选择的bp_adaboost 作为脱离经济状况不佳状态的监测系统的分类算法。一种基于relieff特征选择和bp_adaboost 算法的经济状况不佳家庭预测分类模型的应用，设计脱离经济状况不佳状态的监测系统，所述脱离经济状况不佳状态的监测系统采用三层架构，三层架构可以使脱离经济状况不佳状态的监测系统更贴合“高内聚，低耦合”的要求，精准脱离经济状况不佳状态的系统能够良好运行的保证，三层架构的优点在于其可以提高代码的可读性，增强脱离经济状况不佳状态的监测系统的扩展性，使后期的维护工作变得相对简单，包括表现层(ui)、应用层(bll)、数据访问层(dal)，系统接头如图6所示，其中：
[0091]
表现层(ui)：就是以web页面、客户端的形式直接用来给用户操作的图形界面，表现层的主要作用是接收用户操作及数据并向后台发起请求，以及将后台获取到的数据在前端展示出来，是处理数据交互任务的操作接口之一，在脱离经济状况不佳状态的系统中，表现层的主要作用是给与经济状况不佳家庭、管理及工作人员提供一个可视化的操作界面；
[0092]
应用层(bll层)：应用层又名业务逻辑层，是系统的关键所在，是各个功能的实部分，应用层是针对具体的功能来完成具体的方法实现，用以解决具体的需求问题，在系统之中起着连接数据层并将结果反馈到表现层的作用，在系统之中，应用层需要处理客户端发出的请求，进行数据的传递工作，应用层还需要应对的复杂的逻辑判断以及完成数据的验证工作，应用层在脱离经济状况不佳状态的监测系统中主要承担具体功能的实现的任务，如：经济状况不佳家庭基本信息展示，经济状况不佳家庭识别，地理信息联合展示等功能；
[0093]
数据访问层(dal层)：数据访问层与应用层息息相关，是处理应用层数据命令的一个模块，所有的数据交互指令都是由应用层传递给数据访问层，再由数据访问层根据应用层的需求获取或修改数据。
[0094]
进一步的，所述脱离经济状况不佳状态的监测系统主要设计主要目标是实现经济状况不佳家庭数据的识别分析，除此之外，还兼具数据管理、统计等功能，该系统为脱离经济状况不佳状态的工作者提供一个可视化的展示平台，让脱离经济状况不佳状态的工作者清晰的了解到各个村镇的经济状况不佳家庭的教育水平、务工情况、劳动力水平、健康状况、家庭住房情况等等信息，主要分为数据管理、脱离经济状况不佳状态的策略、分析预测三大模块，具体的功能实现则包括用户模块、经济状况不佳家庭分类模块、数据管理模块、地理信息展示模块、信息统计模块；用户可以通过web端访问脱离经济状况不佳状态的监测系统，由web 端向服务器发送请求，服务器进行处理并返回相应的资源，流程如图7所示。
[0095]
本发明公开的脱离经济状况不佳状态的监测系统为不同的用户提供不同的服务，经济状况不佳家庭可以通过注册系统注册账号，使用注册的账号进行信息登记，登记过的信息会入库到经济状况不佳家庭数据库；工作人员可以通过登录系统对数据进行录入，修
改，更新等操作；管理人员则可以对数据进行预测分析等操作。
[0096]
本系统使用的数据库为mysql数据库，编程语言为java语言，开发工具为idea,后台使用框架为springboot，整合mybatis、matlab混编、themleaf等技术，操作系统为windows。以下对系统部分内容进行展示：
[0097]
(1)地理信息与图表联合展示：地理信息与脱离经济状况不佳状态的统计表联合展示功能是将数据统计的表格与地图联动起来，用户可以通过点击对应的乡镇即可获取到对应乡镇的脱离经济状况不佳状态的的数据统计结果。如图1所示，左边第一个图表为经济状况不佳家庭属性，左边第二个图表为经济状况不佳家庭教育背景，坐标第三个图表致经济状况不佳原因占比，右边第一个图表为该镇占总体人数的比例，右边第二个表为经济状况不佳家庭的劳动力水平，右边第三个表为脱离经济状况不佳家庭占比；
[0098]
(2)预测信息展示：预测对比分析页面主要是将预测的数据与之前的数据进行对比分析，以及结合整体的经济状况不佳数据进行展示；如图2所示，地图会根据经济状况不佳家庭人口进行分级渲染，可以直观的看出各个乡镇的经济状况不佳家庭的情况，右侧则是经济状况不佳家庭人口的排行，左边第一个表为脱离经济状况不佳进度表，第二个表则是根据预测结果可能脱离经济状况不佳的人口占经济状况不佳人口的比例，左边第三个表则是根据预测结果可能脱离经济状况不佳后恢复经济状况不佳状态的人口占的比例。
[0099]
本发明的上述实施例仅仅是为清楚地说明本发明所做的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无法对所有的实施方式予以穷举。凡是属于本发明的技术方案所引出的显而易见的变化或变动仍处于本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于无人机巡检的光伏站故障点定位方法及系统与流程

一种基于relieff特征选择和BP_Adaboost算法的经济状况不佳家庭预测分类模型

相关文献

最热文献