一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于决策树模型的预测方法、装置和计算机设备与流程

2021-10-19 23:48:00 来源:中国专利 TAG:人工智能 装置 模型 预测 计算机

技术特征:
1.一种基于决策树模型的预测方法,其特征在于,包括:分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;获取与各所述影响特征数据分别对应的每个所述企业的类别结果;以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;若评估通过,将所述最优决策树模型作为目标决策树模型;将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一个企业。2.根据权利要求1所述的基于决策树模型的预测方法,其特征在于,所述基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型的步骤,包括:分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数;基于所有所述第一基尼系数,从所述训练数据集中包含的所有影响特征中筛选出第一基尼系数最小的第一影响特征,以及获取与所述第一影响特征对应的第一特征值;基于所有所述第一基尼系数,从所述训练数据集中包含的所有影响特征中筛选出第一基尼系数最小的第一影响特征,以及获取与所述第一影响特征对应的第一特征值;将所述第一影响特征作为所述决策树模型的根节点,并将所述第一特征值作为所述根节点的切分点;获取按照根节点的切分点划分的每个分支下的分支训练数据集;分别计算所述分支训练数据集中每一个影响特征为每一个特征值时所述分支训练数据集的第二基尼系数;基于所有所述第二基尼系数,从所述分支训练数据集中包含的所有影响特征中筛选出第二基尼系数最小的第二影响特征,以及获取与所述第二影响特征对应的第二特征值;将所述第二影响特征作为每个分支的分裂节点,并将所述第二特征值作为分裂节点的切分点;判断当前的决策树模型是否满足预设的停止建树条件;若当前的决策树模型满足所述停止建树条件,将当前的决策树模型作为所述初始决策树模型;若当前的决策树模型不满足所述停止建树条件,返回步骤“获取按照根节点的切分点划分的每个分支下的分支训练数据集”。3.根据权利要求2所述的基于决策树模型的预测方法,其特征在于,所述判断当前的决策树模型是否满足预设的停止建树条件的步骤,包括:
判断所有所述分裂节点的样本数量是否小于预设的最小数量阈值;若所有所述分裂节点的样本数量小于所述最小数量阈值,判定当前的决策树模型满足停止建树条件;若所有所述分裂节点的样本数量不小于所述最小数量阈值,判断当前的决策树模型的高度是否达到了预设的最大高度阈值;若当前的决策树模型的高度达到了所述最大高度阈值,判定当前的决策树模型满足停止建树条件;若当前的决策树模型的高度未达到所述最大高度阈值,判断所有所述分裂节点的数量是否达到了预设的最大数量阈值;若所有所述分裂节点的数量达到了所述最大数量阈值,判定当前的决策树模型满足停止建树条件;若所有所述分裂节点的数量未达到所述最大数量阈值,判定当前的决策树模型不满足停止建树条件。4.根据权利要求2所述的基于决策树模型的预测方法,其特征在于,所述分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数的步骤,包括:基于计算公式计算所述训练数据集中影响特征a的取值为特征值a的条件下训练数据集的基尼系数;其中,所述影响特征a为所述训练数据集中包含的所有影响特征中的任意一个影响特征,gini()为基尼系数,d为训练数据集,gini(d,a)为在影响特征a的取值为特征值a的条件下训练数据集d的基尼系数,d1、d2分别为训练数据集被特征值a分成的两个子集,|d1|为子集d1的样本数量,|d2|为子集d2的样本数量,|d|为训练数据集d的样本数量,gini(d1)为子集d1的基尼系数,gini(d2)为子集d2的基尼系数;其中,对于由训练数据集分成的子集d
x
,x=1或2,子集d
x
的样本数量为|d
x
|,假设有k个类别,第k个类别的数量为|c
k
|,则子集d
x
的基尼系数的表达式为:5.根据权利要求1所述的基于决策树模型的预测方法,其特征在于,所述基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型的步骤,包括:将所述测试数据集中包含的所有数据输入至所述初始决策树模型内,并在所述所有数据进入所述初始决策树模型后,分别计算所述初始决策树模型内每一个节点的损失;从所述初始决策树模型最下层的所有拥有子节点的节点开始,依次对每个节点的所有子节点依次遍历裁剪,并计算得到每个节点的新损失;将每个节点的新损失与每个节点的损失进行大小比较,得到裁剪前后的损失大小比较结果;基于所述损失大小比较结果,对所述初始决策树模型中进行剪枝后损失较小的节点枝节进行裁剪,在完成最下层裁剪后保存,并利用相同的方法自下而上进行裁剪,直到根节点为止;其中,在进行每一层剪枝后均会相应得到一个剪枝后的决策树模型;
从剪枝得到的所有所述剪枝后的决策树模型中筛选出损失最小的决策树模型;将所述损失最小的决策树模型作为所述最优决策树模型。6.根据权利要求1所述的基于决策树模型的预测方法,其特征在于,所述基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过的步骤,包括:将所述验证测试集中的每一组数据分别输入至所述最优决策树模型内,获取所述最优决策树模型输出的与所述每一组数据分别对应的预测类别结果;基于所述验证测试集,从所有所述预测类别结果中筛选出正确的指定预测类别结果;获取所述预测类别结果的第一数量,以及获取所述指定预测类别结果的第二数量;计算所述第二数量与所述第一数量的比值;判断所述比值是否大于预设的比值阈值;若所述比值大于所述比值阈值,判定评估通过;若所述比值不大于所述比值阈值,判定评估不通过。7.根据权利要求1所述的基于决策树模型的预测方法,其特征在于,所述将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果的步骤之后,包括:判断得到的所述目标预测类别结果是否为产生环境卫生违法行为;若所述预测类别结果为产生环境卫生违法行为,获取与所述目标企业对应的企业信息;基于所述企业信息与所述目标预测类别结果,生成对应的警报信息;获取与目标用户对应的终端信息;将所述警报信息发送至与所述终端信息对应的用户终端。8.一种基于决策树模型的预测装置,其特征在于,包括:第一获取模块,用于分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;第二获取模块,用于获取与各所述影响特征数据分别对应的每个所述企业的类别结果;创建模块,用于以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;训练模块,用于基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;筛选模块,用于基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;评估模块,用于基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;确定模块,用于若评估通过,将所述最优决策树模型作为目标决策树模型;预测模块,用于将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一个企业。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及人工智能领域,提供一种基于决策树模型的预测方法、装置、计算机设备和存储介质,方法包括:获取每个企业相关的影响特征数据;获取对应的每个企业的类别结果;基于影响特征数据与类别结果建立样本数据集;基于训练数据集训练决策树模型获得初始决策树模型;对初始决策树模型进行剪枝得到最优决策树模型;对最优决策树模型进行精度评估,在评估通过后,将最优决策树模型作为目标决策树模型;将待预测的影响特征数据输入至目标决策树模型内,以输出对应的目标预测类别结果。本申请能够有效地实现了对于企业是否产生环境卫生违法行为的准确预测。本申请还可以应用于区块链领域,上述目标预测类别结果等数据可以存储于区块链上。于区块链上。于区块链上。


技术研发人员:林剑
受保护的技术使用者:平安国际智慧城市科技股份有限公司
技术研发日:2021.05.26
技术公布日:2021/10/18
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜