基于动态抽样的梯度提升决策树模型构建优化方法与流程

2021-10-24 04:25:00 来源：中国专利 TAG：梯度抽样构建模型提升

技术特征：
1.基于动态抽样的梯度提升决策树模型构建优化方法，其特征在于：包括以下步骤：将动态抽样应用于提升算法中；对面向树提升算法进行特征抽样；确定面向提升算法的动态抽样策略。2.根据权利要求1所述的基于动态抽样的梯度提升决策树模型构建优化方法，其特征在于：动态抽样的算法执行流程包括以下步骤：根据当前对p的估计来确定是否获取到足够样本；m用于统计迄今为止满足b(x)＝1的样本数量，n用于统计迄今为止所有样本数量；动态抽样算法持续执行抽样，直到当前样本集合中包含满足b(x)＝1的样本数量超过a为止，a依赖于预设的准确性参数和可靠性参数，在较为复杂的抽样方案中，a的大小也取决于3.根据权利要求2所述的基于动态抽样的梯度提升决策树模型构建优化方法，其特征在于：所述对面向树提升算法进行特征抽样包括：基于奇异值分解的抽样，利用特征重要性分数，根据各个特征对应分数的占比来对特征进行不等概率抽样，具体抽样方法包括以下步骤：对矩阵a进行分解，在一组列上构造一个非均匀的重要性抽样分布，依据该概率分布模型对特征进行抽样；另为一个由n个实例和d个特征构成的数据矩阵，且当n＜＜d时，该矩阵的秩满足r：＝rank(a)≤n，并对a进行奇异值分解，即另a＝u∑v
t
，其中表示包含了右奇异向量的集合；其中，v
i
(j)表示第i个右奇异向量的第j个值。4.根据权利要求3所述的基于动态抽样的梯度提升决策树模型构建优化方法，其特征在于：所述确定面向提升算法的动态抽样策略包括：lightgbm算法库，其用于根据内部的模块并提供不同的服务，具体分为三大层：应用程序接口层、核心算法层、基础服务层，上层模块中的算法包依赖下层模块算法包提供的服务，其中，核心算法层中算法模块的运行均依赖下层提供的与通信、文件操作相关的基础服务，应用程序接口定义与用户的交互模式，向外提供访问接口，算法逻辑的执行依赖于下层实现；基于massart不等式的动态抽样，其抽样计算公式为：基于massart不等式的动态抽样，其抽样计算公式为：另p＝e[x]，为伯努利变量x的期望，另为n重伯努利试验成功的相对频率，对于任意的0<z≤p，满足关系：
对于任意的p<z≤1，满足关系：基于动态抽样的gbm实现，将p
h,s
的初始值设置为0.5，用以计算第一轮迭代时所需抽取的样本大小，后续迭代使用前一轮迭代的预测准确率计算样本大小；根据参数中抽样率按比例计算计算当前线程提取的样本大小，针对当前线程所需处理的索引区间进行抽样，将未/入样的数据索引写入预分配的全局临时索引缓冲区tmp_indices_buf，其中，入样数据的索引值从每个线程操作的内存区域的起始位置开始连续写入，未入样数据的索引值紧接存储入样数据索引的内存单元写入。5.根据权利要求4所述的基于动态抽样的梯度提升决策树模型构建优化方法，其特征在于：lightgbm算法库包括三个参数，分别为：第一参数featimportances用于存储所有特征于模型贡献的向量；第二参数validfeatindices用于存储特征实际索引为的向量，该向量的大小和featimportances具有相同的大小；第三参数为需要入样的特征个数。6.根据权利要求5所述的基于动态抽样的梯度提升决策树模型构建优化方法，其特征在于：还包括计算需要保留的具有高贡献量的特征个数，其中p由用户参数remain_feature_fraction指定，根据所有特征的贡献量按降序排序，返回排序完成后的特征实际索引位置。7.根据权利要求6所述的基于动态抽样的梯度提升决策树模型构建优化方法，其特征在于：还包括计算在剩余未入样的特征中进行简单随机抽样的样本量，将特征贡献量在前importantfeatnum位的特征的实际索引存储到结果向量中，从剩余的所有特征中抽取samplingnum个特征，将贡献量靠前的importantfeatnum个特征的特征索引与随机抽样得到的samplingnum个特征的特征索引合并，存储到结果向量中，最后返回给上一层模型训练使用。8.根据权利要求7所述的基于动态抽样的梯度提升决策树模型构建优化方法，其特征在于：所述lightgbm算法库包括gbdt模型训练流程，其具体包括：参数加载，用于读取配置参数信息并加载到内存中，包括读取训练数据所在文件路径、模型训练的迭代次数、学习任务的类型、抽样比例、模型评价指标、模型输出路径信息，lightgbm根据参数来初始化目标函数对象和决策树模型、并指导gbdt模型构建按需有序的执行；资源初始化，用于根据第一步加载的数据信息和参数信息，对后续训练过程中需要用到资源进行分配，包括创建并初始化用于计算梯度的boosting运算库、根据输入数据的文件路径加载训练数据、根据参数信息中的任务类型进行目标函数库的创建及初始化；计算梯度，用于计算优化目标函数所需的损失函数的一阶导数和二阶导数；行抽样，若用户设置了adagbdt抽样参数，将对训练数据执行动态抽样过程；否则，根据用户设置的抽样率bagging_fraction执行自助式抽样算法；特征抽样，根据输入参数中的特征抽样率feature_fraction的值计算需要抽取的特征样本大小，然后利用公式max(#feature*feature_fraction*0.5,1)计算要保留的重要特征个数important_feat_num和随机抽样的特征个数sampling_num；获取各个特征的从第一轮
迭代到当前迭代的模型贡献量之和，并根据各个特征贡献量的大小进行排序，将贡献量最大的important_feat_num个特征纳入特征样本集合，在剩余特征中进行均匀随机抽样，将抽取得到的sampling_num个特征添加到特征样本集合中供下一步使用；构建决策树，用于重置之上一轮训练迭代中树模型中存储的直方图信息，并根据用户设置的特征抽样率参数执行均匀随机抽样；根据抽样后的特征集合和其对应的直方图信息，根据计算的一阶导数和二阶导数寻找当前树节点最佳分割点，直至当前叶子上的数据量小于预设阈值决策树构建完毕；添加树模型，用于将构建的决策树模型添加到当前gbdt模型中，同时对叶子节点输出分数进行更新。9.根据权利要求8所述的基于动态抽样的梯度提升决策树模型构建优化方法，其特征在于：所述lightgbm算法库包括efb算法，其用于识别互斥特征并将其合并到同一bundle中，在实现上采用无向图来对特征之间的关系进行描述，efb识别互斥特征的过程如下：第一步，构造具有加权边的图模型，每个特征对应一个顶点，为每两个不互斥的特征之间加入一条边，权重表示顶点的度数；第二步，根据图中顶点的度数对特征进行降序排序，度数越高，表示与其它特征同时取非零值的可能性越高，即越可能与其它特征发生冲突；第三步，创建空的bundle存储互斥特征，检查已排序的特征列表，如果该特征与已存在的bundle中的特征互斥，则将特征分配给该bundle；如果该特征与已经存在的所有bundle中的特征均发生冲突，则创建一个新的bundle，将该特征分配到这个新的bundle中。

技术总结
本发明涉及基于动态抽样的梯度提升决策树模型构建优化方法，包括以下步骤：将动态抽样应用于提升算法中；对面向树提升算法进行特征抽样；确定面向提升算法的动态抽样策略。本发明提供将应用基于Massart不等式的动态抽样技术构建GBDT模型以进一步加速训练过程，在保证模型准确性的前提下使用更少的样本量来构建模型，基于GBDT的特征贡献指标设计并实现特征抽样算法，减小模型构建过程中所需搜索的空间。间。间。

技术研发人员：李晖周彧李一水
受保护的技术使用者：贵州优联博睿科技有限公司
技术研发日：2021.06.07
技术公布日：2021/10/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种面向并发数据分析任务的性能瓶颈分析系统的制作方法

基于动态抽样的梯度提升决策树模型构建优化方法与流程

相关文献

最热文献