基于XGBoost优化算法的隧道围岩参数智能反演分析方法

2022-08-27 21:19:05 来源：中国专利 TAG：

基于xgboost优化算法的隧道围岩参数智能反演分析方法
技术领域
1.本发明属于隧道稳定性分析领域，具体为一种基于xgboost优化算法的隧道围岩参数智能反演分析方法。

背景技术：

2.采用数值模拟对隧道进行稳定性分析是一种比较常用的手段，可以较容易获取所需的隧道围岩应力、位移和稳定性等结果。但是，数值模拟计算模型计算结果的准确性，很大程度上受制于围岩参数的输入值。在实际的隧道工程勘察和施工中，受制于工程造价、施工工期等多方面因素的影响，隧道围岩参数难以通过室内试验和原位试验而及时准确地获取。
3.利用隧道围岩位移值来反演围岩参数的隧道围岩反演分析方法，在20世纪70年代被提出。经过几十年的不断发展和实践，大量的研究结论证明了基于位移值进行围岩参数反演分析的可行性和有效性。
4.随着数学和计算机科学的发展，利用机器学习算法来处理复杂的数值型变量数据，并探究变量之间的映射关系的方法，开始应用于生产生活的各个领域。从90年代末至今，利用数值模拟分析和各种机器学习算法进行隧道围岩参数反演分析，成为隧道稳定性分析领域的主流方法。
5.通常，利用数值模拟和机器学习算法进行参数反演的技术流程为：
6.1.建立拟分析隧道段的三维隧道开挖支护数值模拟计算模型；
7.2.根据需要确定力学参数的设计组合(例如利用正交试验方案对弹性模量、泊松比、容重、粘聚力、内摩擦角等参数进行组合设计)，将参数组合代入数值模拟计算模型计算并提取多组位移特征值，建立围岩参数-位移的样本库；
8.3.确定待反演参数并进行位移特征筛选；
9.4.基于机器学习算法，建立围岩位移特征与待反演参数之间的映射关系。将样本库数据划分为训练集和测试集，利用训练集数据训练机器学习算法模型，利用测试集数据检验模型的准确率和可用性。
10.5.将现场实测的围岩位移代入训练好的模型，即可得到预测的围岩参数值。
11.从上述流程可知，该项技术工作的关键问题，在于所采用的机器学习算法。在确保样本库可靠性的前提下，如何提高参数反演模型的预测准确率以及模型的稳定性，是该项技术工作需要关注的重点。
12.对于利用位移值反演隧道围岩参数的研究，前人进行了大量的研究工作，采用了许多不同的机器学习算法，例如人工神经网络、免疫高斯过程算法、差异进化算法、支持向量机算法等。但是，前人研究中普遍使用的是单一算法，单一算法具有预测准确率有限，无法充分发挥算法的预测准确率等问题。虽然已有研究成果同样使用xgboost集成算法进行类似分析，但是，其未对xgboost集成算法进行超参数优化，模型的稳定性和预测准确率低。并且，现有研究成果未对围岩各参数作为待反演参数的可行性和位移特征组合的合理性进
行评价。

技术实现要素：

13.本发明的目的在于：针对目前利用隧道位移值进行围岩参数反演分析的研究中，所存在的预测准确率低等问题，提出利用xgboost集成算法提高模型预测的准确率；在基于机器学习算法进行参数反演时，并不是所有的围岩参数都适合作为待反演参数，因此本发明对各参数作为待反演参数的可行性进行了评价；针对位移特征值高度相关导致反演模型稳定性差等问题，本发明进行位移特征筛选；针对集成算法本身的优化问题，本发明应用控制单一变量法和贝叶斯优化法对xgboost集成算法的超参数进行优化，提高模型的稳定性和预测能力。
14.本发明一种基于xgboost优化算法的隧道围岩参数智能反演分析方法，包括以下步骤：
15.s1：建立隧道开挖支护的三维有限元数值模拟计算模型，获得围岩参数反演的样本库；
16.s2：对样本库中的位移、参数数据进行特征相关性和敏感性分析，对各参数作为待反演参数的可行性进行评价，对位移特征组合的合理性进行评价；
17.s3：利用cart算法进行参数反演分析，进行位移特征筛选；
18.s4：以cart算法为基学习器，建立隧道围岩参数智能反演分析的xgboost集成算法模型；
19.s5：应用控制单一变量法和贝叶斯优化法进行超参数优化，得到优化的隧道围岩参数智能反演分析的xgboost集成算法模型；
20.s6：将位移特征输入到训练好的围岩参数智能反演分析xgboost模型，得到预测的围岩参数值。
21.作为本发明优选的实施方式，在s1中，对隧道所在岩层的围岩参数进行正交试验设计，获得多组围岩参数组合；将多组围岩参数输入数值模拟计算模型，并提取围岩变形稳定阶段的位移值，获得围岩参数反演的样本库。
22.作为本发明优选的实施方式，在s2中，特征相关性分析采用皮尔逊相关性系数进行计算，两个变量x和y之间的皮尔逊相关性系数为两个变量之间协方差和标准差的商，皮尔逊相关性系数的绝对值越接近1，则表示两个特征之间具有越强的线性关系，皮尔逊相关性系数公式为：
[0023][0024]
作为本发明优选的实施方式，在s2中，取隧道所在岩层参数均值、参数均值的90％和参数均值的110％，分别代入数值模拟计算模型，计算相应的位移，通过比较不同参数变化相同比例时的位移变化量，判断围岩的参数敏感性。
[0025]
作为本发明优先的实施方式，在s3中，cart算法是一种二叉决策树模型，其具体计算过程如下：
[0026]
(1)选择切分变量j，切分变量为各个位移特征值；
[0027]
(2)根据切分原则，选择切分点s；
[0028]
(3)针对任一切分变量的任一切分点si，将训练样本x切分为2个样本子集r
1i
和r
2i
；
[0029]
其中，r
1i
＝{xj|xj≤si},j＝1～n；r
2i
＝{xj|xj》si},j＝1～n；i为切分点的编号；
[0030]
(4)取c1和c2分别为r
1i
和r
2i
中样本目标值y的平均值：
[0031][0032][0033]
(5)根据平方误差最小化原则，应用筛选最优的切分变量和切分点：
[0034][0035]
(6)根据筛选的切分变量j和切分点s，将训练样本划分为r1和r2两个样本子集；
[0036]
(7)在样本子集r1和r2中，重复步骤(1)～(6)，将子集r1和r2进一步划分为更小的子集；
[0037]
(8)重复步骤(1)～(7)，对子集进一步划分，直到满足结束条件(如达到树的最大深度，叶子节点对应的样本数达到最小的样本数等)；
[0038]
(9)最终，通过上述划分，将训练样本输入空间划分为r1、r2、r3、...rm等m个叶子节点，生产决策树：
[0039][0040][0041][0042]
作为本发明优选的实施方式，在s4中，以cart算法为基学习器，构建xgboost集成算法模型如下：
[0043]
(1)对cart算法进行迭代，每次迭代是对上一次得到cart决策树的残差进行拟合，以使残差最小化；残差计算公式为：
[0044]
r＝y-f
t-1
(x)
[0045]
其中，r为残差，y为样本输出的真实值，t为迭代次数，x为样本的输入变量，f
t-1
(x)为第t-1次迭代时cart决策树模型的预测值；
[0046]
(2)进行第0次迭代：
[0047][0048]
其中，f0(x)为第0次迭代的预测值，l为目标函数，yi为样本输出变量的真实值，c为目标函数的参数，本专利中取其为样本输出变量的平均值；
[0049]
(3)进行第1次迭代：以样本输出变量真实值与样本输出变量平均值c的差值，作为样本的输出值y
1i
；根据指定的目标函数，应用cart算法，构造第1个cart决策树模型，获得样本输出变量的预测值f1(x)；
[0050]
(4)进行第2次迭代：以第1次迭代样本原始输出值y
1i
与第1次迭代样本输出变量预
测值f1(x)的差值，作为样本的输出值y
2i
；根据指定的目标函数，应用cart算法，构造第2个cart决策树模型，获得样本输出变量的预测值f2(x)；
[0051]
(5)按照与第2次迭代同样的方法，构造第3，4，...，m个cart决策树模型，获得样本输出变量的预测值f3(x)，f4(x)，...，fm(x)，直到残差满足要求；
[0052]
(6)根据上述m个cart决策树模型，按照以下公式计算预测样本的输出值：
[0053][0054]
作为本发明优选的实施方式，在s4中，xgboost算法的目标函数是在常规的平方误差损失函数的基础上，加上一个正则项而得到的：
[0055][0056]
其中，t为叶子节点的数量；γ和λ分别是叶子节点和叶子节点权重的正则化系数；为叶子节点j下各样本的一阶导数之和；为损失函数对样本输出变量预测值的一阶导数；为叶子节点下j各样本的二阶导数之和；为损失函数对样本输出变量预测值的二阶导数；ij＝{i|q(xi)＝j}为叶子节点j下的样本集；是前t-1轮学习器累加以后给出的第t-1轮的预测值；yi是样本输出变量的原始值；i为样本的编号。
[0057]
作为本发明优选的实施方式，在s5中，通过控制单一变量法缩小超参数的取值范围；在控制单一变量法缩小后的取值范围内，通过贝叶斯优化法进一步确定超参数的最优取值。
[0058]
控制单一变量法的具体过程如下：
[0059]
(1)分别针对每一个超参数，对超参数取值进行等值离散化，获取一定数量的等值点；
[0060]
(2)将离散化后的超参数取值代入xgboost集成算法模型，获取每一个模型的可决系数和泛化误差；
[0061]
(3)根据可决系数和泛化误差的变化规律，获取每一个超参数的最优取值范围。
[0062]
在缩小后的超参数范围内，利用贝叶斯优化法对超参数进行寻优的过程为：(1)建立超参数样本为x＝[x1,x2,x3,...,xn],xgboost集成算法模型的目标函数取值为y＝[y1,y2,y3,...,yn]，y服从多维正态分布；
[0063]
(2)建立高斯过程的核函数：
[0064][0065]
其中，和l为核函数的参数；
[0066]
(3)根据核函数，建立核向量：
[0067][0068]
(4)建立y的似然函数：
[0069][0070]
其中，μ为x的均值；
[0071]
通过梯度下降法对似然函数求极小值，计算核函数的参数，得到最优的核矩阵；
[0072]
(5)根据最优核矩阵，建立y的后验概率与先验概率和输入变量之间的高斯过程：
[0073][0074]
其中y
*
为后一步迭代得到的输出变量取值，k
*
为后一步迭代的核向量；
[0075]
上述高斯过程，建立了模型的目标函数值与超参数之间的函数关系；
[0076]
(6)以上述高斯过程为概率代理模型，建立poi为习得函数：
[0077][0078]
其中，f(x)为x的目标函数值，即上述推导得到的高斯过程；f(x

)为目前最优的目标函数值，即f(x)的后验分布；μ(x)和σ(x)为高斯过程所得目标函数的均值和方差；ξ为trade-off系数，控制超参数的优化方向偏向于“开发”或者“搜索”；基于上述poi习得函数，应用蒙特卡洛法进行上述最优超参数的搜寻；
[0079]
(7)将根据习得函数搜寻的最优超参数带入概率代理模型，建立新的高斯过程；
[0080]
(8)以新的高斯过程为概率代理模型，建立新的poi，应用蒙特卡洛法进行新一轮的超参数寻优；
[0081]
(9)重复上述操作，直到满足迭代停止条件，获取最终的最优超参数组合。
[0082]
解释：poi为probability of improvement的首字母简称。
[0083]
综上所述，本发明突出的技术优势是：
[0084]
1)进行特征相关性分析和参数敏感性分析为确定待反演参数提供支撑，因为并不是所有的围岩参数都可以利用位移进行反演。
[0085]
2)进行位移特征筛选可以提高模型的稳定性，尽量避免位移特征之间高度相关对模型产生的不利影响，同时也考虑预测准确率来选择最优位移特征组合。
[0086]
3)cart算法作为非线性算法，可以很好的规避线性模型算法位移特征高度相关对模型的不利影响，cart算法较线性算法在参数反演应用中具有更高的预测准确率，有较好的适用性。
[0087]
4)基于cart算法建立隧道围岩参数反演智能分析的xgboost集成算法模型，可以充分发挥集成算法的迭代优化作用，xgboost集成算法重点关注了cart算法每轮迭代分错的节点，并且调整节点的权重值，可以有效地提高基学习器cart算法的预测准确率。
[0088]
5)综合利用控制单一变量法和贝叶斯优化法对xgboost集成算法模型进行超参数优化，可以显著提高模型的预测准确性和稳定性，提高模型的拟合效果。与传统的采用单一方法相比，例如网格搜索、随机搜索和贝叶斯优化等，综合优化方法更加高效和准确。
附图说明
[0089]
图1为本发明基于xgboost优化算法的隧道围岩参数智能反演分析方法的流程图；
[0090]
图2为本发明实施例中隧道开挖的三维模型岩层划分示意图；
[0091]
图3为本发明实施例中隧道开挖细部网格尺寸示意图；
[0092]
图4为本发明实施例中隧道围岩开挖以后的应力图；
[0093]
图5为本发明实施例中隧道围岩开挖以后的应变云图；
[0094]
图6为本发明实施例中位移提取点位示意图；
[0095]
图7为本发明基于xgboost优化算法的隧道围岩参数智能反演分析方法中的cart算法流程图；
[0096]
图8为本发明基于xgboost优化算法的隧道围岩参数智能反演分析方法中的xgboost集成算法流程图；
[0097]
图9为本发明实施例中超参数n_estimators取不同值时其可决系数得分曲线图；
[0098]
图10为本发明实施例中超参数n_estimators取不同值时其泛化误差得分曲线；
[0099]
图11为本发明实施例中泊松比的预测值与真实值的柱状对比图。
具体实施方式
[0100]
下面结合附图，对本发明作详细的说明。
[0101]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
[0102]
本实施例基于xgboost优化算法的隧道围岩参数智能反演分析方法，如附图1所示，包括：s1：利用有限元软件，建立隧道开挖三维有限元的数值模拟计算模型，获得围岩参数反演的样本库；s2：对样本库中的位移、参数数据进行特征相关性和敏感性分析，对各参数作为待反演参数的可行性进行评价，对位移特征组合的合理性进行评价；s3：利用cart算法进行参数反演分析，进行位移特征筛选；s4：以cart算法为基学习器，建立隧道围岩参数智能反演分析的xgboost集成算法模型；s5：应用控制单一变量法和贝叶斯优化法进行超参数优化，得到优化的隧道围岩参数智能反演分析的xgboost集成算法模型；s6：将位移特征输入到训练好的围岩参数智能反演分析xgboost模型，得到预测的围岩参数值。
[0103]
以下通过具体的实例对本发明方案作更加详细的说明：
[0104]
第一步，首先确定以某隧道工程k4 173到k4 205标段的洞身主线分离式右线隧洞为建模对象，研究k4 173截面开挖支护稳定后的围岩位移和参数。该段隧道埋深154米，隧道围岩强度较高，隧道围岩等级为三级，采用钻爆法进行施工，右线隧道已经推进到足够远的位置。左右线隧道之间隔较远，符合主线分离式隧道对间距的要求，相互间的影响可以忽略不计。采用全断面法开挖、无支护的施工方式，对隧道开挖支护施工阶段进行数值模拟。
[0105]
样本库的位移数据，根据具体开挖截面的大小以及支护情况进行提取，一般包括拱顶沉降、拱底隆起、水平收敛等多组位移特征；样本库中的参数是岩土体采用摩尔-库伦本构时的输入参数，包括弹性模量、泊松比、容重、粘聚力、内摩擦角等五个参数。根据实测位移时序曲线判断围岩进入稳定阶段所需要的时间，即：统一确定提取的稳定位移值，为隧道开挖以后第32天的稳定位移值。隧道每天进行一个施工步，每一施工步开挖1米。因此，隧
道开挖三维模型在深度方向的扩展距离是32米。在宽度和高度方向上，需满足扩展范围约为开挖尺寸的五倍，在本例中，所建隧道开挖三维模型水平向的长度为199.5米，垂直向高度为218.8米。三维模型网格划分采用六面体网格，将隧道开挖部分和所在岩层的网格尺寸控制在0.6米，临近岩层的网格尺寸控制在0.8米，其余部分岩层的网格尺寸控制在1.2米。隧道开挖数值模拟计算模型由有限元计算软件建模获得，可选用的有限元计算软件包括但不限于midas gts nx、flac 3d、abaqus等。数值模拟计算模型的岩土体的本构关系采用摩尔-库伦本构模型，所建的三维模型的岩层划分示意图如附图2所示，隧道开挖细部网格尺寸示意图如附图3所示。
[0106]
由前期地勘报告可知，该段隧道的岩层共有六层，从上到下分别是强风化砂岩、中风化砂岩、黑色页岩、灰色砂岩、黑色页岩、灰色砂岩。建模时，前五层岩层的围岩参数取用地勘报告中该岩层参数的平均值。第六层岩层灰色砂岩为隧道开挖所在的岩层，该岩层的参数按照正交设计进行输入。根据勘察报告和实际情况确定该岩层参数的最大取值和最小取值，以确定各参数的取值范围。各岩层参数取值如表1所示。
[0107]
表1
[0108][0109]
第二步：对隧道开挖所在岩层的灰色砂岩的五个参数进行正交试验设计。根据第一步确定的隧道开挖所在岩层各参数的取值范围进行正交设计，本例采用spss软件，对每个参数取6个取值水平，共五个参数。因此正交设计共生成49组围岩参数组合，如表2所示为展示的部分五因素六水平正交试验参数组合表。
[0110]
表2
[0111][0112]
确定位移特征提取点的位置。隧道开挖所在岩层围岩的各参数选取参数的均值或中位数，代入数值模拟计算模型计算，观察隧道围岩开挖以后的应力和应变云图，应力图如图4所示，应变云图如图5所示，从图中选择应力-应变结果较大的区域合理布设位移监测
点。位移监测点的位移如图6所示。
[0113]
将正交试验设计的49组围岩参数组合，依次代入数值模拟计算模型进行计算，并提取相应提取点位的位移值，构成参数反演的参数-位移样本库，部分参数-位移数据统计在表3中。
[0114]
表3
[0115][0116]
第三步：对数据库中的参数-位移数据进行特征相关性分析。特征相关性分析采用皮尔逊相关性系数进行计算，两个变量x和y之间的皮尔逊相关性系数为两个变量之间协方差和标准差的商，皮尔逊相关性系数的绝对值越接近1，则表示两个特征之间具有越强的线性关系，皮尔逊相关性系数公式为：
[0117][0118]
各变量间的皮尔逊相关性系数得分如下表4所示。
[0119]
表4
[0120][0121][0122]
第四步：进行参数敏感性分析，首先计算隧道开挖所在岩层(第六层：灰色砂岩)地勘报告所提供的各参数的平均值，然后分别计算各参数的0.9倍和1.1倍。利用控制单一变量法，每次将一种参数的0.9倍、1倍、1.1倍和其他参数的1倍进行组合，每次得到3种参数组合形式，将参数组合代入隧道开挖数值模拟模型进行计算，提取位移特征值，然后用1.1倍参数产生的位移特征值减去0.9倍参数产生的位移值，所得的差取绝对值，用差的绝对值除
以1倍参数产生的位移特征值，则得到各参数变化相同比例时各位移特征的变化百分数，该百分数量化了参数变化时产生位移的大小。以容重和弹模为例，参数敏感性的计算过程如表5所示，参数敏感性的计算结果如表6所示。
[0123]
表5
[0124][0125]
表6
[0126][0127][0128]
第五步：根据变量相关性和参数敏感性的计算结果进行分析：由变量相关性的计算结果可知，弹性模量、泊松比和位移特征之间的相关性得分较高，这两个参数与位移特征之间的相关性程度较高；容重、粘聚力、内摩擦角和位移特征之间的相关性得分较低，这三个参数与位移之间的相关性程度较低；由参数敏感性分析的计算结果可知，弹性模量、泊松比变化时，产生的位移变化较大，容重变化时，产生的位移变化很小，粘聚力、内摩擦角变化时，位移不产生变化。综合参数敏感性和变量相关性的分析结果，初步确定待反演参数为弹性模量和泊松比。
[0129]
从变量相关性计算的分析结果发现，自变量之间即位移特征之间存在较高的线性相关性，其中收敛二和收敛三之间的相关性系数得分为0.96，拱顶降和拱底隆起之间的相关性系数为0.98，自变量之间高度相关，采用线性算法时，会出现模型的可靠度差、置信度低等问题。因此，决定采用非线性算法进行参数反演分析。
[0130]
第六步：利用cart算法确定待反演参数，进行位移特征组合筛选。cart算法流程如附图7所示。cart算法作为非线性算法，可以很好地避免线性算法模型位移特征之间线性相关和多重共线性对模型的不利影响。cart回归是递归生成二叉树的过程，分裂的过程使用平方误差最小化的准则，其具体计算过程如下：
[0131]
(1)选择切分变量j，切分变量为各个位移特征值；
[0132]
(2)根据切分原则，选择切分点s；
[0133]
(3)针对任一切分变量的任一切分点si，将训练样本x切分为2个样本子集r
1i
和r
2i
；
[0134]
其中，r
1i
＝{xj|xj≤si},j＝1～n；r
2i
＝{xj|xj》si},j＝1～n；i为切分点的编号；
[0135]
(4)取c1和c2分别为r
1i
和r
2i
中样本目标值y的平均值：
[0136][0137][0138]
(5)根据平方误差最小化原则，应用筛选最优的切分变量和切分点：
[0139][0140]
(6)根据筛选的切分变量j和切分点s，将训练样本划分为r1和r2两个样本子集；
[0141]
(7)在样本子集r1和r2中，重复步骤(1)～(6)，将子集r1和r2进一步划分为更小的子集；
[0142]
(8)重复步骤(1)～(7)，对子集进一步划分，直到满足结束条件(如达到树的最大深度，叶子节点对应的样本数达到最小的样本数等)；
[0143]
(9)最终，通过上述划分，将训练样本输入空间划分为r1、r2、r3、...rm等m个叶子节点，生产决策树：
[0144][0145][0146][0147]
表7所示为cart算法参数反演结果统计表。其中，用可决系数来表征参数反演的准确率。可决系数r2的计算公式如下：
[0148][0149]
表7
[0150][0151]
如表7所示，cart算法反演弹性模量的准确率较低，因此使用cart算法反演弹性模量的可行性较差，使用cart算法反演泊松比的准确率较高，建立反演泊松比的预测模型的可行性较大。
[0152]
为了提高cart算法模型预测的准确率，采用xgboost集成算法对单一算法进行集成。但xgboost集成算法要求单一算法的预测准确率高于0.5。因此进一步确定待反演参数为泊松比。
[0153]
为了进一步确定最优的位移特征组合，对位移特征进行筛选。具体操作是对拱顶沉降、拱低隆起、水平收敛一、水平收敛二、水平收敛三五个位移特征组合进行枚举，共19种位移参数组合，将这些参数组合反演泊松比的计算结果统计如表8所示。
[0154]
表8
[0155][0156]
由各位移特征组合反演泊松比的计算结果可知，特征组合选为全部位移特征时的预测准确率最高，则此位移特征组合为最优位移特征组合。
[0157]
第七步：以cart算法作为基学习器，建立基于xgboost集成算法的隧道围岩参数反演模型。xgboost集成算法流程如附图8所示。xgboost算法是一种集成算法，基于boosting思想将基学习器算法进行集成。xgboost每次迭代都会调整基学习器cart算法叶子节点的权重，重点关注上一次迭代分错的节点，并修改该节点的的权重值，xgboost最终的预测结果为所有节点的权重和。
[0158]
构建xgboost集成算法模型的具体实施过程如下：
[0159]
(1)对cart算法进行迭代，每次迭代是对上一次得到cart决策树的残差进行拟合，以使残差最小化；残差计算公式为：
[0160]
r＝y-f
t-1
(x)
[0161]
其中，r为残差，y为样本输出的真实值，t为迭代次数，x为样本的输入变量，f
t-1
(x)为第t-1次迭代时cart决策树模型的预测值；
[0162]
(2)进行第0次迭代：
[0163][0164]
其中，f0(x)为第0次迭代的预测值，l为目标函数，yi为样本输出变量的真实值，c为目标函数的参数，本专利中取其为样本输出变量的平均值；
[0165]
(3)进行第1次迭代：以样本输出变量真实值与样本输出变量平均值c的差值，作为样本的输出值y
1i
；根据指定的目标函数，应用cart算法，构造第1个cart决策树模型，获得样本输出变量的预测值f1(x)；
[0166]
(4)进行第2次迭代：以第1次迭代样本原始输出值y
1i
与第1次迭代样本输出变量预测值f1(x)的差值，作为样本的输出值y
2i
；根据指定的目标函数，应用cart算法，构造第2个cart决策树模型，获得样本输出变量的预测值f2(x)；
[0167]
(5)按照与第2次迭代同样的方法，构造第3，4，...，m个cart决策树模型，获得样本输出变量的预测值f3(x)，f4(x)，...，fm(x)，直到残差满足要求；
[0168]
(6)根据上述m个cart决策树模型，按照以下公式计算预测样本的输出值：
[0169][0170]
xgboost算法的目标函数是在常规的平方误差损失函数的基础上，加上一个正则项而得到的：
[0171][0172]
其中，t为叶子节点的数量；γ和λ分别是叶子节点和叶子节点权重的正则化系数；为叶子节点j下各样本的一阶导数之和；为损失函数对样本输出变量预测值的一阶导数；为叶子节点下j各样本的二阶导数之和；为损失函数对样本输出变量预测值的二阶导数；ij＝{i|q(xi)＝j}为叶子节点j下的样本集；是前t-1轮学习器累加以后给出的第t-1轮的预测值；yi是样本输出变量的原始值；i为样本的编号。
[0173]
表9为xgboost集成算法反演泊松比效果评价统计表。
[0174]
表9
[0175][0176]
xgboost集成算法超参数众多，在面对具体问题时，具体问题的数据特点显然是和xgboost的默认的超参数组合不是最匹配的。xgboost集成算法的超参数和具体问题的数据特点不匹配时，会影响xgboost集成算法的稳定性和预测准确率。因此，为了获得稳定性更
好、预测准确率更高的xgboost集成算法模型，有必要对xgboost集成算法进行超参数优化。因此接下来对xgboost集成算法进行优化，以期提升模型的预测准确率。
[0177]
第八步：对xgboost集成算法进行超参数优化，针对参数反演的数据特征，从xgboost集成算法中筛选出可以进行调优的超参数，可进行调优的超参数见表10。
[0178]
表10
[0179][0180]
首先利用控制单一变量法缩小超参数的择优范围，其具体实施过程如下：
[0181]
(1)分别针对每一个超参数，对超参数取值进行等值离散化，获取一定数量的等值点；
[0182]
(2)将离散化后的超参数取值代入xgboost集成算法模型，获取每一个模型的可决系数和泛化误差；
[0183]
(3)根据可决系数和泛化误差的变化规律，获取每一个超参数的最优取值范围。
[0184]
分别绘制表10中超参数不同取值时的可决系数得分曲线和泛化误差得分曲线。如图9所示为超参数n_estimators取不同值时的可决系数得分曲线，如图10所示为超参数n_estimators取不同值时的泛化误差得分曲线。
[0185]
根据超参数n_estimators在取不同值时可决系数和泛化误差的得分曲线，当n_estimators取值在15左右时，其可决系数得分达到峰值左右，其泛化误差得分也达到最低值附近，随着该超参数继续增大，其可决系数和泛化误差都保持不变。因此，根据可决系数和泛化误差的得分曲线，可以缩小该超参数的优化搜索范围为[5，20]。当该超参数的取值大于20时，不仅不会增加模型的准确率减小误差，同时还会造成过拟合，并且增加模型的复杂度，降低模型的运行效率。
[0186]
通过控制单一变量法确定的xgboost集成算法的超参数取值范围见表11。
[0187]
表11
[0188][0189]
利用贝叶斯优化法对超参数组合进行寻优。贝叶斯优化法以贝叶斯定理为基础，由概率代理函数和采集函数两大部分组成，为了找到目标函数的极值，每次采集函数对数据进行一次采集后都会更新概率代理函数，采集函数根据概率代理函数的反馈，在有可能出现极值的区域进行采集。每一次采集后再次更新概率代理函数，如此进行循环迭代。贝叶斯优化算法充分利用了历史计算数据，少走了很多弯路，其计算量比其他算法少很多，是一种更聪明的优化方法。
[0190]
利用贝叶斯优化法对超参数进行寻优，其具体过程为：
[0191]
(1)建立超参数样本为x＝[x1,x2,x3,...,xn],xgboost模型的目标函数取值为y＝[y1,y2,y3,...,yn]，y服从多维正态分布；
[0192]
(2)建立高斯过程的核函数：
[0193][0194]
其中，和l为核函数的参数；
[0195]
(3)根据核函数，建立核向量：
[0196][0197]
(4)建立y的似然函数：
[0198][0199]
其中，μ为x的均值；
[0200]
通过梯度下降法对似然函数求极小值，计算核函数的参数，得到最优的核矩阵；
[0201]
(5)根据最优核矩阵，建立y的后验概率与先验概率和输入变量之间的高斯过程：
[0202][0203]
其中y
*
为后一步迭代得到的输出变量取值，k
*
为后一步迭代的核向量；
[0204]
上述高斯过程，建立了模型的目标函数值与超参数之间的函数关系；
[0205]
(6)以上述高斯过程为概率代理模型，建立poi(probability of improvement)为
习得函数：
[0206][0207]
其中，f(x)为x的目标函数值，即上述推导得到的高斯过程；f(x

)为目前最优的目标函数值，即f(x)的后验分布；μ(x)和σ(x)为高斯过程所得目标函数的均值和方差；ξ为trade-off系数，控制超参数的优化方向偏向于“开发”或者“搜索”；基于上述poi习得函数，应用蒙特卡洛法进行上述最优超参数的搜寻；
[0208]
(7)将根据习得函数搜寻的最优超参数带入概率代理模型，建立新的高斯过程；
[0209]
(8)以新的高斯过程为概率代理模型，建立新的poi，应用蒙特卡洛法进行新一轮的超参数寻优；
[0210]
(9)重复上述操作，直到满足迭代停止条件，获取最终的最优超参数组合。
[0211]
基于python，从bayes_opt模块调用bayesianoptimization贝叶斯优化算法，经过30轮迭代寻优计算以后输出的超参数组合见表12。
[0212]
表12
[0213][0214][0215]
第九步：将表12输出的超参数组合对xgboost集成算法的超参数进行定义。然后将数据库中80％的数据集作为训练集数据代入定义超参数的xgboost集成算法进行训练，利用剩下的20％的数据作为测试集数据对模型进行测试。泊松比的参数反演分析评价指标见表13。
[0216]
表13
[0217][0218]
部分预测值与真实值的柱状对比图如图11所示。
[0219]
为了验证预测参数结果的实用性，将部分预测参数带入数值模拟计算模型，将预测参数产生的位移与真实参数产生的位移进行对比，误差小于10％则证明预测参数的可用性。预测参数与真实参数所产生的位移的比较见表14。可见，所有算例的误差都小于10％，说明基于优化xgboost集成算法的隧道围岩参数反演模型具有实用价值。
[0220]
表14
[0221][0222]

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：智能识别敏感信息并脱敏的方法、装置、设备及存储介质与流程

基于XGBoost优化算法的隧道围岩参数智能反演分析方法

相关文献

最热文献