一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法与流程

2022-03-26 06:25:36 来源:中国专利 TAG:

技术特征:
1.基于梯度提升决策树的erα拮抗剂的生物活性定量预测方法,其特征在于:包括以下步骤:1、对影响erα拮抗剂的生物活性的变量数据进行预处理:统计各个自变量的所有样本数据全为零的情况,将样本数据全为零的变量进行删除;2、变量的筛选:(1)皮尔逊(pearson)相关系数筛选线性相关变量皮尔逊相关系数是描述两个变量之间线性相关性的度量方法,在区间-1到1之间取值;皮尔逊相关系数的定义为:取两个随机变量x,y的n个观测值,其中x
i
,y
i
分别代表变量x,y的第i个观测值,分别代表两个变量的均值;(2)互信息筛选非线性相关变量:选取与目标变量高度相关的特征,对因变量与自变量求取互信息,选取互信息值比较大的自变量作为目标特征:信息熵:选取一个随机变量x,x
i
,i={1,2,3...,n},是变量x的一组观测值,p(x)为变量x取值x时的概率,信息熵如下表示:当h(x)取值越大时,变量x越不确定;条件熵:在选定随机变量x的条件下,定义随机变量y关于x的条件熵:其中p(x,y)为随机变量x与y的联合概率密度,p(y/x)为在确定x的条件下变量y的条件概率密度;互信息:i(x;y)=h(x)-h(x/y)在上述基础上,利用算法,依次计算因变量(生物活性)与自变量(分子描述符)的互信息,互信息值越大,两者之间的相关性越强,根据互信息大小进行排序,选取前200个与生物活性相关性强的作为目标特征变量;(3)随机森林筛选随机森林的基本分类器是决策树,它是一种机器算法,结构类似于倒立的树,由根节点,内部节点以及叶子节点组成,每一个非叶子节点都表示一个决策;
特征重要性度量:假设有n个样本数据,m个特征集,从样本数据中有放回地随机抽取n(n<n)个样本作为训练集,剩下的样本数据作为测试集(袋外样本),从特征集中有放回地随机抽取m(m<m)个特征,重复操作k次,选出k棵树组成一个随机森林,选定一棵树,它包含m个特征,对于这棵树中的某个特征,在测试集中,随机改变关于这个特征样本数据,求解前后的测试集误差率的差值作为该特征在这棵树中的重要程度,计算出所有特征在各棵树中的重要程度,得出某个特征在某些树中的重要程度,不能作为该特征在整个森林中的重要程度,从上述分析中可以看出,每个特征在多棵树中重复出现,求取这个特征值在多棵树中的重要程度的平均值作为该特征在森林中的重要程度;特征重要性度量公式:其中nt表示特征m
i
在森林中出现的次数,errorb
t2
表示第t1棵树中特征值改变之后的袋外误差,errorb
t1
表示第t1棵树中正常值的袋外误差;特征变量选择:特征权值反映了操作变量的重要程度占比,对每一个操作变量的特征权值,计算其特征权值,具体公式为:其中,weight(m
i
)为特征m
i
的特征权值,mdm(m
i
)为特征m
i
的平均袋外数据误差,m为特征总数;3、独立性检验:(1)距离相关系数用dcorr(x,y)衡量变量x和y之间的独立性,当dcorr(x,y)为0时,变量x和y彼此独立;当dcorr(x,y)值越大,两个变量之间的相关性越强,变量x和y之间的相关性与系数值呈正比,设(x
i
,y
i
),其中i={1,2,3,...,n}是总体(x,y)之间的观测值,||x
i-x
j
||2为x
i
与x
j
之间的二范数;其中,其中,
同理可得,同理可得,为了获得彼此相对独立的自变量,要求自变量之间关系为不相关或弱相关;4、模型建立:梯度提升决策树是一种迭代的决策树算法,该算法由多棵决策树组成,将所有决策树的结论进行累加,为模型最终输出的结果,该模型中的子树为回归树,回归树的每个节点都会输出一个预测值,该预测值为该节点中所有样本的均值,梯度提升决策树用于回归预测;梯度提升决策树的算法步骤如下:1)初始化,估计使损失函数极小化的常数值,它是只有一个根节点的树,即ganma是一个常数值;2)流程操作(1)计算损失函数的负梯度在当前模型的值,将它作为残差的估计;(2)估计回归树叶节点区域,以拟合残差的近似值;(3)利用线性搜索估计叶节点区域的值,使损失函数极小化;(4)更新回归树;3)得到输出的最终模型f(x)。

技术总结
本发明公开了基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法,属于生物制药和机器学习技术领域;解决了梯度提升决策树线性和非线性的多元回归模型不能很好的进行拟合的技术问题;其技术方案为:包括以下步骤:步骤一:对影响ERα拮抗剂的生物活性的变量数据进行预处理;步骤二:变量的筛选;步骤三:独立性检验;步骤四:模型建立。本发明的有益效果是:本发明在数据的采集过程中,先对数据进行预处理,删除全为零的列,降低了不良数据对预测模型的影响,也加快了变量的筛选速度;通过传统方法和机器学习方法筛选出特征变量,再通过特征变量建立ERα拮抗剂的生物活性定量预测模型。测模型。测模型。


技术研发人员:张晓峰 陈哲 欧垚君 丁红 陶秦 施正阳 魏东
受保护的技术使用者:南通大学
技术研发日:2021.10.29
技术公布日:2022/3/25
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献