一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

抗癌候选药物的ADMET性质预测方法及系统

2022-05-18 05:31:08 来源:中国专利 TAG:

抗癌候选药物的admet性质预测方法及系统
技术领域
1.本发明属于抗癌候选药物抗癌分子admet性质数据处理技术领域,尤其涉及一种抗癌候选药物的admet性质预测方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.在抗癌药物研发中,通过建立有效的抑制癌靶标蛋白生物活性表达模型来筛选潜在药物化合物,预测具有更好抑制靶标生物活性的新化合物分子。同时,除了关注候选药物抗癌分子抑制靶标的生物活性外,在进一步药物研发过程中更需要考虑到组成抗癌药物的化合物admet性质对人体健康的影响。所述admet性质,主要是指人体内需具备良好的药代动力学性质和安全性。其中,a代表吸收(absorption)、d代表分布(distribution)、m代表代谢(metabolism)、e代表排泄(excretion)、t代表毒性(toxicity)。adme主要指化合物的药代动力学性质,描述了化合物在生物体内的浓度随时间变化的规律,t主要指化合物可能在人体内产生的毒副作用。
4.因此,一个成功的治疗药物不仅仅需要依靠其化合物抗癌分子拮抗癌症靶标蛋白生物活性的表达,还需要满足药物的药代动力学性质以及生物毒性等性质,如药物化合物在小肠上皮细胞的渗透性、化合物被代谢的程度、化合物的口服生物利用度、以及化合物是否具有心脏毒性、遗传毒性等。但是由于化合物及其分子描述符的数据维度高、数据量有限和化合物结构的相似等难点,导致建立精准的抗癌候选药物admet性质预测模型具有很大的挑战。
5.发明人发现,在抗癌候选药物性质预测方面,由于传统的抗癌候选药物特征表示具有高维性和稀疏性,特征表达能力较弱,且传统的算法在特征工程中需要耗费大量的人力物力,才能找到一个行之有效的方法预测药物化合物的admet性质,因此,药物化合物性质预测是一个复杂而漫长的过程。并且,针对抗癌药物而言,由于其领域性强、数据量大且内容庞杂等特点,采用现有的特征提取方法,精度不高。


技术实现要素:

6.为了解决上述背景技术中存在的技术问题,本发明提供一种抗癌候选药物的admet性质预测方法及系统,其对物质的描述符与其理化性质之间的相关性建模,进而揭示物质化合物分子某种特征对性质的影响,进而提高抗癌候选药物的admet性质预测结果准确性。
7.为了实现上述目的,本发明采用如下技术方案:
8.本发明的第一个方面提供一种抗癌候选药物的admet性质预测方法,其包括:
9.获取抗癌候选药物化合物分子描述符信息;
10.对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定admet化合
物性质的关键特征;
11.对筛选出的关键特征进行admet性质分类预测,得到抗癌候选药物的admet性质预测结果。
12.本发明的第二个方面提供一种抗癌候选药物的admet性质预测系统,其包括:
13.数据获取模块,其用于获取抗癌候选药物化合物分子描述符信息;
14.变量筛选模块,其用于对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定admet化合物性质的关键特征;
15.性质预测模块,其用于对筛选出的关键特征进行admet性质分类预测,得到抗癌候选药物的admet性质预测结果。
16.本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的抗癌候选药物的admet性质预测方法中的步骤。
17.本发明的第四个方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的抗癌候选药物的admet性质预测方法中的步骤。
18.与现有技术相比,本发明的有益效果是:
19.本发明提供了一种抗癌候选药物的admet性质预测方法及系统,其通过对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定admet化合物性质的关键特征,进而对筛选出的关键特征进行admet性质分类预测,对admet性质进行高效可靠的降维处理,结合特征和敏感性参数分析,嵌入到机器学习模型中,进而提高预测模型的准确度,提高了抗癌候选药物的admet性质预测结果的准确性;
20.本发明针对抑制癌候选药物化合物的admet性质的分类预测,在传统机器学习的方法的基础之上建立有效的模型,对抗癌候选药物相关化合物及分子描述符信息以及admet性质数据进行挖掘分析,研究其分子机制,使用该模型预测抗癌候选药物的admet性质,从而研发具有更好药物性质的新化合物分子,或者指导已有活性化合物的结构优化,加快癌候选药物的研发过程,为癌临床治疗研究提供理论参考。
21.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
22.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
23.图1是本发明实施例的抗癌候选药物的admet性质预测方法流程图;
24.图2(a)是本发明实施例中五类药物化合物性质中caco-2性质与相关系数可视化图;
25.图2(b)是本发明实施例中五类药物化合物性质中cyp3a4性质与相关系数可视化图;
26.图3是本发明实施例中支持向量机svm的admet性质预测模型混淆矩阵图;
27.图4为本发明实施例中随机森林模型中n_estimators评估示意图;
28.图5为本发明实施例的抗癌候选药物的admet性质预测系统结构示意图。
具体实施方式
29.下面结合附图与实施例对本发明作进一步说明。
30.应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
31.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
32.实施例一
33.成功治疗癌症药物的化合物生物活性是极其重要的,即如果一个组成药物的化合物分子生物活性很弱,则其对应的药物治疗疾病效果会很差,达不到预防或者治疗疾病的目标。但在抗癌药物预测过程中仅仅考虑其抑制靶标生物活性的强弱是远远不够的,还要考虑预测药物分子的化学性质,不同的化合物性质又受到不同关键分子描述符的影响。
34.参照图1,本实施例提供了一种抗癌候选药物的admet性质预测方法,其具体包括如下步骤:
35.s101:获取抗癌候选药物化合物分子描述符信息。
36.s102:对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定admet化合物性质的关键特征。
37.其中,所述admet化合物性质包括caco-2、cyp3a4、herg、hob和mn的性质;其中,caco-2表示化合物小肠上皮细胞的渗透性,
‘1’
代表该化合物的小肠上皮细胞渗透性好,
‘0’
代表该化合物的小肠上皮细胞渗透性差。
38.cyp3a4表示化合物是否能够被cyp3a4代谢,其中
‘1’
代表该化合物能够被cyp3a4代谢,
‘0’
代表该化合物不能被cyp3a4代谢。
39.herg表示化合物是否具有心脏毒性,
‘1’
代表该化合物具有心脏毒性,
‘0’
代表该化合物不具有心脏毒性。
40.hob表示化合物的口服生物利用度,其中
‘1’
代表该化合物的口服生物利用度好,
‘0’
代表该化合物的口服生物利用度差。
41.mn表示化合物是否具有遗传毒性,其中
‘1’
代表该化合物具有遗传毒性,
‘0’
代表该化合物不具有遗传毒性。
42.对于化合物admet的每个性质,数据变量的选择有可能相同,也有可能不同,且在变量数量的选择上也是如此,根据提供的样本信息,在对化合物的五类admet性质进行预测之前,首先进行清洗数据信息筛选关键变量,从而为化合物性质预测提供更精准的服务。
43.在具体实施过程中,基于随机森林集成模型对抗癌候选药物化合物分子描述符信息进行多特征提取。
44.在医学基因工程的诊断工作、生物学细胞的识别工作等应用中,数据或特征的数量往往比实例类别多几个数量级,大量的特征会增加数据的噪声,从而增加学习算法的误差。因此,使用特征选择技术去除对分类数据无关、有问题的特征,从而降低数据维度。
45.以随机森林算法为代表的集成算法在对数据进行分类的同时,还可以对各个变量
进行重要性评估,而集成学习作为一种有监督的机器学习范式,使用多个模型来解决相同的问题,解决了单个分类器系统预测性能有限的问题。
46.本实施例利用随机森林集成模型拟合化合物样本数据与分子描述符特征筛选后的特征子集,从原始数据集中评估所有特征,保留对数据分类高效可靠的相关特征,生成多样化、高信息量的特征集合是获得良好的集成分类结果的关键,最优特征子集有助于提高分类精度。
47.随机森林集成模型(rf)拥有可放回抽样和随机进行特征选择的特性,rf由一系列分类器{h(x,θk),k=1,2...n}构成,该分类器中的{θk}属于独立同分布的随机变量,用来控制每一个分类器的增长;变量n代表分类器的数目;自变量x代表输入的数据集样本,综合所有分类器投票最多的分类标签赋值给x。
48.特征选择算法在选择节点属性时,从全体属性中随机的选择f(f≤n)个属性,比较这f个属性上分裂规则最优的属性对节点进行分裂。f的值即为随机特征变量。本实施例的随机变量选择采用封装式选择算法得到比较简化的集合,rf的每一个分类器,在处理特征数据集的时候,会通过bootstrap方法随机可放回地选择到x个样本训练集,那么剩余未被选择到的则是袋外数据(out-of-bag,oob)。
49.具体地,基于抗癌候选药物化合物各个分子描述符与提取的各个特征的之间的相关性,来确定出admet化合物性质的关键特征。
50.其中,筛选出决定admet化合物性质的关键特征的过程为:
51.基于设定特征重要性公式来计算每个特征的重要性,并按降序排序;
52.依据特征重要性剔除预设剔除比例的特征,得到一个新的特征集;
53.对新的特征集重复上述重要性排序及特征剔除过程,直到剩下预设数量的特征;
54.根据得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集,以作为决定admet化合物性质的关键特征。
55.设定特征重要性公式为:
[0056][0057]
其中,代表oob,b代表被抽中的数据,i(
·
)代表示性函数,yi代表中的第i个分类标签,代表rf在取完数据之后,进行特征置换后xj的分类标签,hk(i)则代表针对样本集bk,所预测i的分类标签。
[0058]
随机森林模型在拟合数据后,会对数据属性列,拟合后认为的所给训练属性列的重要程度,变量重要性度量数组中,数值越大的属性列对于预测的准确性更加重要。
[0059]
需要说明的是,本领域技术人员也可采用其他现有的神经网络模型来对抗癌候选药物化合物分子描述符信息进行多特征提取,此处不再详述。
[0060]
在训练随机森林集成模型的过程中,获取已有标签的样本数据,其中,一个有效的治疗癌症的药物化合物,既要在一定程度内抑制癌症靶标生物活性的表达还要有较好的admet性质。
[0061]
本实施例要求根据提供的样本数据信息,其中包含1974个化合物样本,每个样本都有729个分子描述符变量,五类admet性质数据。本实施例的癌症以乳腺癌为例:图4给出了本实施例中随机森林模型中n_estimators(n估计量)评估。
[0062]
结合数据样本包含特征量大而样本量少的这一特点,需要使用特征选择技术进行提纯的数据处理。与此同时,数据提供的化合物的729个分子特征对五类admet性质是不同的,因此,利用集成学习随机森林的特征选择对分子描述符特征进行自动分析,从原始数据集中评估所有特征,分别保留对admet五个性质高效可靠的降低维度的相关特征。
[0063]
s103:对筛选出的关键特征进行admet性质分类预测,得到抗癌候选药物的admet性质预测结果。
[0064]
在本实施例中,采用性质预测模型对筛选出的关键特征进行admet性质分类预测;其中,所述性质预测模型为支持向量机。
[0065]
需要说明的是,本领域技术人员也可采用其他现有的神经网络模型来对筛选出的关键特征进行admet性质分类预测,此处不再详述。
[0066]
本实施例中,已知不同的药物分子描述符具有不同的特性,而化合物是由大量不同的分子组成。因此,根据已知的1974个化合物的admet性质,从分子描述符的角度出发,构建性质预测模型,训练相应参数,从而分别预测化合物的admet性质。
[0067]
首先,对于药物化合物admet五个不同的特性,关键特征不同,即关键变量不同,则模型的输入变量不同。所以,本实施例首先构建随机森林模型,根据admet不同性质进行关键特征提取,并得到不同分子描述符的相关系数值,如下表1和表2所示,可视化效果如图2(a)和图2(b)所示,且相关系数值越大,则表明二者之间存在更加明显的正相关。
[0068]
针对于化合物admet数据中所描述的五类caco-2、cyp3a4、herg、hob、mn性质可知,caco-2、cyp3a4、hob分别代表该化合物的小肠上皮细胞渗透性能力,代谢能力,口服生物利用度,这三项指标均为1时,代表该化合物性能较好;herg、mn分别代表该化合物是否具有心脏毒性和是否具有遗传毒性,这两项指标均为0时,代表该化合物性能较好。
[0069]
分子描述符分别对caco-2、cyp3a4、hob的性质呈正相关,对herg、mn的性质呈负相关,且对模型的训练参数进行优化。
[0070]
表1caco-2,cyp3a4,hob三个性质相关分子描述符
[0071]
[0072][0073]
表2mn,hreg两个性质相关分子描述符
[0074][0075]
对于表1和表2分析可知,对于遗传毒性(mn),相关系数较高的分子描述符从高到底分别为eta_betap_s,eta_etap_f,eta_etap_f_l,eta_etap_l,eta_epsilon_1,eta_betap,eta_depsilon_a等,观察分子描述符的结构可知,该类分子描述符均有共同的化合基eta,因此,可以预测,化合基eta具有遗传毒性的可能性。
[0076]
本实施例采用随机森林集成模型特征选择得到与admet五个性质不同的相关关键特征,然后针对化合物的caco-2、cyp3a4、herg、hob、mn分别建立预测模型。
[0077]
本实施例将机器学习支持向量机(svm)算法应用到药物化合物
‑‑
admet性质分类预测中,分别针对药物化合物的不同性质,提取出各个影响因素的关键变量,构造支持向量机(svm)的分类器预测模型,克服现有技术存在的主要问题,为药物化合物性质预测提供新思路。
[0078]
支持向量机(svm),其基本思想是求解能够正确划分训练数据集并且几何间隔最
大的分离超平面。其算法已在图像识别、文本分类等领域得到广泛应用,该算法在药物分子领域内亦得到广泛应用。
[0079]
采用支持向量机在解决分类问题时,基本的思想是基于训练集d找到一个划分的超平面,从而将不同类别样本分开,二分类支持向量机的训练集为:
[0080]
d={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{-1,,1}
[0081]
其中xi代表第i个输入的向量,yi代表第i个输出的值,m代表样本的个数。构建模型的目的是提供一个回归的函数y=f(x),通过一组新输入的xi来预测yi。一个支持向量回归用下面的公式来表示:
[0082]
存在如下划分超平面:
[0083]
ω
t
x b=0
[0084]
其中,ω=(w1;w2;...;wd)为法向量,d为维度,b为偏置量。此时分类的最大间隔为:
[0085][0086]
s.t.yi(ω
t
xi b)≥1,i=1,2,...,m.
[0087]
其中,ω和b为需要求解的超平面参数,ω代表系数向量,b代表位移量,xi代表第i个输入的向量,m代表样本的个数。
[0088]
在实际的应用中,会存在大量线性不可分问题,原始样本空间中并不存在一个合理的超平面,以保证样本的正确划分,然后通过选取适当的核函数k(x,x

)和适当的参数c,搭建并求解最优化问题,
[0089][0090][0091]
0≤αi≤c,i=1,2,...,m.
[0092]
式中,α为核超参数,定义了学习样本间相似性的特征长度尺度,即权重空间视角下特征空间映射前后样本间距离的比例,xi代表第i个输入的向量,yi代表第i个输出的值,m代表样本的个数。
[0093]
得到的最优解:根据选取α
*
的一个正分量计算阈值:
[0094][0095]
式中,代表最优核参数,k(
·
)代表核函数,xi代表第i个输入的向量,yi代表第i个输出的值,l代表样本个数,b
*
代表计算阈值。
[0096]
构造决策函数:
[0097][0098]
式中,sgn(
·
)为阶跃函数,代表当前最优核参数,yi代表第i个样本输出值,k
(
·
)代表核函数,b
*
代表计算阈值,l代表样本个数。
[0099]
基于测试数据,采用训练得到药物化合物admet性质模型进行预测及评价;
[0100]
通常采用准确率accuracy作为分类效果的衡量标准,但正确率并不适用对所有分类情况的评价,不平衡分类中此问题表现明显。以医疗检测为例,医院检测样本中极大一部分人无病,只有少部分人有病,若使用正确率作为检测结果的依据,可能发现检测结果的正确率高达99%以上,但这99%的正确率显示的是病人无病,其中有病的人可能也被检测成无病,这样的检测结果对病人造成不可估量的损失。
[0101]
本实施例中对药物化合物admet特性分类预测一样属于不平衡分类问题,故不采用正确率做分类的评价指标。本实施例利用混淆矩阵、precision(精确度)、recall(召回率),f1
_scores
等指标对化合物的admet性质进行评价。
[0102]
所述准确率acc指对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。
[0103][0104]
其中,tp:true positives,正类判定为正类;fp,false positives,负类判定为正类,"存伪";fn,false negatives,正类判定为负类,"去真";tn,true negatives,负类判定为负类。
[0105]
所述精确度precision是指以预测结果为基础,指预测正确的化合物特性的样本占所有预测总样本数量的比例。
[0106][0107]
所述召回率recall指预测正确的化合物的数据占实际化合物相应性质的样本数量的比例。
[0108][0109]
所述f1
_scores
(平衡f分数)指精确率和召回率的调和平均数。
[0110][0111]
利用本实施例中提供的729个分子描述符和对应1974个化合物的admet数据,在得到候选特征后,通过支持向量机svm计算化合物的caco-2、cyp3a4、herg、hob、mn的分类准确率,给出测试表中的50个化合物进行相应的预测。
[0112]
利用svm训练1700个样本数据,验证集为274个化合物数据,依次将admet五个性质对应的相关分子特征作为二分类支持向量机的输入训练样本,通过10轮交叉验证提取训练和测试样本点,得到表3的实验结果。
[0113]
本实施例中,对于五个性质分别采用accuracy,precision,recall和f1_scores这四个评价指标进行评估。
[0114]
表3分类实验结果
[0115] accuracyprecisionrecallf1-scorecaco-294.16%98.53%93.22%96.50%
cyp3a492.34%78.35%86.36%84.30%hreg88.33%82.46%74.42%78.48%hob90.88%95.34%94.14%94.73%mn89.94%95.21%71.79%92.33%
[0116]
本实施例中,由表3可知,对于“caco-2”度量化合物被人体吸收的能力的小肠上皮细胞渗透性在accuracy这个指标上取得94.16%,在precision这个指标上取得98.53%,在recall这个指标上取得93.22%,用于平衡的f1_scores这一指标也取得了96.50%准确率。对于其他四个性质,本实施例采用的分类模型也实现了88%以上的准确率,虽然支持向量机算法相对简单,但是针对特征数量集多和样本数较少的情况可有效解决分类。
[0117]
本实施例中,除了给出定量的评估指标的分析,进一步给出样本分类正确和错误的详尽情况,因此,利用python等工具绘制混淆矩阵如表4-表8所示,其中positive指预测正确的样本数,negative指预测错误的样本数,由于本实施例对化合物分子描述符的admet数据属性进行分类预测,模型的目标旨在尽可能提高预测化合物admet属性的准确度。
[0118]
表4支持向量机的caco-2性质预测混淆矩阵
[0119][0120]
表5支持向量机的cyp3a4性质预测混淆矩阵
[0121][0122]
表6支持向量机的herg性质预测混淆矩阵
[0123][0124]
表7支持向量机的hob性质预测混淆矩阵
[0125][0126]
表8支持向量机的mn性质预测混淆矩阵
[0127][0128]
本实施例中,支持向量机svm核函数是用来解决数据线性不可分而提出的,把数据从源空间映射到目标空间(线性可分空间)。将线性核函数和高斯核函数作为参数分析的两个指标,在表9中给出五个性质分别使用两种核函数的准确率。为了直观的看出两者准确率的区别,依据表9绘制二者比较的柱形图3。
[0129]
表9支持向量机svm核函数参数分析
[0130] 线性核函数高斯核函数caco-294.16%86.50%cyp3a492.34%86.50%hreg85.40%78.10%hob90.88%89.42%mn83.94%82.48%
[0131]
本实施例中,结合表9和图3的实验数据,得到的结论是采用线性核函数对于解决二分类admet性质预测问题是更有效的,五个性质的分类预测中线性核函数的准确率平均比高斯核函数高6%-8%,也更加间接的说明实验给出的分子描述符变量、生物活性以及admet性质呈现一种复杂的线性关系,为进一步求解提供了理论和实验支持。
[0132]
此处需要说明的是,本实施例的该抗癌候选药物的admet性质预测方法,除了适用于乳腺癌之外,也可适用于其他癌症,此处不再详述。
[0133]
实施例二
[0134]
如图5所示,本实施例提供了一种抗癌候选药物的admet性质预测系统,其具体包括如下模块:
[0135]
(1)数据获取模块,其用于获取抗癌候选药物化合物分子描述符信息;
[0136]
(2)变量筛选模块,其用于对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定admet化合物性质的关键特征;
[0137]
具体地,在所述变量筛选模块中,基于随机森林集成模型对抗癌候选药物化合物分子描述符信息进行多特征提取。
[0138]
基于抗癌候选药物化合物各个分子描述符与提取的各个特征的之间的相关性,来确定出admet化合物性质的关键特征。
[0139]
(3)性质预测模块,其用于对筛选出的关键特征进行admet性质分类预测,得到抗癌候选药物的admet性质预测结果。
[0140]
具体地,在所述性质预测模块中,采用性质预测模型对筛选出的关键特征进行admet性质分类预测;其中,所述性质预测模型为支持向量机。
[0141]
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
[0142]
实施例三
[0143]
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的抗癌候选药物的admet性质预测方法中的步骤。
[0144]
实施例四
[0145]
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的抗癌候选药物的admet性质预测方法中的步骤。
[0146]
本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0147]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献