一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于ChemCNet的有机合成智能分析方法及系统

2023-02-06 11:24:03 来源:中国专利 TAG:

基于chemcnet的有机合成智能分析方法及系统
技术领域
1.本发明涉及人工智能的有机合成技术领域,具体涉及一种基于chemcnet的有机合成智能分析方法及系统。


背景技术:

2.芳胺是化学中的基础产物和合成砌块,许多活性药物的成分都含有芳胺,它是药物化学领域有价值的靶点。芳基c-n键的形成反应由此在医药领域得到日益频繁的应用。c(sp2)-n键在药物发现中普遍存在,虽然经典的形成该键的策略,例如芳香族亲核取代反应(snar反应)、柯提斯重排反应(curtius rearrangement)和铜催化偶联反应仍然是重要的转变,但它们有限的范围限制了广泛的适用性。然而,钯催化的buchwald-hartwig偶联反应极大地改变了这一方向,该反应是目前产生c-n键的一种高效且通用的方法,而且该反应进一步的优化和开发,在药物研发及大规模生产中极具应用潜力。2004年,robinson,g.e等人基于钯催化buchwald-hartwig偶联合成策略合成了用于治疗抑郁和焦虑症的有效的口服活性5-ht1b受体拮抗剂zm549865;2010年,美国科学家理查德
·
赫克,日本科学家根岸英一和铃木章三位科学家因在“钯催化的交叉偶联反应”领域的杰出贡献获得诺贝尔化学奖。他们的工作广泛应用于医药领域,比如制备了对抗药性细菌起作用的药物抗生素,dna测序必不可少的荧光标记;2016年有报道称在2014年发表的药物化学论文中至少有10%使用过一次buchwald-hartwig偶联反应。诺华生物医学研究所的研究团队在2016年研究发现,buchwald-hartwig偶联反应是这40年间药物化学家常用的反应类型,由于有大量的含氮生物活性化合物,n-芳基化反应在制药行业中的整合是迅速的,合成程序的简单性和所获得的产品的多功能性也简化了用于药物化学的化合物库的创建,这些都表明了此反应在制药研发中的重要性。
3.然而,该反应的反应路线较为复杂,耗时长,成本高,传统的化学实验需要大量的人工试错,消耗大量的人力物力财力,而且在通过buchwald-hartwig偶联反应实现芳胺制备时,pd金属价格昂贵且具有毒性、反应过程中可能生成例如芳烃类化合物等副产品,不仅危害性较大而且会导致buchwald-hartwig偶联反应产率较低。因此利用人工智能算法,精准预测反应产率,探究反应条件与反应产率之间的内部关系,提高生产效率,节约生产成本,简化特殊复杂材料的大规模制造是一项十分有意义的工作。
4.随着大数据技术的快速发展,化学学科研究正在向基于数据的科学发现范式转变。研究人员借助计算机技术将化学数据进行一定形式的计算、编码转换成计算机可读的数据形式,即描述符。人工智能算法擅于挖掘化学反应实验中产生的大量实验数据的内部潜在信息,帮助化学家做出合理的预测和分析,大大提高化学研发效率,带动传统化学研究方式的转型升级。2018年,ahneman等人报道了随机森林对buchwald-hartwig偶联反应的反应产率的预测,这是机器学习方法在多维化学空间预测领域的先进研究。2021年yanan zhao等人使用二维dcnn对反应产率进行预测。然而,ahneman等人使用原始数据作为模型输入数据,数据纬度高,冗余性大,计算代价大;且采用随机森林作为预测模型,缺少深度学习
的特征学习思想,缺乏对深层特征的有效挖掘;yanan zhao等人也是采用原始数据,且网络层数多,节点多,计算相对复杂,另外全连接层容易过拟合。因此上述方法均具有不同程度的缺点,不能精准的挖掘到化学实验中反应条件与反应产率间的相关性,造成人力资源和实验资源的浪费。
5.综上,现亟需一种方法,能够快速精准的快速挖掘化学实验中反应条件与反应产率间的相关性,避免人力资源和实验资源的浪费,为化学家提供建设性意见,推动化学研究绿色化,智能化转型升级。


技术实现要素:

6.为了解决上述技术问题,本发明的目的在于提供一种基于chemcnet的有机合成智能分析方法,所采用的技术方案具体如下:
7.1)特征描述符的计算,是根据软件将每种偶联反应的组分转化为相应的特征描述符;
8.2)模型的建立,是构建chemcnet模型对特征描述符进行特征学习和产率的智能回归预测;
9.3)使用特征重要性和shap值对chemcnet模型的预测结果进行可视化分析。
10.优选的,步骤1)包括:
11.(1.1)将化学反应物和试剂导入软件,软件自动计算每种偶联反应组分的特征描述符,将化学反应物转换为一维数据;
12.(1.2)将rfe与catboost相结合,并采用shap为特征打分从而筛选特征,再将数据联合得到二维矩阵的形式并对数据进行标准化。
13.优选的,步骤(1.2)包括:
14.选取rfe后向搜索方法,shap值作为特征评价标准,为特征打分;根据后向搜索的原理,删除特征得分最低的特征,然后在剩余特征上继续构建模型,重新得到新一轮的特征排序,再删除得分最低的特征,重复此过程,依次删除特征得分最低的特征,直至达到指定的特征数量;
15.其中,在每一次的迭代过程中,会重新评价当前的剩余特征构成的集合,每一个特征的得分在反复迭代过程中得到调整,最终以模型的预测指标rmse的形式呈现;得到筛选后的特征之后,将这些特征划分为训练集和测试集;并将其分别与对应的产率匹配;再对数据进行标准化处理;之后将筛选后得到的数据集(1
×
24)扩展为(1
×
25)。
16.优选的,步骤2)包括:
17.(2.1)构建chemcnet模型;构建注意力卷积神经网络,将训练集导入卷积神经网络进行特征学习,挖掘数据深层特征,在卷积神经网络模型中融入注意力,通过不断迭代学习,分别计算每轮迭代的损失函数值,直至得到的损失函数值最小时,保存训练好的模型;
18.(2.2)产率的智能回归预测;将训练集和对应的产率导入卷积神经网络进行特征学习,将最后一层全连接层的输出作为catboost模型的输入数据进行训练预测,即为最终预测结果;采用可决系数和均方根误差评估模型的预测效果;
19.(2.3)对训练好的模型进行样本外预测,若样本外预测是有效的,则验证了训练好的模型的有效性和有泛化性;
20.(2.4)用户可根据预测效果,结合自身需求,自我进行参数调整,若不满意,则用户可以调整卷积神经网络的卷积核大小,层数、节点数,以及catboost相关参数,并返回步骤(2.2),直至用户满意。
21.优选的,步骤3)包括:
22.(3.1)通过catboost输出特征描述符的重要性排序,以此找到对反应产率影响显著的描述符;使用shap值分析描述符与反应产率间的相关关系,以及单一特征反应产率间的内部关系,为用户提供有关有机化学偶联反应的决策信息。
23.优选的,步骤(2.1)包括:
24.(2.1.1)通过输入层,隐含层和输出层搭建了一种卷积神经网络模型;其中隐含层包括5层卷积层,每层激活函数为relu函数和3层全连接层;
25.(2.1.2)在最后一层卷积层后加入一层注意力层;
26.(2.1.3)对构建好的模型进行训练,设置全部训练集的训练所需的迭代次数为p,一次读入的数据量为q,其中p≥1,q≥1;
27.(2.1.4)多次迭代学习并计算每次迭代网络模型的损失函数值,当损失函数值收敛到最小时,保存模型参数;
28.(2.1.5)将最后一层全连接层的提取的特征作为新的输出数据导入catboost模型进行训练预测;即为最终预测结果;采用可决系数和均方根误差评估模型的预测效果;
29.其中,所述注意力层采用eca-net;设一个卷积块的输出为x∈rw×h×c,其中w、h和c分别为宽度、高度和通道维度,r为实数域;不降维的聚合特征y∈rc;其中,r为实数域;c为通道维度;eca模块使用了一个频带矩阵wk来学习通道注意:
[0030][0031]
此处涉及了k
×
c个参数,yi的权重的计算只考虑yi和它的k个邻居之间的相互作用,即yi的权重为:其中,ωi为yi的权重;σ为sigmoid函数;为yi和它的k个邻居之间的相互作用,(如w
1,1
,...,w
1,k
);为yi的第j个相邻通道;为yi的k个相邻通道的集合;
[0032]
使所有通道共享相同的学习参数,即:
[0033][0034]
其中,ωi为yi的权重;σ为sigmoid函数;为yi和它的k个邻居之间的相互作用,(如w
1,1
,...,w
1,k
);为yi的第j个相邻通道;为yi的k个相邻通道的集合;
[0035]
使所有通道共享相同的学习参数可以通过一个核大小为k的一维卷积来实现,即:
[0036]
ω=σ(c1dk(y))
[0037]
其中,c1d为一维卷积;σ为sigmoid函数;
[0038]
确定一维卷积的核大小k;在k和c之间存在一个映射φ:c=φ(k);映射是一个线性函数,即φ(k)=γ*k-b;γ为线性函数中一次项的系数,b为常数项;然后将线性函数φ(k)
=γ*k-b扩展到非线性函数,即:
[0039]
c=φ(k)=2
(γ*k-b)
[0040]
然后,给定通道维数c,核大小k可以自适应地确定:
[0041][0042]
其中,表示的最接近奇数;
[0043]
最后用全连接层来把提取到的特征综合起来;再将全连接层提取的特征作为输入数据导入catboost模型进行回归预测;
[0044]
catboost模型使用以下方式:对于每个样本xk,训练一个单独的模型mk,该模型由不包含样本xk的训练集训练得到,而且使用该模型来估计xk上的梯度,并使用此估计对得到的树进行评分;即使用在前面的样本上训练的当前模型来更新模型的新样本的梯度,提供了无偏梯度;在学习过程的每一步t中,每个模型都被解释为一个模型f
t
的近似值;
[0045]
catboost首先为训练样本生成s 1个随机序列σ0,σ1,...,σs,其中σ1,...,σs用来构建决策树,σ0用来选择叶子节点的值,然后采用梯度步长的无偏估计,之后再进行标准的gbdt;除此之外,catboost使用对称树结构作为基本预测器,且在整个树中使用相同的分裂标准。
[0046]
本发明还提供了一种基于chemcnet的有机合成智能分析系统,该系统包括:
[0047]
特征描述符输入与预处理模块,用于根据软件将每种偶联反应的组分转化为相应的特征描述符;
[0048]
基于chemcnet系统的智能分析模块,用于构建chemcnet模型对特征描述符进行特征学习和产率的智能预测;
[0049]
基于可视化的结果可解释分析模块,用于使用特征重要性和shap值等对chemcnet模型的预测结果进行可视化分析。
[0050]
本发明实施例至少具有如下有益效果:
[0051]
本发明针对传统机器学习在对偶联反应产率预测时缺乏深入的特征挖掘的问题,提出了一种基于chemcnet的有机合成智能分析方法及系统。该方法包含了深度学习的特征学习思想,借助注意力驱动的神经网络深入挖掘数据的本质特征,并将普通的全连接输出层换为性能优良的集成树回归器,提高模型的预测精度的同时避免过拟合。用户可以自我调节参数以达到最佳预测效果;通过树模型得到特征描述符的重要性排序,得到对产率影响显著的重要描述符;通过shap值分析得到描述符与反应产率间的相关关系,以及单一特征反应产率间的内部关系,全方位,多角度的为用户提供有关有机化学偶联反应方面的决策信息。本发明能有效辅助为化学家分析预测,在实现产率精准预测的同时,增强结果的可读性。本发明操作简单,易于实现,用户能够方便快捷的获取较为准确的分析结果。
[0052]
进一步地,本发明构建的chemcnet模型通过添加注意力,在没有显著增加模型复杂度的同时聚焦关键特征,提高预测精度,使网络语义信息更丰富饱满。
附图说明
[0053]
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施
例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0054]
图1为本发明分析方法流程图;
[0055]
图2为本发明实施例中化学反应的反应式和反应组分;
[0056]
图2中的标记:equation:buchwald-hartwig:偶联反应以及反应组分,aryl:卤化物,ligand:配体,base:基底,additive:添加剂。
具体实施方式
[0057]
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的方案,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
[0058]
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0059]
请参阅图1,其示出了本发明一个实施例提供的方法流程图,该方法包括以下步骤:
[0060]
1)特征描述符的计算,是根据化学软件计算每种偶联反应组分的特征描述符,并将其转换为一维实验数据。
[0061]
具体地,步骤1)包括以下步骤:
[0062]
(1.1)将化学反应物和试剂导入化学软件,软件自动计算每种偶联反应组分的特征描述符,将化学反应物转换为一维数据。
[0063]
本实施例中,将图2所示的buchwald-hartwig偶联反应的所有反应组分(包含23种添加剂、15种卤化物、3种基底和4种配体)导入化学软件,自动计算并提取每种反应组分的一维特征描述符,最终得到120个特征描述符,将化学反应物转换为一维数据。去除部分无效反应和并用平均值填充部分缺失值后,共3960组反应数据作为实验数据。
[0064]
(1.2)将rfe与catboost相结合,并采用shap为特征打分从而筛选特征,再将数据联合得到二维矩阵的形式并对数据进行标准化。
[0065]
优选的,选取rfe后向搜索方法,shap值作为特征评价标准,为特征打分;根据后向搜索的原理,删除特征得分最低的特征,然后在剩余特征上继续构建模型,重新得到新一轮的特征排序,再删除得分最低的特征,重复此过程,依次删除特征得分最低的特征,直至达到指定的特征数量;指定的特征数量在本实施例中的取值为24,实施者可根据具体情况进行调节。
[0066]
其中,在每一次的迭代过程中,会重新评价当前的剩余特征构成的集合,每一个特征的得分在反复迭代过程中得到调整,最终以模型的预测指标rmse的形式呈现;得到筛选后的特征之后,将这些特征划分为训练集和测试集;本实施例中将这些特征描述符按照7:3的比例划分训练集和测试集;具体实施过程中,实施者可对比例进行调整;并将其分别与对应的产率匹配;再对数据进行标准化处理;之后将筛选后得到的数据集(1
×
24)扩展为(1
×
25);即在数据集(1
×
24)中随机选择任何一维复制后放到最后一列,完成对数据集的扩展。
对数据集进行扩展的目的是将描述符集转换为卷积神经网络的输入格式,以便后续可以调整大小。
[0067]
需要说明的是,本发明认为模型与特征之间存在十分紧密的联系,为最大发挥模型效益且降低数据冗余性,采用了一种与模型相关的特征筛选算法,获得一组简洁全面的特征描述符集合,为符合网络的输入形式,将数据联合得到二维矩阵的形式并对数据进行标准化。
[0068]
2)模型的建立,是构建chemcnet模型对特征描述符进行特征学习和产率的智能回归预测。
[0069]
具体地,步骤2)包括:
[0070]
(2.1)构建chemcnet模型;即根据数据特点,自行构建注意力卷积神经网络,将训练集导入卷积神经网络进行特征学习,深入挖掘数据深层特征,在卷积神经网络模型中融入注意力,通过不断迭代学习,分别计算每轮迭代的损失函数值,直至得到的损失函数值最小时,保存训练好的模型。
[0071]
优选的,步骤(2.1)具体包括:
[0072]
(2.1.1)通过输入层,隐含层和输出层搭建了一种卷积神经网络模型;其中隐含层包括5层卷积层,每层激活函数为relu函数和3层全连接层。
[0073]
需要说明的是,由于每个描述符都包含特定的不可忽略的化学信息,所以需要尽可能地保留所有的数据,于是本发明依据数据实际背景意义,选择去掉池化层。即通过输入层,隐含层和输出层的简单堆叠自行搭建了一种卷积神经网络模型;其中隐含层包括5层卷积层,每层激活函数为relu函数和3层全连接层。
[0074]
(2.1.2)在最后一层卷积层后加入一层注意力层(eca-net)。其中加入注意力层的目的是:使模型在提取信息时,关注不同尺度信息,聚焦关键特征。
[0075]
(2.1.3)将步骤(1.2)得到的数据导入chemcnet模型;对构建好的模型进行训练,设置全部训练集的训练所需的迭代次数为p,一次读入的数据量为q,其中p≥1,q≥1。
[0076]
(2.1.4)多次迭代学习并计算每次迭代网络模型的损失函数值,本实施例中的损失函数为均方误差损失函数。当损失函数值收敛到最小时,保存模型参数。
[0077]
(2.1.5)将最后一层全连接层的提取的特征作为新的输出数据导入catboost模型进行训练预测;即为最终预测结果。采用可决系数(r-square,r2)和均方根误差(root mean square error,rmse)评估模型的预测效果。
[0078]
其中,所述注意力层采用eca-net;在不降低维数的通道级全局平均池化之后,eca通过考虑每个通道及其k个邻居来捕获局部跨通道交互信息;设一个卷积块的输出为x∈rw×h×c,其中w、h和c分别为宽度、高度和通道维度,通道维度也即通道数,表征的是滤波器的数量;r为实数域;不降维的聚合特征y∈rc;其中,r为实数域;c为通道维度;eca模块使用了一个频带矩阵(band matrix)wk来学习通道注意:
[0079][0080]
此处涉及了k
×
c个参数,而且避免了等式中不同群体之间的完全独立,yi的权重
的计算只考虑yi和它的k个邻居之间的相互作用,即yi的权重为:其中,ωi为yi的权重;σ为sigmoid函数;为yi和它的k个邻居之间的相互作用,(如w
1,1
,...,w
1,k
);为yi的第j个相邻通道;为yi的k个相邻通道的集合。
[0081]
一种更有效的方法是使所有通道共享相同的学习参数,即:
[0082][0083]
其中,ωi为yi的权重;σ为sigmoid函数;为yi和它的k个邻居之间的相互作用,(如w
1,1
,...,w
1,k
);为yi的第j个相邻通道;为yi的k个相邻通道的集合。
[0084]
使所有通道共享相同的学习参数可以通过一个核大小为k的一维卷积来实现,即:
[0085]
ω=σ(c1dk(y))
[0086]
其中,c1d为一维卷积;σ为sigmoid函数。
[0087]
由于eca模块旨在适当地捕获局部跨通道交互,因此需要确定交互的覆盖范围(即一维卷积的核大小k);显然k和通道c的规模有关,通常情况下,大尺寸便于捕捉长程依赖关系,小尺寸倾向于捕捉短程交互,那么在k和c之间存在一个映射φ:c=φ(k);最简单的映射是一个线性函数,即φ(k)=γ*k-b。但是,以线性函数为特征的关系太有限了;另一方面,众所周知,通道维度c通常被设置为2的幂。因此,本实施例将线性函数φ(k)=γ*k-b扩展到非线性函数,引入了一个可能的解,即:
[0088]
c=φ(k)=2
(γ*k-b)
[0089]
然后,给定通道维数c,核大小k可以自适应地确定:
[0090][0091]
其中,表示的最接近奇数;
[0092]
最后用全连接层来把提取到的特征综合起来;再将全连接层提取的特征作为输入数据导入catboost模型进行回归预测;
[0093]
catboost模型使用以下方式:对于每个样本xk,训练一个单独的模型mk,该模型由不包含样本xk的训练集训练得到,而且使用该模型来估计xk上的梯度,并使用此估计对得到的树进行评分;即使用在前面的样本上训练的当前模型来更新模型的新样本的梯度,提供了无偏梯度;在学习过程的每一步t中,每个模型都被解释为一个模型f
t
的近似值;
[0094]
catboost模型通过上述方式,借鉴线上学习算法的思想,引入了一个“人工时间轴”——根据训练示例到达的时间轴,这样在计算统计数据时只能使用“以前看到的”示例,有效避免数据泄漏的影响。同时,catboost还使用了几种排列来增强算法的鲁棒性。
[0095]
catboost首先为训练样本生成s 1个随机序列σ0,σ1,...,σs,其中σ1,...,σs用来构建决策树,σ0用来选择叶子节点的值,然后采用梯度步长的无偏估计,之后再进行标准的gbdt;除此之外,catboost使用对称树结构作为基本预测器,且在整个树中使用相同的分裂标准。
[0096]
需要说明的是,通常在gbdt框架中,构建决策树的过程可以分为两个阶段:选择树
的结构(即分割属性)和计算叶子节点。为了选择最佳的树结构,该过程中,枚举不同的分割,然后用这些分割构建树,获得的叶结点的值,再对树进行评分,并选择最佳的分割。catboost则是首先为训练样本生成s 1个随机序列σ0,σ1,...,σs,其中σ1,...,σs用来构建决策树,σ0用来选择叶子节点的值,然后采用梯度步长的无偏估计,之后再进行标准的gbdt。除此之外,catboost使用对称树结构作为基本预测器;在整个树中使用相同的分裂标准。这类的树是平衡的,不容易过度拟合,同时在测试时间内能够显著加快预测速度。
[0097]
(2.2)产率的智能回归预测;将训练集和对应的产率导入卷积神经网络进行特征学习,将最后一层全连接层的输出作为catboost模型的输入数据进行训练预测,即为最终预测结果;采用可决系数(r-square,r2)和均方根误差(root mean square error,rmse)评估模型的预测效果。
[0098]
(2.3)对训练好的模型进行样本外预测,若样本外预测是有效的,则验证了训练好的模型的有效性和有泛化性。
[0099]
本实施例中,选取部分添加剂(图2中的第15,18、19、21、22个)进行样本外预测。
[0100]
具体地,所述样本外预测通过将数据集分为两个不相交的部分,一个作为训练集用来估计模型,另一个作为测试集用来被预测,以此来测试模型的泛化能力;本发明随机选择5种添加剂作为未知反应条件,并以剩余的已知反应条件作为训练数据,预测未知反应条件的产率。通过与ahneman等采用随机森林的样本外预测结果相比,本发明具有较大的r2和较小的rmse,以此说明该方法取得了更好的样本外预测效果,本发明设计的模型的泛化性得到了提升。
[0101]
(2.4)用户可根据预测效果,结合自身需求,自我进行参数调整,若不满意,则用户可以调整卷积神经网络的卷积核大小,层数、节点数,以及catboost相关参数,并返回步骤(2.2),直至用户满意。
[0102]
3)使用特征重要性和shap值对chemcnet模型的预测结果进行可视化分析。
[0103]
具体地,步骤3)包括:
[0104]
(3.1)通过catboost输出特征描述符的重要性排序,以此找到对反应产率影响显著的描述符;使用shap值分析描述符与反应产率间的相关关系,以及单一特征反应产率间的内部关系,为用户提供有关有机化学偶联反应的决策信息;能够为用户全方位,多角度的提供有关有机化学偶联反应方面的决策信息。
[0105]
仿真实验:
[0106]
本发明的方法用仿真实验给予进一步的展示,以buchwald-hartwig偶联反应为例(化学反应方程式以及反应组分如图2所示),根据spartan软件计算并提取每种反应组分的描述符,经过计算每组反应得到120个特征描述符,其中包含64个原子描述符、28个分子描述符和28个振动描述符。
[0107]
将一维特征描述符和经过特征预处理的二维特征描述符矩阵及其对应的产率分别导入一些常见的机器学习模型和chemcnet模型中进行回归预测;仿真结果如表1所示。
[0108]
表1
[0109][0110]
根据表1所示,评估对比了chemcnet和几种机器学习算法:catboost、gbdt(gradient boosting decision tree)、随机森林(random forest)、决策树(decision tree)、线性回归(linear)的预测准确性,从实验结果可以看出,chemcnet模型的r2=0.97,rmse=4.88,说明chemcnet的回归预测结果最优,与真实值的拟合程度最高。综上所述,chemcnet模型的回归预测结果优于一般的机器学习算法,能实现对反应产率较为精准的预测。
[0111]
综上所述,本发明将神经网络与集成树模型有机结合,并添加注意力进一步优化网络结构。用户可自行调节参数,并对测试集进行检验,若对检验结果满意,则停止调参,输出预测结果。
[0112]
chemcnet模型相较于传统的机器学习算法预测结果更加准确,不仅结合了深度学习的特征学习思想,并添加注意力,在没有显著增加模型复杂度的同时聚焦关键特征,而且利用集成学习模型作为回归器,提高模型的预测精度和泛化能力;chemcnet的采用集成树模型替换传统的全连接层,有效避免了过拟合。chemcnet相较于一般的深层的神经网络具有更简单的结构,有效降低了操作难度和操作成本,减少了对硬件设备的依赖;chemcnet不同于一般深度学习算法,在小样本上也有较好的表现。
[0113]
本发明还提供了一种基于chemcnet的有机合成智能分析系统,该系统包括:
[0114]
特征描述符输入与预处理模块,用于根据软件计算每种偶联反应组分对应的特征描述符;
[0115]
基于chemcnet系统的智能分析模块,用于构建chemcnet模型对特征描述符进行特征学习和产率的智能回归预测;
[0116]
基于可视化的结果可解释分析模块,用于使用特征重要性和shap值对chemcnet模型的预测结果进行可视化分析。
[0117]
一种基于chemcnet的有机合成智能分析系统与一种基于chemcnet的有机合成智能分析方法的实施方式相同。由于一种基于chemcnet的有机合成智能分析方法的具体实施方式已在上述步骤1)至步骤3)中详细给出,因此不再过多赘述。
[0118]
以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围,均应包含在本技术的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献