基于机器学习的化学通路分析预测方法及终端设备与流程

2022-11-16 04:38:46 来源：中国专利 TAG：

1.本发明属于数据挖掘和机器学习技术领域，尤其涉及一种对化学分子的未知反应路径智能化设计与预测方法及终端设备。

背景技术：

2.反应路径，指反应物在酶的催化下发生一系列化学反应生成相应产物的过程。通过生物反应路径预测能帮助人们合成一些需要的目标产物，为化学医疗领域的创新研究提供有效的牵引。
3.现有的路径预测技术借助于大量化学实验和研究经验推算，使用的传统化学数据库无法表征出化学分子在参与反应的过程中自身结构的变化关系，在此数据库的基础上进行的路径预测研究存在分析挖掘速度慢、路径预测误差大等问题，而且容易受实验设备、实验环境等诸多因素的限制，极大制约了生物反应的设计效率和预测精度。

技术实现要素：

4.为了解决上述传统路径预测技术中存在的问题，本发明提出了一种基于机器学习的化学通路分析预测方法及终端设备，可以实现对未知反应路径的快速、高精度预测。如图3所示，整体分为：
5.(1)数据支撑层，以图表征的方式构建化学数据库，为数据计算提供底层数据支撑；
6.(2)数据计算层，结合反应方程数据和化学分子自身结构，通过快速子图匹配检测技术，进行反应模式挖掘和反应规则提取工作；
7.(3)规则网络层，借助计算所得反应规则构建出完整的反应规则网络；
8.(4)路径预测层，使用通路预测技术，实现对未知反应路径的快速预测。
9.本发明的实施流程参见图4，其实施步骤如下：
10.(1)基于smiles(simplified molecular input line entry specifjcation，简化分子线性输入规范)分子结构和化学反应方程数据，使用图表征的方法构建出一个本地化的化学通路数据库；
11.(2)将化学分子属性图输入到图卷积神经网络中，将图由拓扑结构转换为一个d维向量，并通过pca(principal component analysis，主成分分析)实现对整个化学物质结构的特征向量的提取和聚合；
12.(3)在化学反应中分离出反应物集合和生成物集合，将反应物集合与生成物集合中的化合物两两配对形成化合物反应对；
13.(4)针对每一个反应对，利用子图匹配技术找到两个化合物在反应过程中保持不变的子结构，从而进一步抽象出该反应对所对应的具体的反应模式；
14.(5)将反应模式、反应物到生成物所添加和删除的子图等信息，经阈值判定后作为反应规则存储，并构建出反应规则网络图；
15.(6)利用子图匹配技术，将反应物a、目标产物b逐一与数据库中的反应规则进行匹配，得到反应物a、目标产物b相关的规则集合；
16.(7)借助通路预测技术，对反应规则网络图进行路径分析搜索，得到反应物a相关集合到目标产物b相关集合的可能通路，同时给出每条通路的概率值作为该反应通路可行性的分析结果。
17.本发明具有以下优点：
18.(1)基于图表征的方式构建大规模底层化学数据库，能够很好的体现化学反应中化学分子的结构变化；
19.(2)通过本发明中的图卷积神经网络模型和快速子图匹配检测技术，准确地提取出化学分子特征、反应模式等信息，有效提高通路预测的精准度；
20.(3)借助通路预测技术实现从反应物到目标产物在反应规则网络的快速搜索，极大提高生物反应路径的预测效率，降低预测成本。
附图说明
21.图1是对所有类型的化学反应图表征方法的示意图；
22.图2是对化学分子进行分析计算的图卷积神经网络模型示意图；
23.图3是实现本发明提出的路预测方法的总体架构示意图；
24.图4是本发明提出的通路预测方法的实现流程示意图；
25.图5是本技术实施例中所述的终端设备的结构示意图。
具体实施方式
26.下面结合附图和实施例对本发明作进一步的详细说明。此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。
27.本实施例基于一个运行linux操作系统的终端设备及其相应的开发环境。
28.(1)化学通路数据库的构建方法，包括以下步骤：
29.1.首先获得所有化学分子的v2000格式的mol结构文件。在该格式中，分子结构的原子以及化学键将以一种统一的方式进行定义：针对分子结构中的原子来说，mol文件中将定义原子在整个分子结构绘制时的三维位置，原子类型等等信息。针对每一个化学键，mol文件将定义化学键连接的原子编号，化学键的键值以及化学键的空间结构类型等。
30.2.根据化学分子的mol文件，使用属性图表征化学分子结构。图中的点表征化学原子的种类，图的边表征原子之间的连接键。按照此表征方法，提取分子mol文件中的vertex、edge等有效结构信息，转换为属性图的形式保存在数据库中。
31.3.在通用化学反应中，根据反应物与生成物的类型可分为：异构化反应，简记为a
→
b；化合反应，简记为a b
→
c；分解反应，简记为a
→
b c；置换反应，简记为a bc
→
b ac；复分解反应，简记为ab cd
→
ad cb；复杂化学反应，可以逐步简化而视为上述反应类别的连续反应。化学反应数据的解析存储按照以下步骤进行：
32.1)对化学反应进行分解，分离出所有的反应物和生成物形成集合；
33.2)对于反应中的每一种化学分子，我们通过其名称与化学分子数据集进行比对。
当无法对应时，则认为该化学分子是反应中无关紧要的附带物(例如h2o，h 等等)，可以忽略；
34.3)在反应输入端和输出端各设置一个虚拟节点，从而完成对反应方程的表征，参见图1，并以有向图的形式保存在数据库中。
35.(2)将分子属性图g和一个表示该分子特性的向量w，输入到一个图卷积神经网络中，参见图2，通过多个组合层(卷积层、池化层、激活层)的计算实现对图的嵌入，最终实现对化学物质分析结果的输出和预测。图卷积神经网络的工作方式如下：
36.1.为分子属性图g的每个节点关联一个初始维度的特征向量，该向量将分子局部子图的编码成向量形式，并为每个局部子图分配一个随机单位范数矢量；
37.2.模型每一层通过对所有相邻向量上的平均值替换每个向量，来实现更新所有节点嵌入向量；
38.3.利用经过训练的模型参数对其进行线性变换，将结果每个坐标传递给relu激活函数；
39.4.在由另一个超参数给出若干层后，对所有最终节点的嵌入向量进行平均值计算，得到一个d维的图嵌入向量；
40.5.将smiles结构中有关化学物质的其他特征向量与图神经网络嵌入后的d维向量相结合输入到特征聚合层，通过pca实现对整个化学物质结构的特征向量的提取和聚合；
41.6.通过神经网络得到一组11维度的输出向量，用softmax层生成概率和为1的向量，实现对化学物质分析结果的输出和预测。
42.(3)反应r包含两组图：第一组包含反应物，第二组包含合成的产物。我们用来表示r中的反应物集，用来表示产物集。从分子a到b的途径p(a，b)是一个反应链“r1：r2；
…
；rn”，使得在一个反应的和下一个反应的之间共享至少一个化学分子。
43.(4)为了量化发生反应时化学分子的结构变化，我们首先在中的图与中的图之间建立映射。通过比较被映射分子的结构，我们可以量化这种变化。我们称之为反应物-产物映射(rpm，reaction-production mapping)，并使用符号rpm(a，b)来表示反应物a已映射到产物b。
44.(5)如果相同的结构变化发生在一个或多个反应中，那么这就是一个反应模式。我们通过以下步骤挖掘反应模式：
45.1.从化学反应中分离出反应物集和产物集
46.2.通过比对化合物数据库，筛选出两个集合中重要的化合物。通过该过程，剔除无关紧要的化学分子，以防在规则挖掘中带来影响；
47.3.完成筛选后，将反应物集合与生成物集合中的化合物两两配对形成化合物反应对；
48.4.确定反应中心。针对每一个反应对，利用快速子图匹配检测技术，在反应物图与目标产物图之间以图匹配的方式，建立同构映射关系，找出两个化合物在反应过程中保持不变的子结构，即反应中心。反应物a到产物b的匹配步骤如下：
49.1)从产物b的数据图q中选择一个起始顶点us，通过对查询图q进行bfs搜索生成bfs树tq；
50.2)从多个起始顶点并行对候选区域进行遍历。对于每个候选区域，利用查询树tq
对反应物a的数据图g进行并行深度优先搜索得到候选顶点集合cvs；
51.3)根据cvs对查询树tq的每条路径进行升序排列，得到查询图q顶点的匹配顺序；
52.4)按照确定的子图匹配顺序，利用区域遍历结果进行子图匹配，并行生成全部子图同构映射，完成反应中心的确定。
53.5.反应中心告诉我们变化的位置，rpm(a，b)的反应中心是产物b中的一组顶点，在从a到b的转换过程中，可看作向其添加新边或移除现有边；
54.6.确定反应特征。反应特征是产物的子图。反应特征可以通过子图的添加或移除来改变。当存在多个反应中心时，也存在多个反应特征，其中每个特征代表对应不同反应中心周围的邻域；
55.7.反应中心识别变化的位置，反应特征编码变化背后的潜在驱动因素。我们称反应中心和其对应的反应特征为一个反应模式。至此，单个反应模式挖掘完成。
56.(6)挖掘数据库中每个反应r的反应模式，从每个rpm(a，b)中，获取1.反应中心；2.反应特征；3.添加和删除的子图；4.反应r中除a之外的所有反应物(这些反应物是促进反应的酶或辅助反应物)。我们把从rpm(a，b)中提取的上述信息表示为l(a，b)。
57.(7)给定一个阈值h，如果l(a，b)在反应模式挖掘中出现超过h次，则称l(a，b)为一个反应规则。本质上，反应规则编码了反应产生可预测输出所需的条件。记录反应规则l(a，b)出现的频次，利用逻辑回归技术进行概率赋值，为后续的通路预测提供基础。
58.(8)利用所有的反应规则，构建一张反应规则网络图。图中的节点是每个反应规则，边是规则之间的反应，将规则对应的概率作为边的赋值。
59.(9)借助通路预测技术，实现从反应物a到目标产物b的预测，分为以下步骤：
60.1.利用子图匹配技术，将反应物a逐一与数据库中的反应规则进行匹配，得到适用于a的规则集合；
61.2.利用子图匹配技术，将目标产物b逐一与数据库中的反应规则进行匹配，得到适用于b的规则集合；
62.3.参照a和b的规则集合，对反应规则网络图进行路径分析搜索，得到a相关集合到b相关集合的可能的通路；
63.4.借助规则网络中边的概率赋值，给出每条通路的概率值作为该反应通路可行性的分析结果。
64.图5是本技术实施例中终端设备的结构示意图，以上实施例依附于该终端设备实现。终端设备包括但不限于桌面式计算机、高性能笔记本、云服务器等计算设备。
65.以上实施例仅是本发明的优选实施方式，本发明的保护范围并不限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

基于机器学习的化学通路分析预测方法及终端设备与流程

相关文献

最热文献