针对分子属性预测图网络的自监督预训练方法与系统与流程

2022-02-21 09:08:36 来源：中国专利 TAG：

1.本发明涉及机器学习和数据挖掘领域，尤其涉及一种针对分子属性预测图网络的自监督预训练方法与系统。

背景技术：

2.分子属性预测对于药物合成和筛选具有重要的意义，例如对于新冠病毒特效药的筛选。通常需要预测的分子属性包括分子的化学能，药物活性和毒性等。传统的分子属性预测方法例如密度泛函理论(dft)耗时且昂贵，通常需要若干个小时才能预测一个分子的相关属性。目前，数据驱动的分子属性预测方法可以大大减少预测时间，比较有代表性的一类方法是图网络(gnn)。通常对于分子属性预测任务，可以把输入的分子建模成图结构，即点代表原子，边代表化学键。图网络的输出为希望预测的分子属性。然而训练图网络预测分子属性需要大量有标签分子数据(带有分子属性数据的分子)，否则训练得到的图网络容易过拟合。
3.设计针对图网络的自监督预训练是缓解有标签分子数据匮乏的一种方法。自监督预训练不需要大量有标签数据，可以利用设计的对比，生成或者预测任务在大量无标签分子数据上先学习到分子表示，然后在下游分子属性预测任务上微调。这方面的研究工作可以分为：
4.1)基于对比学习的自监督预训练。
5.这类方法将对比学习扩展到图领域。对于输入的一个图结构，可以通过采样边，遮住结点等方法得到同一个图结构的不同变种。对比学习尝试最大化同一个图结构不同变种之间的互信息，降低与其他不同图结构之间的互信息。
6.2)基于图生成的自监督预训练。
7.这类方法主要基于图生成的任务进行自监督预训练。通常可以遮住图结构中的部分边和点，通过预训练的图网络去补全遮住的部分。自监督预训练的损失函数可以设计为重构的图结构和原图结构的差异。
8.3)基于预测的自监督预训练。
9.这类方法利用图结构本身的一些性质进行自监督预训练。例如对于分子图，原子的属性，邻接结点信息可以作为伪标签。预训练的图网络被要求预测这些伪标签，从而可以更好的学习到分子图的结构和语义信息。
10.相比于直接在下游任务上训练，自监督预训练不容易过拟合，可以更好的扩展到各种分子的属性预测。但是，目前的分子属性预测图网络的自监督预训练没有考虑到分子官能团的信息，只考虑了分子层级或者原子层级的相关自监督任务，导致无法有效利用化学领域知识帮助分子属性预测图网络的自监督预训练。

技术实现要素：

11.本发明的目的是提供一种针对分子属性预测图网络的自监督预训练方法与系统，
能够有效提高预训练图网络在下游分子属性预测任务上的表现。
12.本发明的目的是通过以下技术方案实现的：
13.一种针对分子属性预测图网络的自监督预训练方法，包括：
14.利用化学领域的知识，划分预训练分子数据集中分子的官能团，并构建官能团树；
15.利用构建的官能团树，建立官能团生成的自监督预训练任务，官能团生成的每一步都均进行拓扑预测和官能团种类预测；
16.建立原子层级的遮掩预测任务，并结合官能团生成的自监督预训练任务，构建多层级的自监督与训练任务，使用多任务学习的方式进行训练。
17.一种针对分子属性预测图网络的自监督预训练系统，用于实现前所述的方法，该系统包括：
18.官能团树构建模块，用于利用化学领域的知识，划分预训练分子数据集中分子的官能团，并构建官能团树；
19.官能团生成的自监督预训练任务建立模块，用于利用构建的官能团树，建立官能团生成的自监督预训练任务，官能团生成的每一步都均进行拓扑预测和官能团种类预测；
20.多任务学习模块，用于建立原子层级的遮掩预测任务，并结合官能团生成的自监督预训练任务，构建多层级的自监督与训练任务，使用多任务学习的方式进行训练。
21.一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；
22.其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。
23.一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。
24.由上述本发明提供的技术方案可以看出，利用化学领域的知识划分分子中的官能团并构建相应的官能团树，然后基于官能团树设计官能团生成的自监督任务，使得图网络学习到官能团的结构和语义信息，得到更好的分子表示；并且，结合原子层级的遮掩预测任务进行多任务学习，相比于现有技术而言，极大地提高了下游分子属性预测的准确性。
附图说明
25.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。
26.图1为本发明实施例提供的一种针对分子属性预测图网络的自监督预训练方法的流程图；
27.图2为本发明实施例提供的一种图网络自监督预训练的框架图；
28.图3为本发明实施例提供的一种分子官能团划分示意图；
29.图4为本发明实施例提供的一种分子官能团生成示意图；
30.图5为本发明实施例提供的一种针对分子属性预测图网络的自监督预训练系统的示意图；
31.图6为本发明实施例提供的一种处理设备的示意图。
具体实施方式
32.下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。
33.首先对本文中可能使用的术语进行如下说明：
34.术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。
35.下面对本发明所提供的一种针对分子属性预测图网络的自监督预训练方法进行详细描述，图1～图2分别为该方法的流程图与相应的框架图。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。
36.如图1所示，一种针对分子属性预测图网络的自监督预训练方法，主要包括如下步骤：
37.步骤1、利用化学领域的知识，划分预训练分子数据集中分子的官能团，并构建官能团树。
38.本发明实施例中，分子数据集包含若干分子，每一分子使用分子图形式表示：g＝(v,e)，其中，v是分子图的结点集合，e是分子图的边集合。
39.本发明实施例中，可以利用rdkit工具将获取自分子数据库的分子smiles表示转换得到分子图，所述分子数据库可以通过互联网获取。
40.本发明实施例中，利用化学领域的知识对分子图进行划分，利用划分的官能团构建官能团树，所述官能团树表示为：其中，是官能团树的结点集合，ε是官能团树的边集合；表示划分官能团后得到的官能团词典，结点mi＝(vi,ei)为一个官能团，且为分子图g的一个子图，vi为结点mi中的结点集合，ei为结点mi中的边集合，i＝1,
…
,n，n为官能团树的结点数目。
41.为了方便官能团生成任务，划分的官能团满足如下要求：1)在官能团树中，所有官能团树的结点的并集等于分子图g，形式上，∪
ivi
＝v并且∪
iei
∪ε＝e。2)在官能团树中，不同结点之间没有重叠，表示为：3)划分的结点保留语义信息，即与化学领域的官能团相同或类似。4)产生的官能团词典大小符合设定要求，具体大小要求可根据实际情况或者经验自行设定。
42.本发明实施例中，所述化学领域的知识主要包括基于化学反应模板规则的brics算法和自定义的两条后处理方式，其中：
43.1)使用基于化学反应模板规则的brics算法断开分子中的一些化学键，brics算法基于逆合成化学反应，定义了16条规则。当分子与brics中的模板对应上时，对应的化学键
将被断开。
44.2)引入自定义的两条后处理方式，主要目的是去除冗余的官能团，控制官能团词典大小，包括：a)当一个化学键连接的两个原子，一个在环上，一个不在环上时，断开化学键；b)当不在环上的原子有三个或者三个以上邻居时，断开与邻居间的化学键，并且选取所述不在环上的原子作为新的官能团。
45.如图3所示，提供了一种分子官能团划分示意图。图3的上半部分展示了分子官能团划分的三个步骤，分别为brics分解(brics fragmentation)，进一步分解(further decomposition)和官能团树的构造(motif tree construction)。图3下半部分展示的是对分子数据集划分官能团后得到的官能团词典(motif vocabulary)。
46.步骤2、利用构建的官能团树，建立官能团生成的自监督预训练任务，官能团生成的每一步都均进行拓扑预测和官能团种类预测。
47.如图2所示，官能团生成的自监督预训练任务对应左侧上半部分(motif layer)；中间部分(topology prediction)与右侧部分(motif prediction)分别对应拓扑预测与官能团种类预测，其中的问号表示待预测的拓扑新与官能团种类信息。
48.本步骤优选实施方式如下：
49.1、利用构建的官能团树，建立官能团生成的自监督预训练任务。
50.官能团通常对于分子属性具有决定作用，希望可以将官能团的信息考虑到分子属性预测图网络的自监督预训练中。建立官能团生成的自监督预训练任务的目的是让预训练图网络学习到官能团的分布情况，从而可以在简单微调后扩展到下游分子属性预测任务。
51.设定预训练图网络为f
θ
，其中，θ为图网络的模型参数；官能团生成的自监督预训练任务的目的是最大化官能团树的似然，表示为其中，表示官能团树的似然，θ
*
表示预训练后的模型参数。
52.对于每个分子，将对应官能团树的生成分解为：加入新的官能团，将新的官能团与已经存在的官能团连边；使用π表示官能团的生成顺序，则官能团树的似然等于所有生成顺序π下官能团树生成概率的期望：其中，表示在生成顺序π下官能团树生成概率，和ε
π
表示生成顺序π排列下的官能团和连边集合。
53.当所有的官能团的生成顺序具有相同的概率时(此处主要是为了便于理解相关原理，因此，简化了相关的流程，假设所有的生成顺序π具有相同的概率)，此时可以省略符号π，则对于给定的一个官能团的生成顺序，生成一个官能团树的概率能够分解为：等式右侧表示在生成步i，基于已生成官能团和连边ε
＜i
来预测下一个官能团(相当于前文介绍的mi)以及官能团与已有官能团的连边εi，表示所需生成的官能团数目。
54.2、官能团生成的顺序包括深度优先和广度优先。在生成官能团的每一步，预训练图网络需要做一次拓扑预测和一次官能团种类预测。
55.在官能团生成的过程中，需要选择合适的生成顺序。如图4所示，本发明实施例中主要考虑了两种生成顺序：深度优先和广度优先；图4中，第一行为深度优先顺序；第二行为广度优先顺序。
56.本发明实施例中，在官能团生成的自监督预训练任务中，通过一定的顺序生成一系列的官能团，从而构成官能团树。在从无到有生成官能团树的过程，选择规范顺序(canonical order)中第一个原子所在的官能团作为起始官能团，其中，所述第一个原子所在的官能团通过前述步骤1构建的官能团树确定；之后，按照深度优先或者广度优先顺序生成官能团，即选择任一方式即可，当然，也可以根据实际情况使用其他已有方式。
57.本领域技术人员可以理解，规范顺序是化学领域表示分子中原子顺序通用的标准，本发明不做赘述。
58.使用深度优先方式时，对于每一个访问的官能团，进行拓扑预测与官能团种类预测，包括：当前官能团是否有孩子结点能够扩展，即在当前官能团基础上能否生成新的官能团，若是，则预测新的官能团的种类并递归重复上述过程，其中，访问官能团表示在将要在相应官能团的基础上预测生成新的官能团；使用广度优先方式时，逐层生成官能团，在第k层，预测新生成的官能团，如果第k层的所有官能团都已生成，开始生成下一层的官能团，每次生成新的官能团后均进行官能团种类预测。深度优先与广度优先中拓扑预测与官能团种类预测的方式都是相同的，具体在后文提供相关的计算方式。
59.在每步官能团的拓扑预测与官能团种类预测时，当前官能团将收到其他已经生成的官能团的消息，所述消息包含已生成官能团和连边的相关信息，基于收到的消息进行预测；在官能团树生成的过程中，消息h
i,j
沿着官能团树的边传播；令为生成步j时消息的集合，在生成步j时访问官能团的嵌入表示为xi；xi可以通过池化官能团中的原子的嵌入表示得到。
60.所述消息h
i，j
通过之前的消息得到，表示为：
[0061][0062]
其中，h
k，i
表示官能团传递给官能团的消息，表示官能团与属于集合中存在的官能团对，h
i，j
表示官能团传递给官能团的消息；gru表示门控循环单元，本发明实施例中，为官能团树上的消息传播做了改进，所涉及的计算过程为：
[0063][0064]zi，j
＝σ(wzxi uzs
i，j
bz)
[0065]rk，i
＝σ(wrxi u
rhk，i
br)
[0066][0067][0068]
其中，s
i，j
、z
i，j
、r
k，i
、为中间参数，表示官能团为官能团的邻居中除去官能团的任一官能团，wz、uz、wr、ur、w、u代表相应的权重矩阵，bz、br代表相应的偏置向量，可以通过训练学习到。σ(.)代表sigmoid激活函数。
[0069]
在当前时间步j，当访问到官能团时，需要预测是否生成新的官能团，结合消息和官能团的嵌入表示，通过包含隐藏层的第一神经网络加上sigmoid函数进行拓扑预测：
[0070][0071]
其中，d为第一神经网络中隐藏层的维度，ud、表示权重矩阵；σ(.)表示sigmoid函数；τ(.)表示relu激活函数；pj表示拓扑预测结果，即有新的官能团要生成的概率；
[0072]
当在官能团的基础上生成新的官能团后，通过包含隐藏层的第二神经网络加上softmax函数预测新的官能团的种类：
[0073]
qj＝softmax(u
l
τ(w
lhij
))
[0074]
其中，qj是在官能团词典上的分布概率，l为第二神经网络中隐藏层的维度；u
l
、w
l
表示权重矩阵。
[0075]
在训练过程中，每一步做完拓扑和官能团标签预测之后，将它们替代为事实的拓扑结构和官能团(即步骤1构建官能团树中的相应信息)，这样模型在预测后续的拓扑结构和官能团标签时可以基于正确的历史信息。
[0076]
步骤3、建立原子层级的遮掩预测任务，并结合官能团生成的自监督预训练任务，构建多层级的自监督与训练任务，使用多任务学习的方式进行训练。
[0077]
本发明实施例中，所述原子层级的遮掩预测任务包括：随机采样若干原子和化学键并遮掩住它们的类型，使用预训练的图网络得到相应的嵌入表示，训练一层全连接神经网络，根据输入的嵌入表示预测相应原子或者化学键的类型。如图3所示，原子层级的遮掩预测任务对应左侧下半部分(atom layer)。
[0078]
为了在自监督预训练过程中同时考虑到原子层级和官能团层级的信息，考虑了多任务学习并在预训练过程中优化如下损失函数：
[0079][0080]
其中，表示官能团生成的自监督预训练任务的损失函数，与分别为原子层级的遮掩预测任务中原子和化学键的预测损失函数(交叉熵损失函数)，λ1、λ2与λ3为相应损失函数的权重。
[0081]
本发明实施例中，官能团生成的自监督预训练任务的损失函数表示为：
[0082][0083]
其中，与分别为拓扑预测和官能团种类预测的损失函数(均可以为交叉熵损失函数)，pj与qj分别为拓扑预测和官能团种类预测结果，与为对应的真实拓扑与标签值，表示没有孩子节点(即当前访问的官能团不能生成新的官能团)，表示有孩子节点(即当前访问的官能团能够生成新的官能团)。
[0084]
训练阶段，为了最小化上述损失函数可以采用mgda-ub算法求解上述多任务问题，在每一步使用frank-wolfe算法计算权重λ1、λ2与λ3；可以采用adams优化器来后向更新模型参数，上述过程能够通过pytorch自动求解，所涉及的流程可通过常规技术实现，此处不做赘述。相比于依次训练原子层级和官能团层级的自监督任务，多任务学习的形式可
以综合考虑多层级信息，同时避免类似持续学习中的灾难遗忘问题。
[0085]
在上述预训练的基础上，本发明实施例还包括：利用预训练好的图网络，在下游分子属性预测任务中微调，预测具体分子属性。从模型训练的角度来考虑，如果要微调一个模型，就必须有训练集和测试集。本发明实施例中，将分子属性预测数据集中的数据随机分成训练集和测试集，或者使用scaffold split(根据分子结构相似性划分数据集，同一个数据集中的分子结构更加相似)按照分子结构相似性划分训练集和测试集；微调时，利用训练集对预训练好的图网络的模型参数进行更新，利用测试集对微调后的图网络进行测试。同样的，微调过程可以使用adams优化器来后向更新模型参数，可以通过pytorch自动求解，所涉及的流程可通过常规技术实现，此处不做赘述。
[0086]
本发明实施例上述方案，利用化学领域的知识划分分子中的官能团并构建相应的官能团树，然后基于官能团树设计官能团生成的自监督任务，使得图网络学习到官能团的结构和语义信息，得到更好的分子表示；并且，结合原子层级的遮掩预测任务进行多任务学习，相比于现有技术而言，极大地提高了下游分子属性预测的准确性。
[0087]
本发明另一实施例还提供一种针对分子属性预测图网络的自监督预训练系统，其主要用于实现前述实施例提供的方法，如图5所示，该系统主要包括：
[0088]
官能团树构建模块，用于利用化学领域的知识，划分预训练分子数据集中分子的官能团，并构建官能团树；
[0089]
官能团生成的自监督预训练任务建立模块，用于利用构建的官能团树，建立官能团生成的自监督预训练任务，官能团生成的每一步都均进行拓扑预测和官能团种类预测；
[0090]
多任务学习模块，用于建立原子层级的遮掩预测任务，并结合官能团生成的自监督预训练任务，构建多层级的自监督与训练任务，使用多任务学习的方式进行训练。
[0091]
需要说明的是，上述系统所涉及的主要技术细节在之前的方法实施例中做了详细说明，故不再赘述。
[0092]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。
[0093]
本发明另一实施例还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。
[0094]
进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。
[0095]
本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：
[0096]
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；
[0097]
输出设备可以为显示终端；
[0098]
存储器可以为随机存取存储器(random access memory，ram)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。
[0099]
本发明另一实施例还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。
[0100]
本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是u盘、移动硬盘、只读存储器(read-only memory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0101]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种多种类液力耦合器控制器共同控制方法与流程

针对分子属性预测图网络的自监督预训练方法与系统与流程

相关文献

最热文献