技术特征:
1.由一个或多个数据处理装置进行的用于确定由氨基酸序列指定的蛋白质的预测的结构的方法,该方法包括:
获得对于蛋白质的多序列比对;
从多序列比对且对于蛋白质的氨基酸序列中的各氨基酸对,确定氨基酸对的相应的初始嵌入;
使用包括多个自注意力神经网络层的成对嵌入神经网络处理氨基酸对的初始嵌入,以生成各氨基酸对的最终嵌入;以及
基于各氨基酸对的最终嵌入来确定蛋白质的预测的结构。
2.根据权利要求1所述的方法,其中所述成对嵌入神经网络的各自注意力神经网络层配置为进行包括以下的操作:
接收各氨基酸对的当前嵌入;以及
在氨基酸对的当前嵌入上使用注意力来更新各氨基酸对的当前嵌入。
3.根据权利要求2所述的方法,其中对于各氨基酸对,在氨基酸对的当前嵌入上使用注意力来更新氨基酸对的当前嵌入包括:
仅在氨基酸对的当前嵌入的真子集上使用注意力来更新氨基酸对的当前嵌入。
4.根据权利要求3所述的方法,其中:
自注意力神经网络层的一个或多个是行式自注意力神经网络层;以及
对于各行式自注意力神经网络层,仅在氨基酸对的当前嵌入的真子集上使用注意力来更新氨基酸对的当前嵌入包括:
在氨基酸对的当前嵌入成为二维阵列的排列中,仅在位于与氨基酸对的当前嵌入相同的行中的氨基酸对的当前嵌入上使用注意力来更新氨基酸对的当前嵌入。
5.根据权利要求4所述的方法,其中:
自注意力神经网络层的一个或多个是列式自注意力神经网络层;以及
对于各列式自注意力神经网络层,仅在氨基酸对的当前嵌入的真子集上使用注意力来更新氨基酸对的当前嵌入包括:
在氨基酸对的当前嵌入成为二维阵列的排列中,仅在位于与氨基酸对的当前嵌入相同的列中的氨基酸对的当前嵌入上使用注意力来更新氨基酸对的当前嵌入。
6.根据权利要求5所述的方法,其中成对嵌入神经网络的多个自注意力神经网络层包括行式自注意力神经网络层和列式自注意力神经网络层的交替序列。
7.根据权利要求1-6所述的方法,其中基于各氨基酸对的最终嵌入来确定蛋白质的预测的结构包括:
基于氨基酸对的最终嵌入来确定蛋白质的氨基酸序列中各氨基酸的相应的初始嵌入;
基于氨基酸序列中各氨基酸的初始嵌入来确定蛋白质的预测的结构。
8.根据权利要求1-7中任一项所述的方法,其中从多序列比对且对于蛋白质的氨基酸序列中的各氨基酸对,确定氨基酸对的相应的初始嵌入包括:
将所述多序列比对分成:(i)聚类氨基酸序列的集和(ii)额外氨基酸序列的集;
生成:(i)聚类氨基酸序列的集的嵌入和(ii)额外氨基酸序列的集的嵌入;
使用交叉注意力神经网络处理包括:(i)聚类氨基酸序列的嵌入和(ii)额外氨基酸序列的嵌入的网络输入来更新聚类氨基酸序列的嵌入;以及
基于更新的聚类氨基酸序列的嵌入来确定氨基酸对的初始嵌入。
9.根据权利要求8所述的方法,其中使用交叉注意力神经网络处理包括:(i)聚类氨基酸序列的嵌入和(ii)额外氨基酸序列的嵌入的网络输入来更新聚类氨基酸序列的嵌入包括重复地进行包括以下的操作:
在额外氨基酸序列的嵌入上使用注意力来更新聚类氨基酸序列的嵌入;以及
在聚类氨基酸序列的嵌入上使用注意力来更新额外氨基酸序列的嵌入。
10.一个或多个存储指令的计算机储存介质,所述指令当被一台或多台计算机执行时使一台或多台计算机进行根据权利要求1-9中任一项所述的相应方法的操作。
11.系统,其包括一台或多台计算机和一个或多个存储指令的储存设备,所述指令当被一台或多台计算机执行时使一台或多台计算机进行根据权利要求1-9中任一项所述的方法的相应操作。
12.获得配体的方法,其中所述配体是药物或工业酶的配体,该方法包括:
获得靶氨基酸序列,其中所述靶氨基酸序列是靶蛋白质的氨基酸序列;
使用所述靶氨基酸序列作为氨基酸序列来进行根据权利要求1-9中任一项所述的方法以确定靶蛋白质的预测的结构;
评估一种或多种候选配体与所述靶蛋白质的预测的结构的相互作用;和
取决于评估的结果选择所述候选配体的一种或多种作为所述配体。
13.根据权利要求12所述的方法,其中所述靶蛋白质包括受体或酶,并且其中所述配体是所述受体或酶的激动剂或拮抗剂。
14.获得多肽配体的方法,其中所述配体是药物或工业酶的配体,该方法包括
获得一种或多种候选多肽配体的氨基酸序列;
对于所述一种或多种候选多肽配体的每一种,使用所述候选多肽配体的氨基酸序列作为氨基酸序列进行根据权利要求1-9中任一项所述的方法以确定所述候选多肽配体的预测的结构;
获得靶蛋白质的靶蛋白质结构;
评估所述一种或多种候选多肽配体的每一种的预测的结构和所述靶蛋白质结构之间的相互作用;以及
取决于评估的结果选择所述一种或多种候选多肽配体中的一种作为所述多肽配体。
15.根据权利要求12-14中任一项所述的方法,其中评估候选配体之一的相互作用包括确定对于所述候选配体的相互作用分数,其中所述相互作用分数包括候选配体和靶蛋白质之间相互作用的度量。
16.根据权利要求12-15中任一项所述的方法,进一步包括合成所述配体。
17.根据权利要求16所述的方法,进一步包括在体外和体内测试所述配体的生物活性。
18.鉴别蛋白质错误折叠疾病的存在的方法,包括:
获得蛋白质的氨基酸序列;
使用所述蛋白质的氨基酸序列作为氨基酸或氨基酸残基的序列进行根据权利要求1-9中任一项所述的方法以确定蛋白质的预测的结构;
获得从人体或动物体获得的蛋白质的版本的结构;
将蛋白质的预测的结构与从人体或动物体获得的蛋白质的版本的结构进行比较;以及
取决于比较的结果鉴别蛋白质错误折叠疾病的存在。
技术总结
包括编码在计算机储存介质上的计算机程序的方法、系统和装置,其用于确定由氨基酸序列指定的蛋白质的预测的结构。一方面,方法包括:获得对于蛋白质的多序列比对;从多序列比对中且对于蛋白质的氨基酸序列中的各氨基酸对,确定氨基酸对的相应的初始嵌入;使用包括多个自注意力神经网络层的成对嵌入神经网络处理氨基酸对的初始嵌入,以生成各氨基酸对的最终嵌入;以及基于各氨基酸对的最终嵌入来确定蛋白质的预测的结构。
技术研发人员:J.江珀;A.W.西尼尔;R.A.埃文斯;R.J.贝茨;M.菲古尔诺夫;A.普里策尔;T.F.G.格林;
受保护的技术使用者:渊慧科技有限公司;
技术研发日:2020.12.02
技术公布日:2022.05.13
本文用于企业家、创业者技术爱好者查询,结果仅供参考。