一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

蛋白质构象预测方法、装置、电子设备及存储介质与流程

2022-06-11 21:34:29 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,更具体地,涉及一种蛋白质构象预测方法、装置、电子设备及存储介质。


背景技术:

2.蛋白质是构成人体细胞的基本有机物,在人体中发挥着非常重要的作用,了解蛋白质的空间结构(即蛋白质构象)具有非常重要的意义。然而,相关技术中,对蛋白质序列对应的蛋白质构象进行预测的方法,存在预测不准确的问题。


技术实现要素:

3.鉴于上述问题,本技术实施例提出了一种蛋白质构象预测方法、装置、电子设备及存储介质,以改善上述问题。
4.第一方面,本技术实施例提供了一种蛋白质构象预测方法,方法包括:获取目标蛋白质序列对应的m个候选蛋白质构象,其中m为大于1的正整数;基于n种蛋白质排序规则,对m个候选蛋白质构象进行预排序,获得m个候选蛋白质构象对应的n种预排序结果,其中,n为大于0的正整数;基于融合排序规则,对n种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果;根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象。
5.第二方面,本技术实施例提供了一种蛋白质构象预测装置,装置包括:候选蛋白质构象获取模块、预排序模块、目标排序结果获得模块以及预测蛋白质构象确定模块。候选蛋白质构象获取模块,用于获取目标蛋白质序列对应的m个候选蛋白质构象,其中m为大于1的正整数。预排序模块,用于基于n种蛋白质排序规则,对m个候选蛋白质构象进行预排序,获得m个候选蛋白质构象对应的n种预排序结果,其中,n为大于0的正整数。目标排序结果获得模块,用于基于融合排序规则,对n种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果。预测蛋白质构象确定模块,用于根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象。
6.第三方面,本技术实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。
7.第四方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述的方法。
8.第五方面,本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
9.本技术实施例提供的一种蛋白质构象预测方法、装置、电子设备及存储介质,通过获取目标蛋白质序列对应的m个候选蛋白质构象,然后基于n种蛋白质排序规则,对m个候选蛋白质构象进行预排序,获得m个候选蛋白质构象对应的n种预排序结果,再基于融合排序
规则,对n种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果,最后根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象。从而通过前述方式,可以在对目标蛋白质序列对应的m个候选蛋白质按照n种蛋白质排序规则进行预排序的基础上,再基于融合排序规则,对n种预排序结果进行处理,由于融合排序规则是基于预排序得到的n种排序结果进行处理,相当于对蛋白质构象进行了两级排序,综合了多种蛋白质排序规则的不同排序方法,避免传统工具排序稳定性差问题,使得在各种蛋白质结构上,都能够有较好的预测准确性,进而提高了预测的蛋白质构象整体准确性。
附图说明
10.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1示出了本技术实施例提出的一种应用环境的示意图;
12.图2示出了本技术实施例提出的另一种应用环境的示意图;
13.图3示出了本技术实施例提出的一种蛋白质构象预测方法的流程图;
14.图4示出了本技术实施例提出的另一种蛋白质构象预测方法的流程图;
15.图5示出了图4所示实施例提出的一种蛋白质构象预测方法中s210的一种实施方式的流程图;
16.图6示出了图4所示实施例提出的一种蛋白质构象预测方法中s230的一种实施方式的流程图;
17.图7示出了本技术实施例提出的一种融合排序规则的训练过程的示意图;
18.图8示出了本技术实施例提出的另一种蛋白质构象预测方法的流程图;
19.图9示出了本技术实施例提出的一种蛋白质构象预测方法的具体应用过程的示意图;
20.图10示出了本技术实施例提出的一种蛋白质构象预测装置的框图;
21.图11示出了用于执行根据本技术实施例的蛋白质构象预测方法的另一种电子设备的结构框图;
22.图12示出了本技术实施例的用于保存或者携带实现根据本技术实施例的蛋白质构象预测方法的程序代码的存储单元。
具体实施方式
23.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解
智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
25.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
26.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
27.其中,随着机器学习技术的发展,机器学习技术在多个领域展开了广泛的研究和应用,本技术实施例提供的技术方案涉及到机器学习技术在生物医学领域的应用。具体地,涉及到一种蛋白质构象预测方法。其中,蛋白质构象是指蛋白质的空间结构。
28.蛋白质(protein)是生命的物质基础,是有机大分子,是构成细胞的基本有机物,是生命活动的主要承担者,是制药的靶点,人体生病,本质是蛋白质生产,出现问题,目前制药的小分子药和大分子药,就是和病人体力蛋白质发生相互作用,最终维持人体细胞原来的信号通路,因此,了解蛋白质构象具有非常重要的意义。
29.蛋白质预测算法,基于蛋白质结构特征预测蛋白质空间结构,是解析蛋白质结构的重要手段之一,但是现有的蛋白质预测算法都会产生大量的蛋白质构象,例如rosetta工具,rosetta是一套用于模拟大分子结构的综合软件,使用模拟退火算法预测蛋白质空间结构,一般会产生5万个蛋白质候选构象,或者,使用aphafold系统一样需要产生大量蛋白质候选构象。然而,大量的蛋白质构象中只有一个是最接近蛋白质序列的真实蛋白质空间结构的,因此蛋白质构象选择越来越重要。
30.在一些方式中,可以通过对大量的蛋白质构象进行排序的方法,来预测最正确的蛋白质构象。然而,相关技术中对蛋白质构象进行排序的各种方法,例如,采用蛋白质主链和侧链原子间距离,或者采用主链和侧链原子间平面角,或者主链和侧链原子间二面角等作为对比数据进行排序的方法,这些蛋白质排序方法在不同的蛋白质结构上,表现性能差异比较大,在进行蛋白质构象排序时,对于蛋白质构象排序稳定性差,进而导致预测的蛋白质构象整体准确性低。
31.因此,发明人提出了本技术提供的蛋白质构象排序方法、装置、电子设备及存储介质,在该申请中,在获取目标蛋白质序列对应的m个候选蛋白质构象之后,先基于n种蛋白质排序规则,对m个候选蛋白质构象进行预排序,获得m个候选蛋白质构象对应的n种预排序结果,再基于融合排序规则,对n种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果,最后根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象。
32.从而通过前述方式,可以在对目标蛋白质序列对应的m个候选蛋白质按照n种蛋白质排序规则进行预排序的基础上,再基于融合排序规则,对n种预排序结果进行处理,由于融合排序规则是基于预排序得到的n种排序结果进行处理,相当于对蛋白质构象进行了两
级排序,综合了多种蛋白质排序规则的不同排序方法,避免传统工具排序稳定性差问题,使得在各种蛋白质结构上,都能够有较好的预测准确性,进而提高了预测的蛋白质构象整体准确性。
33.在对本技术实施例进行进一步详细说明之前,对本技术实施例中涉及一种应用环境进行介绍。
34.如图1所示,图1所示为本技术实施例所涉及的应用环境的示意图。其中,包括有客户端110和服务器120、蛋白质构象预测模块130、蛋白质构象预排序模块140以及融合排序模块150。其中,客户端110用于提供需要进行蛋白质构象预测的蛋白质序列,该客户端110可以安装在制药公司或者生物研究机构本地的终端上,客户端110将需要进行蛋白质构象预测的蛋白质序列作为目标蛋白质序列发送给服务器120。服务器120接收到目标蛋白质序列之后,会进一步的发送目标蛋白质序列到蛋白质构象预测模块130。蛋白质构象预测模块130会根据该目标蛋白质序列预测得到多个候选蛋白质构象,然后将多个候选蛋白质构象发送到蛋白质构象预排序模块140,以便蛋白质构象预排序模块140基于多种蛋白质排序规则,对多个候选蛋白质构象进行预排序,获得多种预排序结果。蛋白质构象预排序模块140再将多种预排序结果发送到融合排序模块150,以便融合排序模块150按照融合排序规则进行处理,从而得到目标排序结果,最后再将目标排序结果发送到服务器,以便服务器根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象,并将预测蛋白质构象返回给客户端。
35.需要说明的是,图1是一种示例性的应用环境,本技术实施例所提供的方法还可以运行于其他的应用环境中。
36.可选地,蛋白质构象预测模块130、蛋白质构象预排序模块140以及融合排序模块150除了可以如图1所示的独立于服务器120分别运行于不同的硬件设备之外,还可以如图2所示均运行于服务器120中,在图2所示的环境下,服务器120中可以运行有负责与客户端110通信的服务端模块,在服务端模块接收到目标蛋白质序列后就可以基于进程通信的方式将目标蛋白质序列传递给本地运行的蛋白质构象预测模块130。对应的,蛋白质构象预测模块130根据该目标蛋白质序列预测得到多个候选蛋白质构象后,也可以基于进程通信的方式将多个候选蛋白质构象发送到蛋白质构象预排序模块140,以便蛋白质构象预排序模块140基于多种蛋白质排序规则,对多个候选蛋白质构象进行预排序,获得多种预排序结果。蛋白质构象预排序模块140同样可以基于进程通信的方式将多种预排序结果发送到融合排序模块150,以便融合排序模块150按照融合排序规则进行处理,从而得到目标排序结果,融合排序模块150同样可以基于进程通信的方式再将目标排序结果发送到服务端模块,以便服务端模块根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象,并将预测蛋白质构象返回给客户端110。
37.可选的,对于由蛋白质构象预测模块130、蛋白质构象预排序模块140以及融合排序模块150所执行的功能也可以均由客户端110来执行。
38.需要说明的是,其中,服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户
端110所在的电子设备可以为智能手机外、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
39.下面将结合附图具体描述本技术的各实施例。
40.请参阅图3,图3所示为本技术一实施例提出的一种蛋白质构象预测方法的流程图,在本实施例中,该方法可以应用于服务器,该方法包括:
41.s110,获取目标蛋白质序列对应的m个候选蛋白质构象,其中m为大于1的正整数。
42.可以理解的是,目标蛋白质序列为后续进行蛋白质构象预测的蛋白质序列。在一种应用场景中,服务器可以接收客户端上传的蛋白质构象预测请求,该请求中可以携带有用于预测蛋白质构象的蛋白质序列,该蛋白质序列即为目标蛋白质序列。服务器在接收到目标蛋白质序列之后,可以先获取目标蛋白质序列对应的m个候选蛋白质构象。其中,m为大于1的正整数。
43.其中,候选蛋白质构象可以认为是利用蛋白质预测算法对目标蛋白质序列进行预测之后,得到的m种蛋白质构象,这些蛋白质构象统称为候选蛋白质构象,候选蛋白质构象中只有一种蛋白质构象是最接近目标蛋白质序列对应的蛋白质的真实空间结构的,需要从m个候选蛋白质构象中筛选得到目标蛋白质序列对应的真实蛋白质构象。
44.s120,基于n种蛋白质排序规则,对m个候选蛋白质构象进行预排序,获得m个候选蛋白质构象对应的n种预排序结果,其中,n为大于0的正整数。
45.其中,服务器在获取到目标蛋白质序列对应的m个候选蛋白质构象之后,可以利用n种蛋白质排序规则分别对m个候选蛋白质构象进行一次预排序,获得预排序结果。其中,蛋白质排序规则的种类数量,即n可以根据需要进行设置,例如,可以选择一种、两种、三种或者更多种不同的蛋白质排序规则,分别对m个候选蛋白质构象进行一次预排序。当选择一种蛋白质排序规则对多个候选蛋白质构象进行一次预排序时,可以获得一种预排序结果,当选择三种不同的蛋白质排序规则分别对多个候选蛋白质构象进行一次预排序时,可以获得三种预排序结果。其中,n为大于0的正整数。
46.其中,可以有多类蛋白质排序规则。例如,蛋白质排序规则可以是基于候选蛋白质局部信息进行排序的排序规则,具体地,蛋白质排序规则可以对候选蛋白质构象的局部信息进行局部打分,根据分数高低进行排序。也可以是基于候选蛋白质全局统计信息进行排序的排序规则,具体地,蛋白质排序规则可以对候选蛋白质构象的全局统计信息进行打分,根据分数高低进行排序。
47.需要注意的是,蛋白质局部信息可以包括多种局部信息,每一种局部信息均可以对应一种具体的蛋白质排序规则。例如,针对蛋白质主链和侧链原子间距离这个局部信息,可以对应一种蛋白质排序规则,针对蛋白质主链和侧链原子间平面角,又可以对应一种蛋白质排序规则,针对蛋白质主链和侧链原子间二面角,又可以对应一种蛋白质排序规则。
48.此外,蛋白质全局统计信息也可以包括多种全局统计信息。分别针对每一种全局统计信息,也可以对应一种蛋白质排序规则。
49.基于此,上述基于n种蛋白质排序规则,对m个候选蛋白质构象进行预排序中的n种蛋白质排序规则,既可以是同一类规则下的多种不同的排序规则的组合,也可以是不同类规则下的排序规则的组合。即多种排序规则可以是仅仅包括基于候选蛋白质局部信息进行排序的排序规则下的一种或者多种蛋白质排序规则的组合,也可以是基于候选蛋白质全局
统计信息进行排序的排序规则下的一种或者多种蛋白质排序规则的组合,还可以包括基于候选蛋白质局部信息进行排序的排序规则下的一种或者多种蛋白质排序规则,以及基于候选蛋白质全局统计信息进行排序的排序规则下的一种或者多种蛋白质排序规则共同构成的组合。
50.s130,基于融合排序规则,对n种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果。
51.其中,目标排序结果可以认为是服务器对目标蛋白质序列对应的m个候选蛋白质对象依次经过预排序以及融合排序规则处理后得到的排序结果。
52.考虑到蛋白质空间结构非常复杂,不管是基于候选蛋白质局部信息进行排序的排序规则,还是基于候选蛋白质全局统计信息进行排序的排序规则,均很难在所有的蛋白质结构上表现出良好的排序性能,且由于各种排序规则使用的数据不同,各种排序规则在不同的蛋白质空间结构上,表现性能差异大。对于一种不知道蛋白质空间结构的目标蛋白质序列而言,并不知道哪种排序规则进行排序后取得的排序效果较好,因此,在获得m个候选蛋白质构象对应的n种预排序结果之后,可以再基于融合排序规则,对多种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果。
53.融合排序规则可以综合n种蛋白质排序规则的不同统计方法,避免使用单一蛋白质排序规则存在的稳定性问题,使得在不同蛋白质结构上,均能够具有好的排序性能。
54.作为一种方式,融合排序规则内可以事先为每个预排序结果中的蛋白质构象的排序位置设置一个置信度,例如,每个预排序结果中排名第一的候选蛋白质构象的置信度为x1,每个预排序结果中排名第二的候选蛋白质构象的置信度为x2,每个预排序结果中排名第三的候选蛋白质构象的置信度为x3,其中,x1大于x2,x2大于x3,依次类推,可以为每个预排序结果中的每个候选蛋白质构象均设置一个置信度,在得到多种预排序结果之后,可以将n种预排序结果中相同候选蛋白质构象对应的置信度相加,从而得到各个候选蛋白质构象对应的总置信度,然后再根据各个候选蛋白质构象的总置信度的大小关系,对各个候选蛋白质构象进行排序,从而获得目标蛋白质序列对应的m个候选蛋白质构象对应的目标排序结果。
55.其中,考虑到目标蛋白质序列对应的候选蛋白质构象数量较大,且每个预排序结果中排序越靠前的候选蛋白质构象对应的分数越高,越接近真实构象,因此,为了简化计算过程,可以考虑只为每个预排序结果中排序靠近前面的预设数量的蛋白质构象设置置信度,而将剩余的蛋白质构象的置信度设置为0,或者直接不设置置信度。如此,可以简化用于计算的候选蛋白质构象的数量,同时也不会降低计算的准确性。
56.其中,还可以根据经验或者实验结果,在融合排序规则内预先存储各种蛋白质排序规则对应的权重系数。例如,在以往实验中,得知基于蛋白质主链和侧链原子间平面角的蛋白质排序规则的准确性大于其他蛋白质排序规则,则可以为基于蛋白质主链和侧链原子间平面角的蛋白质排序规则分配一个相对较大的权重系数,而为其他排序规则分配一个相对较小的权重系数,从而,在确定各个候选蛋白质构象的总置信度时,可以事先乘上各个蛋白质排序规则对应的权重系数,得到某个候选蛋白质构象在该蛋白质排序规则下对应的置信度,进而再将某个候选蛋白质构象在所有蛋白质排序规则下对应的置信度相加,得到m个候选蛋白质构象的总置信度。
57.作为另外一种方式,可以采用训练得到的神经网络的方式对n种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果。这种情况下,融合排序规则可以基于n种样本预排序结果以及标准排序结果进行训练得到。
58.s140,根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象。
59.可以理解的是,目标排序结果中包括的是各个蛋白质候选构象依次经过预排序以及融合排序规则处理后得到的排序结果,对于各种蛋白质结构均具有较高的排序准确性。进而,当得到m个候选蛋白质构象对应的目标排序结果之后,可以根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象。
60.其中,考虑到目标蛋白质序列对应的真实蛋白质构象只有一个,作为一种方式,可以将目标排序结果中,位置排在第一位的候选蛋白质构象确定为目标蛋白质序列对应的预测蛋白质构象。
61.此外,考虑到目标排序结果中排序靠前的候选蛋白质都有一定的可能是目标蛋白质序列对应的真实蛋白质空间结构,因此,为了进一步提高预测准确性,作为另外一种方式,还可以将目标排序结果中排名靠前的预设数量个候选蛋白质构象,作为目标蛋白质序列对应的预测蛋白质构象。这种情况下,根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象,包括:获取目标排序结果中排名靠前的预设数量个候选蛋白质构象,作为目标蛋白质序列对应的预测蛋白质构象。
62.其中,预设数量对应的个数可以根据需要进行设置,例如可以设置为三个、五个或者十个等。
63.在一种具体应用场景中,服务器在获取目标排序结果中排名靠前的预设数量个候选蛋白质构象,作为目标蛋白质序列对应的预测蛋白质构象之后,可以将预测蛋白质构象发送到客户端,客户端的专家可以结合人工经验,从预测蛋白质构象中确定真实蛋白质构象。
64.其中,本技术实施例中的各种蛋白质构象可以直接采用pdb(protein data bank,蛋白质三维结构数据)文件进行传输或者处理。
65.本技术实施例提供的一种蛋白质构象预测方法,通过获取目标蛋白质序列对应的m个候选蛋白质构象,然后基于n种蛋白质排序规则,对m个候选蛋白质构象进行预排序,获得m个候选蛋白质构象对应的n种预排序结果,再基于融合排序规则,对n种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果,最后根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象。从而通过前述方式,可以在对目标蛋白质序列对应的m个候选蛋白质按照n种蛋白质排序规则进行预排序的基础上,再基于融合排序规则,对n种预排序结果进行处理,由于融合排序规则是基于预排序得到的n种排序结果进行处理,相当于对蛋白质构象进行了两级排序,综合了多种蛋白质排序规则的不同排序方法,避免传统工具排序稳定性差问题,使得在各种蛋白质结构上,都能够有较好的预测准确性,进而提高了预测的蛋白质构象整体准确性。
66.作为一种方式中,融合排序规则可以基于多种样本预排序结果以及标准排序结果进行训练得到。在这种情况下,请参阅图4,图4所示为本技术一实施例提出的一种蛋白质构象预测方法的流程图,在本实施例中,该方法可以应用于服务器,该方法包括:
67.s210,获取m个样本蛋白质构象以及对应的标准排序结果,m个样本蛋白质构象基
于样本蛋白质序列得到。
68.本实施例中,在服务器中可以预先存储融合排序规则。在存储融合排序规则之前,需要建立融合排序规则。作为一种方式,融合排序规则可以直接在服务器建立。
69.具体的,服务器预先获取训练样本集合,训练样本集合中包括多组训练样本,每组训练样本均各自包括一个样本蛋白质序列,以及该样本蛋白质序列对应的m个样本蛋白质构象,同时还包括该样本蛋白质序列对应的标准排序结果。其中,基于样本蛋白质序列得到m个样本蛋白质构象的方法可以参考前述内容中获取目标蛋白质序列对应的m个候选蛋白质构象。
70.作为一种方式,如图5所示,获取m个样本蛋白质构象以及对应的标准排序结果,包括:
71.s211,获取样本蛋白质序列对应的m个样本蛋白质构象以及样本蛋白质序列对应的标准蛋白质构象。
72.其中,获取样本蛋白质序列对应的m个样本蛋白质构象的方法可以参考前述内容中获取目标蛋白质序列对应的多个候选蛋白质构象的方法。
73.其中,样本蛋白质序列对应的标准蛋白质构象是指样本蛋白质序列对应的真实蛋白质构象,样本蛋白质序列对应的标准蛋白质构象可以从实验中获得,例如,使用显微镜可以拍照获得样本蛋白质序列对应的标准蛋白质构象。
74.s212,获取m个样本蛋白质构象分别与标准蛋白质构象之间的结构差异。
75.在获得样本蛋白质序列对应的m个样本蛋白质构象以及对应的标准蛋白质构象之后,可以将同一个样本蛋白质序列对应的各个样本蛋白质构象分别与该样本蛋白质序列对应的标准蛋白质构象进行比较,获取多个样本蛋白质构象分别与标准蛋白质构象之间的结构差异。
76.s213,基于结构差异的大小,对m个样本蛋白质构象进行排序,得到标准排序结果。
77.在获得多个样本蛋白质构象分别与标准蛋白质构象之间的结构差异之后,便可以基于各个样本蛋白质构象与标准蛋白质构象之间的结构性差异,分别对各个样本蛋白质构象进行排序,差异小的排序靠前,差异大的排序靠后。
78.作为一种方式,上述s212以及s213可以采用打分工具lddt(the local distance difference test score measures,局部距离差异测试)进行排序,lddt可以根据标准蛋白质构象,对预测得到的多个样本蛋白质构象分别进行打分,lddt打出的分数代表了样本蛋白质构象与标准蛋白质构象之间的差异性,最后便可以根据分数进行排序,从而获得标准排序结果。
79.s220,基于n种蛋白质排序规则,对m个样本蛋白质构象进行预排序,获得m个样本蛋白质构象对应的n种样本预排序结果。
80.其中,获得多个样本蛋白质构象对应的多种样本预排序结果的方法可以参考前述内容中获得多个候选蛋白质构象对应的n种预排序结果的方法。
81.s230,基于n种样本预排序结果以及标准排序结果,对初始模型进行训练,得到融合排序规则。
82.服务器在获得n种样本预排序结果以及标准排序结果之后,便可以将n种样本预排序结果以及标准排序结果作为一组训练样本,输入初始模型进行训练,在经过多组训练样
本的训练之后,便可以得到融合排序规则,也可以称为融合排序模型。
83.其中,初始模型可以是svm(support vector machine,支持向量机),一层或多层全连接层的神经网络等。
84.作为一种方式,如图6所示,基于n种样本预排序结果以及标准排序结果,对初始模型进行训练,得到融合排序规则,包括:
85.s231,将n种样本预排序结果输入初始模型,得到初始模型的预测排序结果。
86.s232,基于预测排序结果以及标准排序结果构造损失函数。
87.s233,基于损失函数,更新初始模型的参数。
88.本实施例中,融合排序规则的训练过程包括:将训练数据输入初始模型,初始模型对n种样本预排序结果进行处理,输出一个预测排序结果,初始模型基于预测排序结果以及标准排序结果构造损失函数,并通过反向传播算法更新初始模型中的参数。上述过程相当于完成对初始模型的一次训练,通过利用多个训练样本进行训练,使得模型重复执行上述过程,即可得到融合排序规则。可选地,损失函数可以采用平方损失函数、交叉熵损失函数,或者其他损失函数。
89.下面结合图7,以一个具体示例对本技术实施例中的融合排序规则的训练过程进行详细说明。
90.如图7所示,以一个一层简单全连接层的神经网络作为初始模型,将三种蛋白质排序规则分别获得的三种样本排序结果输入初始模型的全连接层,得到全连接层输出的预测排序结果,然后将预测排序结果以及标准排序结果共同构造损失函数,此处损失函数选择平方损失函数loss,且loss=(预测排序结果-标准排序结果)*(预测排序结果-标准排序结果),在得到损失函数之后,利用反向传播算法更新初始模型中的参数,从而完成对初始模型的一次训练。
91.其中,如图7所示,标准排序结果是将样本蛋白质序列对应m种样本蛋白质构象与样本蛋白质序列对应标准蛋白质构象,利用打分工具lddt按照结构差异打分,并按照打分结果排序后获得的。
92.s240,获取目标蛋白质序列对应的m个候选蛋白质构象,其中m为大于1的正整数。
93.s250,基于n种蛋白质排序规则,对m个候选蛋白质构象进行预排序,获得m个候选蛋白质构象对应的n种预排序结果,其中,n为大于0的正整数。
94.s260,基于融合排序规则,对n种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果。
95.s270,根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象。
96.本技术实施例提供的一种蛋白质构象预测方法,通过获取目标蛋白质序列对应的m个候选蛋白质构象,然后基于n种蛋白质排序规则,对m个候选蛋白质构象进行预排序,获得m个候选蛋白质构象对应的n种预排序结果,再基于n种样本预排序结果以及标准排序结果训练得到的融合排序规则,对n种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果,最后根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象。从而通过前述方式,可以在对目标蛋白质序列对应的m个候选蛋白质按照n种蛋白质排序规则进行预排序的基础上,再基于n种样本预排序结果以及标准排序结果训练得到的融合排序规则,对n种预排序结果进行处理,由于融合排序规则是基于预排序得到的n种排序结果进行
处理,相当于对蛋白质构象进行了两级排序,综合了多种蛋白质排序规则的不同排序方法,避免传统工具排序稳定性差问题,使得在各种蛋白质结构上,都能够有较好的预测准确性,进而提高了预测的蛋白质构象整体准确性。
97.作为一种方式,在获取m个样本蛋白质构象以及对应的标准排序结果之后,也可以直接将m个样本蛋白质构象以及对应的标准排序结果作为训练样本,对初始模型进行训练,从而得到另外一种排序模型,如此也能够实现对m个候选蛋白质构象进行排序的功能,从而得到排序结果,只不过采用该种方法,不能够考虑多种蛋白质排序规则的优势,容易出现过拟合的问题。
98.请参阅图8,图8所示为本技术一实施例提出的一种蛋白质构象预测方法的流程图,在本实施例中,该方法可以应用于服务器,该方法包括:
99.s310,从蛋白质数据库中查找目标蛋白质序列对应的同源蛋白质序列。
100.蛋白质数据库内存储有多种已知蛋白质结构,这些蛋白质结构均对应有蛋白质序列,蛋白质数据库内的蛋白质序列以及蛋白质结构之间的对应关系是在以往实验中收录并保存的。
101.通过蛋白质数据库,可以查找到目标蛋白质序列对应的同源蛋白质序列。其中,同源蛋白质序列与目标蛋白质序列的氨基酸序列具有明显的相似性,在不同生物体或同一机体内行使相同或相似功能。
102.s320,基于同源蛋白质序列对应的结构特征,得到目标蛋白质序列对应的结构特征。
103.在查找到目标蛋白质序列对应的同源蛋白质序列之后,可以继续在蛋白质数据中查找同源蛋白质序列对应的蛋白质结构,从而获得同源蛋白质序列对应的结构特征,然后便可以基于同源蛋白质序列对应的结构特征,得到目标蛋白质序列对应的结构特征。
104.作为一种方式,可以直接将同源蛋白质序列对应的结构特征作为目标蛋白质序列对应的结构特征。
105.作为另外一种方式,可以将同源蛋白质序列对应的结构特征输入到训练得到的结构预测神经网络,得到结构预测网络输出的预测结构特征,将预测结构特征作为目标蛋白质序列对应的结构特征。其中,预测结构特征可以有多种。
106.s330,基于目标蛋白质序列对应的结构特征,得到目标蛋白质序列对应的m个候选蛋白质构象。
107.在得到目标蛋白质序列对应的结构特征之后,可以使用蛋白质预测算法,对每种结构特征预测多个候选蛋白质构象。
108.其中,蛋白质预测算法可以是使用模拟退火算法预测蛋白质结构的rosetta工具,或者aphafold工具。
109.s340,基于n种蛋白质排序规则,对m个候选蛋白质构象进行预排序,获得m个候选蛋白质构象对应的n种预排序结果,其中,n为大于0的正整数。
110.作为一种方式,蛋白质排序规则可以基于候选蛋白质局部信息进行排序。可选地,蛋白质排序规则包括korpe能量排序规则、goap(generalized orientation-dependent all-atom potential,广义取向相关的全原子统计势)排序规则或者dope(discrete optimized protein energy离散优化蛋白质能量)排序规则中的至少一个。
111.s350,基于融合排序规则,对n种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果。
112.s360,根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象。
113.本技术实施例提供的一种蛋白质构象预测方法,可以在对目标蛋白质序列对应的m个候选蛋白质按照n种蛋白质排序规则进行预排序的基础上,再基于融合排序规则,对n种预排序结果进行处理,由于融合排序规则是基于预排序得到的n种排序结果进行处理,相当于对蛋白质构象进行了两级排序,综合了多种蛋白质排序规则的不同排序方法,避免传统工具排序稳定性差问题,使得在各种蛋白质结构上,都能够有较好的预测准确性,进而提高了预测的蛋白质构象整体准确性。
114.此外,由于同源蛋白质序列与目标蛋白质序列的氨基酸序列具有明显的相似性,在不同生物体或同一机体内行使相同或相似功能,因此,基于目标蛋白质序列对应的同源蛋白质序列的结构特征得到目标蛋白质序列的预测结构特征,再基于预测结构特征得到目标蛋白质序列对应的m个候选蛋白质构象,能够提高候选蛋白质构象获取的准确性。
115.下面再通过图9对本技术实施例提供的蛋白质构象预测方法的一个具体应用过程进行介绍。
116.如图9所示,首先,服务器接收客户端发送的目标蛋白质序列410,在蛋白质数据库420中查找目标蛋白质序列410对应的同源蛋白质序列,以及该同源蛋白质序列对应的结构特征,然后再将同源蛋白质序列对应的结构特征输入到训练得到的结构预测模块430(结构预测模块内可以预置结构预测神经网络),得到结构预测模块430输出的多个预测结构特征,最后再使用蛋白质构象预测模块440(蛋白质构象预测模块内可以预置蛋白质预测算法),对每种结构特征预测多个候选蛋白质构象,从而获得目标蛋白质序列对应的m个候选蛋白质构象。
117.然后,将m个候选蛋白质构象输入蛋白质构象预排序模块450,蛋白质构象预排序模块450预置有goap排序规则、dope排序规则以及korpe能量排序规则,在蛋白质构象预排序模块450内分别使用goap排序规则、dope排序规则以及korpe能量排序规则各自对m个候选蛋白质构象进行排序,分别获得goap排序规则对应的预排序结果、dope排序规则对应的预排序结果以及korpe能量排序规则对应的预排序结果。
118.接着,再将三种排序结果共同作为特征输入到融合排序模块460(融合排序模块内部预置有融合排序规则),在经过融合排序模块460处理之后,便可以得到目标蛋白质排序结果。
119.最后,再从目标排序结果中获取排名靠前的预设数量个候选蛋白质构象,作为目标蛋白质序列对应的预测蛋白质构象,返回给客户端。
120.其中,上述的服务器可以是部署在腾讯云上的服务器。
121.需要说明的是,本技术提供以上一些具体可实施方式的示例,在互不抵触的前提下,各个实施例示例之间可任意组合,以形成新一种蛋白质构象预测方法。应当理解的,对于由任意示例所组合形成的新一种蛋白质构象预测方法,均应落入本技术的保护范围。
122.请参阅图10,图10示出了本技术一实施例提出的一种蛋白质构象预测装置500的框图,该装置500包括:候选蛋白质构象获取模块510、预排序模块520、目标排序结果获得模块530以及预测蛋白质构象确定模块540。
123.候选蛋白质构象获取模块510,用于获取目标蛋白质序列对应的m个候选蛋白质构象,其中m为大于1的正整数。
124.作为一种方式,候选蛋白质构象获取模块510,包括:
125.同源蛋白质序列查找子模块,用于从蛋白质数据库中查找目标蛋白质序列对应的同源蛋白质序列;
126.结构特征获得子模块,用于基于同源蛋白质序列对应的结构特征,得到目标蛋白质序列对应的结构特征;
127.候选蛋白质构象获得子模块,用于基于目标蛋白质序列对应的结构特征,得到目标蛋白质序列对应的m个候选蛋白质构象。
128.预排序模块520,用于基于n种蛋白质排序规则,对m个候选蛋白质构象进行预排序,获得m个候选蛋白质构象对应的n种预排序结果,其中,n为大于0的正整数。
129.作为一种方式,蛋白质排序规则基于候选蛋白质局部信息进行排序。可选地,蛋白质排序规则包括能量排序规则、广义取向相关的全原子统计势规则或者离散优化蛋白质能量规则中的至少一个。
130.目标排序结果获得模块530,用于基于融合排序规则,对n种预排序结果进行处理,得到m个候选蛋白质构象对应的目标排序结果。
131.作为一种方式,融合排序规则基于n种样本预排序结果以及标准排序结果训练得到。
132.预测蛋白质构象确定模块540,用于根据目标排序结果,确定目标蛋白质序列对应的预测蛋白质构象。
133.作为一种方式,预测蛋白质构象确定模块540,包括:预测蛋白质构象获取子模块。
134.预测蛋白质构象获取子模块,用于获取目标排序结果中排名靠前的预设数量个候选蛋白质构象,作为目标蛋白质序列对应的预测蛋白质构象。
135.作为一种方式,该装置500还包括:
136.样本获取模块,用于获取m个样本蛋白质构象以及对应的标准排序结果,m个样本蛋白质构象基于样本蛋白质序列得到。
137.样本预排序模块,用于基于n种蛋白质排序规则,对m个样本蛋白质构象进行预排序,获得m个样本蛋白质构象对应的n种样本预排序结果。
138.训练模块,用于基于n种样本预排序结果以及标准排序结果,对初始模型进行训练,得到融合排序规则。
139.作为一种方式,样本获取模块包括:
140.样本获取子模块,用于获取样本蛋白质序列对应的m个样本蛋白质构象以及样本蛋白质序列对应的标准蛋白质构象。
141.结构差异获取子模块,用于获取m个样本蛋白质构象分别与标准蛋白质构象之间的结构差异。
142.标准排序结果获取子模块,用于基于结构差异的大小,对m个样本蛋白质构象进行排序,得到标准排序结果。
143.作为一种方式,训练模块包括:
144.预测排序结果获取子模块,用于将n种样本预排序结果输入初始模型,得到初始模
型的预测排序结果。
145.损失函数构造子模块,用于基于预测排序结果以及标准排序结果构造损失函数。
146.参数更新子模块,用于基于损失函数,更新初始模型的参数。
147.本技术实施例提供的一种蛋白质构象预测装置,可以在对目标蛋白质序列对应的m个候选蛋白质按照n种蛋白质排序规则进行预排序的基础上,再基于融合排序规则,对n种预排序结果进行处理,由于融合排序规则是基于预排序得到的n种排序结果进行处理,相当于对蛋白质构象进行了两级排序,综合了多种蛋白质排序规则的不同排序方法,避免传统工具排序稳定性差问题,使得在各种蛋白质结构上,都能够有较好的预测准确性,进而提高了预测的蛋白质构象整体准确性。
148.需要说明的是,本技术中装置实施例与前述方法实施例是相互对应的,装置实施例中具体的原理可以参见前述方法实施例中的内容,此处不再赘述。
149.下面将结合图11对本技术提供的一种电子设备进行说明。
150.请参阅图11,基于上述的蛋白质构象预测方法,本技术实施例还提供的另一种包括可以执行前述蛋白质构象预测方法的处理器104的电子设备200,该电子设备200可以为智能手机、平板电脑、计算机或者便携式计算机等设备。电子设备200还包括存储器104、网络模块106以及屏幕108。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
151.其中,处理器102可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器102利用各种接口和线路连接整个电子设备200内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备200的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器102可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。
152.存储器104可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
153.网络模块106用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯,例如和音频播放设备进行通讯。网络模块106可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(sim)卡、存储器等等。网络模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括
蜂窝式电话网、无线局域网或者城域网。例如,网络模块106可以与基站进行信息交互。
154.屏幕108可以进行界面内容的显示,也可以用于响应触控手势。
155.需要说明的是,为了实现更多的功能,电子设备200还可以保护更多的器件,例如,还可以保护用于进行人脸信息采集的结构光传感器或者还可以保护用于采集虹膜的摄像头等。
156.请参考图12,其示出了本技术实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1100中存储有程序代码,程序代码可被处理器调用执行上述方法实施例中所描述的方法。
157.计算机可读存储介质1100可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质1100包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。
158.基于上述的蛋白质构象预测方法,根据本技术实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的各种可选实现方式中提供的方法。
159.综上,本技术实施例提供的一种蛋白质构象预测方法、装置、电子设备、存储介质及计算机程序产品或计算机程序,可以在对目标蛋白质序列对应的m个候选蛋白质按照n种蛋白质排序规则进行预排序的基础上,再基于融合排序规则,对n种预排序结果进行处理,由于融合排序规则是基于预排序得到的n种排序结果进行处理,相当于对蛋白质构象进行了两级排序,综合了多种蛋白质排序规则的不同排序方法,避免传统工具排序稳定性差问题,使得在各种蛋白质结构上,都能够有较好的预测准确性,进而提高了预测的蛋白质构象整体准确性。
160.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献