一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

预测方法、装置、电子设备及计算机可读存储介质与流程

2022-03-02 01:00:06 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,具体而言,本技术涉及一种预测方法、装置、电子设备、计算机可读存储介质及计算机程序产品。


背景技术:

2.人类的基因组中,约有1.5%的核糖核酸(ribonucleic acid,rna)序列编码了蛋白质。由于处于蛋白质的上游,靶向rna可以直接和蛋白质进行结合,从而参与生物系统中多种细胞活动和过程。例如,在肿瘤的运行的各个进程中。异常表达的ncrna(non-coding rna,非编码rna)通过与蛋白质关联作用,使得ncrna能够在基因表达及蛋白质功能等多层面对抑癌和癌基因进行调控,继而达到了对肿瘤细胞的发生和发展产生影响;同时ncrna可通过结合蛋白质的形式,影响蛋白质的下游功能,因此研究ncrna和蛋白质的相互结合,在揭示疾病发生机制,以及发掘药物靶点方面有着重要意义。
3.目前,针对rna和蛋白质相互结合的预测主要通过实验研究进行,实验方法例如:紫外交联免疫沉淀结合高通量测序(hits-clip)、x射线晶体衍射法(x-ray)、核磁共振(nuclear magnetic resonance)等。然而,实验研究的方式存在准确度较低的情况。


技术实现要素:

4.本技术实施例提供了一种预测方法、装置、电子设备、计算机可读存储介质及计算机程序产品,用于解决相关技术中,在rna和蛋白质相互结合的预测过程中,存在准确度较低的技术问题。
5.根据本技术实施例的一个方面,提供了一种预测方法,该方法包括:获取目标核糖核酸序列的核酸序列信息、第一结构信息,以及获取目标蛋白质的蛋白序列信息、第二结构信息;
6.通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,得到预测结果;其中,所述预测结果指示所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用。
7.可选的,所述通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,得到预测结果,包括:
8.获取目标核糖核酸序列的核酸序列特征、第一结构特征;以及获取目标蛋白质的蛋白序列特征、第二结构特征;
9.对所述核酸序列特征、所述第一结构特征、所述蛋白序列特征及所述第二结构特征进行拼接处理,得到拼接特征;
10.将所述拼接特征输入所述第一预测模型,得到所述预测结果。
11.可选的,所述通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理之前,所述方法还包括:
12.获取第一训练样本集;其中,所述第一训练样本集中包括样本对,所述样本对包括
样本核糖核酸序列及样本蛋白质;
13.针对每个所述样本对,获取所述样本对的样本拼接特征;
14.将所述样本拼接特征输入第一初始模型中,得到所述样本对对应的样本预测结果,所述样本预测结果指示所述样本核糖核酸序列与样本目标蛋白质是否发生相互结合作用;
15.根据所述样本对对应的输入相互作用结果和所述样本预测结果,确定训练损失值;
16.若满足预设的训练结束条件,则结束训练,并将训练结束时的第一初始模型作为所述第一预测模型,若不满足训练结束条件,则调整所述第一初始模型的模型参数继续进行训练。
17.可选的,所述获取目标核糖核酸序列的核酸序列特征、第一结构特征,以及获取目标蛋白质的蛋白序列特征、第二结构特征,包括:
18.将所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息分别输入第一子模型,得到所述核酸序列特征、所述第一结构特征、所述蛋白序列特征及第二结构特征;
19.其中,所述第一子模型包括单层的预设类型网络模型。
20.可选的,所述第一子模型是通过以下方式训练得到的:
21.获取第二训练样本集;其中,所述第二训练样本集中包括第一样本向量,所述第一样本向量包括样本核糖核酸信息对应的向量和/或样本蛋白质信息对应的向量;所述样本核糖核酸信息包括核酸序列信息和/或第一结构信息;所述样本蛋白质信息包括蛋白序列信息和/或第二结构信息;
22.在预设训练周期内,重复执行以下步骤:
23.针对每个所述第一样本向量,将所述第一样本向量输入第二初始模型的可视层,根据所述第一样本向量及第一数据关系得到第一输出向量,所述第一输出向量包括所述第二初始模型的隐藏层的输出向量;
24.根据所述第一输出向量及第二数据关系,确定所述第一样本向量对应的第一反向向量;根据所述第一反向向量及所述第一数据关系确定所述第一输出向量对应的第二反向向量;
25.根据正向梯度、反向梯度、所述第一反向向量及所述第二反向向量对所述第二初始模型的模型参数进行调整;其中,所述正向梯度根据所述第一样本向量、所述第一输出向量及所述第一数据关系确定;所述反向梯度根据所述第一反向向量、所述第二反向向量及所述第二数据关系确定。
26.可选的,所述第一数据关系包括:
27.p(hj|v)=σ(bj ∑iw
ij
vi);
28.所述第二数据关系包括:
29.p(vi|h)=σ(ai ∑jw
ijhj
);
30.其中:v表示所述第一样本向量;h表示所述第一输出向量;
31.p(v|h)表示输入所述第一样本向量时输出所述第一输出向量的概率;
32.w
ij
,ai,bj表示所述第二初始模型的模型参数;i,j表示正整数;
33.σ为sigmod函数,
34.可选的,所述第一预测模型包括多层的所述预设类型网络模型;
35.第一结构信息包括二级结构的碱基游离配对信息;
36.第二结构信息包括蛋白质侧链扭转角信息和/或蛋白质侧链能量分数信息。
37.根据本技术实施例的另一个方面,提供了一种预测装置,该装置包括:
38.获取模块,用于获取目标核糖核酸序列的核酸序列信息、第一结构信息,以及获取目标蛋白质的蛋白序列信息、第二结构信息;
39.预测模块,用于通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,得到预测结果;其中,所述预测结果指示所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用。
40.根据本技术实施例的另一个方面,提供了一种电子设备,该电子设备包括:
41.一个或多个处理器;
42.存储器;
43.一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行第一方面所述的任一项所述的预测方法。
44.根据本技术实施例的再一个方面,提供了一种计算机可读存储介质,所述计算机程序被处理器执行时实现第一方面所述的任一项所述的预测方法。
45.本技术实施例提供的技术方案带来的有益效果是:
46.本技术实施例中,通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,以得指示所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用的预测结果;其中,由于第一结构信息可包括二级结构的碱基游离配对信息,而二级结构中碱基游离配对情况对rna与蛋白质间的作用力有影响,进而影响rna与蛋白质是否会发生相互结合;以及,第二结构信息包括蛋白质侧链扭转角信息和/或蛋白质侧链能量分数信息,而该两种信息会影响蛋白质与rna相互结合的趋向和相互结合时的构象;因此,通过对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测,可以得到更为准确的预测结果。
附图说明
47.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
48.图1为本技术实施例提供的实现预测方法的系统架构示意图;
49.图2为本技术实施例提供的一种预测方法的模型结构示意图;
50.图3为本技术实施例提供的一种预测方法的流程示意图;
51.图4为本技术实施例提供的一种预测方法的rna结构示意图;
52.图5为本技术实施例提供的一种预测方法中应用场景示意图;
53.图6为本技术实施例提供的一种预测方法的预测流程示意图;
54.图7为本技术实施例提供的一种预测方法的应用场景示意图;
55.图8为本技术实施例提供的一种预测装置的结构示意图;
56.图9为本技术实施例提供的一种预测的电子设备的结构示意图。
具体实施方式
57.下面结合本技术中的附图描述本技术的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本技术实施例的技术方案的示例性描述,对本技术实施例的技术方案不构成限制。
58.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“a和/或b”可以实现为“a”,或者实现为“b”,或者实现为“a和b”。
59.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
60.本技术实施例提供的预测方法中的至少部分内容涉及到人工智能领域中的机器学习等领域,还涉及云技术的多种领域,如云技术(cloud technology)中的云计算、云服务以及大数据领域中的相关数据计算处理领域。
61.人工智能(artificial intelligence,简称ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
62.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
63.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
64.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学
习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
65.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
66.其中,本技术实施例的预测方法可以应用于生物医疗等技术领域。具体的,以下是对本技术涉及的技术术语进行解释:
67.核糖核酸(ribonucleic acid,rna),存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。rna由核糖核苷酸经磷酸二酯键缩合而成长链状分子。一个核糖核苷酸分子由磷酸,核糖和碱基构成。rna的碱基主要有4种,即a(腺嘌呤)、g(鸟嘌呤)、c(胞嘧啶)、u(尿嘧啶),其中,u(尿嘧啶)取代了dna中的t。核糖核酸在体内的作用主要是引导蛋白质的合成。
68.rna与蛋白质相互作用的主要分子机制是依靠rna与蛋白质间氢键作用力相互连接配对,而rna二级结构中的碱基的结构、是否游离、是否为watson-crick配对等因素决定了rna是否能与蛋白质相互作用。
69.rna二级结构:rna分子存在着多个由互补碱基对构成的单链区结构、茎环结构,以及双链结构等各种不同组件形成的平面结构,并通过这些结构进行自我折叠运动,所构成的结构即为rna的二级结构。
70.侧链:是母体碳链或碳环链上的侧枝,分为长支链和短支链。支链对聚合物的化学、物理、力学性能都有很大影响,分支点易受化学攻击、氧化和热降解。
71.扭转角:单键旋转时,相邻碳上的其他键会交叉成一定的角度,称为扭转角(torsion angle)。扭转角是0
°
的构象为重叠构象,扭转角是180
°
的构象为反错构象,扭转角是60
°
的构象是邻位交叉构象,也叫顺错构象,扭转角在0-60
°
之间的构象为扭曲构象(skewedconformation)。
72.为进一步说明本技术实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本技术实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本技术实施例提供的执行顺序。
73.首先结合图1,其为本技术实施例提供的预测方法的系统架构图。该系统可以包括服务器101以及终端集群,其中,服务器101可以认为是预测处理的后台服务器。
74.终端集群可以包括:终端102、终端103、终端104、
……
,其中,终端中可以安装有支持预测处理的客户端。终端之间可以存在通信连接,例如终端102与终端103之间存在通信连接,终端103与终端104之间存在通信连接。
75.同时,服务器101可以通过通信连接功能为终端集群提供服务,终端集群中的任一终端可以与服务器101存在通信连接,例如终端102与服务器101之间存在通信连接,终端103与服务器101之间存在通信连接,其中,上述的通信连接不限定连接方式,可以通过有线
通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接,还可以通过其他方式。
76.上述通信连接的网络可以通过网络可以是广域网或者局域网,又或者是二者的组合。本技术在此不做限制。
77.本技术实施例的预测方法,可以在服务器侧执行,也可在终端侧执行,本技术实施例中不对执行主体进行限定。在预测处理过程中,可以通过获取目标核糖核酸序列的核酸序列信息、第一结构信息,以及获取目标蛋白质的蛋白序列信息、第二结构信息;通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,得到预测结果。
78.因此,本技术实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于终端(也包括上述的用户终端)或服务器(也包括上述的服务器101)。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
79.当然,本技术实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其它可能的应用场景,本技术实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
80.作为一种可选实施方式,图2中示出了本技术提供的一种预测系统的模型结构示意图,如图2中所示,可以通过将目标核糖核酸序列的核酸序列信息、第一结构信息,如碱基游离配对信息、蛋白序列信息、第二结构信息,如蛋白质侧链扭转角信息及蛋白质侧链能量分数信息输入第一预测模型的可视层,并经过多层隐藏层的预测处理,得到预测结果,即预测目标rna序列与目标蛋白质是否发生相互结合作用。
81.本技术实施例提供了一种可能的实现方式,该方案可以由任一电子设备执行,可选的,任一电子设备可以为具有预测能力的服务器设备,也可以为集成在这些设备上的装置或芯片。如图3所示,其为本技术实施例提供的一种预测方法的流程示意图之一,该方法包括如下步骤:
82.步骤s301:获取目标核糖核酸序列的核酸序列信息、第一结构信息,以及获取目标蛋白质的蛋白序列信息、第二结构信息。
83.可选的,本技术实施例的预测方法可以应用于生物信息领域,对目标核糖核酸序列以及目标蛋白质进行预测处理,以预测所述目标核糖核酸序列以及所述目标蛋白质是否发生相互结合作用。
84.其中,目标核糖核酸序列,即目标rna序列可以包括任一rna序列,例如,目标rna序列可以包括目标信使rna(mrna)序列、目标转移rna(trna)序列、目标核糖体rna(rrna)序列以及异常表达的非编码rna序列(non-coding rna,ncrna)等。
85.核酸序列信息可以包括目标核糖核酸序列的序列信息。目标核糖核酸序列中可以包括多个碱基,多个碱基可以有序排列;其中,碱基是核糖核酸序列(rna)的重要组成部分,
the pytorch的机器学习包。蛋白质侧链能量分数信息可以采用proteus 2.0软件包进行预测获取。
95.步骤s302:通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,得到预测结果;其中,所述预测结果指示所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用。
96.可选的,所述第一预测模型包括多层的所述预设类型网络模型;所述预设类型网络模型具体可以包括受限玻尔兹曼机模型等。
97.在所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理时,可以基于所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息分别对应的特征进行预测处理;此外,还可以将所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息分别对应的特征进行拼接处理,然后基于拼接后的拼接特征进行预测处理,进而得到预测结果,其中,所述预测结果指示所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用。
98.本技术实施例通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,以得指示所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用的预测结果,由于第一结构信息可以包括二级结构的碱基游离配对信息,二级结构中碱基游离配对情况对rna与蛋白质间的作用力有影响,进而影响rna与蛋白质是否发生相互结合;以及,第二结构信息包括蛋白质侧链扭转角信息和/或蛋白质侧链能量分数信息,蛋白质侧链扭转角信息以及蛋白质侧链能量分数信息影响蛋白质与rna相互结合作用的趋向和相互结合作用时的构象,因此,通过对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测,可以得到更为准确的所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用的预测结果。
99.在本技术的另一个实施例中,所述通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,得到预测结果,包括:
100.获取目标核糖核酸序列的核酸序列特征、第一结构特征;以及获取目标蛋白质的蛋白序列特征、第二结构特征;
101.对所述核酸序列特征、所述第一结构特征、所述蛋白序列特征及所述第二结构特征进行拼接处理,得到拼接特征;
102.将所述拼接特征输入所述第一预测模型,得到所述预测结果。
103.可选的,核酸序列特征可以为核酸序列信息的特征,核酸序列特征可以通过对核酸序列信息进行特征提取得到。
104.第一结构特征可以为第一结构信息的特征,第一结构特征可以通过对第一结构信息进行特征提取得到。可选的,本技术实施例中,第一结构特征可以为二级结构的碱基游离配对信息的特征。
105.蛋白序列特征可以为蛋白序列信息的特征,蛋白序列特征可以通过对蛋白序列信息进行特征提取得到。
106.第二结构特征可以为第二结构信息的特征,第二结构特征可以通过对第二结构信息进行特征提取得到。可选的,本技术实施例中,第二结构特征可以为蛋白质侧链扭转角信
息和/或蛋白质侧链能量分数信息的特征。
107.可选的,本技术实施例的核酸序列特征、第一结构特征、蛋白序列特征、第二结构特征可以通过神经网络模型分别对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行特征提取得到。其中,神经网络模型可以包括单层的预设类型网络模型,例如,单层的预设类型网络模型可以为单层受限玻尔兹曼机模型。结合图5所示,可以分别将所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息作为可视层输入,从而进行特征的提取。
108.进一步的,得到所述核酸序列特征、所述第一结构特征、所述蛋白序列特征及所述第二结构特征后,可以对所述核酸序列特征、所述第一结构特征、所述蛋白序列特征及所述第二结构特征进行拼接处理,得到拼接特征。
109.可选的,在进行拼接处理时,可以按照以下至少一种方式处理:
110.方式一:可以按照预设顺序,对上述特征进行拼接处理;例如,按照所述核酸序列特征、所述第一结构特征、所述蛋白序列特征、所述第二结构特征的顺序进行拼接。
111.方式二:可以按照随机顺序,对上述特征进行拼接处理。
112.方式三:可以将目标核糖核酸序列对应的特征进行拼接得到第一拼接特征;将目标蛋白质对应的特征拼接得到第二拼接特征,然后,将第一拼接特征与第二拼接特征进行拼接。例如,可以将所述核酸序列特征、所述第一结构特征进行拼接,得到第一拼接特征;将所述蛋白序列特征及所述第二结构特征进行拼接,得到第二拼接特征;然后,将第一拼接特征与第二拼接特征进行拼接。
113.方式四:可以将目标核糖核酸序列对应的特征与目标蛋白质对应的特征先混合拼接得到第一拼接特征与第二拼接特征,然后,将第一拼接特征与第二拼接特征进行拼接。例如,将所述核酸序列特征与所述蛋白序列特征进行拼接,得到第一拼接特征;将所述第一结构特征与所述第二结构特征进行拼接,得到第二拼接特征;然后,将第一拼接特征与第二拼接特征进行拼接。
114.需要说明的是,上述拼接方式仅为示例性说明,不做限定,本技术实施还可以包括其他可实施的拼接方式,在此不做一一列举。
115.进一步的,将所述拼接特征输入所述第一预测模型,得到所述预测结果。结合图6所示,第一预测模型可以包括多层的受限玻尔兹曼机模型(restricted boltzmann machine,rbm),可选的,第一预测模型可以至少包括两层rbm。
116.在本技术的另一个实施例中,所述通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理之前,所述方法还包括:
117.获取第一训练样本集;其中,所述第一训练样本集中包括样本对,所述样本对包括样本核糖核酸序列及样本蛋白质;
118.针对每个所述样本对,获取所述样本对的样本拼接特征;
119.将所述样本拼接特征输入第一初始模型中,得到所述样本对对应的样本预测结果,所述样本预测结果指示所述样本核糖核酸序列与样本目标蛋白质是否发生相互结合作用;
120.根据所述样本对对应的输入相互作用结果和所述样本预测结果,确定训练损失
值;
121.若满足预设的训练结束条件,则结束训练,并将训练结束时的第一初始模型作为第一预测模型,若不满足训练结束条件,则调整所述第一初始模型的模型参数继续进行训练。
122.可选的,本技术实施例中样本对可以从数据库中的数据集获取,例如,样本对可以从rpi1807数据集(rpi1807数据集中包括1807个正例及1436个负例)、rpi2241数据集(rpi2241数据集中包括正负例各有2241对)、pri369数据集(pri369数据集中包括正负例各有369对)以及npinter v2.0数据集(npinter v2.0数据集中包括正负例各有10412对)中获取。其中,正例为可以发生相互结合作用的蛋白质与rna对;负例为不发生相互结合作用的蛋白质与rna对。
123.其中,在获取样本对时,本技术实施例可以采用同时在数据集的rna样本池以及蛋白质样本池中随机选取样本rna、样本蛋白质,然后组成样本对。
124.针对每个所述样本对,通过上述实施例中获取特征、以及拼接特征的方法,获取所述样本对的样本拼接特征;并将所述样本拼接特征输入第一初始模型中,得到所述样本对对应的样本预测结果。
125.根据所述样本对对应的输入相互作用结果和所述样本预测结果,确定训练损失值;其中,所述样本对对应的输入相互作用结果用于表征样本对中,样本rna与样本蛋白质是否发生相互结合作用的真实结果。
126.进一步的,基于所述训练损失值,对所述第一初始模型进行重复训练,若满足预设的训练结束条件,则结束训练,并将训练结束时的所述第一初始模型作为第一预测模型,若不满足训练结束条件,则调整所述第一初始模型的模型参数,并基于各训练样本对调整后的模型继续进行训练直至满足预设的训练结束条件。
127.在本技术的另一个实施例中,所述获取目标核糖核酸序列的核酸序列特征、第一结构特征,以及获取目标蛋白质的蛋白序列特征、第二结构特征,包括:
128.将所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息分别输入第一子模型,得到所述核酸序列特征、所述第一结构特征、所述蛋白序列特征及第二结构特征;
129.其中,所述第一子模型包括单层的预设类型网络模型。
130.可选的,结合图7所示,本技术实施例中,第一子模型可以为第一预测模型中的子模型,其中,第一子模型可以为受限玻尔兹曼机模型(restricted boltzmann machine,rbm)。待预测数据信息输入第一预测模型后,可以通过受限玻尔兹曼机模型,即第一子模型进行特征提取。
131.在本技术的另一个实施例中,所述第一子模型是通过以下方式训练得到的:
132.获取第二训练样本集;其中,所述第二训练样本集中包括第一样本向量,所述第一样本向量包括样本核糖核酸信息对应的向量和/或样本蛋白质信息对应的向量;所述样本核糖核酸信息包括核酸序列信息和/或第一结构信息;所述样本蛋白质信息包括蛋白序列信息和/或第二结构信息;
133.在预设训练周期内,重复执行以下步骤:
134.针对每个所述第一样本向量,将所述第一样本向量输入第二初始模型的可视层,
根据所述第一样本向量及第一数据关系得到第一输出向量,所述第一输出向量包括所述第二初始模型的隐藏层的输出向量;
135.根据所述第一输出向量及第二数据关系,确定所述第一样本向量对应的第一反向向量;根据所述第一反向向量及所述第一数据关系确定所述第一输出向量对应的第二反向向量;
136.根据正向梯度、反向梯度、所述第一反向向量及所述第二反向向量对所述第二初始模型的模型参数进行调整;其中,所述正向梯度根据所述第一样本向量、所述第一输出向量及所述第一数据关系确定;所述反向梯度根据所述第一反向向量、所述第二反向向量及所述第二数据关系确定。
137.在对单层rbm进行训练时,预设学习率可以为∈,预设训练周期可以为t。第一样本向量可以表示为v;第一输出向量可以表示为h。单层rbm的权重矩阵可以表示为w,其中,权重矩阵w中每个元素w
ij
为网络中可视层神经元与隐藏层神经元之间边的权重。单层rbm的偏置向量可以表示为a和b,其中ai为每个第一样本向量对应的偏置,bj为每个第一输出向量对应的偏置。w
ij
,ai,bj为rbm的网络参数。本技术实施例中,可以将w
ij
,ai,bj的初始值均设定为0。
138.本技术实施例中,rmb输出对应的输出向量的概率分布数据关系可以表示为:
139.其中:
140.z(θ)=∑
v,h
e-e(v,h|θ)

141.θ={w
ij
,ai,bj}。
142.当给定所述第一样本向量即将所述第一样本向量输入第二初始模型的可视层时,概率分布数据关系可以表示第一数据关系,即p(hj|v)=σ(bj ∑iw
ij
vi);根据所述第一样本向量及第一数据关系得到第一输出向量h。
143.当给定第一输出向量h,概率分布数据关系可以表示第二数据关系,即p(vi|h)=σ(ai ∑jw
ijhj
);根据所述第一输出向量及第二数据关系,确定所述第一样本向量对应的第一反向向量v

;;根据所述第一反向向量及所述第一数据关系确定所述第一输出向量对应的第二反向向量h


144.其中:p(v|h)表示输入所述第一样本向量时输出所述第一输出向量的概率;
145.w
ij
,ai,bj表示rmb的模型参数;i,j表示正整数;
146.σ为sigmod函数,
147.进一步的,根据所述第一样本向量、所述第一输出向量及所述第一数据关系确定正向梯度为根据所述第一反向向量、所述第二反向向量及所述第二数据关系确定所述反向梯度为v
′h′
t

148.进而,调整后的模型参数w1、a1、b1可以分别为:
149.b1=b ∈(h-h

)。
150.需要说明的是,在预设训练周期内,可以根据学习率重复执行以上训练步骤。
151.本技术实施例通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,以得指示所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用的预测结果,由于第一结构信息可以包括二级结构的碱基游离配对信息,二级结构中碱基游离配对情况对rna与蛋白质间的作用力有影响,进而影响rna与蛋白质是否发生相互结合;以及,第二结构信息包括蛋白质侧链扭转角信息和/或蛋白质侧链能量分数信息,蛋白质侧链扭转角信息以及蛋白质侧链能量分数信息影响蛋白质与rna相互结合作用的趋向和相互结合作用时的构象,因此,通过对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测,可以得到更为准确的所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用的预测结果。
152.本技术实施例提供了一种预测装置,如图8所示,该预测装置80可以包括获取模块801、预测模块802,其中,
153.获取模块801,用于获取目标核糖核酸序列的核酸序列信息、第一结构信息,以及获取目标蛋白质的蛋白序列信息、第二结构信息;
154.预测模块802,用于通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,得到预测结果;其中,所述预测结果指示所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用。
155.在本技术的另一个实施例中,预测模块具体用于获取目标核糖核酸序列的核酸序列特征、第一结构特征;以及获取目标蛋白质的蛋白序列特征、第二结构特征;
156.对所述核酸序列特征、所述第一结构特征、所述蛋白序列特征及所述第二结构特征进行拼接处理,得到拼接特征;
157.将所述拼接特征输入所述第一预测模型,得到所述预测结果。
158.在本技术的另一个实施例中,该装置还包括第一训练模块,用于获取第一训练样本集;其中,所述第一训练样本集中包括样本对,所述样本对包括样本核糖核酸序列及样本蛋白质;
159.针对每个所述样本对,获取所述样本对的样本拼接特征;
160.将所述样本拼接特征输入第一初始模型中,得到所述样本对对应的样本预测结果,所述样本预测结果指示所述样本核糖核酸序列与样本目标蛋白质是否发生相互结合作用;
161.根据所述样本对对应的输入相互作用结果和所述样本预测结果,确定训练损失值;
162.若满足预设的训练结束条件,则结束训练,并将训练结束时的第一初始模型作为所述第一预测模型,若不满足训练结束条件,则调整所述第一初始模型的模型参数继续进行训练。
163.在本技术的另一个实施例中,预测模块具体用于将所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息分别输入第一子模型,得到所述核酸序列特征、所述第一结构特征、所述蛋白序列特征及第二结构特征;
164.其中,所述第一子模型包括单层的预设类型网络模型。
165.在本技术的另一个实施例中,所述第一子模型是通过以下方式训练得到的:
166.获取第二训练样本集;其中,所述第二训练样本集中包括第一样本向量,所述第一样本向量包括样本核糖核酸信息对应的向量和/或样本蛋白质信息对应的向量;所述样本核糖核酸信息包括核酸序列信息和/或第一结构信息;所述样本蛋白质信息包括蛋白序列信息和/或第二结构信息;
167.在预设训练周期内,重复执行以下步骤:
168.针对每个所述第一样本向量,将所述第一样本向量输入第二初始模型的可视层,根据所述第一样本向量及第一数据关系得到第一输出向量,所述第一输出向量包括所述第二初始模型的隐藏层的输出向量;
169.根据所述第一输出向量及第二数据关系,确定所述第一样本向量对应的第一反向向量;根据所述第一反向向量及所述第一数据关系确定所述第一输出向量对应的第二反向向量;
170.根据正向梯度、反向梯度、所述第一反向向量及所述第二反向向量对所述第二初始模型的模型参数进行调整;其中,所述正向梯度根据所述第一样本向量、所述第一输出向量及所述第一数据关系确定;所述反向梯度根据所述第一反向向量、所述第二反向向量及所述第二数据关系确定。
171.在本技术的另一个实施例中,所述第一数据关系包括:
172.p(hj|v)=σ(bj ∑iw
ij
vi);
173.所述第二数据关系包括:
174.p(vi|h)=σ(ai ∑jw
ijhj
);
175.其中:v表示所述第一样本向量;h表示所述第一输出向量;
176.p(v|h)表示输入所述第一样本向量时输出所述第一输出向量的概率;
177.w
ij
,ai,bj表示所述第二初始模型的模型参数;i,j表示正整数;
178.σ为sigmod函数,
179.在本技术的另一个实施例中,所述第一预测模型包括多层的所述预设类型网络模型;
180.第一结构信息包括二级结构的碱基游离配对信息;
181.第二结构信息包括蛋白质侧链扭转角信息和/或蛋白质侧链能量分数信息。
182.本技术实施例的装置可执行本技术实施例所提供的方法,其实现原理相类似,本技术各实施例的装置中的各模块所执行的动作是与本技术各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
183.本技术实施例通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,以得指示所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用的预测结果,由于第一结构信息可以包括二级结构的碱基游离配对信息,二级结构中碱基游离配对情况对rna与蛋白质间的作用力有影响,进而影响rna与蛋白质是否发生相互结合;以及,第二结构信息包括蛋白质侧链扭转角信息和/或蛋白质侧链能量分数信息,蛋白质侧链扭转角信息以及蛋白质侧链能量分数信息影响蛋白质与rna相互结合作用的趋向和相互结合作用时的构象,因此,通过对所述核酸序列信息、
所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测,可以得到更为准确的所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用的预测结果。
184.本技术实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现预测方法的步骤,与相关技术相比:本技术实施例通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,以得指示所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用的预测结果,由于第一结构信息可以包括二级结构的碱基游离配对信息,二级结构中碱基游离配对情况对rna与蛋白质间的作用力有影响,进而影响rna与蛋白质是否发生相互结合;以及,第二结构信息包括蛋白质侧链扭转角信息和/或蛋白质侧链能量分数信息,蛋白质侧链扭转角信息以及蛋白质侧链能量分数信息影响蛋白质与rna相互结合作用的趋向和相互结合作用时的构象,因此,通过对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测,可以得到更为准确的所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用的预测结果。
185.在一个可选实施例中提供了一种电子设备,如图9所示,图9所示的电子设备4000包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
186.处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
187.总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
188.存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc read only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
189.存储器4003用于存储执行本技术实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的
步骤。
190.其中,电子设备包括但不限于移动电话、笔记本电脑、多媒体播放器、台式计算机等。
191.本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
192.本技术实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
193.本技术实施例通过第一预测模型,对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测处理,以得指示所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用的预测结果,由于第一结构信息可以包括二级结构的碱基游离配对信息,二级结构中碱基游离配对情况对rna与蛋白质间的作用力有影响,进而影响rna与蛋白质是否发生相互结合;以及,第二结构信息包括蛋白质侧链扭转角信息和/或蛋白质侧链能量分数信息,蛋白质侧链扭转角信息以及蛋白质侧链能量分数信息影响蛋白质与rna相互结合作用的趋向和相互结合作用时的构象,因此,通过对所述核酸序列信息、所述第一结构信息、所述蛋白序列信息及所述第二结构信息进行预测,可以得到更为准确的所述目标核糖核酸序列与所述目标蛋白质是否发生相互结合作用的预测结果。
194.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除图示或文字描述以外的顺序实施。
195.应该理解的是,虽然本技术实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本技术实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本技术实施例对此不限制。
196.以上所述仅是本技术部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术的方案技术构思的前提下,采用基于本技术技术思想的其他类似实施手段,同样属于本技术实施例的保护范畴。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献