一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于上下文感知计算的RNA溶剂可及性预测方法与流程

2022-02-20 13:17:22 来源:中国专利 TAG:

一种基于上下文感知计算的rna溶剂可及性预测方法
技术领域
1.本发明涉及生物信息预测技术领域,尤其涉及一种基于上下文感知计算的rna溶剂可及性预测方法。


背景技术:

2.在各项生命活动中,rna的生物功能都起着至关重要的作用,而rna的生物功能主要由其结构决定。预测rna的溶剂可及性是rna结构预测的关键步骤。因此,精确预测rna的溶剂可及性,对于理解rna功能、分析生物分子之间的相互关系和设计新药物等方面具有重要的指导意义。
3.调研文献发现,已有一些用于预测rna溶剂可及性方法被提出,如:rnasnap(yang,y.,et al.(2017)genome-scale characterization of rna tertiary structures and their functional impact by rna solvent accessibility prediction,rna,23,14-22.即:yang,等提出的rnasnap:一种基于svm算法的预测rna溶剂可及性的方法。rna,2017,23,14-22)和rnasol(sun,s.,et al.(2019)enhanced prediction of rna solvent accessibility with long short-term memory neural networks and improved sequence profiles,bioinformatics,35,1686-1691.即:sun等.利用单向长短时记忆双向递归神经网络捕获非局部相互作用,进而改善rna溶剂可及性的预测.生物信息学,35,1686-1691)等。尽管已有的方法可以用于预测rna的溶剂可及性,但是这些方法普遍简单地从一个单视图特征中提取信息,或从多个单视图特征串联生成的超特征中提取信息,计算代价较高,同时由于训练集中的噪音信息和特征的上下文联系信息没有得到足够的关注,所以预测精度并不能保证是最优的且预测效率有待进一步提升。
4.综上所述,现存的rna溶剂可及性的预测方法在计算代价、预测精确性方面,距离实际应用的要求还有很大差距,迫切地需要改进。


技术实现要素:

5.本发明的目的是针对现有技术的缺陷,提供一种基于上下文感知计算的rna溶剂可及性预测方法。
6.为了实现以上目的,本发明采用以下技术方案:
7.一种基于上下文感知计算的rna溶剂可及性预测方法,包括:
8.s1.收集pdb数据库中所有已注释三级结构信息的rna序列组成训练集合s,并使用pops工具生成rna序列对应的溶剂可及性标签y;
9.s2.获取训练集合s中碱基个数为l
x
的rna序列信息,并将获取的rna序列信息记作s
x

10.s3.使用infernal工具搜索s
x
的核苷酸数据库并生成对应的多序列联配信息msa;
11.s4.对多序列联配信息msa进行处理,生成msa对应的特征矩阵fmsa;
12.s5.根据独热编码原理将碱基编码生成s
x
对应的独热编码矩阵ohe;
13.s6.使用linearpartition-v工具生成s
x
对应的二级结构信息rss;
14.s7.构建上下文感知计算神经网络框架mvcadnn,并使用构建的上下文感知计算神经网络框架mvcadnn训练rna溶剂可及性预测模型,得到训练后的rna溶剂可及性预测模型;
15.s8.将待预测rna序列通过步骤s3-步骤s6处理后,生成rna序列对应的特征信息,并生成的特征信息输入到训练后的rna溶剂可及性预测模型中,得到rna溶剂可及性的预测信息。
16.进一步的,所述步骤s3中多序列联配信息msa,表示为:
[0017][0018]
其中,表示msa中的第n条序列联配信息;n表示msa中的序列联配信息总数目。
[0019]
进一步的,所述步骤s4中特征矩阵fmsa,表示为:
[0020][0021][0022][0023][0024][0025]
其中,表示中的第l
x
个元素;表示中的第ly个元素;rr表示元素集合r中的第r个元素;表示第x位置上r碱基的概率;表示第y位置上r碱基的概率;σ表示符号函数;表示第x位置和第y位置的碱基特征;表示第x位置和第y位置上的碱基的信息熵值;l
x
表示第x位置的碱基。
[0026]
进一步的,所述步骤s5中独热编码矩阵ohe,表示为:
[0027][0028]
其中,表示ohe中的第l个元素的独热编码信息。
[0029]
进一步的,所述步骤s5中的碱基编码包括ohea=[1,0,0,0]、oheu=[0,1,0,0]、oheg=[0,0,1,0]、ohec=[0,0,0,1];其中,a表示腺嘌呤、u表示尿嘧啶、g鸟嘌呤、c胞嘧啶。
[0030]
进一步的,所述步骤s7中的上下文感知计算神经网络框架mvcadnn包括5个管道,第一管道、第二管道和第三管道分别用于挖掘隐含fmsa、ohe与rss中的鉴别信息;第四管道
用于挖掘隐含在fmsa、ohe与rss的串行组合特征中的鉴别信息;第五管道用于挖掘由第一管道

、第二管道、第三管道和第四管道的输出经串行组合后的特征中的鉴别信息。
[0031]
进一步的,所述第一管道、第二管道和第三管道均由两个两层的双向长短时记忆循环神经网络、三个全连接层、两个注意力机制模块组成。
[0032]
进一步的,所述第四管道由一个1d膨胀卷积层,三个残差块,二个全连接层组成。
[0033]
进一步的,所述第五管道由三个全连接层和三个注意力机制模块组成。
[0034]
与现有技术相比,本发明具有以下有益效果:
[0035]
1、从rna序列获得多序列联配信息,使用多视角学习策略,获取了更多有用信息,为进一步提升rna溶剂可及性的预测精度做好了准备;
[0036]
2、从rna序列的多个衍生信息出发,挖掘更多有效的信息,提高了rna溶剂可及性的预测效率与精度。
附图说明
[0037]
图1是实施例一提供的一种基于上下文感知计算的rna溶剂可及性预测方法流程图;
[0038]
图2是实施例一提供的一种基于上下文感知计算的rna溶剂可及性预测方法对rna 1g1x_i的溶剂可及性预测得出的结果图。
具体实施方式
[0039]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0040]
为了克服现有rna溶剂可及性的预测方法在计算代价较高、预测精确性较低的不足,本发明提出一种计算代价低、预测精确性高的基于上下文感知计算的rna溶剂可及性预测方法。
[0041]
实施例一
[0042]
本实施例提供一种基于上下文感知计算的rna溶剂可及性预测方法,如图1所示,包括:
[0043]
s1.收集pdb数据库中所有已注释三级结构信息的rna序列组成训练集合s,并使用pops工具生成rna序列对应的溶剂可及性标签y;
[0044]
s2.获取训练集合s中碱基个数为l
x
的rna序列信息,并将获取的rna序列信息记作s
x

[0045]
s3.使用infernal工具搜索s
x
的核苷酸数据库并生成对应的多序列联配信息msa;
[0046]
s4.对多序列联配信息msa进行处理,生成msa对应的特征矩阵fmsa;
[0047]
s5.根据独热编码原理将碱基编码生成s
x
对应的独热编码矩阵ohe;
[0048]
s6.使用linearpartition-v工具生成s
x
对应的二级结构信息rss;
[0049]
s7.构建上下文感知计算神经网络框架mvcadnn,并使用构建的上下文感知计算神
经网络框架mvcadnn训练rna溶剂可及性预测模型,得到训练后的rna溶剂可及性预测模型;
[0050]
s8.将待预测rna序列通过步骤s3-步骤s6处理后,生成rna序列对应的特征信息,并生成的特征信息输入到训练后的rna溶剂可及性预测模型中,得到rna溶剂可及性的预测信息。
[0051]
本实施例的技术构思为:一种基于上下文感知计算的rna溶剂可及性预测方法,首先,根据输入的待测定rna溶剂可及性的rna序列信息,使用infernal工具生成对应的多序列联配信息,基于多序列联配信息,生成对应的特征矩阵;其次,根据独热编码原理计算待测定rna溶剂可及性的rna的独热编码矩阵,使用linearpartition-v算法生成对应的二级结构信息;再次,搭建上下文感知计算神经网络框架,并从pdb库中收集已注释三级结构信息的所有rna,生成rna的特征信息,与对应的标签组成数据集,使用搭建的上下文感知计算神经网络框架在数据集上学习预测模型;最后,将待进行rna溶剂可及性预测的特征信息输入模型中,得到rna溶剂可及性的预测结果。本发明提供一种计算代价低、预测精度高的基于上下文感知计算的rna溶剂可及性预测方法。
[0052]
在步骤s1中,收集pdb数据库中所有已注释三级结构信息的rna序列组成训练集合s,并使用pops工具生成rna序列对应的溶剂可及性标签y。
[0053]
三级结构是指其整体形状,亦称为其折叠,整条肽链中全部氨基酸残基的相对空间位置,即整条肽链的三维空间结构。
[0054]
在步骤s2中,获取训练集合s中碱基个数为l
x
的rna序列信息,并将获取的rna序列信息记作s
x

[0055]
在步骤s3中,使用infernal工具搜索s
x
的核苷酸数据库并生成对应的多序列联配信息msa。
[0056]
本实施例中的多序列联配信息msa,表示为:
[0057][0058]
其中,表示msa中的第n条序列联配信息;n表示msa中的序列联配信息总数目,每条序列联配信息均含有l
x
个元素,每个元素均属于元素集合r{r1,

,rr,

,r5},元素集合r是由四种常见碱基和补位空格元素组成的,分别记作a,u,g,c和
“‑”
;其中,a表示腺嘌呤、u表示尿嘧啶、g鸟嘌呤、c胞嘧啶。
[0059]
在步骤s4中,对多序列联配信息msa进行处理,生成msa对应的特征矩阵fmsa。
[0060]
本实施例的特征矩阵fmsa,表示为:
[0061][0062][0063]
[0064][0065][0066]
其中,表示第x位置上r碱基的概率;表示第y位置上r碱基的概率;σ表示符号函数;表示第x位置和第y位置的碱基特征;表示第x位置和第y位置上的碱基的信息熵值;l
x
表示第x位置的碱基;表示中的第l
x
个元素;表示中的第ly个元素;rr表示元素集合r中的第r个元素;当与rr为相同元素类型时,否则当与rr为相同元素类型时,否则
[0067]
在步骤s5中,根据独热编码原理将碱基编码生成s
x
对应的独热编码矩阵ohe。
[0068]
针对rna序列s
x
,根据独热编码原理将四种常见碱基编码,分别记作:ohea=[1,0,0,0,oheu=[0,1,0,0,oheg=[0,0,1,0和ohec=[0,0,0,1],生成s
x
的对应的独热编码矩阵ohe,表示为:
[0069][0070]
其中,表示ohe中的第l个元素的独热编码信息。
[0071]
在步骤s6中,使用linearpartition-v工具生成s
x
对应的二级结构信息rss。
[0072]
在步骤s7中,构建上下文感知计算神经网络框架mvcadnn,并使用构建的上下文感知计算神经网络框架mvcadnn训练rna溶剂可及性预测模型,得到训练后的rna溶剂可及性预测模型。
[0073]
搭建上下文感知计算神经网络框架,记作mvcadnn,该神经网络框架共有5个管道组成,分别记作第一管道

、第二管道

、第三管道

、第四管道

、第五管道

;管道

、管道

、管道

均由两个两层的双向长短时记忆循环神经网络(bilstm)、三个全连接层(fc)、两个注意力机制模块(senet)组成,且管道

、管道

、管道

分别是用来挖掘隐含fmsa、ohe与rss中的鉴别信息;管道

由一个1d膨胀卷积层(conv1d),三个残差块(resnet),二个fc组成,管道

用来挖掘隐含在fmsa、ohe与rss的串行组合特征中的鉴别信息,一个resnet包含两个conv1d;管道

由三个fc和三个senet组成,管道

用来挖掘由管道

、管道

、管道

、管道

的第一个fc的输出经串行组合后的特征中的鉴别信息。
[0074]
管道

、管道

、管道

、管道

、管道

的输出值分别记作o1、o2、o3、o4和o5。
[0075]
使用mvcadnn框架来训练rna溶剂可及性预测模型;在训练过程中,分别计算o1、o2、o3、o4和o5的均方误差,并将五个均方误差的累加和作为最终的损失值;使用随机梯度下降法来训练mvcadnn框架的参数。
[0076]
在步骤s8中,将待预测rna序列通过步骤s3-步骤s6处理后,生成rna序列对应的特征信息,并生成的特征信息输入到训练后的rna溶剂可及性预测模型中,得到rna溶剂可及性的预测信息。
[0077]
对将待预测溶剂可及性信息的rna序列s
x
,经过步骤s3-s6处理后生成对应的特征信息,将生成的特征信息输入到步骤s7中训练后的rna溶剂可及性预测模型,得到预测的溶剂可及性信息。
[0078]
与现有技术相比,本实施例具有以下有益效果:
[0079]
1、从rna序列获得多序列联配信息,使用多视角学习策略,获取了更多有用信息,为进一步提升rna溶剂可及性的预测精度做好了准备;
[0080]
2、从rna序列的多个衍生信息出发,挖掘更多有效的信息,提高了rna溶剂可及性的预测效率与精度。
[0081]
实施例二
[0082]
本实施例提供的一种基于上下文感知计算的rna溶剂可及性预测方法与实施例一的不同之处在于:
[0083]
(1)对给定的碱基个数为41的rna 1g1x_i序列信息,记作s
x

[0084]
(2)对rna序列s
x
,使用infernal工具(http://eddylab.org/infernal/)搜索核苷酸数据库生成对应的多序列联配信息,记作其中,表示msa中的第n条序列联配信息,n为msa中的序列联配信息总数目,每条序列联配信息均含有41个元素,每个元素均属于元素集合r{r1,

,rr,

,r5},元素集合r是由四种常见碱基和补位空格元素组成的,分别记作a,u,g,c和
“‑”

[0085]
(3)对给定的多序列联配信息msa,生成对应的特征矩阵,记作其中其中其中表示中的第l
x
个元素,表示中的第ly个元素,rr表示元素集合r中的第r个元素;当与rr为相同元素类型时,否则当与rr为相同元素类型时,否则
[0086]
(4)对给定的rna序列s
x
,根据独热编码原理将四种常见碱基编码,分别记作:ohea=[1,0,0,0],oheu=[0,1,0,0],oheg=[0,0,1,0]和ohec=[0,0,0,1],生成s
x
的对应的独热编码矩阵,记作其中,表示ohe中的第l个元素的独热编码信息;
[0087]
(5)对给定的rna序列s
x
,使用linearpartition-v工具生成对应的二级结构信息,记作rss;
[0088]
(6)从pdb库中收集所有已注释三级结构信息的rna序列组成训练集合,记作s,并
根据每条rna序列的结构信息,使用pops工具生成对应的rna序列的溶剂可及性标签,记作y,然后根据步骤(2)至(5)生成该rna的fmsa、ohe与rss;
[0089]
(7)搭建上下文感知计算神经网络框架,记作mvcadnn,该神经网络框架共有5个管道组成,分别记作









;管道





分别是用来挖掘隐含fmsa、ohe与rss中的鉴别信息,它们均由两个两层的双向长短时记忆循环神经网络(bilstm)、三个全连接层(fc)、两个注意力机制模块(senet)组成;管道

由一个1d膨胀卷积层(conv1d),三个残差块(resnet),二个fc组成,用来挖掘隐含在fmsa、ohe与rss的串行组合特征中的鉴别信息;一个resnet包含两个conv1d;管道

由三个fc和三个senet组成,用来挖掘由管道







的第一个fc的输出经串行组合后的特征中的鉴别信息;管道









的输出值分别记作o1、o2、o3、o4和o5;
[0090]
(8)使用mvcadnn框架来训练rna溶剂可及性预测模型;在训练过程中,分别计算o1、o2、o3、o4和o5的均方误差,并将五个均方误差的累加和作为最终的损失值;使用随机梯度下降法来训练mvcadnn框架的参数。
[0091]
(9)对给定的待预测溶剂可及性信息的rna序列s
x
,经过步骤2)至6)生成对应的特征信息,将其特征信息输入到步骤(8)中训练好的预测模型中,得到rna 1g1x_i的溶剂可及性预测值。
[0092]
如图2所述为一种基于上下文感知计算的rna溶剂可及性预测方法对rna 1g1x_i的溶剂可及性预测得出的结果图。
[0093]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献