一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法

2022-07-02 08:16:40 来源:中国专利 TAG:

技术特征:
1.一种基于改进的mrmd算法和df模型的植物pri-mirna编码肽预测方法,其特征在于,该方法包括以下步骤:步骤1:构建实验数据集正集采用从拟南芥pri-mirna序列上得到的首个sorf,负集采用拟南芥非编码序列数据;步骤2:提取sorf序列数据的相关特征从正、负集数据中均提取k-mer特征、短序列模体ssm特征、信噪比、gc碱基含量、gc碱基比例和序列长度特征;步骤3:设计immrmd算法进行特征排序和选择immrmd算法采用斯皮尔曼系数作为判断标准,选择调整余弦相似度作为最大距离的判断标准;采用immrmd算法对步骤2得到的特征数据进行特征排序和选择;步骤4:利用深度森林df模型得到预测结果将步骤3中筛选出的数据输入到df模型中,得到最终的预测结果。2.根据权利要求1所述的方法,其特征在于,所述步骤1的具体过程如下:1.1:从mirbase数据库中下载拟南芥的所有mirna数据,得到其pre-mirna数据;然后,通过ensemble plants工具进行数据扩展,将得到的所有pre-mirna向前扩充1000个碱基,并通过softberry软件查找其转录起始位点,从而得到相对应的pri-mirna;再利用orf finder工具获取每条pri-mirna的首个sorf序列,并通过cd-hit工具去除相似度高于80%的序列,得到候选的正集sorf数据;1.2:收集拟南芥ncds数据,使用orf finder工具获取其中的sorfs序列,得到的结果同样去除相似度高于80%的sorf序列,得到候选的负集数据;1.3:在正负集数据中随机挑选10%,作为测试集,测试最终预测性能。3.根据权利要求1或2所述的方法,其特征在于,所述步骤2具体如下:k-mer特征描述sorf序列的组成信息,它充分考虑了相邻核苷酸之间的依赖关系,保存了相邻核苷酸的信息,从而避免了信息的损失;k代表序列中相邻的碱基数,k个相邻碱基会有4
k
种组合;k为1,2,3,4,共340维;采用步长为1的滑动窗口进行滑动匹配,公式如下:l
k
=l-k 1,k=1,2,3,4
ꢀꢀ
(2)其中,l
k
为滑动次数,s
i
为每个k-mer出现的次数,f
i
为最终每个k-mer的频率,l为序列长度;k-mer特征考虑了连续碱基的性质,然而不连续的碱基之间也存在差异,因此采用ssm特征进行补充;不同的碱基对可以记为a*b,a**b,a***b,其中a和b均是a、t、c、g中的任意一种碱基,*代表任意碱基,每一组ssm都有16维特征表达,提取a*b、a**b、a***b三组ssm,共48维:u
j
=l-j-1,j=1,2,3
ꢀꢀꢀꢀ
(4)
其中,u
j
为滑动次数,v
i

为每个短序列模体出现的次数,ssm
i

为每个短序列模体的出现频率;根据序列的本身表达,提取序列长度l、gc碱基含量gc_con、gc碱基比例gc_ra以及信噪比特征,共4维;信噪比的大小能够表示序列中碱基使用的偏向性,通过碱基在三个相位的分布计算sorf在三分之一处的功率谱来获取信噪比;具体公式如下:orf在三分之一处的功率谱来获取信噪比;具体公式如下:orf在三分之一处的功率谱来获取信噪比;具体公式如下:orf在三分之一处的功率谱来获取信噪比;具体公式如下:其中,g和c分别代表序列中碱基g和碱基c的数目;l代表序列长度;a
x
、b
x
和c
x
均为一行三列的数组,分别代表碱基x在三个相位出现的频数;w表示功率谱;snr代表信噪比;最终,提取的上述特征共组成392维特征数据。4.根据权利要求1或2所述的方法,其特征在于,所述步骤3中,immrmd算法的具体步骤如下:将步骤2提取出的原始特征数据作为immrmd算法的输入,一方面计算spearman相关系数来获取子特征集与目标类别之间的相关性,选择与目标类别相关性最高的子特征集;所述spearman相关系数计算公式如公式(9)所示,定义x和y为两组数据,其中,d
y
为x
y
和y
y
之间的等级差,r
s
位于-1和1之间,n为样本总数;另一方面,计算euclidean距离、调整余弦相似度和tanimoto系数,得出任意一个特征向量与其余特征向量的冗余性程度;最后,通过对两方面的计算结果进行累加并排序,将排序后的特征数据逐维输入到逻辑回归模型中进行评价,选择其中分类效果最好的前m维,从而得到同时具备最大相关性和最小冗余性的m维子特征集;最终,经immrmd算法筛选出382维。5.根据权利要求3所述的方法,其特征在于,所述步骤3中,immrmd算法的具体步骤如下:将步骤2提取出的原始特征数据作为immrmd算法的输入,一方面计算spearman相关系数来获取子特征集与目标类别之间的相关性,选择与目标类别相关性最高的子特征集;所述spearman相关系数计算公式如公式(9)所示,定义x和y为两组数据,其中,d
y
为x
y
和y
y
之间的等级差,r
s
位于-1和1之间,n为样本总数;另一方面,计算euclidean距离、调整余弦相似度和tanimoto系数,得出任意一个特征向量与其余特征向量的冗余性程度;
最后,通过对两方面的计算结果进行累加并排序,将排序后的特征数据逐维输入到逻辑回归模型中进行评价,选择其中分类效果最好的前m维,从而得到同时具备最大相关性和最小冗余性的m维子特征集;最终,经immrmd算法筛选出382维。

技术总结
本发明提出了一种基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法,属于生物信息学和计算机科学技术领域。本发明设计了一个改进的IMMRMD特征选择算法,使其更适用于pri-miRNA中提取的sORF所产生的特征数据,同时结合深度森林,实现sORF编码肽的预测。本发明能够判断输入的RNA序列是否符合pri-miRNA上首个sORF的相关特征,从而为判断其是否编码肽提供依据,为生物实验提供参考,节省大量的人力物力。大量的人力物力。大量的人力物力。


技术研发人员:孟军 尹超
受保护的技术使用者:大连理工大学
技术研发日:2022.04.02
技术公布日:2022/7/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献