一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于自注意力卷积的核糖核酸-蛋白质位点识别方法

2022-05-11 16:48:52 来源:中国专利 TAG:

技术特征:
1.一种基于自注意力卷积的核糖核酸-蛋白质位点识别方法,其特征在于:该方法的执行步骤如下,步骤1、从相关公开数据集库或相关公开数据网站获取rbp结合位点序列数据;步骤2、预处理数据集,利用独热编码对数据进行重新编码,作为模型的输入数据;步骤3、将处理好的训练集数据输入到模型当中,利用损失函数和反向传播算法自更新模型参数;步骤4、通过设置的好的早停法,获取最优模型并保存该模型;整体完成后利用测试集进行测试。2.根据权利要求1所述的一种基于自注意力卷积的核糖核酸-蛋白质位点识别方法,其特征在于:步骤1的实现过程如下:从公开数据库或公开数据网站下载公共数据集完毕后,将数据集分为正类数据集与负类数据集,正类表示经过生物实验验证为核糖核酸-蛋白质rbp结合位点序列,负类则是从非该位点的序列中随机抽取的序列,保证负类数据集与正类数据集数据量相同。3.根据权利要求1所述的一种基于自注意力卷积的核糖核酸-蛋白质位点识别方法,其特征在于:步骤2的实现过程如下:对数据进行预处理,将长度不等的rbp序列同规划成长度为500的序列;针对过长的序列进行剪裁,对长度不足的序列用无意义占位符n在该条序列后补充,并将待操作数据通过独热编码的方式编码成向量化数据;rna序列包含四种碱基,分别为:a腺嘌呤、g鸟嘌呤、c胞嘧啶和u尿嘧啶,这四种碱基,加上无效占位符n,即有五种字符需要编码,其分别对应编码向量:[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1]和[0,0,0,0];对编码后的数据按4:1的比例进行训练集、测试集划分。4.根据权利要求1所述的一种基于自注意力卷积的核糖核酸-蛋白质位点识别方法,其特征在于:步骤3的实现过程如下:根据步骤2获得好的编码数据,输入进网络之中进行训练学习;该网络是由三层特征提取层;每层的特征提取层首先是由多头自注意力机制mha和卷积神经网络cnn组成的特征提取模块,随后是激活函数层,激活函数为tanh,和最大池化层,并配合dropout方法;经过特征提取层后会形成高维特征向量,该向量会经过一层扁平层后进入由两层全连接层组成的分类器中;第一层的全连接层输出维度为512,第二层输出维度2,即最终识别是或不是的概率大小,并依据此概率进行分类判别;为降低过拟合的影响,同样会配合着dropout方法。5.根据权利要求1所述的一种基于自注意力卷积的核糖核酸-蛋白质位点识别方法,其特征在于:步骤4的实现过程如下:利用训练数据集配合着交叉熵算法对模型进行训练,完成模型参数自更新;完成一次正向传播与反向传播为一次epoch;epoch设置为80;随后利用早停法,当数据在验证集上获得的效果不在上升超过10次epoch后就会停止训练;验证集是按10%的比例从训练集中划分种出来的;获取到最优模型后,利用测试集数据测试获取到模型效果;训练集和测试集是从原始正负类数据集中划分出来的,训练集与测试集的比例为4:1。

技术总结
本发明公开了一种基于自注意力卷积的核糖核酸-蛋白质位点识别方法,从相关公开数据集库或相关公开数据网站获取RBP结合位点序列数据;预处理数据集,利用独热编码对数据进行重新编码,作为模型的输入数据将处理好的训练集数据输入到模型当中,利用损失函数和反向传播算法自更新模型参数。通过设置的好的早停法,获取最优模型并保存该模型。整体完成后利用测试集进行测试。本发明通过多头自注意力机制捕获全局特征,有效的弥补卷积方法只能关注局部特征的问题,在有效降低模型参数量的同时仍可保持模型整体分析效果。仍可保持模型整体分析效果。仍可保持模型整体分析效果。


技术研发人员:刘博 张冀东 王志晗 武嘉慧
受保护的技术使用者:北京工业大学
技术研发日:2021.12.31
技术公布日:2022/5/10
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献