一种基于联邦学习和神经网络的抗病毒肽预测方法及系统

2023-02-10 20:25:03 来源：中国专利 TAG：

1.本发明属于生物肽识别技术领域，具体涉及一种基于联邦学习和神经网络的抗病毒肽预测方法及系统。

背景技术：

2.近年来，大量基于机器学习和深度学习的抗病毒肽预测模型逐步被开发。基于机器学习的模型，能够在较小的数据集上取得不错的预测效果。
3.随着测序数据量的快速增长，机器学习在预测精准度和泛化能力上略显不足；基于深度学习的模型在面对海量数据时，能够获得精准的预测效果，但这些模型大都需要集中多个独立的数据集进行训练，在使用数据时难免会出现数据泄露的问题，有可能被恶意窃取利用。

技术实现要素：

4.本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于联邦学习和神经网络的抗病毒肽预测方法及系统，能够较大限度避免数据泄露，并且能够准确快速的预测，用于解决因为数据隐私性而不可共享导致各数据拥有方出现数据孤岛，以及传统方法中将特征提取和模型学习分开进行产生重复工作量的技术问题。
5.本发明采用以下技术方案：
6.一种基于联邦学习和神经网络的抗病毒肽预测方法，包括以下步骤：
7.s1、客户端利用肽序列数据对预测模型进行训练，得到预测模型的梯度和参数进行加密；
8.s2、中间服务器对步骤s1加密后预测模型的梯度和参数进行聚合形成中间模型，中间模型将梯度和参数传递给客户端进行更新；
9.s3、重复步骤s1和步骤s2，利用二元交叉熵损失函数对中间模型进行评估，得到共享模型并传递给客户端；将待预测的肽序列输入客户端中，经预处理后进行独热编码，再将独热编码输入预测模型，输出预测结果完成抗病毒肽预测。
10.具体的，将不同长度的肽序列按照独热码编码规则进行编码，得到独热码；将独热码分别送入包含第一神经网络和第二神经网络的双通道深度神经网络中，将得到的对应特征进行融合，将融合后的特征作为输入，构造两个全连接层和一个softmax层用于识别抗病毒肽。
11.进一步的，编码前，先将肽序列中的冗余序列和相似性大于90％的序列删除。
12.进一步的，肽序列的长度为l，经过编码得到维度为l*20的二进制矩阵，20表示氨基酸的种类。
13.进一步的，第一神经网络为循环神经网络的变体，结合两个循环神经网络的输出，一个从右到左处理序列，一个从左到右处理序列；两个循环神经网络均包含多个lstm单元，lstm单元用于记住任意长度序列数据的值，将输入序列的长度作为时间步长，得到两个方
向上最终时间步长的输出；lstm单元的数量由输入序列长度动态调整，每个lstm单元包括输入门、遗忘门和输出门，选择隐藏状态向量h
t
作为输出，得到128维的特征数据，并在输出后添加一个丢弃层，将keep-prob设置为0.8。
14.进一步的，第二神经网络包括特征提取层、平均块层和卷积层；
15.特征提取层使用20*20的blosum矩阵初始化20个20*1的卷积核，通过对输入的变长独热码进行卷积操作构建位置特异性打分矩阵；
16.平均块层用于对位置特异性打分矩阵矩阵进行平均分块，将可变的进化数据转换为固定长度的进化特征，通过设置width＝4，将20*l的位置特异性打分矩阵分成四部分，每一部分按照算法取平均值，最终得到20*4的平均块矩阵；
17.卷积层用于对得到的块进行卷积运算，获得100维的输出，并在输出后添加一个丢弃层，将keep-prob设置为0.8。
18.更进一步的，卷积操作为：
[0019][0020]
其中，x为输入数据，i为位置索引，k为核的索引，wk为卷积核，m是窗口大小，n为输入通道数，m和n为累加符的下界。
[0021]
进一步的，全连接层具体为：
[0022]
fulcn(x)＝relu(wx b)
[0023]
其中，x为输入数据，w为m
×
n的权重矩阵，b为n维偏差向量，fulcn为全连接函数，relu为激活函数；
[0024]
softmax层具体为：
[0025][0026]
其中，v为给定的逻辑向量，i和k为位置索引，k＝2。
[0027]
进一步的，paillier加密具体为：
[0028]
每个研究机构参与方分别用服务器公布的公钥加密预测模型的各项参数，并各自将模型参数传给中间服务器；中间服务器利用私钥对收到的加密参数进行解密，模型更新对应的输入参数；选取两个大质数p,q，且p≈q；计算n＝p
×
q，且λ＝lcm(p-1,q-1)，lcm()为最小公倍数函数或λ＝φ(n)，φ()为欧拉函数；选取一个随机数g；公钥pk为(n,g)，私钥sk为(φ(n),μ)，μ＝φ(n)-1
modn；b随机选取r，c＝gm×rn
modn2利用a的公钥进行加密；然后a得到b的c完成解密，m＝l(c
λ
modn2)
×
μmodn，c是加密后的数据，r是随机数且满足gcd(r,n)＝1，m表示原文。
[0029]
第二方面，本发明实施例提供了一种基于联邦学习和神经网络的抗病毒肽预测系统，包括：
[0030]
加密模块，用于客户端利用肽序列数据对预测模型进行训练，得到预测模型的梯度和参数进行加密；
[0031]
聚合模块，用于中间服务器对加密模块加密后预测模型的梯度和参数进行聚合形成中间模型，中间模型将梯度和参数传递给客户端进行更新；
[0032]
预测模块，用于重复执行加密模块和聚合模块，利用二元交叉熵损失函数对中间模型进行评估，得到共享模型并传递给客户端；将待预测的肽序列输入客户端中，经预处理后进行独热编码，再将独热编码输入预测模型，输出预测结果完成抗病毒肽预测。
[0033]
与现有技术相比，本发明至少具有以下有益效果：
[0034]
本发明一种基于联邦学习和神经网络的抗病毒肽预测方法，采用双通道深度神经网络对变长肽序列进行预测，在处理序列数据时不需要单独进行特征提取，而是使用两个通道分别从序列和进化水平分析肽序列，将特征提取嵌入神经网络中，在训练模型时可以动态的优化特征提取方法；本发明方法比需要将特征提取和模型学习分开的传统方法更加简洁高效；并且利用联邦学习将数据孤岛连接，在保证数据隐私安全性的前提下，充分利用零散数据提高预测准确率，解决了在生物肽识别技术领域的深度学习应用场景下，因为数据隐私性而不可共享导致各数据拥有方出现数据孤岛的技术问题。
[0035]
进一步的，将不同长度的肽序列按照独热码编码规则进行编码，解决了分类器不好处理数据属性的问题，在一定程度上也起到了扩充特征的作用。将独热码导入第一神经网络，双向循环神经网络可以捕捉长期依赖关系，更好的利用了序列数据；第二神经网络通过构建动态神经网络来分析局部进化信息，将两个神经网络的输出融合，之后通过两个全连接层和一个softmax层一起作用于抗病毒肽的预测，此方法远优于现有的识别抗病毒肽的预测方法。
[0036]
进一步的，cd-hit是用于蛋白质序列或核酸序列聚类的工具，根据序列的相似度对序列进行聚类以去除冗余的序列，一般用于构建非冗余的数据集用于后续的实验分析。这里使用cd-hit删除数据集中冗余序列和相似性大于90％的序列，有利于数据的预处理，以及后期的模型训练。
[0037]
进一步的，将肽序列转换为二进制矩阵，通过转换数据的格式，方便作为训练数据输入神经网络进行训练。
[0038]
进一步的，第一神经网络中使用的双向循环神经网络可以捕捉长期依赖关系，更好的利用了序列数据，有利于抗病毒肽的识别。
[0039]
进一步的，第二神经网络使用blosum矩阵初始化卷积核，利用卷积核来提取特征，通过构建动态神经网络来分析肽序列的进化信息，有利于抗病毒肽的识别。
[0040]
进一步的，将两个神经网络输出的特征进行融合，之后通过两个全连接层和一个softmax层一起作用于抗病毒肽的预测，此方法远优于现有的识别抗病毒肽的预测方法。
[0041]
进一步的，使用paillier加密方法，数据本身并不会以明文形式被传输，因此几乎不可能发生原始数据层面的泄露，保证了数据隐私的安全。使用了paillier加密算法的联邦学习，可以保证数据参与方不交换数据的情况下来训练神经网络模型，实现数据隐私保护的目的。
[0042]
可以理解的是，上述第二方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。
[0043]
综上所述，本发明能够从序列和进化水平两方面分析数据，将特征提取嵌入神经网络中，不需要单独进行特征提取，大大降低了训练成本，并且能够快速准确的识别抗病毒肽；另一方面利用联邦学习将数据孤岛连接，在保证数据隐私安全性的前提下，充分利用零散数据提高预测准确率。
[0044]
下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
附图说明
[0045]
图1为本发明实施例的流程示意图；
[0046]
图2为本发明训练的算法流程模型结构图；
[0047]
图3为本发明第一神经网络的模型图；
[0048]
图4为本发明第二神经网络的模型图。
具体实施方式
[0049]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0050]
在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0051]
还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0052]
还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
[0053]
应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。
[0054]
取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
[0055]
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
[0056]
联邦学习是一种保护隐私的分布式机器学习，其主要思想是建立一个基于数据集的机器学习模型，这些数据集分布在多个设备上，可以有效防止数据泄漏。因此，本发明选择将联邦学习与深度学习结合，将每个独立的数据集分布在不同服务器上，每个服务器独
立训练神经网络模型，之间不需要进行直接的数据交换，只进行模型参数的加密聚合，在不影响预测精准度的前提下能够有效地保护私有数据不被泄露。
[0057]
本发明提供了一种基于联邦学习和神经网络的抗病毒肽预测方法，采用多个独立的数据集分别进行预测模型的训练，其模型通过构建双通道深度神经网络，从原始变长序列数据中提取不同维度的特征，并且从序列数据和进化水平两个方面分析肽段序列，最终将得到的模型梯度和参数通过加密技术传输给中间服务器；服务器在不接触数据本身的情况下将传递来的模型参数进行聚合形成中间模型；服务器将中间模型的参数传递给参与方，完成参与方模型的更新，循环上述步骤，最终得到性能良好的共享模型，使用共享模型对待预测的肽序列进行预测；将联邦学习和神经网络相结合，在保证数据安全性的前提下，能够准确快速的预测肽段的抗病毒活性，能够较大限度避免数据泄露，并且能够准确快速的预测。
[0058]
请参阅图1，本发明一种基于联邦学习和神经网络的抗病毒肽预测方法，包括以下步骤：
[0059]
s1、将模型的训练分布在多个客户端中，各个客户端分别拥有一部分肽序列数据，客户端利用自己的数据集进行预测模型的训练，将预测模型的梯度和参数通过加密技术传输给中间服务器；
[0060]
s101、对数据集进行预处理，使用cd-hit软件删除冗余序列和相似性大于90％的序列；
[0061]
s102、将步骤s101中获得的肽序列进行独热码编码；
[0062]
对长度不同的肽序列直接按照独热码编码规则进行编码得到独热码。定义待预测的肽序列长度为l，经过编码可以得到维度为l*20的二进制矩阵，其中20表示氨基酸的种类。
[0063]
s103、将步骤s102中获得的数据导入双通道深度神经网络进行预测，输出预测结果并保存模型参数。
[0064]
将联邦学习与神经网络相结合，通过构建双通道深度神经网络，分别从序列和进化的角度分析，实现对变长序列的识别与预测。联邦学习解决了在使用人工智能时数据隐私面临的安全问题，并且因为采用了多数据段传输参数的方式，可以传入更大的数据量，在算法效果不变的前提下可以进行更多的参数运算。
[0065]
请参阅图2，预测过程如下：
[0066]
s1031、将步骤s102中获得的独热码导入第一神经网络和第二神经网络，分别得到对应的特征输出，并且可以通过设置丢弃层防止模型过度拟合；
[0067]
请参阅图3，第一神经网络是循环神经网络(rnn)的变体，其结合了两个rnn的输出，一个从右到左处理序列，并一个从左到右处理序列。两个rnn中包含很多lstm单元，它们可以记住任意长度序列数据的值，将输入序列的长度作为时间步长，得到两个方向上最终时间步长的输出；其中，lstm单元的数量由输入序列长度动态调整，每个lstm单元包括输入门、遗忘门、输出门，公式如下：
[0068]ft
＝σ(wfx
t
u
fbt-1
bf)
[0069]it
＝σ(wix
t
u
ibt-1
bi)
[0070]ot
＝σ(wox
t
u
obt-1
bo)
[0071][0072][0073]
其中，x
t
是输入向量，f
t
是遗忘门的激活向量，i
t
是输入门的激活向量，o
t
是输出门的激活向量，c
t
是单元状态向量，h
t
是隐藏状态向量，w和u是参数矩阵，b是偏置向量。
[0074]
在第一神经网络中，选择h
t
作为输出，得到128维的特征数据。此外，在输出之后添加了一个丢弃层，将keep-prob设置为0.8，防止模型过度拟合。
[0075]
请参阅图4，第二神经网络是一种动态卷积神经网络，用于处理特定位置的评分矩阵，是卷积神经网络(cnn)的变体。其中包括特征提取层、平均块层、卷积层。
[0076]
在特征提取层，使用20*20的blosum矩阵将20个20*1的卷积核进行初始化，通过对输入的变长独热码进行卷积操作得到位置特异性打分矩阵pssm，卷积操作公式如下：
[0077][0078]
其中，m为输入数据，i为位置索引，k为核的索引。每个卷积核wk是一个m
×
n的加权矩阵，m是窗口大小，n为输入通道数，其中m＝1，n＝20。
[0079]
在平均块层中，对从特征提取层得到的位置特异性打分矩阵(pssm)矩阵进行平均分块，将可变的进化数据转换为固定长度的进化特征。其中，pssm矩阵是反映生物序列进化信息的常用方法。对于一个长度为l的序列，pssm可以用20*l的矩阵表示。
[0080]
根据输入长度动态生成块，并计算每个块的平均值，具体的伪代码实现如下：
[0081]
function average_block(list，width)
[0082]
while ti∈list do
[0083]
block＝length(ti)/width
[0084]
for s＝1:width do
[0085]
nti(s)＝avg{ti[block
×
(s-1) 1，block
×
s]}
[0086]
end for
[0087]
new_list.add(nti)
[0088]
end while
[0089]
reture new_list
[0090]
end function。
[0091]
通过设置width＝4，将20*l的pssm分成四部分，每一部分按照算法取平均值，最终得到20*4的平均块矩阵。
[0092]
在卷积层中，对上述得到的块进行卷积运算，公式如下：
[0093][0094]
其中，x为输入数据，i为位置索引，k为核的索引。每个卷积核wk是一个m
×
n的加权矩阵，m是窗口大小，n为输入通道数，m和n为累加符的下界，step为卷积步长。其中，m＝4，n＝4，step＝4；
[0095]
relu为激活函数，可以帮助克服梯度消失问题，加快训练速度，其公式如下：：
[0096][0097]
在第二神经网络中获得100维的输出。
[0098]
同样在输出之后添加了一个丢弃层，将keep-prob设置为0.8，最终得到对应的特征数据。
[0099]
s1032、将步骤s1031得到的特征进行融合，方便后续运算；
[0100]
s1033、将步骤s1032得到的融合后的特征作为输入，构造两个全连接层和一个softmax层来识别抗病毒肽。
[0101]
全连接层根据序列和评价特征的非线性组合来构造，其公式表达如下：
[0102]
fulcn(x)＝relu(wx b)
[0103]
其中，x是输入数据，w是m
×
n的权重矩阵，b是n维偏差向量。
[0104]
softmax层将一个数值向量归一化为一个概率分布向量，且各个概率之和为1；softmax函数一般作为神经网络的最后一层，接受来自上一层网络的输入值，然后将其转化为概率，公式表达如下：
[0105][0106]
其中，v表示给定的逻辑向量，i和k表示位置索引，且k＝2。
[0107]
本发明应用于联邦学习的权重之类的参数在正向和反向传递的过程中会遇到安全性问题，综合考虑数据安全性及应用场景的特点，采用paillier同态加密算法对权重之类的参数进行加密，并且在不需要解密密钥的情况下对密文进行有效操作，包括加法运算以及乘法运算。在此过程，参与方的数据不会传输到服务器，防止数据泄露问题的发生。
[0108]
使用paillier同态加密方式对应用于联邦学习的权重等参数进行加密，paillier加密算法是一种公钥加密算法，具体使用方式为：
[0109]
每个研究机构参与方分别用服务器公布的公钥加密预测模型的各项参数，并各自将模型参数传给中间服务器；
[0110]
服务器利用私钥对收到的加密参数进行解密，模型更新对应的输入参数；
[0111]
选取两个大质数p,q，且p≈q；
[0112]
计算n＝p
×
q，且λ＝lcm(p-1,q-1)，其中lcm()为最小公倍数函数或λ＝φ(n)，φ()为欧拉函数；
[0113]
选取一个随机数g；
[0114]
公钥pk为(n,g)，私钥sk为(φ(n),μ)，μ＝φ(n)-1
modn；
[0115]
加密：b随机选取r，c＝gm×rn
modn2利用a的公钥；
[0116]
解密：a得到b的c，m＝l(c
λ
modn2)
×
μmodn，其中
[0117]
其中，c是加密后的数据，r是随机数且满足gcd(r,n)＝1，m表示原文。
[0118]
s2、对步骤s1得到的加密后的模型参数进行聚合形成中间模型，之后将中间模型的参数传递给各个客户端，完成客户端模型的更新。
[0119]
模型参数聚合的方法如下：
[0120]
首先中心服务器将模型参数初始化，之后需要执行若干轮的参数聚合，每轮选取
至少1个至多k个客户端参与训练，在第t轮，服务器会将本轮模型w
t
下发给客户端，接下来每个被选中的客户端同时在本地根据模型w
t
用私有数据训练自己的模型训练完成之后将模型上传服务器。服务器将收集来的各个客户端的模型根据各方样本数量用加权平均的方式进行聚合，得到下一轮的模型w
t 1
，公式如下：
[0121][0122]
其中，nk为客户端k上的样本数量，n为所有被选中的客户端的总样本量。
[0123]
客户端的计算量由三个关键参数控制：
[0124]
c：指每一轮中参与计算的客户端比例；
[0125]
s：指每一轮中，每个客户端在本地数据集上进行训练的步骤数；
[0126]
b：指客户端更新时使用的batch的大小。当b＝∞时，表示完整的本地数据集被当作一个批量来处理。
[0127]
设置c＝1，s＝1和b＝∞，即在每一轮，各个客户端一次性将所有本地数据投入训练，在所有客户端拥有的全部数据上使用全批量(full-batch)梯度下降。
[0128]
s3、循环步骤s1～s2，中间服务器通过二元交叉熵损失函数来评估模型的性能，最终得到一个性能良好的共享模型。每个客户端都会得到同样的共享模型，且客户端之间不交流不依赖，在预测时，每个客户端都可以独立预测。在客户端中输入待预测的肽序列，经过预处理之后进行独热编码，之后将独热码输入预测模型进行预测并输出预测结果。
[0129]
本发明再一个实施例中，提供一种基于联邦学习和神经网络的抗病毒肽预测系统，该系统能够用于实现上述基于联邦学习和神经网络的抗病毒肽预测方法，具体的，该基于联邦学习和神经网络的抗病毒肽预测系统包括加密模块、聚合模块以及预测模块。
[0130]
其中，加密模块，用于客户端利用肽序列数据对预测模型进行训练，得到预测模型的梯度和参数进行加密；
[0131]
聚合模块，用于中间服务器对加密模块加密后预测模型的梯度和参数进行聚合形成中间模型，中间模型将梯度和参数传递给客户端进行更新；
[0132]
预测模块，用于执行加密模块和聚合模块，利用二元交叉熵损失函数对中间模型进行评估，得到共享模型并传递给客户端；将待预测的肽序列输入客户端中，经预处理后进行独热编码，再将独热编码输入预测模型，输出预测结果完成抗病毒肽预测。
[0133]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0134]
为了进一步说明，本实施中，采用了nishant thakur等人研究的数据集[1]([1]thakur n,qureshi a,kumar m.avppred:collection and prediction of highly effective antiviral peptides.nucleic acids res.2012；40(web server issue):w199-w204.doi:10.1093/nar/gks450)。我们使用的数据集包含604个抗病毒肽和1056个非
抗病毒肽，其中544个抗病毒肽和951个非抗病毒肽被划分为训练集，剩余的60个抗病毒肽和105个非抗病毒肽划分为测试集。
[0135]
步骤1、将训练集中的1495个肽随机打乱，平均分成5部分，每部分含299个样本，分别作为五个客户端的训练数据。每个客户端首先对输入的肽序列筛选以及独热码编码之后，再进行训练。在训练阶段通过交叉验证方法来寻找最佳的超参数值。设置batch-size为128，训练时期(epoch)为20，使用adam优化器和二元交叉熵。训练完成后，各客户端将模型参数加密上传至中间服务器。
[0136]
步骤2、中间服务器对步骤1得到的加密后的模型参数进行聚合形成中间模型，之后将中间模型的参数传递给各个客户端，完成客户端模型的更新。
[0137]
步骤3、循环步骤1～2，最终得到一个性能良好的共享模型，同时每个客户端都会得到同样的共享模型。选择其中一个客户端，将测试集输入，共享模型在测试集上得到的性能参数如表1所示：
[0138]
acc(准确率)sn(敏感性)sp(特异性)mcc值auc值0.9470.9450.9500.8940.916
[0139]
通过表1可知，采用本实施例，将联邦学习和神经网络相结合，最终得到的结果准确率大大提高，能够在保护数据隐私的情况下有效的利用零散数据，并且能够在训练学习模型时动态的调整特征提取方法，为抗病毒肽的识别提供了快速又准确的方法，方便现代医疗的研究以及治疗。
[0140]
综上所述，本发明一种基于联邦学习和神经网络的抗病毒肽预测方法及系统，将联邦学习和神经网络相结合，在保证数据安全性的前提下，能够准确快速的识别抗病毒肽；通过联邦学习解决了在使用人工智能时数据隐私面临的安全问题，并且因为采用了多数据段传输参数的方式，可以传入更大的数据量，在算法效果不变的前提下进行更多的参数运算；构建一个双通道深度神经网络，其中包括第一神经网络和第二神经网络，从原始变长序列数据中提取不同维度的特征；在第一神经网络中，使用双向递归神经网络(blstm)从独热编码中提取序列特征，blstm能够捕捉序列数据之间的依赖关系，从而有效地提取数据；在第二神经网络中，使用动态卷积神经网络提取进化特征。最终通过构建两个全连接层把第一神经网络和第二神经网络连接，最终完成对抗病毒肽的预测和识别。相比于其他模型，该模型无需按照特征提取方法来进行特征提取便可处理序列数据，并且可以从序列数据和进化水平两个方面分析肽序列，大大提高了预测的速度和准确度。
[0141]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0142]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0143]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0144]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0145]
以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种基于联邦学习和神经网络的抗病毒肽预测方法及系统

相关文献

最热文献