一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种circRNA和miRNA关联关系高效预测方法

2022-05-18 07:43:54 来源:中国专利 TAG:

一种circrna和mirna关联关系高效预测方法
技术领域
1.本发明涉及生物信息学领域,具体涉及一种预测circrna和mirna关联关系的方法。


背景技术:

2.随着基因组学和生物信息学的发展,尤其是高通量测序技术的大量应用,科学家发现了越来越多的非蛋白编码的转录单元。尤其是circrna作为mirna(microrna)的海绵吸附体,可间接调控mirna靶基因表达,在人类疾病的发生发展过程中发挥重要作用。因此,circrna可作为疾病的生物标志物,广泛用于疾病诊断。
3.目前人们对circrna的形成和特征已基本了解,但仍有许多生物学功能尚不清楚。有关circrna的研究主要集中在其与疾病间的相关性方面,大量研究表明,circrna可作为疾病的生物标志物,在癌症治疗及预防方面存在巨大的发展潜力,但对各种疾病的发生发展调控机制知之甚少,需进行深入探究。并且circrna还有许多尚未知悉的重要生物学功能,其在各研究领域均具有巨大的应用潜力。
4.照人类全基因转录组分析,人类基因组有大量的基因产生转录为rna,但是仅有百分之一到百分之二的rna翻译成蛋白质。这暗示了人类基因组有大量序列不编码蛋白质,生物体有大量mirna的产生。尤其是circrna作为mirna的海绵吸附体,它可以间接调控mirna靶基因表达。然而,绝大多数circrna与疾病之间的关联、mirna与疾病之间的关联尚不清楚,需要通过实验发现circrna与mirna之间未知的交互关系来帮助研究人员发现它们与疾病之间的关系,用以探索它们之间的潜在调控机制与进行新药品的研制。
5.此外,circrna的研究是当前的一个研究热点问题,越来越多的实验证据表明,它们在染色体重组、转录激活、转录抑制、蛋白抑制和转录后修饰等方面发挥着极其重要的作用。许多circrna通过实验被识别出来放在公共的医学数据库中,其中也包括一些circrna-疾病关联的数据库,比如circr2disease和circ2disease以及circbase等,这些数据库用以收录多种已发现的与疾病相关的circrna。
6.然而,绝大多数circrna与疾病、mirna与疾病之间的关联尚不清楚,另一方面,研究表明由遗传rna的基因排列顺序对疾病也起着重要作用,所以对circrna、mirna与基因、序列的关联关系进行预测有助于研究circrna、mirna与疾病之间的关系。但是,基于实验方法预测circrna、mirna与疾病关联的方法是既昂贵又耗时,并且现有的方法很少使用异构生物网络的拓扑信息,或者简单地将所有对象视为同一类型,而不考虑异构网络中不同路径的不同细微语义含义,这在一定程度上会降低准确度。因此,迫切需要提出更高效的基于计算的方法预测circrna和mirna的关联,来帮助发现circrna、mirna与疾病之间的关系。


技术实现要素:

7.本发明的目的是针对现有生物技术耗费较高,提出一种基于深度学习的方法,在异构网络中预测circrna-mirna关联关系的方法,来帮助发现circrna、mirna与疾病之间的
关系。
8.本发明提出的一种circrna和mirna关联关系的高效预测方法,步骤如下:
9.1.计算circrna-mirna关联矩阵a,计算基于mirna的circrna的高斯内核相似度矩阵cmis,计算circrna-疾病关联矩阵ac,计算基于疾病的circrna的高斯内核相似度矩阵ccis,计算基于序列的circrna相似度矩阵ces,计算基于circrna的mirna高斯内核相似度矩阵mis,计算基于疾病的mirna的高斯内核相似度矩阵mcis,步骤如下:
10.利用公开数据库circr2cancer(网址:http://www.biobdlab.cn:8000/index/)下载的已知circrna-mirna、circrna-疾病关联关系,构建circrna-mirna关联关系矩阵a,如果circrna与mirna存在关联,则a中对应的元素为1,否则为0;构建circrna-疾病关联关系矩阵ac,如果circrna与疾病存在关联,则ac中对应的元素为1,否则为0。高斯内核相似度用于测量生物分子之间的相似性,利用circrna-mirna关联关系矩阵a,计算出高斯内核相似度矩阵cmis用于描述基于mirna的circrna内核相似性信息;利用circrna-疾病关联矩阵ac,计算出高斯内核相似度矩阵cmis用于描述基于疾病的circrna内核相似性信息;最后,通过公开数据库circbase(网址:http://www.circbase.org/)下载已知的circrna-序列关联关系,然后基于混沌博弈表示(chaos game representation,cgr)的方法,利用皮尔森相关系数来量化位置信息和非线性信息之间的相似性和差异,计算出基于序列的circrna相似度矩阵ces。具体步骤如下:
11.(1)构建circrna-mirna关联关系的关联矩阵a,a的行数为circrna的数量,a的列数为mirna的数量,a(ci,mj)如式(1)所示:
[0012][0013]
其中a(ci,mi)=1表示circrna ci和mirna mj存在关联,值为0表示不存在关联。
[0014]
(2)构建基于mirna的circrna的高斯相互作用属性核相似度矩阵cmis,对于一个circrna ci,它的ip1(ci)值定义为circrna-mirna关联关系的关联矩阵a的第i行,计算每一对circrna ci和circrna cj之间的高斯相互作用属性核相似度,如式(2)所示:
[0015]
cmis(ci,cj)=exp(-γc||ip1(ci)-ip1(cj)||2)
ꢀꢀꢀꢀ
(2)
[0016][0017]
其中,cmis表示基于mirna的circrna的高斯相互作用属性核相似矩阵,元素cmis(ci,cj)表示circrna ci和circrna cj的高斯相互作用属性核相似度,γc用于控制高斯相互作用属性核相似度的频宽,它表示基于新的频宽参数γ
′c的正则化的高斯相互作用属性核相似度频宽,且把γ
′c设置为1,n表示circrna的数量。
[0018]
(3)构建circrna-疾病关联关系的关联矩阵ac,ac的行数为circrna的数量,ac的列数为疾病的数量,ac(ci,dj)如式(4)所示:
[0019][0020]
其中ac(ci,dj)=1表示circrna和疾病dj存在关联,值为0表示不存在关联。
[0021]
类似地,构建基于疾病的circrna的高斯相互作用属性核相似度矩阵ccis,对于一
个circrna ci,它的ip2(ci)值定义为circrna-疾病关联关系的关联矩阵ac的第i行,计算每一对circrna ci和circrna cj之间的高斯相互作用属性核相似度,如式(5)所示:
[0022]
ccis(ci,cj)=exp(-γ
cc
||ip2(ci)-ip2(cj)||2)
ꢀꢀꢀꢀ
(5)
[0023][0024]
其中,ccis表示基因的高斯相互作用属性核相似矩阵,元素ccis(ci,cj)表示circrna ci和circrna cj的高斯相互作用属性核相似度,γ
cc
用于控制高斯相互作用属性核相似度的频宽,它表示基于新的频宽参数γ

cc
的正则化的高斯相互作用属性核相似度频宽,且把γ

cc
设置为1。k表示基因的数量。
[0025]
(4)基于混沌博弈表示(chaos game representation,cgr)的方法可以将circrna序列转化成相应的类谱格式。该方法可以利用cgr坐标将circrna序列转化成cgr弧度序列。
[0026]
circrna序列具有非随机性,而非随机性意味着序列具有“结构”。因为混沌博弈可用于可视化显示某些类型的非随机性,且可以将circrna序列形式上看成是由四个字母
″a″

″c″

″g″

″u″
(或

t

)组成的字符串,因此我们可以使用下一个基数(a,c,g,t/u)来选择下一个点。我们将cgr空间绘制成一个正方形,正方形的四个角分别标记为
″a″

″c″

″g″

″u″
;例如,如果
″c″
是序列的下一个符号(底数),则在前一个符号的点和
″c″
角之间的一半位置绘制一个点。假设某circrna序列为

gaattc

,则cgr空间绘制方法如下:
[0027]
1).第一个”g

绘制在图形正方形的中心与”g

角之间的中间位置,记为p1。
[0028]
2).下一个符号”a”被绘制在刚绘制的点p1与”a”角之间的中间位置,记为p2。
[0029]
3).在上一个点p2和”a”角之间的中间位置绘制符号”a”的点,记为p3。
[0030]
4).接下来,将”t”绘制在p3与”t”角之间的中间位置,记为p4。
[0031]
5).其次,将下一个”t”绘制在p4与”t”角之间的中间位置,记为p5。
[0032]
6).最后,将”c”绘制在p5与”c”角之间的中间位置
[0033]
此方法利用皮尔森相关系数来量化位置信息和非线性信息之间的相似性和差异,计算出基于序列的circrna相似度矩阵ces。
[0034]
首先,把所有序列基数绘制完成,之后再将cgr空间划分为ng=8
×
8,即8行8列的网格,第i个网格gridi可以表示为式(7)所示:
[0035]
gridi=(xi,yi,zi)
ꢀꢀꢀꢀ
(7)
[0036]
其次,分别累加每个网格中的横坐标值xj和纵坐标值yj得到网格gridi的量化位置信息xi和yi,如式(8)所示:
[0037][0038]
numi=number of points in gridiꢀꢀꢀꢀ
(9)
[0039]
其中numi表示第i个网格gridi中的点数,xi表示第i个网格gridi的中点的所有点的横坐标值xi的和,yi表示第i个网格gridi的中点的所有点的横坐标值yi的和。
[0040]
再次,计算网格grid的zi分数得到量化非线性信息,如式(10)所示:
[0041][0042]
其中ng=64,表示网格总数。
[0043]
最后,基于上面计算每个网格gridi的xi、yi和zi三个属性,我们将这三个属性融合以构造描述数组,即descriptors(ci),如(11)所示:
[0044][0045]
以c1为例,descriptors(c1)=((x1,y1,z1),(x2,y2,z2),...,(x61,y64,z64))。
[0046]
再由皮尔逊相关系数确定序列相似度ces(ci,cj),如式(12)所示:
[0047][0048]
其中cov(descriptors(ci))是descriptors(ci)的协方差,d(descriptors(ci))是descriptors(ci)的方差,ci代表第i个circrna。
[0049]
(5)与计算circrna的内核相似度类似,通过circrna-mirna关联矩阵a计算基于circrna的mirna内核相似度矩阵mis,对于一个mirna mi,它的ip3(mi)值定义为circrna-mirna关联关系的关联矩阵a的第i列,计算每一对mirna mi和mirna mj之间的高斯相互作用属性核相似度mis,如式(13)所示:
[0050]
mis(mi,mj)=exp(-γm||ip3(mi)-ip3(mj)||2)
ꢀꢀꢀꢀ
(13)
[0051][0052]
其中,mis表示mirna的高斯相互作用属性核相似矩阵,元素mis(mi,mj)表示mirna mi和mirna mj的高斯相互作用属性核相似度,γm表示基于频宽参数,γ
′m的正则化的高斯相互作用核相似度频宽,t表示circrna的数量。
[0053]
(6)构建mirna-疾病关联关系的关联矩阵am,am的行数为mirna的数量,am的列数为疾病的数量,am(mi,dj)如式(15)所示:
[0054][0055]
与计算circrna的内核相似度类似,通过mirna-疾病关联矩阵am计算疾病内核相似度矩阵mis,对于一个mirna mi,它的ip3(mi)值定义为mirna-疾病关联关系的关联矩阵am的第i行,计算每一对mirna mi和mirna mj之间的高斯相互作用属性核相似度mcis,如式(16)所示:
[0056]
mcis(mi,mj)=exp(-γ
mc
||ip4(mi)-ip4(mj)||2)
ꢀꢀꢀꢀ
(16)
[0057][0058]
其中,mcis表示基于疾病的mirna高斯相互作用属性核相似矩阵,元素mcis(mi,mj)表示mirna mi和mirna mj的高斯相互作用属性核相似度,γ
mc
表示基于频宽参数,γ

mc
的正则化的高斯相互作用核相似度频宽,f表示疾病的数量。
[0059]
2.通过融合步骤1计算得到的基于mirna的circrna高斯内核相似度cmis、基于疾病的circrna高斯内核相似度ccis与circrna的序列相似度ces得到circrna综合相似度矩阵cs,融合步骤1计算得到的基于疾病的mirna高斯内核相似度mis、基于circrna的mirna高斯内核相似度mcis得到mirna综合相似度矩阵ms,具体方法如下:
[0060]
如果基于序列的circrna相似度矩阵ces不为0,则把cmis、ccis、ces加之后除以3作为当前circrna的功能相似度cs;否则将cis和cgs相加除以2作为当前circrna的综合相似度cs,如式(18)所示:
[0061][0062]
通过从多个角度分析mirna相似性度量,获得相似度矩阵,包括mis、mcis。mirna mi和mj之间的综合相似度ms定义如(19)所示:
[0063][0064]
3.分别对circrna综合相似度矩阵cs和mirna综合相似度矩阵ms采用node2vec算法,计算出circrna的综合相似度矩阵cns与mirna的综合相似度矩阵mns,具体方法如下:
[0065]
将cs和ms两个矩阵分别使用node2vec算法,从全局网络中的某一个节点i出发计算α
pq
,α
pq
表示下一步前进位置的概率,每一步面临两个选择,前进或者返回上一个节点。设f(u)是顶点u映射为嵌入向量的映射函数,对于图中的每个顶点u,定义ns(u)为通过采样策略s采样出的顶点u的近邻顶点集合。node2vec的优化的目标是给定每个顶点条件下,令其近邻顶点出现的概率最大,优化目标表示为(20):
[0066][0067]
为了将上述最优化问题可解,利用如下两个假设:
[0068]
·
条件独立性假设:假设给定源顶点下,其近邻顶点出现的概率与近邻集合中其余顶点无关,定义如(21)所示:
[0069][0070]
·
特征空间对称性假设:当一个顶点作为源顶点和作为近邻顶点的时候共享同一套嵌入向量。条件概率公式可表示为(22):
[0071][0072]
根据以上两个假设条件,最终的目标函数表示为(23):
[0073][0074]
由于归一化因子zu的计算代价高,所以采用负采样技术优化,zu表示为(24):
[0075][0076]
node2vec采用一种有偏的随机游走的方式获取顶点的近邻序列。给定当前顶点v,访问下一个顶点x的概率如(25)所示:
[0077][0078]
其中,π
vx
是顶点v和顶点x之间的转移概率,即cs和ms,z是归一化常数。node2vec引入两个超参数p和q来控制随机游走的策略,假设当前随机游走经过边(t,v)到达顶点v设π
vx
=α
pq
(t,x)
·wvx
,w
vx
是顶点v和x之间的边权,d
tx
为顶点t和顶点x之间的最短路径距离,其每一步的游走策略如(26)所示:
[0079][0080]
其中p是返回概率,q是出入参数。参数p控制重复访问刚刚访问过的顶点的概率。其中,p仅作用于d
tx
=0的情况,表示顶点x就是访问当前顶点v之前刚刚访问过的顶点。若p较高,则访问刚刚访问过的顶点的概率会变低,反之变高。q控制着游走是向外还是向内,若q>1,随机游走倾向于访问和t接近的顶点(偏向bfs)。若q<1,倾向于访问远离t的顶点(偏向dfs)。
[0081]
经过多次迭代之后,优化目标loss迭代值的差小于10-6
,并且相似度向量达到稳定状态,得到最终的相似度矩阵,两个矩阵分别为cns和mns。
[0082]
4.分别把cns矩阵与mns矩阵与邻接矩阵a拼接,得到circrna特征矩阵cf与mirna特征矩阵mf,具体方法如下:把cns的每一行与邻接矩阵的每一行拼接成异构矩阵,即cf=[cns,a];类似地,把mns的每一行和邻接矩阵的每一列拼接成异构矩阵,即mf=[mns,at]。
[0083]
5.通过a矩阵得到异构邻接矩阵a
cm
,如(27)所示,整合cf、mf矩阵得到异构特征矩阵cm,如(28)所示,具体方法如下:
[0084]
[0085][0086]
6.把异构邻接矩阵a
cm
与异构特征矩阵cm嵌入图注意力网络,通过基于talking-heads与条件随机场算法进行编码,再通过完全矩阵分解算法进行解码得出最终得分矩阵进行预测。
[0087]
首先,通过构建异构邻接矩阵a
cm
和特征矩阵cm后,可以通过基于gat的算法学习circrna和mirna的表征。具体来说,对于一个给定的节点,gat首先学习其邻居的重要性然后根据其邻居的注意力分数融合其表示,随后根据其当前的表示和邻居的融合表示更新其表示。特别是,circrna ci和mirna mj之间的关联对的注意分数被表述为式(29):
[0088][0089]
其中f表示单层前馈神经网络,参数为权重矩阵w
t
,对于每一个circrna的特征,通过初始化方法之后,再使用一维卷积层将输入特征表示转化为circrna和mirna的高级特征。表示节点在k(k∈[1,2,...k])头注意表示,l代表特征维度。h1被定义为节点的初始特征矩阵cm。为了使不同节点的注意力得分具有可比性,我们使用式(30)对注意力得分进一步归一化:
[0090][0091]
考虑到一个circrnaci(或mirna mj),我们把由其自身和相邻circrna(或mirna)组成的子网络称为自我网络。为了给mirna mj的一阶连接结构建模,通过将对应的注意力分数与节点表征的得分进行累加即可得到mirna的节点表征矩阵,计算自我网络的线性组合如(31)所示:
[0092][0093]
我们得到了节点表征hk及其自我网络表征受具有相似功能的微生物倾向于与相似疾病相互作用的假设启发,我们进一步设计了一个基于非线性图神经网络的bi-interaction来聚合hk与这样相似的节点在特征空间中是相似的。我们可以按式(32)、(33)更新嵌入节点的表示矩阵q:
[0094][0095][0096]
显然,引入talking-head机制让每一次头结点的输入特征有了高度的融合,但是每次的输出节点却并没有完全分辨出当前节点与邻居节点的关系,让具有较低相似度节点之间产生了过度融合。所以,我们进一步引入条件随机场(crf层),让头结点每一次经过特征融合的输出后,能够确保相似的circrna(或mirna)在特征空间中也是相似的。同时,我们
还要求对嵌入进行平滑更新。因此,我们为这个crf层定义了一个损失函数l
crf
,如(34)所示:
[0097][0098]
qi表示从gat采用了多头机制得到的节点i的初步嵌入,zi表示在crf层更新的节点i的嵌入。此外,λ表示节点之间的注意分数,λ
ij
衡量邻居节点j对节点i的重要性。ni是节点i的邻居,而α和β是权重系数,用于平衡第一项和第二项对预测性能的影响,如(35)所示:
[0099][0100]
其中初始嵌入被设定为qi,是在第k次迭代中更新的嵌入。通过式(36)激活函数激活之后,节点i和节点j之间的有效注意力λ
ij
定义如(37)所示:
[0101]aij
=att(w
t
zi,w
t
zj)
ꢀꢀ
(36)
[0102][0103]
其中att表示执行注意的单层前馈网络,w
t
表示一个潜在的可训练矩阵。
[0104]
我们可以按式(38)更新节点的表示矩阵z:
[0105]z(k 1)
=leakyrelu(zc bc) leakyrelu(zm bm)
ꢀꢀ
(38)
[0106]
为了稳定自我注意的学习过程,基准gat采用了多头机制。然而,事实上,由于不同头的独立性,以这种方式学习的表征仍然不够丰富。在这里,我们引入了talking-head机制,通过构建不同头之间的依赖关系来加强节点的表示。具体来说,我们把前一个头产生的输出表示作为下一个头的输入特征hk。h1被定义为节点的初步输入特征cm。这种talking-head机制强制执行从头到头的信息传播,这使得模型能够逐步保留高阶邻域的重要性。因此,我们可以通过串联每个头的输出表示,将circrna头输出矩阵的每一行和mirna头输出矩阵的每一行拼接,获得circrna和mirna的最终表示矩阵如(39)所示:
[0107][0108]
由于内积很简单,它对捕捉节点之间复杂的关联是有限的,我们引入了完全矩阵分解技术,该技术在建模节点对的关联评分方面有很大的潜力,可以用学到的表征重建新的circrna-mirna关联。完全矩阵分解的主要思想是在已知条目的基础上重建一个矩阵,以完成缺失的条目。建立损失函数(40)的同时为circrna-mirna关联重建了一个相邻的矩阵s,如(41)所示:
[0109]
[0110][0111]
7.使用5折交叉验证进行验证,详细步骤如下:
[0112]
训练集随机分为5组大小大致相同的子集。每个子集依次用作验证测试数据,其余4个子集用作训练数据。交叉验证过程重复5次,并使用5次的平均性能度量进行性能评估。我们使用多roc曲线下与坐标轴围成的面积(auc)来评估性能。
[0113]
有益效果:
[0114]
本发明采用深度学习方法,把特征嵌入图注意力网络,通过基于talking-heads与条件随机场算法进行编码,再通过完全矩阵分解算法进行解码得出最终得分矩阵进行预测,实验结果得到了较高的准确性。这对生物学家的实验研究能够起到指导的作用,生物学家可以针对关联关系概率较大的circrna和mirna对进行试验测试,使生物学家避免了盲目的测试,减少了工作量。
附图说明
[0115]
图1为本发明circrna和mirna关联关系预测方法的流程图。
[0116]
图2为本发明circrna和mirna关联关系预测方法的示意图。
[0117]
图3为本发明步骤1计算邻居矩阵a、相似矩阵ccis、cmis、ces、mis、mcis的流程图。
[0118]
图4为本发明步骤2计算circrna综合相似度矩阵cs的流程图。
[0119]
图5为本发明步骤2计算mirna综合相似度矩阵ms的流程图。
[0120]
图6为本发明步骤3通过node2vec提取circrna与mirna相似度矩阵cns、mns的流程图。
[0121]
图7为本发明步骤5和步骤6构建异构邻接矩阵acm和异构特征矩阵cm,并进行训练的流程图。
[0122]
图8为cgr空间的绘制过程举例。
[0123]
图9为node2vec游走策略过程举例。
具体实施方式
[0124]
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0125]
实施例1:
[0126]
1、下载数据集,从公开数据库circr2cancer下载circrna-疾病-mirna关联数据,去重后circrna和mirna的总关联为566457条。数据格式如下列表所示:
[0127]
表1 circrna列表
[0128][0129]
表2疾病列表
[0130]
编号疾病名称pmid1bladder cancer311315372colorectal cancer312138283cervical cancer31029604.........97non small cell lung cancer30210911
[0131]
表3 mirna列表
[0132][0133][0134]
通过公开数据库circbase下载已知的circrna序列,具体列表如下所示:
[0135]
表4 circrna序列列表
[0136][0137]
根据上面的数据,计算circrna-mirna关联关系矩阵a、基于mirna的circrna高斯内核相似度cmis、基于疾病的circrna高斯内核相似度矩阵ccis与基于序列的circrna相似度矩阵ces。计算circrna-疾病关联关系矩阵ac,计算基于疾病的mirna高斯内核相似度矩阵mis、计算基于circrna的mirna高斯内核相似度矩阵mcis。具体实施包括以下步骤:
[0138]
首先,对circrna-mirna关联关系,进行去重关联关系,构建circrna-mirna关联关系的关联矩阵a。
[0139][0140]
例:
[0141]
构建基于mirna的circrna的高斯相互作用属性核相似矩阵cmis:
[0142]
cmis(ci,cj)=exp(-γc||ip1(ci)-ip1(cj)||2)
[0143][0144]
其中,γ
′c取值为1。
[0145]
例:
[0146]
ip(c0)
1140
×1:[0...此处省略0...1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
[0147]
ip(c1)
1140
×1:[0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 ...此处
省略0... 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
[0148]
cmis(ci,cj)=exp(-γc||ip1(ci)-ip1(cj)||2)=0.06763296806146497
[0149][0150]
对circrna-疾病关联关系,进行去重关联关系,构建circrna-疾病关联关系的关联矩阵ac。
[0151][0152]
例:
[0153]
构建基于疾病的circrna的高斯相互作用属性核相似矩阵ccis:
[0154]
ccis(ci,cj)=exp(-γ
cc
||ip2(ci)-ip2(cj)||2)
[0155][0156]
其中,γ

cc
取值为1。
[0157]
例:
[0158]
ip(cm0)
1140
×
1x
[0...此处省略0...1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
[0159]
ip(cm1)
1140
×1:[0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 ...此处省略0... 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0]
[0160]
ccis(ci,cj)=exp(-γ
cc
||ip2(ci)-ip2(cj)||2)=0.2724154312078983
[0161][0162]
计算基于circrna序列的circrna相似度:首先,将cgr空间划分为8
×
8的网格,第i个网格可以表示为下式:
[0163]
gridi=(xi,yi,zi)
[0164]
其次,分别累加每个网格中的横坐标点x和纵坐标点y以量化位置信息,以hsa_circ_0005931为例,如下:
[0165][0166]
例:
[0167]
在总共64个网格中,分别累加网格中所有点的x、y坐标:
[0168]
第1个网格中共有54个点,num1=54,累加x坐标、y坐标,得x1=2.7835865712433367,y1=2.767286811916619;
[0169]
第2个网格中共有31个点,num2=31,累加x坐标、y坐标,得x2=2.0623355465835402,y2=0.55312290203404;
[0170]
第3个网格中共有11个点,num3=11,累加x坐标、y坐标,得x3=4.911267679030434,y3=0.9420497462125679;
[0171]
......
[0172]
第64个网格中共有44个点,num
64
=44,累加x坐标、y坐标,得x
64
=6.577125422579978,y
64
=6.311085748391199;
[0173]
再次,计算每个网格zi的z分数以量化非线性信息,如下式所示:
[0174][0175]
例:
[0176][0177]
其他网格的量化非线性信息如下:
[0178]
z2=-0.7700653691212705,
[0179]
z3=-0.021444858380592343,
[0180]
z4=-0.2709850286274851,
[0181]
z5=1.2262559928538712,
[0182]
...
[0183]z64
=-1.269145709615056。
[0184]
最后,根据前面得到每个网格可的三个属性,我们将这3个属性融合以构造descriptors(ci),并且由皮尔逊相关系数确定circrna序列相似度ces(ci,cj),其中ci代表第i个cricrna,,如下式所示:
[0185][0186][0187]
其中cov(descriptors(ci)是descriptors(ci)的协方差,d(descriptors(ci))是descriptors(ci)的方差。例:
[0188]
grid1=(0.7331630827025634,0.9066553028639154,0.14955911075455205)
[0189]
grid2=(0.7629132244552246,0.18479806632942689,-1.40863813617659)
[0190]
grid3=(1.022048520906976,0.2623215060644378,-1.5199379395288197)
[0191]
......
[0192]
grid
64
=(20.840000339958127,20.797717328665875,0.5947583241634512)descriptors(c
hsa_circ_0005931
)=(grid1,grid2,...,grid
64
)
[0193]
=((3.596887610199352,-0.7700653691212705,-0.021444858380592343),
[0194]
(1.8392887274902023,0.7766488141870935,0.10436642005655533),(0.0713052850293024,-1.1897350007860976,-1.2801492099577678),...,(3.152023208622765,0.7544519158479136,0.7724787676732884))
[0195]
c1和c2的circrna序列相似度ces(c1,c2)计算如下:
[0196][0197]
最终计算出circrna序列相似度矩阵为:
[0198][0199]
对mirna-疾病关联关系,进行去重关联关系,构建mirna-疾病关联关系的关联矩阵am:
[0200][0201]
例:
[0202]
类似地,再根据am来计算基于疾病的mirna高斯内核相似度矩阵mis:
[0203]
mis(mi,mj)=exp(-γm||ip3(mi)-ip3(mj)||2)
[0204][0205]
其中,γ
′m取值为1。
[0206]
例:
[0207]
ip(m0)
493
×1:[0...此处省略0...1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
[0208]
ip(m1)
493
×1:[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 ...此处省略0...0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
[0209]
mis(mi,mj)=exp(-γm||ip3(mi)-ip3(mj)||2)=0.062284563133135365
[0210][0211]
根据邻接矩阵a,计算基于circrna的mirna的高斯内核相似度矩阵mcis:
[0212]
mcis(mi,mj)=exp(-γ
mc
||ip4(mi)-ip4(mj)||2)
[0213][0214]
其中,γ

mc
取值为1。
[0215]
例:
[0216]
ip(mc0)
493
×1:[0...此处省略0...1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0]
[0217]
ip(mc1)
493
×1:[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0...此处省略0...0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
[0218]
mcis(mi,mj)=exp(-γ
mc
||ip4(mi)-ip4(mj)||2)=0.03253658816658299
[0219][0220]
2、通过融合步骤1中计算得出的矩阵cmis、ccis、ces最终得到circrna综合相似度矩阵cs,具体方法如下:
[0221][0222]
例:
[0223][0224]
通过将mis和mcis融合在一起,mirna mi和mj之间的综合相似度ms计算方法如下:
[0225][0226]
例:
[0227][0228]
3、分别把circrna综合相似度矩阵cs和mirna综合相似度矩阵ms用node2vec算法计算出circrna与mirna的特征矩阵cns、mns。具体方法如下:
[0229]
node2vec采用一种有偏的随机游走的方式获取顶点的近邻序列。给定当前顶点v,访问下一个顶点x的概率为:
[0230][0231]
其中,π
vx
是顶点v和顶点x之间的非归一化转移概率,即cs和ms,z是归一化常数。node2vec引入两个超参数p和q来控制随机游走的策略,假设当前随机游走经过边(t,v)到达顶点v设π
vx
=α
pq
(t,x)
·wvx
,w
vx
是顶点v和x之间的边权,d
tx
为顶点t和顶点x之间的最短路径距离,其每一步的游走策略如下所示:
[0232]
cs的非归一化转移概率π
vx
为:
[0233]
π
0,(0,1139)
=[1,0.842301,0.192004,0.777992,...,0.842301]
1140
[0234]
π
1,(0,1139)
=[0.833689,1,0.842301,0.962653,...,0.091008]
1140
[0235]
π
2,(0,1139)
=[1,0.857056,0.919860,0.963859,...,0.642756]
1140
[0236]
......
[0237]
π
1138,(0,1139)
=[0.485483,0.485483,0.080127,1,...,0.398276]
1140
[0238]
π
1139,(0,1139)
=[0.485483,0.485483,0.080127,1,...,0.398276]
1140
[0239]
通过累加每一个π
vx
概率数组,得到归一化常数z为:
[0240]
z0=230.11663784654223 z1=232.4937327522766
[0241]
z2=40.9052722236056 z3=495.7587122350996
[0242]
......
[0243]z1138
=225.28285656198722 z
1139
=494.62161442411724
[0244]
之后根据转移概率π
vx
和其对应的归一化常数z计算得出顶点v和顶点x之间的访问概率为:
[0245]
p
0,(0,1139)
=[0.004345,0.000738,0.000168,0.000915,...,0.000588]
1140
[0246]
p
1,(0,1139)
=[0.000731,0.004301,0.000132,0.000906,...,0.000582]
1140
[0247]
p
2,(0,1139)
=[0.000947,0.000751,0.024446,0.001045,...,0.000947]
1140
[0248]
......
[0249]
p
1138,(0,1139)
=[0.000424,0.000424,8.62720e-05,0.002017,...,0.000424]
1140
[0250]
p
1139,(0,1139)
=[0.000425,0.000425,7.02870e-05,0.001286,...,0.000425]
1140
[0251]
ms的非归一化转移概率π
vx
为:
[0252]
π
0,(0,492)
=[1,0.141048,0.102739,0.048941,...,0.090713]
493
[0253]
π
1,(0,492)
=[0.141048,1,0.124541,0.068733,...,0.182531]
493
[0254]
π
2,(0,492)
=[0.102739,0.124541,1,0.053069,...,0.129023]
493
[0255]
......
[0256]
π
1138,(0,492)
=[0.048941,0.068733,0.053069,1,...,0.060587]
493
[0257]
π
1139,(0,492)
=[0.159269,0.308407,0.142762,0.062620,...,0.212784]
493
[0258]
通过累加每一个π
vx
概率数组,得到归一化常数z为:
[0259]
z0=72.45289556238191 z1=125.29730622389633
[0260]
z2=63.47975674149568 z3=30.595033104644404
[0261]
......
[0262]z491
=89.60813421304191 z
492
=182.20991199922622
[0263]
之后根据转移概率π
vx
和其对应的归一化常数z计算得出顶点v和顶点x之间的访问概率为:
[0264]
p
0,(0,492)
=[0.013802,0.001946,0.001418,0.000675,...,0.001946]
493
[0265]
p
1,(0,492)
=[0.001125,0.007981,0.000993,0.000548,...,0.001456]
493
[0266]
p
2,(0,492)
=[0.001618,0.001961,0.015753,0.000836,...,0.002032]
493
[0267]
p
491,(0,492)
=[0.001599,0.002246,0.001734,0.032685,...,0.001980]
493
[0268]
p
492,(0,492)
=[0.485483,0.485483,0.080127,1,...,0.398276]
493
[0269]
将cs和ms两个矩阵分别从全局网络中的某一个节点i出发计算α
pq
,每一步面临两个选择,前进或者返回上一个节点:
[0270][0271]
其中p是返回概率,q是出入参数,如果p>max(q,1),那么采样会尽量往前走,如果p<min(q,1),那么采样会更倾向于返回上一个节点,q>1,那么游走会倾向于在起始点周围的节点之间跑,如果q<1,那么游走会倾向于往远处跑:
[0272]
我们取返回概率p的值为2,出入参数q的值为5,经过多次迭代。归一化之后cs前往周边节点的概率为:
[0273]
α
pq
(0,x)=(1,0.844135,0.192422,0.948636,...,0.844135)
[0274]
α
pq
(1,x)=(0.416997,1,0.150846,0.797853,...,0.833994)
[0275]
α
pq
(2,x)=(0.540325,0.857462,1,0.948460,...,0.859641)
[0276]
......
[0277]
α
pq
(1138,x)=(0.430349,0.860699,0.196198,1,...,0.883449)
[0278]
α
pq
(1139,x)=(0.447155,0.894310,0.161756,1,...,0.894310)
[0279]
归一化之后ms前往周边节点的概率为:
[0280]
α
pq
(0,x)=(1,0.966425,0.703937,0.335335,...,0.770925)
[0281]
α
pq
(1,x)=(0.277644,1,0.490301,0.270594,...,0.718599)
[0282]
α
pq
(2,x)=(0.399271,0.968003,1,0.412482,...,0.692073)
[0283]
......
[0284]
α
pq
(491,x)=(0.272990,0.961037,0.669720,0.266058,...,0.706553)
[0285]
α
pq
(492,x)=(0.215811,0.835786,0.386886,0.169700,...,0.835786)
[0286]
根据游走策略,经过多次迭代之后,当loss小于10-6时则达到稳定状态,得到最终的特征cns、mns:
[0287][0288][0289]
4、分别把cns矩阵与mns矩阵与邻接矩阵a拼接,得到特征矩阵cf、mf,具体方法如下:把cns的每一行与邻接矩阵的每一行拼接成异构矩阵,如:
[0290][0291]
类似地,把mns的每一行和邻接矩阵的每一列拼接成异构矩阵,如:
[0292][0293]
5、我们融合了circrna与疾病关联关系网络的关联矩阵a与零矩阵,构成全局异构网络的邻接矩阵a
cm
。a
cm
中共1140 493=1633维,1140表示circrna的数量,493表示mirna的数量。类似地,整合cf、mf与零矩阵(zero)得到异构特征矩阵cm,具体方法如下:
[0294][0295][0296]
[0297][0298]
6、对于每一对circrna与疾病的关联关系样本,我们把关系标签进行打乱处理,然后根据五折交叉验证把其中的4份用作训练集,1份用于测试集,训练集的数量为1510个,测试集的数量为302个,对于正负样本我们可以把他们的数量设置成相同的,当训练集、测试集以及正负样本设置好之后,首先要把特征矩阵cm进行自编码处理:
[0299][0300]
再把得出的矩阵使用talking-heads与crf层进行邻接节点信息传播:
[0301][0302]
talking-heads与crf层计算之后得到:
[0303][0304]
经过解码之后cm如下:
[0305]
cm
562020
×1=[0.82859 0.21285 0.21244...0]
[0306]
我们进行200次迭代,当loss小于0.01之后算法达到收敛,得到最终测试集评分矩阵为:
[0307]
score
302
×1=[0.830334 0.716740 0.833866...0.020434]
[0308]
7、使用5折交叉验证进行验证。
[0309]
我们在5折交叉验证的基准数据集上选择本算法的最优参数。5折交叉验证来评估方法的性能:训练集随机分为5组大小大致相同的子集。每个子集依次用作验证测试数据,其余4个子集用作训练数据。交叉验证过程重复5次,并使用超过5次的平均性能度量进行性能评估。5次交叉验证的性能如表5所示:
[0310]
表5五折交叉验证auc与aupr值
[0311] 12345auc0.96540.96520.95500.95840.9619aupr0.96200.95750.95380.95860.9633
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献