一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种新型冠状病毒基因组特征相似性度量方法

2022-06-05 08:52:39 来源:中国专利 TAG:


1.本发明涉及病毒基因组领域,尤其涉及一种新型冠状病毒基因组特征相似性度量方法。


背景技术:

2.当前传统医学大多使用传统的生物信息学工具,例如blast序列比对,来实现基因组相似性度量。但传统比对方式,投入大、速度慢、周期长、难度大,无法实现基因相似性快速准确地度量。尤其在病毒快速传播的情况下,无法快速做出判断,及时有效分析病毒同源性,为治疗提供及时、可靠的依据。


技术实现要素:

3.本发明提供一种新型冠状病毒基因组特征相似性度量方法,以克服传统基因相似性比对方法投入大、速度慢、周期长、难度大的技术问题。
4.为了实现上述目的,本发明的技术方案是:
5.一种新型冠状病毒基因组特征相似性度量方法,其特征在于,包括以下步骤:
6.步骤1、获取待分析的新型冠状病毒基因组和对照的其他动物感染过的冠状病毒基因组;
7.步骤2、提取新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征;
8.步骤3、计算新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征出现的频率,并对新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征进行数值化处理;
9.步骤4、利用数值化处理后的新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征,遍历寻找与新型冠状病毒共同病毒基因组特征,并对数值化处理后的其它动物感染过的冠状病毒基因组特征进行归一化处理得到其它动物感染过的冠状病毒归一化后的数值特征;
10.步骤5、对新型冠状病毒共同病毒基因组特征进行归一化处理,对归一化处理后的新型冠状病毒共同病毒基因组特征进行模糊聚类,获得新型冠状病毒聚类中心;
11.步骤6、计算其它动物感染过的冠状病毒归一化后的数值特征与新型冠状病毒聚类中心的欧式距离,用于量化病毒相似性,根据量化结果预测病毒的同源性和亲缘性关系。
12.进一步的,所述步骤5中获取病毒聚类中心的具体为:
13.步骤5.1、初始化新型冠状病毒特征隶属度矩阵u
ij

14.步骤5.2、根据新型冠状病毒共同病毒基因组特征xj和新型冠状病毒特征隶属度矩阵u
ij
,得到新型冠状病毒特征聚类中心vi;
15.步骤5.3、根据新型冠状病毒特征聚类中心vi更新新型冠状病毒特征隶属度矩阵u
ij

16.步骤5.4、根据更新后的新型冠状病毒特征隶属度矩阵u
ij
和新型冠状病毒特征聚
类中心vi得出目标函数值,判断目标函数值与预设值的大小,若目标函数值小于预设值,则输出新型冠状病毒特征聚类中心vi,若目标函数值大于等于预设值,则返回步骤5.2重新获取新型冠状病毒特征聚类中心vi。
17.进一步的,所述步骤5.1中初始化新型冠状病毒特征隶属度矩阵u
ij
的具体计算公式为:
[0018][0019]
其中,c代表模糊聚类个数,u
ij
代表第i个新型冠状病毒基因组样本属于第j类的隶属度,n代表新型冠状病毒基因组样本数量。
[0020]
进一步的,所述步骤5.2中得到新型冠状病毒特征聚类中心vi的具体计算公式为:
[0021][0022]
其中,m是大于1的实数,代表隶属度矩阵u
ij
中第j个特征属于第i类的隶属度。
[0023]
进一步的,所述步骤5.3中更新新型冠状病毒特征隶属度矩阵u
ij
的具体计算公式为:
[0024][0025]
其中,vk代表第k个聚类中心。
[0026]
进一步的,所述步骤5.4中根据更新后的新型冠状病毒特征隶属度矩阵u
ij
和新型冠状病毒特征聚类中心vi得出目标函数值的具体计算公式为:
[0027][0028]
其中,q为目标函数值。
[0029]
进一步的,步骤6中计算其它冠状病毒归一化后数值特征与新型冠状病毒聚类中心的欧式距离的具体计算公式为:
[0030][0031]
其中,distance为病毒聚类中心与新型冠状病毒聚类中心的欧式距离,
[0032]
xj′
为其它动物感染过的冠状病毒归一化后的数值特征。
[0033]
有益效果:本发明通过基因相似性推测病毒同源性。首先,计算基因字符序列中冠状病毒基因组特征出现的频率,获取基因序列数值特征;通过数据归一化,将公共基因特征的绝对值关系处理为相对值关系,简化计算;经过模糊均值聚类,计算聚类中心,进一步获得基因组特征,并通过计算其它基因组特征归一化后数值与此聚类中心的欧式距离,判断其相似性和同源性。从验证效果来看,与传统比对方式结论一致。由于现有的相似性和同源性对比放大其本质是片段对的比对,其基本过程是:首先找出查询序列和目标序列间所有
匹配程度超过一定阈值的片段对,然后对片段对根据给定的相似性阈值进行延伸,得到一定长度的相似性片段,最后给出高分值片段对,从而延伸判断序列的相似性和同源性,本发明仅需要获取现有的病毒序列,通过计算其欧氏距离既可得出相似性和同源性,因此只需要一台电脑即可,此方法成本低、速度快、容易得出实验结果。
附图说明
[0034]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0035]
图1为本发明新型冠状病毒基因组特征相似性度量方法流程图;
[0036]
图2为应用本发明后的相似性结果分析图。
具体实施方式
[0037]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0038]
本实施例提供了一种新型冠状病毒基因组特征相似性度量方法,如图1,包括以下步骤:
[0039]
步骤1、获取待分析的新型冠状病毒基因组和对照的其他动物感染过的冠状病毒基因组;其他动物具体为鸡、鸭、牛、蝙蝠;具体的,均使用公共基因组fasta类型数据获取冠状病毒基因组;
[0040]
步骤2、提取新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征;
[0041]
步骤3、计算新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征出现的频率,并对新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征进行数值化处理;
[0042]
步骤4、利用数值化处理后的新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征,遍历寻找与新型冠状病毒共同病毒基因组特征,并对数值化处理后的其它动物感染过的冠状病毒基因组特征进行归一化处理得到其它动物感染过的冠状病毒归一化后的数值特征;通过数据归一化,将公共基因特征的绝对值关系处理为相对值关系,简化计算;
[0043]
步骤5、对新型冠状病毒共同病毒基因组特征进行归一化处理,对归一化处理后的新型冠状病毒共同病毒基因组特征进行模糊聚类,获得新型冠状病毒聚类中心;
[0044]
步骤6、计算其它动物感染过的冠状病毒归一化后的数值特征与新型冠状病毒聚类中心的欧式距离,用于量化病毒相似性,当欧式距离为多组时,取其平均值进行量化,并根据量化结果预测病毒的同源性和亲缘性关系。
[0045]
在具体实施例中,所述步骤5中获取病毒聚类中心的具体为:
[0046]
步骤5.1、初始化新型冠状病毒特征隶属度矩阵u
ij

[0047]
步骤5.2、根据病毒基因组特征xj和新型冠状病毒特征隶属度矩阵u
ij
,得到新型冠状病毒特征聚类中心vi;
[0048]
步骤5.3、根据新型冠状病毒特征聚类中心vi更新新型冠状病毒特征隶属度矩阵u
ij

[0049]
步骤5.4、根据更新后的新型冠状病毒特征隶属度矩阵u
ij
和新型冠状病毒特征聚类中心vi得出目标函数值,判断目标函数值与预设值ε的大小,若目标函数值小于预设值ε,则输出新型冠状病毒特征聚类中心vi,若目标函数值大于等于预设值ε,则返回步骤5.2重新获取新型冠状病毒特征聚类中心vi。
[0050]
在具体实施例中,所述步骤5.1中初始化新型冠状病毒特征隶属度矩阵u
ij
的具体计算公式为:
[0051][0052]
其中,c代表模糊聚类个数,u
ij
代表第i个新型冠状病毒基因组样本属于第j类的隶属度,n代表新型冠状病毒基因组样本数量。
[0053]
在具体实施例中,所述步骤5.2中得到新型冠状病毒特征聚类中心vi的具体计算公式为:
[0054][0055]
其中,m是大于1的实数,代表隶属度矩阵u
ij
中第j个特征属于第i类的隶属度。
[0056]
在具体实施例中,所述步骤5.3中更新新型冠状病毒特征隶属度矩阵u
ij
的具体计算公式为:
[0057][0058]
其中,vk代表第k个聚类中心。
[0059]
在具体实施例中,所述步骤5.4中根据更新后的新型冠状病毒特征隶属度矩阵u
ij
和新型冠状病毒特征聚类中心vi得出目标函数值的具体计算公式为:
[0060][0061]
其中,q为目标函数值。为进一步验证此方法可行性和结论一致性,可对聚类参数c和系数m进行一定范围内遍历。
[0062]
在具体实施例中,步骤6中计算其它冠状病毒归一化后数值特征与新型冠状病毒聚类中心的欧式距离的具体计算公式为:
[0063][0064]
其中,distance为病毒聚类中心与新型冠状病毒聚类中心的欧式距离,xj′
为其它
动物感染过的冠状病毒归一化后的数值特征。距离越近,说明相似性越高,同源可能性越大;反之,距离越远,说明相似性越低,同源可能性越小。
[0065]
图2为应用本发明后的相似性分析结果图,具体的为四种动物感染过的冠状病毒与新型冠状病毒相似性(距离);由图2可知,在对动物曾感染过的冠状病毒样本与新型冠状病毒样本基因相似性分析过程中发现,蝙蝠曾经感染过的冠状病毒与新型冠状病毒样本基因相似性最高(欧式距离最小),由此可以推断,新型冠状病毒来源于蝙蝠的可能性最大。
[0066]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献