一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种抗菌肽筛选方法及系统

2022-07-16 18:10:31 来源:中国专利 TAG:


1.本发明涉及生物信息学分析领域,具体的说,涉及一种抗菌肽筛选方法及系统。


背景技术:

2.近年来,随着抗生素药物的滥用,微生物和寄生虫对药物产生的耐药性越加明显,全球耐药性问题日益加剧,寻求绿色安全的抗生素替代品是解决耐药性问题的重要途径之一。抗菌肽具有广谱抗菌活性,可以快速查杀靶标,并且其中很多是纯天然的肽,使它迅速成为潜在的治疗药物,也是抗生素类药物的理想替代品。在自然界挖掘具有有较高抗菌活性的抗菌肽成为开发抗菌肽产品的重要研究内容。抗菌肽在结构组成上属于两亲性阳离子型短肽,长度差异较大,约为4至100个氨基酸残基,且不同长度的抗菌肽活性具有明显差别,相同长度的抗菌肽在不同物种之间也具有明显差别。目前可用已鉴定出的抗菌肽数据库对不同物种的蛋白序列进行比对和搜索开发新型抗菌肽序列。在此过程中,主要利用蛋白比对蛋白序列的策略(protein-align-protein),例如blastp程序。这种方法适用于长度大于8个氨基酸以上的多肽序列,但抗菌肽很多序列都小于或等于8个氨基酸,因此会遗漏一部分潜在的抗菌肽序列;另一方面,筛选短而生物活性高抗菌肽有利于节省生物合成的经济成本,但目前已有的蛋白比对方法未能达到该目的。


技术实现要素:

3.本发明提供一种抗菌肽筛选方法及系统,解决现有技术中存在的遗漏一部分潜在的抗菌肽序列而导致生物合成抗菌肽的经济成本增加的问题,通过有效的挖掘多肽序列大于等于4的抗菌肽,为快速挖掘生物体的抗菌肽序列提供全新的技术思路。
4.本发明的具体技术方案如下:
5.根据本发明的第一技术方案,提供一种抗菌肽筛选方法,所述方法包括:将已有抗菌肽打断为长度为4的标识序列,并建立抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵;将频率分布矩阵映射到蛋白序列上,根据比对次数高低建立目标蛋白的每个氨基酸的比对得分;根据得分情况筛选和确定比对区域;抽取比对区域中的蛋白序列,根据在抗菌肽数据库中标识序列出现的频率筛选出高得分抗菌肽比对区域。
6.根据本发明的第二技术方案,提供一种抗菌肽筛选系统,所述系统包括处理器,所述处理器配置为:将已有抗菌肽打断为长度为4的标识序列,并建立抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵;将频率分布矩阵映射到蛋白序列上,根据比对次数高低建立目标蛋白的每个氨基酸的比对得分;根据得分情况筛选和确定比对区域;抽取比对区域中的蛋白序列,根据在抗菌肽数据库中标识序列出现的频率筛选出高得分抗菌肽比对区域。
7.根据本发明各个实施例公开的一种抗菌肽筛选方法及系统,设计出适用于短片段抗菌肽序列的比对方法,能够有效而快速的进行抗菌肽序列的筛选。
附图说明
8.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
9.图1示出了根据本发明实施例的一种抗菌肽筛选方法的流程图。
10.图2示出了根据本发明实施例的一种抗菌肽筛选方法的部分流程图。
11.图3示出了根据本发明实施例的一种抗菌肽筛选方法的部分流程图。
12.图4示出了根据本发明实施例的一种抗菌肽筛选方法的部分流程图。
13.图5示出了根据本发明实施例的一种抗菌肽筛选方法的部分流程图。
14.图6示出了根据本发明实施例的一种抗菌肽筛选方法的流程图。
具体实施方式
15.下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
16.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
17.现在结合说明书附图对本发明做进一步的说明。
18.图1示出了根据本发明实施例的一种抗菌肽筛选方法的流程图。本发明实施例提供一种抗菌肽筛选方法,如图1所示,该方法始于步骤s100,将已有抗菌肽打断为长度为4的标识序列,并建立抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵。
19.步骤s200,将频率分布矩阵映射到蛋白序列上,根据比对次数高低建立目标蛋白的每个氨基酸的比对得分。
20.步骤s300,根据得分情况筛选和确定比对区域。
21.步骤s400,抽取比对区域中的蛋白序列,根据在抗菌肽数据库中标识序列出现的频率筛选出高得分抗菌肽比对区域。
22.在一些实施例中,图2示出了根据本发明实施例的一种抗菌肽筛选方法的部分流程图。如图2所示,所述将已有抗菌肽打断为长度为4的标识序列,并建立抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵,包括:
23.步骤s101,根据已知的抗菌肽序列,构建抗菌肽序列数据库。
24.步骤s102,将每条抗菌肽序列按照长度为4逐个氨基酸抽取作为标识序列,将所有标识序列存储在哈希数据结构中,key为标识序列本身,对应的value为标识序列出现的频次,得到抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵。
25.在一些实施例中,图3示出了根据本发明实施例的一种抗菌肽筛选方法的部分流程图。如图3所示,所述将频率分布矩阵映射到蛋白序列上,根据比对次数高低建立目标蛋白的每个氨基酸的比对得分,包括:
26.步骤s201,将长度为l的蛋白序列逐氨基酸分割为4长度的序列subseq(i),按照第
一个氨基酸p(i)在蛋白序列的位置,初始化计数组score(pi,p
i 1
,p
i 2

p
l-4 1
);
27.步骤s202,判断序列subseq(i)是否存在于哈希数据结构中;
28.步骤s203,若序列subseq(i)存在于哈希数据结构中,则令计数组score(pi,p
i 1
,p
i 2
,p
i 3
)加1;
29.步骤s204,若序列subseq(i)不存在于哈希数据结构中,则进行下一序列subseq(i 1)的比对;
30.步骤s205,所有的序列比对完后,得到所述蛋白序列的抗菌肽比对得分数组score(i)。
31.在一些实施例中,图4示出了根据本发明实施例的一种抗菌肽筛选方法的部分流程图。如图4所示,所述根据得分情况筛选和确定比对区域,包括:
32.步骤s301,从所述蛋白序列的抗菌肽比对得分数组的起始位置i开始初始化累计比对得分cs=0,衰减得分ds=0,累计总得分ts=0。
33.步骤s302,当score(i)为0时,执行步骤s303,令cs=cs 0,ds=ds-0.5,ts=cs ds;当score(i)大于等于1时,令cs=cs 1,ds=ds 0。
34.步骤s303,当累计总得分ts小于0时,初始化累计比对得分cs和衰减得分ds为0,记录当前位置为初始位置,并令结束位置为0,当score(i 1)的累计总得分ts大于0时,令结束位置加1。
35.在步骤s303中,判断累计总得分ts是否小于0,若是,则执行步骤304,并重复步骤s303。
36.步骤s304,抽取所述蛋白序列中初始位置到结束位置的区域,并去除该区域末端位点得分为0的部分,得到比对区域。
37.在一些实施例中,图5示出了根据本发明实施例的一种抗菌肽筛选方法的部分流程图。如图5所示,所述抽取比对区域中的蛋白序列,根据在抗菌肽数据库中标识序列出现的频率筛选出高得分抗菌肽比对区域,包括:
38.步骤s401,将比对区域中比对到的标识序列按照抗菌肽频率矩阵中的频次进行权重得分计算。
39.步骤s402,根据比对区域中标识序列的权重得分,将所有抽取到的抗菌肽序列区域抽取并排序得到高得分抗菌肽比对区域。其中,高得分抗菌肽比对区域具体指的是抗菌肽比对区域按照权重得分依次由高到低进行排列。例如,以表格形式输出,至少包括三列,第一列是权重高低排序(例如用阿拉伯数字依照1,2,3,4

的方式进行排列),第二列是对应抽取到的抗菌肽序列区域,第三列是权重得分,反应了该区域中存在抗菌肽的概率。
40.因此,根据上述各个实施例所述的抗菌肽筛选方法,本发明提出了一种全新的适用于短片段抗菌肽序列的比对思路,能够有效而快速的进行抗菌肽序列的筛选。
41.示例性的,本发明所述的抗菌肽筛选方法应用于perl语言环境中具有更快的处理性能。其中perl是一种计算机语言。需要注意,此处仅仅只是示例,本发明所述方法可以基于现有已知的各种计算机语言编程实现,本实施例对此不作具体限制。
42.具体的,图6示出了根据本发明实施例的一种抗菌肽筛选方法的流程图。当在perl语言环境中应用本发明时,如图6所示,抗菌肽筛选方法包括如下步骤:
43.(1).根据已知的抗菌肽序列,构建抗菌肽序列数据库;将每条抗菌肽序列按照长
度为4逐个氨基酸抽取作为标识序列。
44.(2).将所有标识序列存储在perl语言中的哈希数据结构中(fourfrequencyhash),其key为标识序列本身,对应的value为标识序列出现的频次。则频次越高的标识序列,存在抗菌肽一般特征的可能性更大,后续根据次值进行抗菌肽抽取后的排序。
45.(3)设计perl子程序(sub mapping_four)将长度为l的蛋白序列逐氨基酸分割为4长度的序列subseq(i),按照第一个氨基酸在蛋白序列的位置p(i),初始化数组score(pi,p
i 1
,p
i 2

p
l-4 1
)。
46.(4).如果subseq(i)存在于fourfrequencyhash则计数组score(pi,p
i 1
,p
i 2
,p
i 3
)加1,如果不存在则进行下一个subseq的计算,最终得到该蛋白的抗菌肽比对得分数组pscore。
47.(5).检查当前计算环境是否支持多线程,如果支持则调用多线程对多个蛋白并行计算步骤(4);如果不支持,则用单线程计算步骤(4)。
48.(6)根据步骤(4)和(5)得到每个蛋白的抗菌肽比对得分数组,从数组的起始位置i开始初始化累计比对得分cs=0,衰减得分ds=0,累计总得分ts=0,具体为当score(i)为0时,cs=cs 0,ds=ds-0.5,ts=cs ds;当score(i)大于等于1时,cs=cs 1,ds=ds 0;
49.(7).当ts小于0时立刻初始化cs和ds为0,记录当前位置start,end为0,当score(i 1)的ts大于0时,记录end=end 1;抽取序列中start到end区域,并去除该区域末端位点得分为0的部分,
50.(8).当ts再次小于0;重复步骤(7)。
51.(9).将比对区域中比对到的标识序列按照抗菌肽频率矩阵中的频次f进行权重得分计算,计算为所有比对的标识序列得分总和除以比对到的标识序列数目。
52.(10).根据比对区域中标识序列的权重得分,将所有抽取到的抗菌肽序列区域抽取并排序,输出结果到excel表中,便于后续查阅。
53.本发明实施例还提供一种抗菌肽筛选系统,所述系统包括处理器,所述处理器配置为:将已有抗菌肽打断为长度为4的标识序列,并建立抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵;将频率分布矩阵映射到蛋白序列上,根据比对次数高低建立目标蛋白的每个氨基酸的比对得分;根据得分情况筛选和确定比对区域;抽取比对区域中的蛋白序列,根据在抗菌肽数据库中标识序列出现的频率筛选出高得分抗菌肽比对区域。
54.需要说明的是,本发明实施例中所述的处理器可以是包括一个以上通用处理设备的处理设备,诸如微处理器、中央处理单元(cpu)、图形处理单元(gpu)等。更具体地,处理器可以是复杂指令集计算(cisc)微处理器、精简指令集计算(risc)微处理器、超长指令字(vliw)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器还可以是一个以上专用处理设备,诸如专用集成电路(asic)、现场可编程门阵列(fpga)、数字信号处理器(dsp)、片上系统(soc)等。处理器可以通信地耦合到存储器并且被配置为执行存储在其上的计算机可执行指令,以执行上述实施例的抗菌肽筛选方法。
55.在一些实施例中,所述处理器被进一步配置为:根据已知的抗菌肽序列,构建抗菌肽序列数据库;将每条抗菌肽序列按照长度为4逐个氨基酸抽取作为标识序列,将所有标识序列存储在哈希数据结构中,key为标识序列本身,对应的value为标识序列出现的频次,得
到抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵。
56.在一些实施例中,所述处理器被进一步配置为:将长度为l的蛋白序列逐氨基酸分割为4长度的序列subseq(i),按照第一个氨基酸p(i)在蛋白序列的位置,初始化计数组score(pi,p
i 1
,p
i 2

p
l-4 1
);判断序列subseq(i)是否存在于哈希数据结构中;若序列subseq(i)存在于哈希数据结构中,则令计数组score(pi,p
i 1
,p
i 2
,p
i 3
)加1;若序列subseq(i)不存在于哈希数据结构中,则进行下一序列subseq(i 1)的比对;所有的序列比对完后,得到所述蛋白序列的抗菌肽比对得分数组。
57.在一些实施例中,所述处理器被进一步配置为:从所述蛋白序列的抗菌肽比对得分数组的起始位置i开始初始化累计比对得分cs=0,衰减得分ds=0,累计总得分ts=0;当score(i)为0时,令cs=cs 0,ds=ds-0.5,ts=cs ds;当score(i)大于等于1时,令cs=cs 1,ds=ds 0;当累计总得分ts小于0时,初始化累计比对得分cs和衰减得分ds为0,记录当前位置为初始位置,并令结束位置为0,当score(i 1)的累计总得分ts大于0时,令结束位置加1;抽取所述蛋白序列中初始位置到结束位置的区域,并去除该区域末端位点得分为0的部分,得到比对区域。
58.在一些实施例中,所述处理器被进一步配置为:将比对区域中比对到的标识序列按照抗菌肽频率矩阵中的频次进行权重得分计算;根据比对区域中标识序列的权重得分,将所有抽取到的抗菌肽序列区域抽取并排序得到高得分抗菌肽比对区域。
59.本发明实施例所提供的一种抗菌肽筛选系统与在前阐述的方法的技术效果基本一致,此处不赘述。
60.以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献