一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种在mRNA密码子优化的DFA图中实现Motif序列约束的方法与流程

2022-11-16 15:27:14 来源:中国专利 TAG:

一种在mrna密码子优化的dfa图中实现motif序列约束的方法
技术领域
1.本发明涉及计算机辅助药物研发技术领域,具体涉及一种在mrna密码子优化的dfa(有限状态自动机)图中实现motif序列约束的方法。


背景技术:

2.根据中心法则,信使rna(mrna)通过翻译产生相应的蛋白质,进而发挥生物学功能。其中从初始密码子开始至终止密码子结束,每三个连续的残基形成的密码子对应一个天然氨基酸(终止密码子除外)。在这个过程中mrna是遗传物质从dna 传递到蛋白质的中间载体。由于mrna处于蛋白质的“上游”,从理论上讲,mrna 可以对所有蛋白层面的药物进行替代。从制药行业的角度来看,mrna是一种非常有潜力的候选药物,可以满足基因治疗、癌症治疗以及开发疫苗等需求,而且其整体工艺简单,研发速度快,稳定性高。因此,mrna药物作为新兴的药物形式,已成为药物研发领域的研究热点。
3.在mrna序列中,密码子与氨基酸的对应关系为一对多,同时不同的密码子选择会影响到mrna的稳定性、翻译效率等性质。目前由于工艺的限制,部分短核酸序列(motif序列)需要避免在mrna设计中出现,包括合成酶切位点的序列。因此,密码子的实际可选排列组合数将是一个天文数字,这迫切需要使用计算机辅助的方式对密码子进行设计优化,以提高mrna序列的结构紧密性、转录稳定性及翻译效率。


技术实现要素:

4.本发明的目的在于针对现有技术中的不足,而提供一种在mrna密码子优化的 dfa图中实现motif序列约束的方法,该方法隐式地将约束加入到密码子优化的过程中,能够避免大量的无效计算从而提升设计效率。
5.本发明的目的通过以下技术方案实现:
6.提供一种在mrna密码子优化的dfa图中实现motif序列约束的方法,包括以下步骤:
7.步骤a、在dfa图中定位motif子图的位置,以获得motif子图所属的边的序列;
8.步骤b、对局部的dfa图进行扩展,将motif子图与其余部分进行分离;
9.步骤c、删除独立出来motif子图,即在dfa图中删除相应的边和游离的顶点;
10.步骤d、重复以上步骤,直至motif子图完全删除。
11.上述技术方案中,步骤a中,在dfa图中搜索定位motif子图,其搜索的步骤为:
12.a1、从dfa图的初始节点即mrna最左边部分出发;
13.a2、以深度递归的方式匹配dfa图边上的属性与motif的碱基;
14.a3、依次遍历dfa图中的每一条边,直至返回匹配的边的序列,或是报告搜索失败。
15.上述技术方案中,步骤b中,对局部的dfa图进行扩展的步骤为:
16.b1、从获取的匹配motif子图出发,分别以从后往前和从前往后的方式依次遍历每一个边,检查前后顶点的分支情况而采取不同的图修改方式,包括以下几种情况:
17.(1)从后往前的情况:顶点的入度等于1、出度大于1,表明motif子图的本顶点与其他子图共享了顶点,需要进行扩展;具体做法为新建一个顶点,连接原顶点的前后顶点,复制相应的边的属性,并且删除原出射边,最后更新motif子图所在的边的序列,如图2所示;
18.(2)从前往后的情况:顶点的入度大于1、出度大于等于1,表明motif子图的本顶点与其他子图共享了顶点,需要进行扩展;具体做法为新建一个顶点,连接原顶点的前后顶点,复制相应的边的属性,并且删除原入射边,最后更新motif子图所在的边的序列,如图3所示:
19.b2、循环执行步骤b1,直至没有发现需要修改图的情况发生。
20.本发明的有益效果:
21.本发明的一种在mrna密码子优化的dfa图中实现motif序列约束的方法,包括步骤a、在dfa图中定位motif子图的位置;步骤b、对局部的dfa图进行扩展;步骤c、删除独立出来motif子图;步骤d、重复执行步骤a,直至motif子图完全删除。由于该过程避免了显式地对候选密码子进行排列组合,而是将约束隐含在dfa 图的路径之中,即在密码子优化的动态规划算法(复杂度o(n3))的计算之前对dfa 图进行处理,这样相比在密码子优化后通过过滤剔除不符合约束的motif序列的方案,能够避免密码子排列组合所需的大量后期处理的计算量,从而大大提升了设计效率。由此,本发明的方法直接避免了计算优化过程进入到无效的解空间,在不明显增加计算量的同时,隐式地将约束加入到密码子优化的过程中,可以支持任意数量和长度的 motif序列,从而为实现工艺上可行的mrna药物设计方案尤其是长序列的mrna 密码子设计提供了计算时间上可行有效的解决手段。
附图说明
22.利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
23.图1为本发明的一种在mrna密码子优化的dfa图中实现motif序列约束的方法的流程图。
24.图2为本发明实施例1的步骤b1中以从后往前的方式对局部的dfa图进行扩展的示意图。
25.图3为本发明实施例1的步骤b1中以从前往后的方式对局部的dfa图进行扩展的示意图。
26.图4为本发明实施例2的多肽mlp的mrna优化所需要的dfa图。
27.图5为本发明实施例2的多肽mlp的mrna被优化后的dfa图。
具体实施方式
28.实施例1。
29.一种在mrna密码子优化的dfa图中实现motif序列约束的方法,包括以下步骤:
30.步骤a、在dfa图中定位motif子图的位置,以获得motif子图所属的边的序列;
31.步骤b、对局部的dfa图进行扩展,将motif子图与其余部分进行分离;
32.步骤c、删除独立出来motif子图,即在dfa图中删除相应的边和游离的顶点;
33.步骤d、重复以上步骤,直至motif子图完全删除。
34.上述技术方案中,步骤a中,在dfa图中搜索定位motif子图,其搜索的步骤为、
35.a1、从dfa图的初始节点即mrna最左边部分出发;
36.a2、以深度递归的方式匹配dfa图边上的属性与motif的碱基;
37.a3、依次遍历dfa图中的每一条边,直至返回匹配的边的序列,或是报告搜索失败。
38.上述技术方案中,步骤b中,对局部的dfa图进行扩展的步骤为:
39.b1、从获取的匹配motif子图出发,分别以从后往前和从前往后的方式依次遍历每一个边,检查前后顶点的分支情况而采取不同的图修改方式,包括以下几种情况:
40.(1)从后往前的情况:顶点的入度等于1、出度大于1,表明motif子图的本顶点与其他子图共享了顶点,需要进行扩展;具体做法为新建一个顶点,连接原顶点的前后顶点,复制相应的边的属性,并且删除原出射边,最后更新motif子图所在的边的序列,如图2所示:
41.(2)从前往后的情况:顶点的入度大于1、出度大于等于1,表明motif子图的本顶点与其他子图共享了顶点,需要进行扩展;具体做法为新建一个顶点,连接原顶点的前后顶点,复制相应的边的属性,并且删除原入射边,最后更新motif子图所在的边的序列,如图3所示:
42.b2、循环执行步骤b1,直至没有发现需要修改图的情况发生。
43.上述过程避免了显式地对候选密码子进行排列组合,而是将约束隐含在dfa图的路径之中,即在密码子优化的动态规划算法(复杂度o(n3))的计算之前对dfa图进行处理,从而避免了密码子排列组合所需的大量后期处理的计算量,大大提升了设计效率。因此,本发明的方法直接避免了计算优化过程进入到无效的解空间,在不明显增加计算量的同时,隐式地将约束加入到密码子优化的过程中,可以支持任意数量和长度的motif序列,从而为实现工艺上可行的mrna药物设计方案尤其是长序列的 mrna密码子设计提供了计算时间上可行有效的解决手段。
44.实施例2。
45.本实施例的具体实施方式以多肽mlp为例,其中m为可选密码子为aug,同时为起始密码子,其中l亮氨酸可选密码子为uua、uug、cuu、cuc、cua、cug;其中p脯氨酸可选密码子为ccu、ccc、cca、ccg;最后终止密码子有三种选择 uaa、uga、uag。
46.该多肽的mrna优化所需要的dfa图,如图4所示:
47.其中(0,0)节点为起始节点,(12,0)节点为终止节点。当需要限制motif序列为cccg 时,该dfa图则被修改为如图5所示:
48.任何从起始节点到终止节点的路径都不存在cccg这个子路径,由此约束生效。
49.若限制的motif序列包含在dfa图中的某个必经途径中,会导致dfa图的断裂,从而使该限制导致无解,这需要在最后判断是否出现这种情况。例如,若是限制的 motif序列为cc,上面的dfa图会发生断裂,因为cc这个子路径是整个dfa图的必经路径,因此该约束的加入会导致整个优化过程无解。这一点可以在处理完成后检查dfa图的完整性得以发现。
50.实施例3。
51.本实施例选取典型序列covid-2019刺突蛋白,采用实施例1的方法进行密码子优化,然后进行性能测试,测试在计算机上的运行时间。
52.该测试序列covid-2019刺突蛋白,序列全长为:
53.mfvflvllplvssqcvnlttrtqlppaytnsftrgvyypdkvfrssvlhstqdlflp ffsnvtwfhaihvsgtngtkrfdnpvlpfndgvyfasteksniirgwifgttldskt qsllivnnatnvvikvcefqfcndpflgvyyhknnkswmesefrvyssannctfe yvsqpflmdlegkqgnfknlrefvfknidgyfkiyskhtpinlvrdlpqgfsalepl vdlpiginitrfqtllalhrsyltpgdsssgwtagaaayyvgylqprtfllkyneng titdavdcaldplsetkctlksftvekgiyqtsnfrvqptesivrfpnitnlcpfgevf natrfasvyawnrkrisncvadysvlynsasfstfkcygvsptklndlcftnvyad sfvirgdevrqiapgqtgkiadynyklpddftgcviawnsnnldskvggnynyly rlfrksnlkpferdisteiyqagstpcngvegfncyfplqsygfqptngvgyqpyrv vvlsfellhapatvcgpkkstnlvknkcvnfnfngltgtgvltesnkkflpfqqfg rdiadttdavrdpqtleilditpcsfggvsvitpgtntsnqvavlyqdvnctevpvai hadqltptwrvystgsnvfqtragcligaehvnnsyecdipigagicasyqtqtnsp rrarsvasqsiiaytmslgaensvaysnnsiaiptnftisvtteilpvsmtktsvdctm yicgdstecsnlllqygsfctqlnraltgiaveqdkntqevfaqvkqiyktppikdf ggfnfsqilpdpskpskrsfiedllfnkvtladagfikqygdclgdiaardlicaqkf ngltvlpplltdemiaqytsallagtitsgwtfgagaalqipfamqmayrfngigv tqnvlyenqklianqfnsaigkiqdslsstasalgklqdvvnqnaqalntlvkqls snfgaissvlndilsrldkveaevqidrlitgrlqslqtyvtqqliraaeirasanla atkmsecvlgqskrvdfcgkgyhlmsfpqsaphgvvflhvtyvpaqeknfttapai chdgkahfpregvfvsngthwfvtqrnfyepqiittdntfvsgncdvvigivnntv ydplqpeldsfkeeldkyfknhtspdvdlgdisginasvvniqkeidrlnevaknln eslidlqelgkyeqyikwpwyiwlgfiagliaivmvtimlccmtsccsclkgccsc gscckfdeddsepvlkgvklhyt*,该序列包括了最后的终止密码子(以*表示),所需要限制的motif集合为ggaucc、aagcuu、acuagu、gauauc、cccggg、 ggucuc、gagacc、ccaugg、gaauuc、uaauacgacucacuauag、 aucuguu cuauagugagucguauua、cccccc、uuuuuu,测试平台为intel(r) core(tm)i7-6700k cpu@4.00ghz。
54.同时,采用对比例1和2的方法对上述序列进行优化并测试运行时间,其中:
55.对比例1:采用部分优化后进行组合过滤的方法,即先进行基本的优化(不对 motif序列限制),然后对结果中motif序列出现的位置,对相应的密码子进行组合;
56.对比例2:完全组合的方法,即枚举所有可能的碱基组合。
57.测试结果如表1所示。
58.表1.covid-2019刺突蛋白序列在不同方法下的性能测试(取3次测试的平均值)
[0059][0060]
由表1的数据可知,由于每次二级结构的计算需要大约14s,当采用对比例2完全组合的方法时,整个mrna序列将会有2.4
×
10
632
种密码子组合,因此组合计算所需要的总时间远远超过了电子计算机的能力;当采用对比例1的方法即先进行基本的优化,然后对结果中motif序列出现的位置,对相应的密码子进行组合,其组合数在 109量级,虽然该方法相比对比例2的方法所需的时间大大减少,但是仍然在实际生产实践中不可接受。而本发明的方法在10分钟的时间内即可以解决这个问题,避免了密码子排列组合所需的大量计算量,因此本发明的方法在实践中具有可行性,能够为mrna药物设计方案尤其是长序列的mrna密码
子设计提供了计算时间上可行有效的解决手段。
[0061]
以上所举实施例为本发明的较佳实施方式,仅用来方便说明本发明,并非对本发明作任何形式上的限制,任何所属技术领域中具有通常知识者,若在不脱离本发明所提技术特征的范围内,利用本发明所揭示技术内容所作出局部更动或修饰的等效实施例,并且未脱离本发明的技术特征内容,均仍属于本发明技术特征的范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献