应用于生物制品的标签序列的生成方法、系统、智能终端及计算机可读存储介质与流程

2021-10-19 20:39:00 来源：中国专利 TAG：生物制品序列及其应用生成生物

1.本发明涉及生物技术领域，尤其涉及生物制品的标签序列的生成方法及其应用。

背景技术：

2.在生物相关的制品中，例如生物芯片(包括基因芯片和蛋白质芯片)和作为药物载体的dna自组装载体等，均包含具有特异性的标签序列，例如在制备基因芯片的解码过程中，通过dna标签序列用于与与其配对的解码序列进行特异性杂交，从而完成对基因芯片的解码，即获得探针种类与基因芯片上的孔位位置的对应关系，解码后的基因芯片才能用于后续的基因检测。因此，标签序列对于生物芯片和dna自组装药物载体等生物制品具有重要作用。
3.但是，现有技术中的应用于生物制品的标签序列存在特异性差、生成操作繁琐和耗时长的缺陷。

技术实现要素：

4.为了克服现有技术中的应用于生物芯片的标签序列存在特异性差、生成操作繁琐和耗时长的技术缺陷，本发明的第一个方面提供一种应用于生物制品的标签序列的生成方法，所述标签序列由若干依次首尾拼接的唯一子序列组成，并且所述唯一子序列和所述标签序列均符合预设原则，包括：
5.步骤s1：设定所述唯一子序列的长度为n、所述标签序列的长度为m，m和n分别为构成所述唯一子序列的基本单元的数量，m和n均为正整数且m﹥n，按照预设原则生成所有的长度为n的唯一子序列，即得所述唯一子序列集合；以及
6.步骤s2：从所述唯一子序列的集合中随机抽取第一唯一子序列，然后再随机抽取第二唯一子序列，将所述第二唯一子序列拼接到所述第一唯一子序列以得到拼接序列，检查所述拼接序列是否符合所述预设原则；
7.步骤s3：若符合，则继续逐一随机抽取后续唯一子序列并逐一拼接以得到长度不断增加的新的拼接序列，并逐一检查新的拼接序列是否符合所述预设原则以及新的拼接序列的长度是否达到m，当所述新的拼接序列符合所述预设原则且其长度为m时，则将其保存以作为一所述标签序列。
8.可选地，m是n的整数倍。可选地，m不是n的整数倍，比如m＝8，n＝3，那么就拼接到长度为9时停止，剪掉最后1个基本单元，再检查剩下的长度为8的序列是否符合预设原则，若符合就存下来作为一条标签序列。
9.示例地，2≤m/n≤5。示例地，唯一子序列的长度n为7个碱基，dna标签序列的长度m为21个碱基。优选地，所述dna标签序列的核苷酸序列如seq id no.1～seq id no.20所示：
10.seq id no.1：agagcaagaaccctaagttat；
11.seq id no.2：attctgtattgcgagaggaaa；
12.seq id no.3：ccctcctactatcacattatt；
13.seq id no.4：aggtcgtctcattacacataa；
14.seq id no.5：ccttccgattcaactctatta；
15.seq id no.6：gcttagccaaacaccaataat；
16.seq id no.7：cttcaccagtcattcacaata；
17.seq id no.8：ggtaaggttctctgttgtttt；
18.seq id no.9：acgaccctacttcaatcttat；
19.seq id no.10：agggtggaacttatgacttta；
20.seq id no.11：ggaaacacttgatgacagtaa；
21.seq id no.12：ggaaatgcgaatgtgttagta；
22.seq id no.13：gaataagcgacaatggtgtaa；
23.seq id no.14：tttgtgctcttgccatttgaa；
24.seq id no.15：ggaccagtaatccaacatttt；
25.seq id no.16：gaaacctggacttcatcattt；
26.seq id no.17：tattacgcccatacacactaa；
27.seq id no.18：gagcaggatactttggtttta；
28.seq id no.19：tcctttgtctgaagagagtaa；
29.seq id no.20：aggcgtgtcatactacttatt。
30.进一步地，步骤s2进一步包括步骤：若不符合，则从所述拼接序列中删除所述第二唯一子序列，然后从所述唯一子序列集合中随机抽取另一唯一子序列以作为新的第二唯一子序列。
31.进一步地，所述生物制品为基因芯片、蛋白质芯片或dna自组装药物载体，所述基因芯片和所述dna自组装药物载体中的构成所述唯一子序列的基本单元为带有不同碱基的脱氧核苷酸，所述蛋白质芯片中的构成所述唯一子序列的基本单元为氨基酸。应用一：基因芯片。采用标签序列探针的设计，标签序列与探针一一对应。识别标签序列，即可识别出探针的种类。应用二：蛋白质芯片。如将蛋白质探针耦连在微球上，同时在微球上耦连上标签序列，探针与标签序列一一对应。则可通过识别标签序列，得知微球上耦连的蛋白质探针种类。应用三：dna自组装。比如某些dna自组装的脚手架结构上需结合多肽分子，则可在脚手架结构上设计一些标签序列。再加入耦连了标签序列的互补序列的多肽分子，则这些多肽分子可通过识别标签序列组装到脚手架的特定位置上。
32.进一步地，所述基因芯片的所述标签序列为dna标签序列，所述dna标签序列包括至少两条所述唯一子序列，所述预设原则包括：连续的相同碱基不超过8个，gc含量为30％～60％，发夹结构长度不超过8个碱基，自互补片段不超过16个碱基，并且所述dna标签序列与目标基因组的不相似。“不相似”是指使用blast在目标基因组中找不到与该标签序列e值小于0.05的匹配结果。示例地，所述目标基因组为人类基因组或小鼠基因组等。
33.进一步地，在所述预设原则中，连续的相同碱基不超过3个，发夹结构长度不超过3个碱基，自互补片段不超过6个碱基。
34.进一步地，步骤s3进一步包括步骤：将与所述标签序列中的所有的长度为n的子序列相同和互补的唯一子序列从所述唯一子序列集合中删除以使它们不再参与后续的抽取
和拼接。此处“所有的长度为n的子序列”是指在标签序列中的所有的长度为n的子序列，并不限于组成该标签序列的若干条唯一子序列，还包括标签序列中的其他的长度为n的子序列，换句话说，此处并不限定“长度为n的子序列”的起始位置和终点位置，在唯一子序列集合中，只要是与上述长度为n的子序列相同或互补的唯一子序列，均需要从唯一子序列集合中被删除。
35.所述应用于生物制品的标签序列的生成方法进一步包括：步骤s4：重复步骤s2至s3，直到将所述唯一子序列的集合用尽或者生成的所述标签序列的数量达到要求，以得到所述标签序列的集合。使用这种方法生成的标签序列的集合可以满足要求：其中任一标签序列的任一长度为n的唯一子序列及其互补序列在标签序列的集合中只出现过一次，因此在生成尽可能多的标签序列的同时，最大程度地保证了标签序列的特异性。
36.本发明的第二个方面提供一种应用于生物制品的标签序列的生成系统，包括：
37.唯一子序列模块，所述唯一子序列模块用于设定所述唯一子序列的长度为n、所述标签序列的长度为m，m和n分别为构成所述唯一子序列的基本单元的数量，m和n均为正整数且m﹥n，按照预设原则生成所有的长度为n的唯一子序列，即得所述唯一子序列集合；以及
38.拼接检查模块，所述拼接检查模块用于从所述唯一子序列的集合中随机抽取第一唯一子序列，然后再随机抽取第二唯一子序列，将所述第二唯一子序列拼接到所述第一唯一子序列以得到拼接序列，检查所述拼接序列是否符合所述预设原则；若不符合，所述拼接检查模块还用于从所述拼接序列中删除所述第二唯一子序列，然后从所述唯一子序列集合中随机抽取另一唯一子序列以作为新的第二唯一子序列，直到所述拼接序列符合所述预设原则为止；若符合，则继续逐一随机抽取后续唯一子序列并逐一拼接以得到长度不断增加的新的拼接序列，并逐一检查新的拼接序列是否符合所述预设原则以及新的拼接序列的长度是否达到m，当所述新的拼接序列符合所述预设原则且其长度为m时，则将其保存以作为一所述标签序列；
39.所述唯一子序列模块和所述拼接检查模块之间通过数据流连接。
40.进一步地，所述拼接检查模块还用于将与所述标签序列中的所有的长度为n的子序列相同和互补的唯一子序列从所述唯一子序列集合中删除以使它们不再参与后续的抽取和拼接。优选地，所述拼接检查模块还用于重复上述拼接和检查步骤，直到将所述唯一子序列的集合用尽或者生成的所述标签序列的数量达到要求，以得到所述标签序列的集合。使用这种方法生成的标签序列的集合可以满足要求：其中任一标签序列的任一长度为n的唯一子序列及其互补序列在标签序列的集合中只出现过一次，因此在生成尽可能多的标签序列的同时，最大程度地保证了标签序列的特异性。
41.示例地，所述dna标签序列包括至少两条所述唯一子序列，所述预设原则包括：连续的相同碱基不超过8个，gc含量为30％～60％，发夹结构长度不超过8个碱基，自互补片段不超过16个碱基，并且所述dna标签序列与目标基因组的不相似。“不相似”是指使用blast在目标基因组中找不到与该标签序列e值小于0.05的匹配结果。示例地，所述目标基因组为人类基因组或小鼠基因组等。
42.本发明的第三个方面提供一种智能终端，包括：
43.存储器，所述存储器用于存储可执行程序代码；以及
44.处理器，所述处理器用于读取所述存储器中存储的可执行程序代码以执行上述应
用于生物制品的标签序列的生成方法。所述智能终端包括但不限于pc、便携计算机、移动终端等具有显示和处理功能的设备。
45.本发明的第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令当被处理器执行时，实现上述应用于生物制品的标签序列的生成方法的步骤。所述计算机可读存储介质包括但不限于：u盘、移动硬盘、只读存储器(rom，read
‑
onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
46.采用了上述技术方案后，与现有技术相比，具有以下有益效果：
47.1.本技术的标签序列的生成方法可以直接在智能终端中通过生成系统实现，能够更加简单快速地生成特定数量且符合特定设计原则的标签序列，成本更低；并且因为连续的相同碱基不超过3～8个且标签序列的合成成功率为100％，因此易合成。
48.2.使用本技术的技术方案生成的标签序列的集合可以满足要求：其中任一标签序列的任一长度为n的唯一子序列及其互补序列在这个集合中只出现过一次，因此在生成尽可能多的标签序列的同时，最大程度地保证了标签序列的特异性，与目标基因组的相似度更低。本技术的技术方案尤其适于快速生成大量的且满足特定条件的标签序列。
附图说明
49.图1为本技术的一实施例的应用于生物制品的标签序列的生成系统的模块结构图。
具体实施方式
50.以下结合附图与具体实施例进一步阐述本发明的优点。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。
51.在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。
52.在后续的描述中，使用用于表示元件的诸如“模块”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。
53.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
54.实施例
55.示例地，采用本技术的应用于生物制品的标签序列的生成系统以及标签序列的生成方法生成20条符合预设原则且包含3条唯一子序列的dna标签序列，唯一子序列的长度n为7，dna标签序列的长度m为21，并将该dna标签序列应用于基因芯片。
56.所述标签序列由三条依次首尾相互拼接的唯一子序列组成，并且所述唯一子序列和所述标签序列均符合下述预设原则：连续的相同碱基不超过8个，gc含量为30％～60％，发夹结构长度不超过8个碱基，自互补片段不超过16个碱基，并且所述dna标签序列与人类
基因组不相似。
57.本技术的应用于生物制品的标签序列的生成方法和生成系统的模块结构如图1所示。
58.具体地，在计算机中通过dna标签序列的生成系统生成应用于基因芯片的标签序列，dna标签序列的生成系统包括唯一子序列模块和拼接检查模块，所述唯一子序列模块和所述拼接检查模块之间通过数据流连接。dna标签序列的生成方法包括以下步骤：
59.步骤1：生成唯一子序列集合：根据预设原则生成唯一子序列集合，其中每一个唯一子序列的长度为n：示例地，通过唯一子序列模块设定所述唯一子序列的长度n为7个碱基、所述标签序列的长度m为21个碱基，按照预设原则生成所有的长度为7个碱基的唯一子序列，就获得所述唯一子序列集合；
60.步骤2：随机抽取唯一子序列：通过拼接检查模块从所述唯一子序列的集合中随机抽取第一条唯一子序列，然后再随机抽取第二条唯一子序列；
61.步骤3：生成拼接序列：将长度为7个碱基的所述第二条唯一子序列的一端拼接到长度为7个碱基的所述第一条唯一子序列的一端上，即首尾相接式地串联，以得到拼接序列(此时，拼接序列的长度为14个碱基)；
62.步骤4：检查拼接序列是否符合预设原则：检查步骤3得到的拼接序列是否符合所述预设原则，若不符合，则从所述拼接序列中删除所述第二唯一子序列并重复步骤2至步骤3；若符合，则进入步骤5；
63.步骤5：检查拼接序列是否达到长度m：进一步检查拼接序列的长度是否达到m，若未到达m，则重复步骤2至步骤4；若符合，则进入步骤6；
64.换句话说，每得到一个新的拼接序列时，都需要对该新的拼接序列检查两个方面的信息，一是该新的拼接序列是否符合预设原则，二是该新的拼接序列的长度是否达到m(例如21个碱基)。若符合预设原则且长度达到m时，即成功得到一条满足要求的标签序列；若符合预设原则但长度未达到m时，则继续进行随机抽取、拼接以及检查步骤。
65.步骤6：保存标签序列：将该符合预设原则且长度达到m拼接序列保存下来作为一条标签序列；
66.步骤7：删除相同和互补的唯一子序列：将与步骤6得到的标签序列中的所有的长度为7个碱基的子序列相同和互补的唯一子序列从所述唯一子序列集合中删除以使它们不再参与后续的抽取和拼接；
67.步骤8：生成标签序列的集合：重复步骤2至7以不断得到新的符合预设原则且长度为m的标签序列；
68.步骤9：终止：当所有生成的标签序列的数量达到要求，或者唯一子序列集合中的可用唯一子序列已经被用尽时，则终止所有流程。
69.示例地，生成的20条符合预设原则且长度为21的dna标签序列的核苷酸序列如seq id no.1～seq id no.20所示：
70.seq id no.1：agagcaagaaccctaagttat；
71.seq id no.2：attctgtattgcgagaggaaa；
72.seq id no.3：ccctcctactatcacattatt；
73.seq id no.4：aggtcgtctcattacacataa；
74.seq id no.5：ccttccgattcaactctatta；
75.seq id no.6：gcttagccaaacaccaataat；
76.seq id no.7：cttcaccagtcattcacaata；
77.seq id no.8：ggtaaggttctctgttgtttt；
78.seq id no.9：acgaccctacttcaatcttat；
79.seq id no.10：agggtggaacttatgacttta；
80.seq id no.11：ggaaacacttgatgacagtaa；
81.seq id no.12：ggaaatgcgaatgtgttagta；
82.seq id no.13：gaataagcgacaatggtgtaa；
83.seq id no.14：tttgtgctcttgccatttgaa；
84.seq id no.15：ggaccagtaatccaacatttt；
85.seq id no.16：gaaacctggacttcatcattt；
86.seq id no.17：tattacgcccatacacactaa；
87.seq id no.18：gagcaggatactttggtttta；
88.seq id no.19：tcctttgtctgaagagagtaa；
89.seq id no.20：aggcgtgtcatactacttatt。
90.在一台配置为8核、16g内存的计算机或服务器上通过实现步骤1至步骤7得到上述20条dna标签序列，共计花费约5秒的时间。
91.由上可知，本技术的标签序列的生成方法可以直接在智能终端中通过生成系统实现，能够更加简单快速地生成特定数量且符合特定设计原则的标签序列，并且标签序列的特异性高，与目标基因组的相似度更低，成本更低；并且因为连续的相同碱基不超过3～8个且标签序列的合成成功率为100％，因此更易合成。
92.本技术的技术方案尤其适用于快速生成大量的且满足特定条件的标签序列，但是鉴于篇幅限制，此处无法详细列举所有合成的标签序列的具体序列，下面仅以表格的形式示例性地汇总采用本技术的应用于生物制品的标签序列的生成系统及其生成方法来获得符合不同数量需求并符合本技术的预设原则的标签序列的时间成本和成功率结果，具体见表1。唯一子序列的长度要求、标签序列的长度要求和标签序列的数量需求根据实际需求设定，本技术并不具体限定。
93.表1获得符合预设原则且满足不同数量需求的标签序列的时间成本和成功率
[0094][0095][0096]
值得注意的是，表1中实施例1至实施例10的总耗时数据都是在8核(2.7ghz)、16g内存的计算机上运行时的数据，如果计算机的硬件配置更高，总耗时时间会进一步缩短。
[0097]
此外，本技术的技术方案还可以应用于蛋白质芯片的标签序列。如将蛋白质探针耦连在微球上，同时在微球上耦连上标签序列，探针与标签序列一一对应。则可通过识别标签序列，得知微球上耦连的蛋白质探针种类。
[0098]
此外，本技术的技术方案还可以应用于dna自组装。比如某些dna自组装的脚手架结构上需结合多肽分子，则可在脚手架结构上设计一些标签序列。再加入耦连了标签序列的互补序列的多肽分子，则这些多肽分子可通过识别标签序列组装到脚手架的特定位置上。
[0099]
本领域内的技术人员应明白，本发明的实施例可提供为计算机程序产品、系统、智能终端或计算机可读存储介质。因此，本发明可采用完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可执行程序代码的计算机可读存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本技术所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0100]
可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备
的处理器执行的指令产生用于实现本技术的应用于生物制品的标签序列的生成方法中的全部或部分步骤。
[0101]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现本技术的应用于生物制品的标签序列的生成方法中的全部或部分步骤的功能。
[0102]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现本技术的应用于生物制品的标签序列的生成方法中的全部或部分步骤的功能。
[0103]
以上所描述的生成系统的实施方式仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0104]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。另外，在本技术各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
[0105]
应当注意的是，本发明的实施例有较佳的实施性，且并非对本发明作任何形式的限制，任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例，但凡未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰，均仍属于本发明技术方案的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：一种用于按摩椅的SL导轨齿条及按摩椅椅架的制作方法
下一篇：一种膀胱测压装置的制作方法

应用于生物制品的标签序列的生成方法、系统、智能终端及计算机可读存储介质与流程

相关文献

最热文献