一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种蛋白质存储编码纠错方案

2022-07-23 05:19:09 来源:中国专利 TAG:

1.本发明设计蛋白质存储系统中的编码,具体来说是针对现有的蛋白质存储系统的多肽链的格式选定的编码方案。


背景技术:

2.随着对数据存储需求日益增加,人们开始探索新的存储材料,生物存储技术具有密度高的显著优势,dna和蛋白质都是适合长期存储数据的存储介质。对于dna数据存储来说,当dna序列的gc含量过高或者连续出现相同序列时,dna会变得不稳定,且数据在存储过程中可能会出现数据丢失或者数据错误情况,因此需要对数据进行编码后转换成dna序列。为使产生的dna序列符合生物约束规则,erlich y,zielinski d等人采用了喷泉码,首先将二进制文件处理成一系列特定长度的非重叠段,再对这些非重叠段迭代进行luby变换和对经过变换后生成的复合序列进行筛选,当收集到的复合序列总大小大于原文件大小时,就可以用反luby变换得到原文件信息。而防止数据在dna数据存储系统中出现丢失或错误的情况,则可以利用传统的纠错码进行纠错。
3.纠错码的发展较为完备,1960年,irving s.reed和gustave solomon发明了rs码,rs码是一种极大最小距离可分码,即最小距离为它的奇偶校验符号数加一。rs码在纠正随机符号错误和随机突发错误方面非常有效,因此被广泛用于数据存储系统中进行差错控制。rs码在添加2t个校验码的情况下完成t个码的纠错。
4.在kendrew j c.对dna存储的研究中,使用rs码对dna进行编码时,当码率为75%时,误码率在0.547%,当码率为16.6%时,误码率在0.061%左右。相比于dna需要遵循生物约束规则,蛋白质的生物约束规则较为宽松。自然界中天然存在的氨基酸有20种,选取其中较为稳定的4种用来表达数据。在现有的对蛋白质存储的研究中,采用了传统纠错码来完成对数据的纠错,在cheuk chi a.ng等人的研究中运用了ldpc码和rs码对数据进行编码。在质谱测序过程中,由于多肽链的c端和n端出现错误的概率较大,cheuk chi a.ng等人在此增加3个氨基酸作为校验位,针对多肽链头部两个氨基酸和尾部两个氨基酸进行编码,在假设氨基酸有10%的概率发生错误或者缺失的情况下,通过这种方式增加纠错码,在码率为92.8%的情况下,可以将正确率提高到93.7%。该方法码率较高,但是仅针对部分氨基酸进行了编码,当其它位置部分的氨基酸发生错误时,纠错码无法进行纠错。


技术实现要素:

5.针对现有的蛋白质存储系统允许的多肽链格式,本技术提出了一种与之适合的数据存储格式,并与rs码相结合,提高存储系统的容错率。
6.一种蛋白质存储编码纠错方案,如附图1所示,其特征在于,用地址信息表示数据信息的先后顺序,与rs码相结合,提高存储系统的容错率,增加若干个表示校验信息的氨基酸,完成对若干个氨基酸的纠错,蛋白质存储系统中数据写入、存储、数据读取的具体步骤包括:
7.步骤1:选取4种氨基酸,用来表示地址信息、数据信息和校验信息,1个氨基酸可以存储2bit二进制数据;
8.步骤2:生成数据信息,数据信息根据需要存储的字符串长度确定,其数据长度用若干个氨基酸表示;
9.步骤3:生成地址信息,地址信息根据需要存储的数据长度确定,其数据长度用若干个氨基酸表示;
10.步骤4:生成校验信息,校验信息通过采用rs码对地址信息和数据信息进行编码产生,其数据长度根据需要的纠错能力确定,用若干个氨基酸表示;
11.步骤5:建立2组多肽链数据,1组多肽链数据包括地址信息、数据信息,另1组多肽链数据包括地址信息、校验信息,这2组多肽链数据的地址信息相同,表示对应关系;
12.步骤6:合成蛋白质,根据规定的蛋白质法则合成蛋白质;
13.步骤7:存储蛋白质,将蛋白质冻干保存;
14.步骤8:取出蛋白质,采用纳米孔道测序法对蛋白质进行测序并通过深度学习获得多肽链数据;
15.步骤9:建立数据库,将测序得到的多肽链数据分别放入数据信息数据库和校验信息数据库中,数据信息数据库中存放包含地址信息和数据信息的多肽链数据,校验信息数据库中存放包含地址信息和校验信息的多肽链数据;
16.步骤10:解码多肽链数据,从数据信息数据库和校验信息数据库中各取出1组多肽链数据,将两者对应后进行解码,如若解码后2组多肽链数据的地址信息相同,则认为2组多肽链数据是对应的,解码成功并从数据库中移出;
17.步骤11:重复步骤10直至数据信息数据库和校验信息数据库均无多肽链数据,完成解码。
18.优选地,步骤1所述的选取4种氨基酸,其特征在于,选用4种氨基酸或氨基酸类似物进行存储编码。
19.优选地,步骤3所述的生成地址信息,其特征在于,地址信息长度受限于总数据信息长度和一个蛋白质中能存储的数据信息长度,其中一个蛋白质中能存储的数据信息长度受限于规定的蛋白质法则,当总数据信息长度超过一次能存储的数据信息长度时,需要将数据信息存储在不同的蛋白质中并用地址信息表示存储的数据信息的先后,地址信息长度如公式(1)所示,用氨基酸个数表示。
[0020][0021]
优选地,步骤4所述的生成校验信息,其特征在于,校验信息的总长度受限于rs编码所在的gf(2n)域和需要编码的数据信息长度,其中n取正整数,在gf(2n)域中进行编码,能够达到的最大编码长度为2
n-1个码字,n个氨基酸对应2个码字,将码长对应到氨基酸,最长可以有n*2
n-1-n/2个氨基酸,用m个氨基酸表示校验信息,则至多有n*2
n-1-m-n/2个氨基酸可以用来表示地址信息和数据信息。
[0022]
优选地,步骤4所述的生成校验信息,其特征在于,采用rs码提高蛋白质存储系统的容错率,在一个数据整体,即2组多肽链数据中,采用2t个码字完成t个码字的纠错,即用表示校验信息的(n/2)*(2t)个氨基酸可以完成至少t个氨基酸的纠错,在有t个以上氨基酸发生错误的情况下,如果这些氨基酸构成了t个码字,则可以完成纠错。
[0023]
优选地,步骤5所述的2组多肽链数据,其特征在于,在现有技术下,为方便测序,需要将蛋白质分组,每组多肽链中间用生化连接分子进行连接,其中一组多肽链数据格式为:地址信息-数据信息,另一组多肽链数据格式为:地址信息-校验信息,用相同的地址信息表示数据信息与校验信息的对应关系。
[0024]
优选地,步骤6所述的规定蛋白质法则,其特征在于,其中生化连接分子可以是包含酶切位点的氨基酸组合。
[0025]
优选地,步骤6所述的规定蛋白质法则,其特征在于,为区分表示校验信息与数据信息的多肽链,在包含校验信息或者数据信息的一组氨基酸中添加可识别的修饰基团。
[0026]
优选地,步骤9所述的建立数据库,其特征在于,在对数据进行解码前,首先对蛋白质进行分组检测,根据在测序中是否有发现修饰基团的电流信号特征,将所测数据分为包含数据信息的多肽链数据和包含校验信息的多肽链数据,分别放入建立好的数据信息数据库和校验信息数据库。
[0027]
优选地,步骤10所述的解码多肽链数据,其特征在于,从数据信息数据库和校验信息数据库中各随机取出一组多肽链数据,将从数据信息数据库中取出的多肽链数据放在前面,从校验信息数据库中取出的多肽链数据放在后面,形成一个数据整体,根据rs码的规则进行解码,解码后对比两组数据的地址信息,如果两组数据的地址信息相同,则认为取出的两组多肽链数据对应一个数据整体,将多肽链数据记录下来并从数据信息数据库和校验信息数据库中移出;如果地址信息不同,继续从校验信息数据库中寻找解码后地址信息相同的多肽链数据,找寻到对应多肽链数据后将之前取出的不是一个数据整体的多肽链数据放回校验信息数据库,重复直至数据库中无多肽链数据存在。
[0028]
本发明采用上述方案,步骤1至步骤6实现了蛋白质存储系统中数据写入的过程,如附图2所示,步骤7实现了蛋白质存储系统的存储过程,步骤8至步骤11实现了蛋白质存储系统中的数据读取过程,如附图3所示。
附图说明
[0029]
图1为蛋白质存储系统工作框图。
[0030]
图2为数据写入流程图。
[0031]
图3为数据读出流程图。
[0032]
图4为多肽链格式图。
[0033]
图5为酶切后多肽链数据格式图。
[0034]
图6为解码系统示意图。
具体实施方式
[0035]
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本发明进一步详细说明。
[0036]
本发明的实施例是以本发明技术方案为前提下进行实施的,实施例在gf(24)域中完成对nanjingdaxue字符串数据的存储编码纠错工作。以n字符为例说明编码过程。
[0037]
蛋白质存储系统的数据写入过程如下:
[0038]
选取4种氨基酸,选取4种氨基酸用来表示数据,选用phe(苯丙氨酸)、arg(精氨
酸)、ser(丝氨酸)、tyr(酪氨酸)进行存储。用ser(丝氨酸)表示00,phe(苯丙氨酸)表示01,arg(精氨酸)表示10,tyr(酪氨酸)表示11。
[0039]
生成数据信息,用ascii码表示字符,用4个氨基酸表示。n的ascii码为0110 1110,用氨基酸表示为phe arg tyr arg。
[0040]
生成地址信息,需要存储的nanjingdaxue一共有12个字符,总数据信息长度为48个氨基酸,一个蛋白质中能存储的数据信息为4个氨基酸,地址信息≥2个氨基酸即可,选用4个氨基酸作为地址信息,并将地址信息第一个氨基酸置为tyr,即前2bit二进制数据定为11,n为第一个字符,地址信息定为1100 0000,用氨基酸表示为tyr ser ser ser。
[0041]
采用rs码生成校验信息,将纠错能力设定在能够完成1个氨基酸的纠错,需要增加2个码字,4个氨基酸来完成。需要编码的数据由地址信息-数据信息-地址信息组成,需要编码的二进制数据为1100 0000 0110 1110 1100 0000,首先转换成十六进制数据c 0 6 e c 0,再将十六进制数据转换成与gf(24)域中的数相对应。根据生成多项式g(x)=8 6x x2对上述数据进行编码。编码后产生的校验信息为3 7,转换为二进制数据,0011 0111,用氨基酸表示为ser tyr phe tyr。
[0042]
建立2组多肽链数据,过程如下:一组包括地址信息、数据信息为tyr ser ser ser phe arg tyr arg,另一组包括地址信息、校验信息为tyr ser ser ser ser tyr phe tyr,两者地址信息相同,表示对应关系。
[0043]
合成蛋白质,在现有纳米孔道测序技术下,为方便测序,在每组氨基酸后增加生化连接分子进行连接,生化连接分子可以选择酶切位点的氨基酸组合位,以8个氨基酸为一组,选用的酶切位点中包含4个氨基酸,asp(天冬氨酸)、glu(谷氨酸)、val(缬氨酸)、asp(天冬氨酸),由于酶切位点后面跟随的氨基酸种类影响到蛋白质的稳定性,所以将酶切位点的asp(天冬氨酸)后面一位的氨基酸固定为ala(丙氨酸),多肽链数据格式如附图4所示,x表示可选的用于存储数据的氨基酸。添加上述氨基酸后,字符n可以表示为ala tyr ser ser ser phe arg tyr arg asp glu val asp ala tyr ser ser ser ser tyr phe tyr asp glu val asp。
[0044]
为区分校验信息与数据信息的氨基酸,在包含校验信息的一组氨基酸中添加修饰基团,选用磷酸基团,纳米孔道对磷酸基团较为敏感,可以在测序时用于识别1组氨基酸中包含的是数据信息或是校验信息,增加磷酸基团后,字符n可以表示为ala tyr ser ser ser phe arg tyr arg asp glu val asp ala tyr ser ser ser xaa tyr phe tyr asp glu val asp,其中xaa表示经过磷酸基团修饰的ser。
[0045]
nanjingdaxue中其它字符表示如表1所示。
[0046]
表1 nanjingdaxue字符表示结果
[0047]
[0048]
phe,在校验信息数据库中随机取出一个数据,如tyr ser xaa arg tyr arg tyr phe,将数据排布成tyr ser ser phe phe arg ser phe tyr ser xaa arg tyr arg tyr phe的形式后进行解码,首先转换成对应的二进制数据1100 0001 0110 0001 1100 0010 1110 1101,转换成十六进制数据为c161 c2ed,对应到gf(24)域上的数据后采用berlekamp解码算法进行解码,解码之后两组氨基酸的地址信息一个为c1,另一个为c2不相同,则继续在校验信息数据库中寻找多肽链数据,直至取出tyr ser ser phe xaa tyr tyr phe,将数据排布成tyr ser ser phe phe arg ser phe tyr ser ser phe xaa tyr tyr phe的形式进行解码后,地址信息相同,则将两组多肽链数据取出,将原先地址信息不同的多肽链数据放回校验信息数据库中。
[0056]
当数据在存储系统中出现错误时,比如对应a的多肽链数据在测序的时候从tyr ser ser phe phe arg ser phe和tyr ser ser phe xaa tyr tyr phe变成了tyr ser ser phe arg arg ser phe和tyr ser ser phe xaa tyr tyr phe,在进行解码时可以发现该错误并将arg纠正回phe。如果地址信息发生错误,在匹配解码后也可以纠正该错误,并获得最终数据。
[0057]
重复解码多肽链数据的步骤直至数据信息数据库和校验信息数据库中无数据存在。
[0058]
将解码后的数据根据地址信息的顺序排布,再将数据信息提取出来,最后获得nanjingdaxue的字符串。
[0059]
采用该发明对nanjingdaxue进行编码可以纠正1个氨基酸错误和部分2个氨基酸错误,超出纠错能力则无法进行纠错。
[0060]
在n=4,gf(24)域中,需要纠正1个氨基酸错误的情况下生成校验信息,用4个氨基酸表示地址信息,4个氨基酸表示数据信息,4个氨基酸表示校验信息。在编码的码率为3/4的情况下,当一个数据整体中氨基酸不发生错误的概率为80%,发生一个氨基酸错误概率为15%,发生两个氨基酸错误概率为4%,发生三个氨基酸错误概率为1%的情况下,纠错后数据准确率可以达到95%以上,误码率降低至少15%。
[0061]
以上所述仅是本发明的一种实施方式,并不用于限制本发明,应当指出,在不脱离本发明技术的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献