一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

使用核酸分子进行数据存储的系统和方法与流程

2022-06-09 01:28:49 来源:中国专利 TAG:

使用核酸分子进行数据存储的系统和方法
交叉引用
1.本技术要求于2019年8月27日提交的第62/892,176号美国临时申请的权益,该临时申请的全部内容通过引用并入本文。


背景技术:

2.世界大数据面临的挑战和问题的规模和复杂性正在迅速增长。应对这些挑战带来了巨大的技术和财政障碍。例如,艾字节规模的数据存储中心耗费大量资源,且负担沉重。目前艾字节规模的数据存储需要大型仓库,消耗数兆瓦的电力,而且花费数十亿美元来建造、运营和维护。这种资源密集型模式无法为未来的规模扩展提供切实可行或易处理的途径。


技术实现要素:

3.本公开提供了核酸介导的数据存储方法,该方法是可扩展的,并且与传统存储技术有关的物理空间、功率和成本要求相比,该方法提供了更少的资源占用。本文所述的方法和系统可提供核酸存储的优势,其中1)可以易于读取的方式生成阵列,其中在测序/读取之前没有核酸序列的扩增,以及2)编码数据信息的核酸可以其中一个或多个核酸分子之间的距离低于光的衍射极限的密度存储在高密度阵列上。
4.本文描述的本公开的一个方面提供了一种用于存储数据的方法,包括:将所述数据编码在核酸序列中;生成一个或多个核酸分子,其中所述一个或多个核酸分子中的核酸分子包含所述核酸序列的至少一部分和头序列,其中所述头序列包含特异于所述核酸序列的所述至少所述部分的序列,并且其中,所述头序列被配置为允许启动用于鉴定所述核酸序列的所述至少所述部分的核酸鉴定反应;以及将所述一个或多个核酸分子或其衍生物存储在设置于基板上的阵列中。在一些实施方式中,所述核酸鉴定反应是测序反应。在一些实施方式中,所述一个或多个核酸分子或其衍生物是线性的。在一些实施方式中,该方法还包括保存所述一个或多个核酸分子或其衍生物。在一些实施方式中,所述保存包括冻干法或冷冻干燥。在一些实施方式中,(b)还包括扩增所述核酸序列的所述至少所述部分以形成一个或多个扩增产物,其中所述一个或多个核酸分子包含所述一个或多个扩增产物。在一些实施方式中,所述扩增包括执行滚环扩增。在一些实施方式中,所述扩增包括执行桥式扩增。在一些实施方式中,所述一个或多个核酸分子或其衍生物包含多联核酸分子。在一些实施方式中,所述一个或多个核酸分子或其衍生物以其中所述一个或多个核酸分子或其衍生物的核酸分子或其衍生物与相邻核酸分子或其衍生物之间的距离小于500nm的密度设置于所述基板上。在一些实施方式中,所述距离包括中心到中心的距离。在一些实施方式中,所述一个或多个核酸分子或其衍生物以每平方微米约4至约25个核酸分子或其衍生物的密度设置于所述基板上。在一些实施方式中,该方法还包括检索所述数据。在一些实施方式中,所述检索包括对所述一个或多个核酸分子或其衍生物进行测序。在一些实施方式中,所述测序包括使用检测系统检测一个或多个并入的核酸。在一些实施方式中,所述检测系统包
括电气检测系统。在一些实施方式中,所述电气检测系统包括晶体管。在一些实施方式中,所述检测系统包括光学检测系统。在一些实施方式中,所述光学检测系统包括光学扫描系统。在一些实施方式中,在所述光学检测系统上检测到的所述一个或多个并入的核酸生成的信号的波长大于所述光学检测系统像素的两倍。在一些实施方式中,所述阵列是有序的。在一些实施方式中,所述阵列是无序的。在一些实施方式中,所述起始位点包含与核酸引物互补的核酸序列。在一些实施方式中,所述扩增发生在所述存储之前。
5.本文描述的本公开的另一方面提供了一种用于存储数据的方法,包括:将所述数据编码在核酸序列中;生成包含所述核酸序列的一个或多个核酸分子;以及将所述一个或多个核酸分子存储在设置于基板上的阵列中,以提供所述阵列,其中当使用光学扫描系统对所述阵列成像时,由所述一个或多个核酸分子或其衍生物生成的信号的波长大于所述光学扫描系统像素大小的两倍。在一些实施方式中,所述一个或多个核酸分子是线性的。在一些实施方式中,(b)包括生成一个或多个线性核酸分子,其包含所述核酸序列的至少一部分,并使所述一个或多个线性核酸分子环化,并通过滚环扩增进行扩增,以生成一个或多个多联核酸分子。在一些实施方式中,(b)包括生成一个或多个线性核酸分子,其包含所述核酸序列、第一衔接子序列和第二衔接子序列,其中所述第一和所述第二衔接子序列能够形成一个或多个环状核酸分子;并扩增所述一个或多个环状核酸分子。在一些实施方式中,所述线性核酸分子包含一个或多个功能序列。在一些实施方式中,所述一个或多个多联核酸分子通过滚环扩增生成。在一些实施方式中,(c)包括在所述基板上设置所述多联核酸分子。在一些实施方式中,所述一个或多个多联核酸分子以其中两个或更多个核酸分子之间的平均距离小于λ/(2*na)的度量的密度设置。在一些实施方式中,该方法还包括保存所述基板。在一些实施方式中,所述保存包括冻干法或冷冻干燥。在一些实施方式中,所述基板包括硅。在一些实施方式中,所述基板包括玻璃。在一些实施方式中,所述基板包括两片玻璃。在一些实施方式中,该方法还包括从所述一个或多个核酸分子检索所述数据,而无需在所述检索之前进行扩增。在一些实施方式中,所述阵列是有序的。在一些实施方式中,所述阵列是无序的。在一些实施方式中,所述顺序是随机的。
6.本文所述的本公开的另一方面提供了一种用于存储数据的方法,包括将核酸分子设置到基板,其中所述核酸分子或其衍生物编码所述数据。在一些实施方式中,所述核酸分子或其衍生物包含核酸多联体。在一些实施方式中,所述核酸分子或其衍生物以其中当使用光学扫描系统对所述基板成像时,从所述核酸分子或其衍生物生成的信号的波长大于所述光学扫描系统的像素大小的两倍的密度设置。在一些实施方式中,所述基板包括硅。在一些实施方式中,所述基板包括玻璃。在一些实施方式中,所述基板包括两片玻璃。在一些实施方式中,从所述核酸分子中检索所述数据,而无需在测序之前进行扩增。
7.本文所述的本公开的另一方面提供了一种存储一个或多个信息位的方法,所述方法包括:在多个核苷酸中编码所述一个或多个信息位;将所述多个核苷酸偶联至一个或多个引物;将所述多个核苷酸合成至约300至约1,000个核苷酸的长度;使所述多个核苷酸环化;通过滚环扩增来扩增所述多个环状分子,以生成一个或多个核酸分子;以及将所述一个或多个核酸分子设置于基板上。
8.本文所述的本公开的另一方面提供了一种存储一个或多个信息位的方法,所述方法包括:合成编码所述一个或多个信息位的线性核酸分子,其中所述线性核酸分子包括:编
码所述一个或多个信息位的核酸序列、5'衔接子序列、3'衔接子序列和任选的一个或多个附加功能序列,从所述线性核酸分子生成环状核酸分子,扩增所述环状核酸分子以生成包含多于一个拷贝的所述环状核酸分子的扩增的核酸分子,将所述扩增的核酸分子设置于基板上。在一些实施方式中,所述基板是图案化的。在一些实施方式中,所述基板是未图案化的。在一些实施方式中,该方法还包括保存所述一个或多个基板。在一些实施方式中,所述保存包括冻干法或冷冻干燥。在一些实施方式中,该方法还包括从所述一个或多个核酸分子中检索所述一个或多个信息位,而无需在所述检索之前进行扩增。在一些实施方式中,所述检索所述一个或多个信息位包括核酸鉴定反应。在一些实施方式中,该方法还包括对恢复的一个或多个信息位应用纠错。在一些实施方式中,所述纠错包括使用里德-所罗门码(reed-solomon code)。在一些实施方式中,所述信息位包括二进制位。在一些实施方式中,所述信息位包括二进制位,并且(a)包括将所述二进制信息位转换成四进制信息位。在一些实施方式中,所述5'衔接子序列、3'衔接子序列或两者均包括条形码序列。在一些实施方式中,所述一个或多个功能序列选自条形码序列、标签序列、通用引物序列、唯一标识符序列或附加衔接子序列。在一些实施方式中,通过连接所述5'衔接子和所述3'衔接子生成所述环状核酸分子。在一些实施方式中,所述环状核酸分子通过滚环反应进行扩增。在一些实施方式中,所述扩增的核酸分子是核酸多联体。在一些实施方式中,所述扩增的核酸分子以其中当使用光学扫描系统对所述基板成像时,从所述核酸分子或其衍生物生成的信号的波长大于所述光学扫描系统的像素大小的两倍的密度设置。在一些实施方式中,所述基板包括硅。在一些实施方式中,所述基板包括玻璃。前述实施方式中任一项所述的方法,其中所述阵列包括第一和第二玻璃基板。前述实施方式中任一项所述的方法,其中所述方法由计算机系统自动完成,所述计算机系统被编程为执行前述实施方式中任一项所述的方法。
9.本文描述的本公开的另一方面提供了一种计算机系统,其中计算机系统被编程为执行前述实施方式中任一项所述的方法。
10.本文所述的本公开的另一方面提供了一种核酸分子,其包含多个核酸序列,其中至少一部分所述多个核酸序列编码至少1千兆字节(gb)的数据,并且其中所述核酸分子具有稳定性,使得所述核酸分子在1年期间内降解不超过1%。前述实施方式所述的核酸分子,还包括多个头序列,其中所述多个头序列的头序列被配置为允许对所述核酸序列的至少所述部分进行测序,以检索所述1gb数据。
11.本文描述的本公开的另一方面提供了一种存储数据的方法,包括(a)在核酸序列中编码所述数据;(b)生成包含所述核酸序列的一个或多个核酸分子;以及(c)将所述一个或多个核酸分子存储在设置于基板上的阵列中。在一些实施方式中,所述一个或多个核酸分子是环状的。在一些实施方式中,(b)包括生成一个或多个环状核酸分子,该环状核酸分子包含所述核酸序列的至少一部分,并通过滚环扩增来扩增所述一个或多个环状核酸分子,以生成单个核酸分子的一个或多个多联拷贝。在一些实施方式中,(b)包括生成一个或多个线性核酸分子,其包含所述核酸序列、第一衔接子序列和第二衔接子序列,其中所述第一和所述第二衔接子序列能够形成一个或多个环状核酸分子;并扩增所述一个或多个环状核酸分子。在一些实施方式中,所述线性核酸分子包含一个或多个功能序列。在一些实施方式中,一个或多个多联核酸分子通过滚环扩增进行扩增。在一些实施方式中,(c)包括在所述基板上设置所述多联核酸分子拷贝。在一些实施方式中,所述一个或多个多联核酸分子
以其中两个或更多个核酸分子之间的平均距离小于λ/(2*na)的度量的密度设置。在一些实施方式中,该方法还包括保存所述基板。在一些实施方式中,所述保存包括冻干法或冷冻干燥。在一些实施方式中,所述基板包括硅。在一些实施方式中,所述基板包括玻璃。在一些实施方式中,所述基板包括两片玻璃。在一些实施方式中,该方法还包括从所述一个或多个核酸分子检索所述数据,而无需在所述检索之前进行扩增。
12.本文所述的另一方面提供了一种存储数据的方法,包括将核酸分子设置到基板,其中所述核酸分子编码所述数据。在一些实施方式中,所述核酸分子包括核酸多联体。在一些实施方式中,所述多联体分子以其中第一和第二环状核酸分子之间的平均距离小于λ/(2*na)的度量的密度设置。在一些实施方式中,所述基板包括硅。在一些实施方式中,所述基板包括玻璃。在一些实施方式中,所述基板包括两片玻璃。在一些实施方式中,从核酸分子中检索所述数据,而无需在测序之前进行环化或扩增。
13.本文所述的另一方面提供了一种存储一个或多个信息位的方法,所述方法包括:在多个核苷酸中编码所述一个或多个信息位;将所述多个核苷酸偶联至一个或多个引物;将所述多个核苷酸合成至约300至约1,000个核苷酸的范围;使所述多个核苷酸环化,并将所述多个核苷酸设置于基板上。
14.本文所述的另一方面提供了一种存储一个或多个信息位的方法,所述方法包括:合成编码所述一个或多个信息位的线性核酸分子,其中所述线性核酸分子包括:编码所述一个或多个信息位的核酸序列、5'衔接子序列、3'衔接子序列和任选的一个或多个附加功能序列,从所述线性核酸分子生成环状核酸分子,扩增所述环状核酸分子以生成包含多于一个拷贝的所述环状核酸分子的第二核酸分子,将所述第二核酸分子设置于阵列上。在一些实施方式中,该方法还包括将所述阵列设置于一个或多个基板上。在一些实施方式中,该方法还包括保存所述一个或多个基板。在一些实施方式中,所述保存包括冻干法或冷冻干燥。在一些实施方式中,该方法还包括从所述一个或多个核酸分子中检索所述一个或多个信息位,而无需在所述检索之前进行扩增。在一些实施方式中,通过测序反应从所述阵列中恢复所述一个或多个信息位。在一些实施方式中,该方法还包括对恢复的一个或多个信息位应用纠错。在一些实施方式中,所述纠错包括使用里德-所罗门码。在一些实施方式中,从所述阵列中检索所述一个或多个信息位,而无需在测序之前进行扩增复制反应。在一些实施方式中,所述信息位包括二进制位。在一些实施方式中,所述信息位包括二进制位,并且(a)包括将所述二进制信息位转换成四进制信息位。在一些实施方式中,所述衔接子序列包括条形码序列。在一些实施方式中,所述一个或多个功能序列选自条形码序列、标签序列、通用引物序列、唯一标识符序列或附加衔接子序列。在一些实施方式中,通过连接所述5'衔接子和所述3'衔接子生成所述环状核酸分子。在一些实施方式中,所述环状核酸分子通过滚环pcr反应进行扩增。在一些实施方式中,所述第二核酸分子是核酸多联体。在一些实施方式中,所述第二核酸分子以其中两个或更多个核酸分子之间的平均距离小于λ/(2*na)的度量的密度设置。在一些实施方式中,所述阵列包括硅化基板。在一些实施方式中,所述阵列包括玻璃基板。在一些实施方式中,所述阵列包括第一和第二玻璃基板。在一些实施方式中,所述方法由计算机系统自动完成,所述计算机系统被编程为执行前述权利要求中任一项所述的方法。
15.本文所述的另一方面提供了一种计算机系统,其中所述计算机系统被编程为执行
本文所述的方法。
16.本文所述的另一方面提供了多个核酸分子,其包含其至少一部分编码至少1千兆字节(gb)数据的核酸序列,其中所述核酸分子具有稳定性,使得所述核酸分子在1年期间内降解不超过1%。在一些实施方式中,核酸分子是环状的。在一些实施方式中,核酸分子还包括多个头序列,其中所述多个头序列的头序列被配置为允许对所述核酸序列的所述至少所述部分进行测序,以检索所述1gb数据。
17.本文描述的另一方面提供了一种用于存储数据的方法,包括(a)在核酸序列中编码数据;(b)生成包含所述核酸序列的核酸分子;以及(c)将核酸分子存储于阵列上。在一些实施方式中,核酸分子是环状的。在一些实施方式中,核酸分子是核酸多联体。在一些实施方式中,(b)包括生成包含核酸序列的至少一部分的线性核酸分子,以及将线性核酸分子的末端彼此偶联以生成环状核酸分子。在另一实施方式中(b)包括(i)生成线性核酸分子,其包括线性核酸分子、第一衔接子序列和第二衔接子序列,其中第一和第二衔接子序列能够形成环状核酸分子;以及(ii)扩增环状核酸分子以生成核酸多联体。在一些实施方式中,线性核酸分子包含功能序列。在一些实施方式中,线性核酸分子包含多个功能序列。
18.在一些实施方式中,核酸多联体通过滚环扩增生成。在一些实施方式中,(c)包括将核酸分子设置于基板上。在一些实施方式中,核酸分子以其中两个或更多个核酸分子之间的平均距离小于λ/(2*na)的度量的密度设置。在一些实施方式中,阵列包括硅基板。在一些实施方式中,阵列包括玻璃基板。
19.在一些实施方式中,从核酸分子中检索数据,而无需在测序之前进行聚合酶链反应扩增。
20.在另一方面中,公开了一种用于存储数据的方法,包括将核酸分子固定或设置到基板上,其中核酸分子编码数据。在一些实施方式中,核酸分子包含核酸多联体。在一些实施方式中,以其中第一和第二核酸分子之间的平均距离小于λ/(2*na)的度量的密度固定或设置核酸分子。在一些实施方式中,基板包括硅。在一些实施方式中,基板包括玻璃。在一些实施方式中,从核酸分子中检索数据,而无需在测序之前进行扩增。
21.在另一方面中,公开了一种存储一个或多个信息位的方法,所述方法包括:(a)在多个核苷酸中编码一个或多个信息位;将多个核苷酸偶联至一个或多个引物;(c)将多个核苷酸合成至约300至约1,000个核苷酸的范围;(d)使多个核苷酸环化,以及(e)将多个核苷酸设置于基板上。
22.在另一方面中,公开了一种存储一个或多个信息位的方法,所述方法包括:(a)合成编码一个或多个信息位的线性核酸分子,其中所述线性核酸分子包括:(i)编码数据的核酸序列、(ii)5'衔接子序列、(iii)3'衔接子序列和(iv)任选的一个或多个附加功能序列,和(b)从线性核酸分子生成环状核酸分子,以及(c)扩增环状核酸分子以生成包含多于一个拷贝的环状核酸分子的第二核酸分子,以及(d)将第二核酸分子固定或设置在图案化或未图案化阵列上。
23.在一些实施方式中,通过测序反应从阵列中恢复信息。在一些实施方式中,恢复信息还包括对恢复的一个或多个信息位应用纠错。在一些实施方式中,纠错包括使用里德-所罗门码。在一些实施方式中,从阵列中检索信息而无需在测序之前进行扩增复制反应。
24.在一些实施方式中,所述信息位包括二进制位。在一些实施方式中,所述信息位包
括二进制位,并且(a)包括将所述二进制信息位转换成四进制信息位。在一些实施方式中,衔接子序列包括条形码序列。一个或多个功能序列选自条形码序列、标签序列、通用引物序列、唯一标识符序列或附加衔接子序列。在一些实施方式中,通过连接所述5'衔接子和所述3'衔接子生成所述环状核酸分子。在一些实施方式中,环状核酸分子通过滚环反应进行扩增。在一些实施方式中,第二核酸分子是核酸多联体。在一些实施方式中,第二核酸分子以其中两个或更多个核酸分子之间的平均距离小于λ/(2*na)的度量的密度固定或设置于基板上。
25.在一些实施方式中,阵列包括硅化基板。在一些实施方式中,阵列包括玻璃基板。在一些实施方式中,阵列包括第一和第二玻璃基板。
26.本公开的另一方面提供了一种非暂时性计算机可读介质,其包括机器可执行代码,所述机器可执行代码在由一个或多个计算机处理器执行后实现上文或本文其它地方的任何方法。
27.本公开的另一方面提供了一种系统,其包括一个或多个计算机处理器和与其耦合的计算机存储器。所述计算机存储器包括机器可执行代码,所述机器可执行代码在由所述一个或多个计算机处理器执行后实现上文或本文其它地方的任何方法。
28.通过以下在其中仅示出和描述了本公开内容的说明性实施方式的详细描述,本公开内容的其它方面和优点将会对本领域技术人员而言变得显而易见。如将认识到的,本公开内容能够具有其它的和不同的实施方式,并且还能够在各个明显的方面对其若干细节进行修改,所有这些均不脱离本公开内容。因此,附图和说明书在本质上将被视为是说明性而非限制性的。援引并入
29.本说明书中提到的所有出版物、专利和专利申请均通过引用并入本文,其程度如同明确且单独地指出每个单独的出版物、专利或专利申请均通过引用并入。在通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相矛盾的情况下,本说明书旨在取代和/或优先于任何此类矛盾的材料。
附图说明
30.在所附权利要求中具体阐述了本公开内容的新颖性特征。通过参考以下对其中利用了本发明原理的说明性实施方式进行阐述的详细描述以及附图(本文中也称为“图”),将会获得对本公开内容的特征和优点的更好理解,在附图中:
31.图1描述了对核酸分子中的信息位或数据进行编码并将核酸分子设置于阵列上的示意图。然后将该阵列设置于基板上,并存储以供长期存储、测序或存储之后再测序。
32.图2描述了利用计算机系统来实现本文所述系统和方法的自动化的示意图。
具体实施方式
33.尽管本文中已经示出并描述了本发明的各种实施方式,但对于本领域技术人员来说显而易见的是,这些实施方式仅以示例的方式提供。本领域技术人员在不脱离本发明的情况下可想到多种变化、改变和替代。应当理解,可采用本文所述的本发明实施方式的各种替代方案。
34.如本文所用,术语“多联体”是指环状核酸分子的拷贝。在连接线性核酸分子的末端以获得环状核酸分子后,可从通过滚环扩增来扩增的环状核酸分子生成多联体。多联体可以包含在整个分子中进行重复的单个核酸序列,或者它们可以包含不同序列的核酸序列,其中每个不同序列或重复序列集由衔接子序列或区域分隔。
35.如本文所用,“测序仪器”是指核酸分子测序领域的普通技术人员熟悉的仪器,包括硬件、软件、试剂、成像模块和/或其任何组合。
36.如本文所用,“分析物”是指适合于分析的任何一个或多个分子。包括但不限于核酸分子、蛋白质、肽等。在本文所述的整个公开中,术语“分析物”可与“核酸”和/或“核酸分子”和/或“环状核酸分子”和/或多联体互换使用,而不会改变本公开的范围。
37.如本文所用,“头序列”是指可使用不同测序引物寻址的已知序列。
38.每当术语“至少”、“大于”或“大于或等于”位于两个或更多个数值的系列中的第一个数值之前时,术语“至少”、“大于”或“大于或等于”适用于该系列数值中的每个数值。例如,大于或等于1、2或3等同于大于或等于1、大于或等于2或大于或等于3。
39.当术语“不超过”、“小于”或“小于或等于”位于两个或更多个数值的系列中的第一个数值之前时,术语“不超过”、“小于”或“小于或等于”适用于该系列数值中的每个数值。例如,小于或等于3、2或1等同于小于或等于3、小于或等于2或小于或等于1。
40.在某种情况下,该方法包括存储数据,包括(a)在核酸序列中编码数据;(b)生成包含所述核酸序列的核酸分子;以及(c)将核酸分子分析物存储在有序或无序阵列上。在一个实例中,核酸分子是环状的。在一个实例中,核酸分子是核酸多联体。在一个实例中,(b)包括生成包含至少一部分核酸序列的线性核酸分子,以及将线性核酸分子的末端彼此偶联以生成环状核酸分子。在另一实例中,(b)包括(i)生成线性核酸分子、其包括线性核酸分子、第一衔接子序列和第二衔接子序列,其中第一和第二衔接子序列能够形成环状核酸分子;以及(ii)扩增环状核酸分子以生成核酸多联体。在一些实例中,线性核酸分子包含功能序列。在一些实例中,线性核酸分子包含多个功能序列。
41.在一个实例中,核酸多联体通过滚环扩增生成。在一个实例中,(c)包括将分析物核酸分子设置于基板上。在一些实例中,分析物以其中两个或更多个核酸分子之间的平均距离小于λ/(2*na)的度量的密度设置。在一些实例中,阵列包括硅基板。在一些实例中,阵列包括玻璃基板。
42.在一个实例中,从核酸分子中检索数据,而无需在测序之前进行扩增。
43.在某种情况下,公开了一种用于存储数据的方法,包括将核酸分子固定或设置到基板上,其中核酸分子编码数据。在一个实例中,核酸分子包括核酸多联体。在一个实例中,以其中第一和第二环状核酸分子之间的平均距离小于λ/(2*na)的度量的密度固定或设置环状核酸分子。在一些实例中,基板包括硅。在一些实例中,基板包括玻璃。在一些实例中,从核酸分子中检索数据,而无需在测序之前进行聚合酶链反应扩增。
44.在某种情况下,该方法包括存储一个或多个信息位,所述方法包括:(a)在多个核苷酸中编码一个或多个信息位;将多个核苷酸偶联至一个或多个引物;(c)将多个核苷酸合成至约300至约1,000个核苷酸的范围;(d)使多个分析物环化(或不环化),以及(e)将多个分析物设置于基板上。
45.在第四种情况下,该方法包括存储一个或多个信息位,所述方法包括:(a)合成编
码一个或多个信息位的线性核酸分子,其中所述线性核酸分子包括:(i)编码数据的核酸序列、(ii)5'衔接子序列、(iii)3'衔接子序列和(iv)任选的一个或多个附加功能序列,和(b)从线性核酸分子生成环状核酸分子,以及(c)扩增环状核酸分子以生成包含多于一个拷贝的环状核酸分子的分析物,以及(d)将分析物固定或设置于阵列上。
46.在一个实例中,通过测序反应从阵列中恢复信息。在一个实例中,恢复信息还包括对恢复的一个或多个信息位应用纠错。在一个实例中,纠错包括使用里德-所罗门码。在一个实例中,从阵列中检索信息,而无需在测序之前进行扩增复制反应。
47.在一个实例中,所述信息位包括二进制位。在一个实例中,所述信息位包括二进制位,并且(a)包括将所述二进制信息位转换成四进制信息位。在一个实例中,衔接子序列包括条形码序列。一个或多个功能序列选自条形码序列、标签序列、通用引物序列、唯一标识符序列或附加衔接子序列。在一个实例中,通过连接所述5'衔接子和所述3'衔接子生成所述环状核酸分子。在一个实例中,环状核酸分子通过滚环pcr反应进行扩增。在一个实例中,第二核酸分子是核酸多联体。在一个实例中,第二核酸分子以其中两个或更多个核酸分子之间的平均距离小于λ/(2*na)的度量的密度来设置。
48.在一个实例中,阵列包括硅化基板。在一个实例中,阵列包括玻璃基板。在一个实例中,阵列包括第一和第二玻璃基板。
49.测序技术包括illumina和complete genomics等公司开发的基于图像的系统,以及ion torrent和oxford nanopore等公司开发的基于电气的系统。基于图像的测序系统目前在所有现有测序技术中具有最低的测序成本。基于图像的系统通过高通量成像光学器件和低成本耗材的结合实现低成本。然而,现有技术的光学检测系统在相邻的可分辨分子之间具有约1微米的最小中心到中心的间距,这部分是由于光学系统的衍射极限。在一些实施方式中,本文描述了基于图像的测序系统来获得显著降低成本的方法,所述方法使用现有的生物化学设备进行循环检测、确定分析物的精确位置,以及使用位置信息对成像信号进行高度精确的反卷积,以适应在衍射极限以下运行的更高的堆积密度。在基板上设置核酸分子以便长期存储
50.本文提供了用于存储关于编码的核酸分子的信息和处理核酸分子以便长期存储的系统和方法。本文所述的系统和方法涉及保存核酸分子的处理技术,使得核酸分子不会降解或以商业上可行的速率降解。
51.在一些实施方式中,核酸分子被处理为单个片段或一系列片段,包括存储的信息片段和必要的信息(例如里德-所罗门码或冗余),以确保快速准确的检索。选择核酸分子的片段长度是为了确保通过测序技术和仪器进行准确合成(通过边合成边测序技术或其它测序方法)和准确检索。在一些实施方式中,信息片段的范围为50-75个碱基,其大小适合于合成和检索。
52.在一些实施方式中,信息段的长度为约30个碱基至约140个碱基。在一些实施方式中,信息段的长度为约30个碱基至约40个碱基、约30个碱基至约50个碱基、约30个碱基至约60个碱基、约30个碱基至约70个碱基、约30个碱基至约80个碱基、约30个碱基至约90个碱基、约30个碱基至约100个碱基、约30个碱基至约110个碱基、约30个碱基至约120个碱基、约30个碱基至约130个碱基、约30个碱基至约140个碱基、约40个碱基至约50个碱基、约40个碱基至约60个碱基、约40个碱基至约70个碱基、约40个碱基至约80个碱基、约40个碱基至约90
个碱基、约40个碱基至约100个碱基、约40个碱基至约110个碱基、约40个碱基至约120个碱基、约40个碱基至约130个碱基、约40个碱基至约140个碱基、约50个碱基至约60个碱基、约50个碱基至约70个碱基、约50个碱基至约80个碱基、约50个碱基至约90个碱基、约50个碱基至约100个碱基、约50个碱基至约110个碱基、约50个碱基至约120个碱基、约50个碱基至约130个碱基、约50个碱基至约140个碱基、约60个碱基至约70个碱基、约60个碱基至约80个碱基、约60个碱基至约90个碱基、约60个碱基至约100个碱基、约60个碱基至约110个碱基、约60个碱基至约120个碱基、约60个碱基至约130个碱基、约60个碱基至约140个碱基、约70个碱基至约80个碱基、约70个碱基至约90个碱基、约70个碱基至约100个碱基、约70个碱基至约110个碱基、约70个碱基至约120个碱基、约70个碱基至约130个碱基、约70个碱基至约140个碱基、约80个碱基至约90个碱基、约80个碱基至约100个碱基、约80个碱基至约110个碱基、约80个碱基至约120个碱基、约80个碱基至约130个碱基、约80个碱基至约140个碱基、约90个碱基至约100个碱基、约90个碱基至约110个碱基、约90个碱基至约120个碱基、约90个碱基至约130个碱基、约90个碱基至约140个碱基、约100个碱基至约110个碱基、约100个碱基至约120个碱基、约100个碱基至约130个碱基、约100个碱基至约140个碱基、约110个碱基至约120个碱基、约110个碱基至约130个碱基、约110个碱基至约140个碱基、约120个碱基至约130个碱基、约120个碱基至约140个碱基,或约130个碱基至约140个碱基。在一些实施方式中,信息段的长度为约30个碱基、约40个碱基、约50个碱基、约60个碱基、约70个碱基、约80个碱基、约90个碱基、约100个碱基、约110个碱基、约120个碱基、约130个碱基或约140个碱基。在一些实施方式中,信息段的长度为至少约30个碱基、约40个碱基、约50个碱基、约60个碱基、约70个碱基、约80个碱基、约90个碱基、约100个碱基、约110个碱基、约120个碱基或约130个碱基。在一些实施方式中,信息段的长度为至多约40个碱基、约50个碱基、约60个碱基、约70个碱基、约80个碱基、约90个碱基、约100个碱基、约110个碱基、约120个碱基、约130个碱基或约140个碱基。
53.在一些实施方式中,将核酸分子附接到适当的衔接子上,以随后转化为环状核酸分子(例如,cat或多联体),例如,通过滚环扩增,并附接到适当的基板上进行测序和检测(根据us20150330974或us20160201119和/或us10378053)。共有序列最低限度地包含适合于引发核酸分子测序和环化的序列。在一些实施方式中,环化核酸分子的全长为300-1,000个碱基范围。在一些实施方式中,环化核酸分子的长度可通过在同一环内附加多个信息段来实现,由使用不同测序引物可寻址的序列(本文称为“头序列”)分隔。在一些实施方式中,可通过引入不会被测序的填充片段来实现环化核酸分子的长度,以达到适当的大小。
54.在一些实施方式中,环化核酸分子的长度为约200个碱基至约1,200个碱基。在一些实施方式中,环化核酸分子的长度为约200个碱基至约300个碱基、约200个碱基至约400个碱基、约200个碱基至约500个碱基、约200个碱基至约600个碱基、约200个碱基至约700个碱基、约200个碱基至约800个碱基、约200个碱基至约900个碱基、约200个碱基至约1,000个碱基、约200个碱基至约1,100个碱基、约200个碱基至约1,200个碱基、约300个碱基至约400个碱基、约300个碱基至约500个碱基、约300个碱基至约600个碱基、约300个碱基至约700个碱基、约300个碱基至约800个碱基、约300个碱基至约900个碱基、约300个碱基至约1,000个碱基、约300个碱基至约1,100个碱基、约300个碱基至约1,200个碱基、约400个碱基至约500个碱基、约400个碱基至约600个碱基、约400个碱基至约700个碱基、约400个碱基至约800个
碱基、约400个碱基至约900个碱基、约400个碱基至约1,000个碱基、约400个碱基至约1,100个碱基、约400个碱基至约1,200个碱基、约500个碱基至约600个碱基、约500个碱基至约700个碱基、约500个碱基至约800个碱基、约500个碱基至约900个碱基、约500个碱基至约1,000个碱基、约500个碱基至约1,100个碱基、约500个碱基至约1,200个碱基、约600个碱基至约700个碱基、约600个碱基至约800个碱基、约600个碱基至约900个碱基、约600个碱基至约1,000个碱基、约600个碱基至约1,100个碱基、约600个碱基至约1,200个碱基、约700个碱基至约800个碱基、约700个碱基至约900个碱基、约700个碱基至约1,000个碱基、约700个碱基至约1,100个碱基、约700个碱基至约1,200个碱基、约800个碱基至约900个碱基、约800个碱基至约1,000个碱基、约800个碱基至约1,100个碱基、约800个碱基至约1,200个碱基、约900个碱基至约1,000个碱基、约900个碱基至约1,100个碱基、约900个碱基至约1,200个碱基、约1,000个碱基至约1,100个碱基、约1,000个碱基至约1,200个碱基,或约1,100个碱基至约1,200个碱基。在一些实施方式中,环化核酸分子的长度为约200个碱基、约300个碱基、约400个碱基、约500个碱基、约600个碱基、约700个碱基、约800个碱基、约900个碱基、约1,000个碱基、约1,100个碱基或约1,200个碱基。在一些实施方式中,环化核酸分子的长度为至少约200个碱基、约300个碱基、约400个碱基、约500个碱基、约600个碱基、约700个碱基、约800个碱基、约900个碱基、约1,000个碱基或约1,100个碱基。在一些实施方式中,环化核酸分子的长度为至多约300个碱基、约400个碱基、约500个碱基、约600个碱基、约700个碱基、约800个碱基、约900个碱基、约1,000个碱基、约1,100个碱基或约1,200个碱基。
55.在一些实施方式中,将环状核酸分子设置于基板(例如用于测序的芯片)上。在一些实施方式中,在将一个或多个核酸分子设置到基板上后,必须对基板进行处理以进行长期存储。在一些实施方式中,该工艺包括干燥基板。在一些实施方式中,该工艺包括冷冻干燥,例如通过冻干法或冷冻干燥(cryodesiccation)。冻干法可包括使用冷冻干燥工艺,包括低温脱水工艺,该低温脱水工艺可涉及冷冻产物、降低压力,然后通过升华去除冰。在一些实施方式中,在干燥过程之前,对设置有环状核酸分子的基板进行处理(作为负载后处理),以确保在干燥过程中和从干燥过程中恢复的稳定性。在一些实施方式中,处理包括用例如bsa或硫酸葡聚糖涂覆基板表面,以稳定环状核酸分子,以及引入适当的赋形剂,如糖(例如,甘露醇、蔗糖、海藻糖、乳糖、麦芽糖、葡萄糖、甘氨酸、甘油等)和适当的缓冲剂,以稳定和保护基板,防止其在冷冻干燥期间形成冰晶,并在再水合过程中防止受到冲击。
56.在一些实施方式中,在包含核酸分子的基板的长期存储之前进行核酸分子的扩增(例如,滚环扩增)。在一些实施方式中,核酸分子的扩增发生在核酸分子设置于其上的基板上。在一些实施方式中,扩增是桥式扩增。在一些实施方式中,在将核酸分子设置于基板上之前进行核酸分子的扩增(例如,滚环扩增)。在一些实施方式中,扩增是滚环扩增。
57.在一些实施方式中,将环状核酸分子设置到多个载玻片上以供存储。在一些实施方式中,载玻片具有多个不同的泳道和/或轨道。在一些实施方式中,独特的头序列用于鉴定包含信息的特定序列的位置信息。在一些实施方式中,在包含用于存储给定信息集的每个头序列的信息的目录中找到位置信息。在一些实施方式中,虽然为最终检索而建立的信息包含在设置于基板/载玻片上以供存储的核酸分子中,但多个拷贝的核酸分子作为备份信息单独存储。在一些实施方式中,除了使信息存储过程经受未来考验之外,对应于每个泳道的核酸分子被单独干燥并存储为备份。在一些实施方式中,如果最初处理过的存储载玻
片上的信息无法检索,则可以随后适当地处理备份核酸分子。
58.在一些实施方式中,保存的核酸的降解速率为每年约0.05%至每年约2%。在一些实施方式中,保存的核酸的降解速率为每年约2%至每年约1%、每年约2%至每年约0.9%、每年约2%至每年约0.8%、每年约2%至每年约0.7%、每年约2%至每年约0.6%、每年约2%至每年约0.5%、每年约2%至每年约0.4%、每年约2%至每年约0.3%、每年约2%至每年约0.2%、每年约2%至每年约0.1%、每年约2%至每年约0.05%、每年约1%至每年约0.9%、每年约1%至每年约0.8%、每年约1%至每年约0.7%、每年约1%至每年约0.6%、每年约1%至每年约0.5%、每年约1%至每年约0.4%、每年约1%至每年约0.3%、每年约1%至每年约0.2%、每年约1%至每年约0.1%、每年约1%至每年约0.05%、每年约0.9%至每年约0.8%、每年约0.9%至每年约0.7%、每年约0.9%至每年约0.6%、每年约0.9%至每年约0.5%、每年约0.9%至每年约0.4%、每年约0.9%至每年约0.3%、每年约0.9%至每年约0.2%、每年约0.9%至每年约0.1%、每年约0.9%至每年约0.05%、每年约0.8%至每年约0.7%、每年约0.8%至每年约0.6%、每年约0.8%至每年约0.5%、每年约0.8%至每年约0.4%、每年约0.8%至每年约0.3%、每年约0.8%至每年约0.2%、每年约0.8%至每年约0.1%、每年约0.8%至每年约0.05%、每年约0.7%至每年约0.6%、每年约0.7%至每年约0.5%、每年约0.7%至每年约0.4%、每年约0.7%至每年约0.3%、每年约0.7%至每年约0.2%、每年约0.7%至每年约0.1%、每年约0.7%至每年约0.05%、每年约0.6%至每年约0.5%、每年约0.6%至每年约0.4%、每年约0.6%至每年约0.3%、每年约0.6%至每年约0.2%、每年约0.6%至每年约0.1%、每年约0.6%至每年约0.05%、每年约0.5%至每年约0.4%、每年约0.5%至每年约0.3%、每年约0.5%至每年约0.2%、每年约0.5%至每年约0.1%、每年约0.5%至每年约0.05%、每年约0.4%至每年约0.3%、每年约0.4%至每年约0.2%、每年约0.4%至每年约0.1%、每年约0.4%至每年约0.05%、每年约0.3%至每年约0.2%、每年约0.3%至每年约0.1%、每年约0.3%至每年约0.05%、每年约0.2%至每年约0.1%、每年约0.2%至每年约0.05%,或每年约0.1%至每年约0.05%。在一些实施方式中,保存的核酸的降解速率为每年约2%、每年约1%、每年约0.9%、每年约0.8%、每年约0.7%、每年约0.6%、每年约0.5%、每年约0.4%、每年约0.3%、每年约0.2%、每年约0.1%,或每年约0.05%。在一些实施方式中,保存的核酸的降解速率为至少每年约2%、每年约1%、每年约0.9%、每年约0.8%、每年约0.7%、每年约0.6%、每年约0.5%、每年约0.4%、每年约0.3%、每年约0.2%或每年约0.1%。在一些实施方式中,保存的核酸的降解速率为至多每年约1%、每年约0.9%、每年约0.8%、每年约0.7%、每年约0.6%、每年约0.5%、每年约0.4%、每年约0.3%、每年约0.2%、每年约0.1%或每年约0.05%。
59.在一些实施方式中,将包含核酸分子的基板存储在一个或多个数据中心中。在一些实施方式中,一个或多个数据中心包括多个可安装机架,这些机架被配置为容纳并保持基板。在一些实施方式中,一个或多个数据中心包括一个或多个用于对核酸分子进行测序的仪器(边合成边测序或其它下一代测序技术或其它核酸分子测序技术)。在一些实施方式中,用于对核酸分子进行测序的仪器被配置为可安装在机架上。在一些实施方式中,一个或多个数据中心被配置为支持完全自动化的基板存储并递送到用于对核酸分子进行测序的仪器。
60.在一些实施方式中,本文描述的系统和方法缩短了检索存储的信息(从数据请求
到递送)的延迟。在一些实施方式中,用于数据检索的时间周期缩短到约1小时至约12小时。在一些实施方式中,用于数据检索的时间周期缩短到约1小时至约2小时、约1小时至约3小时、约1小时至约4小时、约1小时至约5小时、约1小时至约6小时、约1小时至约7小时、约1小时至约8小时、约1小时至约9小时、约1小时至约10小时、约1小时至约11小时、约1小时至约12小时、约2小时至约3小时、约2小时至约4小时、约2小时至约5小时、约2小时至约6小时、约2小时至约7小时、约2小时至约8小时、约2小时至约9小时、约2小时至约10小时、约2小时至约11小时、约2小时至约12小时、约3小时至约4小时、约3小时至约5小时、约3小时至约6小时、约3小时至约7小时、约3小时至约8小时、约3小时至约9小时、约3小时至约10小时、约3小时至约11小时、约3小时至约12小时、约4小时至约5小时、约4小时至约6小时、约4小时至约7小时、约4小时至约8小时、约4小时至约9小时、约4小时至约10小时、约4小时至约11小时、约4小时至约12小时、约5小时至约6小时、约5小时至约7小时、约5小时至约8小时、约5小时至约9小时、约5小时至约10小时、约5小时至约11小时、约5小时至约12小时、约6小时至约7小时、约6小时至约8小时、约6小时至约9小时、约6小时至约10小时、约6小时至约11小时、约6小时至约12小时、约7小时至约8小时、约7小时至约9小时、约7小时至约10小时、约7小时至约11小时、约7小时至约12小时、约8小时至约9小时、约8小时至约10小时、约8小时至约11小时、约8小时至约12小时、约9小时至约10小时、约9小时至约11小时、约9小时至约12小时、约10小时至约11小时、约10小时至约12小时,或约11小时至约12小时。在一些实施方式中,数据检索的时间周期缩短到约1小时、约2小时、约3小时、约4小时、约5小时、约6小时、约7小时、约8小时、约9小时、约10小时、约11小时或约12小时。在一些实施方式中,数据检索的时间周期缩短到至少约1小时、约2小时、约3小时、约4小时、约5小时、约6小时、约7小时、约8小时、约9小时、约10小时或约11小时。在一些实施方式中,数据检索的时间周期缩短到至多约2小时、约3小时、约4小时、约5小时、约6小时、约7小时、约8小时、约9小时、约10小时、约11小时或约12小时。信息检索
61.本文所述的数据存储系统和方法的一个优点是,一旦通过本文所述的系统和方法处理(设置和保存)核酸分子和基板,则检索存储的数据几乎不需要样品制备(例如,扩增)。在一些实施方式中,样品制备包括将核酸设置于基板上。在一些实施方式中,样品制备包括核酸分子的扩增。在一些实施方式中,样品制备包括聚合酶链反应扩增。在一些实施方式中,样品制备包括将核酸分子暴露于适于测序的试剂(边合成边测序或其它下一代测序技术或其它核酸分子测序技术)。如本文所述,在长期存储之前扩增编码特定感兴趣信息的核酸分子。因此,当需要信息检索时,存储的扩增的核酸分子只需重新水合(如果长期存储技术包括冻干法),并与特定于头序列的适当核酸延伸反应引物接触,该头序列对应于编码待检索的所需信息的序列。
62.在一些实施方式中,当使用本文所述的系统和方法时,减少了适合测序的试剂需求,与当前核酸分子测序系统和方法(例如,当前由complete或其它核酸测序公司使用的测序系统和方法)的试剂需求相比,减少约1倍至约12倍。在一些实施方式中,当使用本文所述的系统和方法时,适合测序的试剂需求减少约1倍至约2倍、约1倍至约3倍、约1倍至约4倍、约1倍至约5倍、约1倍至约6倍、约1倍至约7倍、约1倍至约8倍、约1倍至约9倍、约1倍至约10倍、约1倍至约11倍、约1倍至约12倍、约2倍至约3倍、约2倍
至约4倍、约2倍至约5倍、约2倍至约6倍、约2倍至约7倍、约2倍至约8倍、约2倍至约9倍、约2倍至约10倍、约2倍至约11倍、约2倍至约12倍、约3倍至约4倍、约3倍至约5倍、约3倍至约6倍、约3倍至约7倍、约3倍至约8倍、约3倍至约9倍、约3倍至约10倍、约3倍至约11倍、约3倍至约12倍、约4倍至约5倍、约4倍至约6倍、约4倍至约7倍、约4倍至约8倍、约4倍至约9倍、约4倍至约10倍、约4倍至约11倍、约4倍至约12倍、约5倍至约6倍、约5倍至约7倍、约5倍至约8倍、约5倍至约9倍、约5倍至约10倍、约5倍至约11倍、约5倍至约12倍、约6倍至约7倍、约6倍至约8倍、约6倍至约9倍、约6倍至约10倍、约6倍至约11倍、约6倍至约12倍、约7倍至约8倍、约7倍至约9倍、约7倍至约10倍、约7倍至约11倍、约7倍至约12倍、约8倍至约9倍、约8倍至约10倍、约8倍至约11倍、约8倍至约12倍、约9倍至约10倍、约9倍至约11倍、约9倍至约12倍、约10倍至约11倍、约10倍至约12倍或约11倍至约12倍。在一些实施方式中,当使用本文所述的系统和方法时,适合测序的试剂需求减少约1倍、约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍、约11倍或约12倍。在一些实施方式中,当使用本文所述的系统和方法时,适合测序的试剂需求减少至少约1倍、约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍或约11倍。在一些实施方式中,当使用本文所述的系统和方法时,适合测序的试剂需求减少至多约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍、约11倍或约12倍。
63.在一些实施方式中,在核酸分子和/或基板重新水合之后,可以检索或读取存储的信息。在一些实施方式中,检索或读取存储的信息包括对核酸分子进行测序和检测(根据us20150330974或us20160201119和/或us10378053)。
64.本文提供了系统和方法以促进对固定或设置于中心间距低于衍射极限(例如小于λ/2*na)的表面上的分析物的信号进行成像。这些系统和方法使用先进的成像系统以生成高分辨率图像,且利用循环检测以促进高精度地确定基板上分子的位置,并对图像进行反卷积,以高精度获得密集堆积的表面上每个分子的信号识别。这些方法和系统允许在密集堆积的基板上进行单分子边合成边测序,以高精度地提供高效和超高通量的多核苷酸序列测定。
65.为了实现数据存储成本的降低,本文提供了有助于对以低于衍射极限的密度固定或设置在基板表面上的多核苷酸进行可靠测序的方法和系统。这些高密度阵列允许更有效地使用试剂,并增加每单位面积的数据量。此外,检测可靠性的提高可以减少必须合成的克隆拷贝数量,以鉴定和纠正测序和检测中的错误,从而进一步降低试剂成本和数据处理成本。分析物在基板表面上的高密度分布
66.在所提出的间距与用于1,000美元基因组的样品有效间距的比较中,新阵列的密度提高了170倍,满足达到高100倍密度的标准。拷贝数/成像斑点/单位面积也满足比现有平台低至少100倍的标准。这有助于确保试剂成本比基线成本低100倍。密集堆积的单个生物分子的成像及衍射极限
67.增加成像平台的分子密度的主要限制是衍射极限。光学系统衍射极限的公式为:d=λ/2*na其中d为衍射极限,λ为光的波长,na为光学系统的数值孔径。典型的空气成像系统具有0.6到0.8的na。使用λ=600nm,衍射极限为375至500nm。对于水浸体系,na为约1.0,给
出了300nm的衍射极限。
68.如果包含生物分子的阵列或其它基底表面上的特征太接近,两个光学信号可能会很大程度上叠加,这样只看到单个斑点,而仅基于图像无法可靠地分辨。这可能会由于光学成像系统引入的误差而加剧,例如由于对移动基板的不精确跟踪而导致的模糊,或者传感器和基板表面之间的光路中的光学变化。
69.从显微镜的样品平面中的一点发出的透射光或荧光发射波前在物镜光阑的边缘处发生衍射,有效地扩展波前以产生点源的图像,该图像被展宽成具有有限但比原点更大尺寸的中心盘衍射图案。因此,由于光的衍射,样品的图像永远无法完美地代表样品中存在的真实细节,因为存在一个下限,低于这个下限,显微镜光学系统就无法分辨结构细节。
70.由于衍射极限的存在,用显微镜观察亚波长结构是很困难的。显微镜中的点状对象,例如荧光蛋白或核苷酸单分子,在中间平面上生成图像,该图像由干涉作用产生的衍射图案组成。当高度放大时,可以观察到点状对象的衍射图案由一系列衍射环包围的中心斑点(衍射盘)组成。结合起来,这个点源衍射图案被称为艾里盘(airy disk)。
71.艾里(airy)图案中中心斑点的大小与光的波长和物镜的孔径角有关。对于显微镜物镜,孔径角用数值孔径(na)来描述,数值孔径包括术语sinθ,即物镜能够从样品收集光线的半角。在分辨率方面,衍射艾里盘在侧向(x,y)像平面内的半径由以下公式定义:阿贝(abbe)分辨率=λ/2*na,其中,λ是透射光中的平均照明波长或荧光中的激发波长波段。物镜数值孔径(na=n
·
sin(θ))由成像介质(n;通常为空气、水、甘油或油)的折射率乘以孔径角的正弦(sin(θ))来定义。由于这种关系,由点源产生的斑点的大小随着波长的减小和数值孔径的增大而减小,但始终保持有限直径的圆盘。阿贝分辨率(即,阿贝极限)在此也被称为衍射极限,并定义光学系统的分辨率极限。
72.如果两个艾里圆盘或点扩散函数之间的距离大于该值,则认为这两个点源是已分辨的(并且很容易区分)。否则,艾里盘合并在一起,并被认为无法分辨。
73.因此,从单分子可检测标记点源发射的波长为λ的光,在折射率为n的介质中的传播并会聚到半角为θ的光斑,将形成直径:d=λ/2*na的衍射受限光斑。考虑到绿光为约500nm,na(数值孔径)为1,衍射极限为约d=λ/2=250nm(0.25μm),这限制了能够通过常规成像技术成像的表面上分析物的密度,如单分子蛋白质和核苷酸。即使在光学显微镜配备有最高现有质量的透镜元件、完全对准且具有最高数值孔径的情况下,在最佳情况下,分辨率仍被限制在大约一半的光波长。反卷积
74.反卷积是一种基于算法的过程,用于逆转卷积对记录数据的影响。反卷积的概念在信号处理和图像处理技术中有着广泛的应用。由于这些技术又广泛用于许多科学和工程学科,反卷积得到了许多应用。
75.在光学和成像中,“反卷积”一词专门用来指逆转光学显微镜、电子显微镜、望远镜或其它成像仪器中发生的光学畸变,从而产生更清晰图像的过程。它通常是在数字领域通过软件算法完成的,作为一套显微镜图像处理技术的一部分。
76.通常的方法是假设通过仪器的光路在光学上是完美的,用点扩散函数(psf)(即一个数学函数,它描述了理论点光源(或其它波)通过仪器的路径所产生的畸变)进行卷积。通常,这样的点源会为最终图像带来一小块区域的模糊性。如果可以确定这个函数,那么就需
要计算其反函数或余函数,并用它将获取的图像进行卷积。反卷积映射到傅里叶对应域中的除法。这使得反卷积可以很容易地应用于经过傅里叶变换的实验数据。一个示例是核磁共振波谱,其中数据记录在时域中,但在频域中分析。时域数据除以指数函数具有减小频域中洛伦斯线宽度的效果。其结果是原始的、不失真的图像。
77.然而,对于衍射受限成像,还需要反卷积来进一步细化信号,以提高超过衍射极限的分辨率,即使点扩散函数是已知的。很难在小于奈奎斯特(nyquist)距离的距离上可靠地分开两个对象。然而,本文描述的是使用循环检测、分析物位置确定、对准和反卷积来可靠地检测以远小于奈奎斯特距离的距离分开的对象的方法和系统。测序
78.光学检测成像系统是衍射受限的,因此对于测序中通常使用的荧光团,其理论最大分辨率为约300nm。到目前为止,最好的测序系统在其阵列上的相邻多核苷酸之间的中心到中心间距为约600nm,或衍射极限的约2x。这个2x的因子是用来解释强度、阵列和生物的变化,这些变化可能会导致位置的误差。对于测序,本文所述系统和方法的目的是分辨在具有低于光学系统衍射极限的中心到中心间距的基板上测序的多核苷酸。
79.如本文所述,我们提供了部分通过以高精度(例如,10nm rms或更低)鉴定每个分析物的位置来实现亚衍射受限成像的方法和系统。相比较而言,最先进的超分辨率系统(harvard/storm)只能以低至20nm rms的精度鉴定位置,比该系统差2倍。因此,本文公开的方法和系统使得亚衍射受限成像能够鉴定基板上密集堆积的分子,以实现每单位酶的高数据速率、每单位时间的数据速率和高数据精度。这些亚衍射受限成像技术广泛适用于使用本文所述的循环检测的技术。成像和循环检测
80.如本文所述,检测方法和系统中的每一种都需要循环检测以实现亚衍射受限成像。循环检测包括与能够发射可见光光学信号的可检测标记结合的探针(如抗体或核苷酸)结合并成像。通过使用来自不同循环的区域的一系列场图像的位置信息,可以有效地使用反卷积来分辨来自密集堆积的基板的信号,以从由于光学成像的衍射极限而被模糊的信号中鉴定单个光学信号。在多个循环之后,分子的精确位置可能会变得越来越精确。使用该信息,可以执行另外的计算以辅助对关于由于像素离散化效应而发生的串扰矩阵中的已知不对称进行串扰校正。
81.使用循环探针结合和光学检测的方法和系统描述于2015年11月19日公布的美国公开号2015/0330974,digital analysis of molecular analytes using single molecule detection中,其通过引用以全文并入本文。
82.在一些实施方式中,使用至少在奈奎斯特极限处的采样来获得原始图像,以便于更精确地确定过采样图像。通过超过奈奎斯特极限的采样(过采样)来增加用于表示图像的像素数,增加了可用于图像处理和显示的像素数据。
83.理论上,如果以奈奎斯特速率或更高的速率采样,带宽受限的信号可以被完美重建。奈奎斯特速率定义为信号中最高频率分量的两倍。过采样通过放宽抗混叠滤波器性能要求,提高了分辨率、降低了噪声,并有助于避免混叠和相位失真。如果一个信号以n倍奈奎斯特速率采样,则其过采样倍数为n。
84.因此,在一些实施方式中,以不超过所观察到的光波长的一半的像素大小拍摄每
个图像。换句话说,从光学检测系统上检测到的一个或多个可检测标记生成的信号的波长大于光学检测系统像素的两倍。例如,在一些实施方式中,在检测中使用小于约162.5nm x 162.5nm的像素大小,以实现在奈奎斯特极限处或超过该极限的采样。优选地,在基板的原始成像期间以至少奈奎斯特极限的频率进行采样,以优化本文描述的系统或方法的分辨率。这可以结合本文所述的反卷积方法和光学系统来完成,以高精度地分辨低于衍射极限的基底上的特征。纠错方法
85.在上述光学和电气检测方法中,在信号的结合和/或检测中可能发生错误。在某些情况下,错误率可高达五分之一(例如五个荧光学信号中有一个不正确)。这相当于每五个循环序列中有一个错误。实际的错误率可能不会高达20%,但百分之几的错误率是可能的。一般来说,错误率取决于包括样品中分析物的类型和所用探针的类型在内的许多因素。在电气检测方法中,例如,在一个循环过程中,尾区可能不能正确地结合到适体上的相应探针区域。在光学检测方法中,抗体探针可能不结合其靶标或结合错误靶标。
86.生成另外的循环以解决检测到的信号中的错误并获得另外的信息位,例如奇偶校验位。所述另外的信息位用于使用纠错码来纠错。在一个实施方式中,纠错码是reed-solomon码,它是用于检测和纠正系统中错误的非二进制循环码。在其它实施方式中,还可以使用多种其它纠错码。其它纠错码包括,例如,分组码、卷积码、golay码、hamming码、bch码、an码、reed-muller码、gappa码、hadamard码、walsh码、hagelbarger码、极化码、重复码、重复累加码、擦除码、在线码、组码、扩展码、恒重码、旋风码、低密度奇偶校验码、最大距离码、突发错误码、luby变换码、喷泉码和速龙码。参见error control coding,第2版,s.lin和dj costello,prentice hall,new york,2004。下面还提供了示例,其演示了通过添加循环和获得另外信息位来进行纠错的方法。光学检测方法
87.在一些实施方式中,基板与包含n个靶分析物的分析物结合。为了检测n个靶分析物,选择探针结合和信号检测的m个循环。所述m个循环中的每个包括1个=或多个遍次,且每个遍次包括n组探针,使得每组探针特异性结合所述n个靶分析物中的一个。在某些实施方式中,存在用于n个靶分析物的n组探针。
88.在每个循环中,每个遍次引入的探针组都有预定的顺序。在一些实施方式中,探针组的预定顺序是随机顺序。在其它实施方式中,探针组的预定顺序是非随机顺序。在一个实施方式中,非随机顺序可以由计算机处理器选择。预定顺序在每个靶分析物的密钥中表示。生成包括探针组顺序的密钥,并且探针的顺序在代码中数字化,以鉴定每个靶分析物。
89.在一些实施方式中,每组有序探针与用于检测靶分析物的不同标签相关联,并且不同标签的数目小于n个靶分析物的数目。在这种情况下,n个靶分析物中的每一个与m个循环的m个标签序列匹配。标签的有序序列作为鉴定代码与靶分析物相关联。
90.在一个实施方式中,该方法包括以下步骤,用于标记探针池,以使用x种不同颜色的荧光标记探针对基板上的n种不同类型的靶分析物进行计数:1.使用基数-x序数对n个靶标(或其探针)的列表进行编号。2.将荧光标签与0到x-1的基数-x数字相关联。(例如,0、1、2、3对应于红色、蓝色、绿色和黄色。)
3.求解c,使得xc》n。4.需要至少c个探针池来识别n个靶标。通过索引k=1至c来标记c个探针池。5.在第k个探针池中,用荧光标签标记每个探针,荧光标签的颜色对应于第1步中创建的列表中识别探针靶标的基数-x序数的第k个基数-x数字。
91.例如,如果一个人有n=10,000个靶分析物和四个荧光标签,则可以选择基数4。4种荧光标签颜色分别用数字0、1、2和3表示。例如,数字0、1、2、3对应于红色、蓝色、绿色和黄色。
92.在选择基数4时,每种荧光颜色由2位表示(0和1,其中0=无信号,且1=信号存在),有7种颜色用作鉴定靶分析物的代码。例如,蛋白质a可以用代码“1221133”来鉴定,该代码代表“蓝、绿、绿、蓝、蓝、黄、黄”的颜色组合和顺序。对于7种可能的颜色,靶分析物共有14个信息位(7
×
2=14位)。
93.接下来,选择c,使得4c》10,000。在这种情况下,c可以是7,使得存在7个探针池来鉴定10,000个靶标(47=16,384,其大于10,000)。长度为c的颜色序列意味着必须构建c个不同的探针池。7个探针池标记为k=1至7。然后用荧光标签标记每个探针,荧光标签对应于第k个基数和x-数字。例如,代码“1221133”中的第3个探针将是第3个基数-第4个数字,且对应于绿色。光学检测的探针的定量
94.检测过程结束后,对来自每个探针池的信号进行计数,而对于基底上的每个位置,可以记录信号的有无以及信号的颜色。
95.从可检测信号中,对于n个不同的靶分析物,在m个循环中的每个循环中获得k位信息。k位信息用于确定l总位信息,使得k
×
m=l位信息并且l≥log2(n)。l位信息用于确定n个不同的靶分析物的标识(和存在)。如果只执行一个循环(m=1),则kx1=l。然而,可以执行多个循环(m》1),以产生每个分析物多个总信息位l。每个后续循环提供用于鉴定靶分析物的另外光学信号信息。
96.在实践中,信号中会出现错误,这使靶分析物鉴定的准确性变得混乱。例如,探针可能结合错误靶标(例如,假阳性)或未能结合正确靶标(例如,假阴性)。如下所述,提供了用于解决光学和电气信号检测中错误的方法。电气检测方法
97.在其它实施方式中,电气检测方法用于检测基板上靶分析物的存在。靶分析物用寡核苷酸尾区标记,并且寡核苷酸标签用离子敏感场效应晶体管(isfet或ph传感器)进行检测,其测量溶液中的氢离子浓度。
98.isfet为分析物的鉴定和表征提供了一种灵敏和特异的电气检测系统。在一个实施方式中,本文公开的电气检测方法由计算机(例如,处理器)执行。通过isfet的电极可以将溶液的离子浓度转换成对数电位,并且可以检测和测量电输出信号。
99.isfet以前曾用于促进dna测序。在单链dna向双链dna的酶促转化过程中,每个核苷酸加入到dna分子中时都会释放氢离子。isfet能检测这些释放的氢离子,并能确定dna分子中何时加入了核苷酸。通过同步三磷酸核苷(datp、dctp、dgtp和dttp)的掺入,还可以确定dna序列。例如,如果当单链dna模板暴露于datp时没有检测到电输出信号,但在dgtp存在时检测到电输出信号,则dna序列在相关位置由互补胞嘧啶碱基组成。
100.在一个实施方式中,isfet用于检测探针的尾区,然后鉴定相应的靶分析物。例如,靶分析物可以固定于基底上,例如包含一个或多个isfet的集成电路芯片上。当加入相应的探针(例如适体和尾区)并与靶分析物特异性结合时,加入核苷酸和酶(聚合酶)用于尾区的转录。isfet检测释放的氢离子作为电输出信号,并测量当dntp掺入尾区时离子浓度的变化。释放的氢离子的量对应于尾区的长度和终止,并且关于尾区的该信息可用于区分各种标签。
101.最简单的尾区类型是完全由一个均聚碱基区组成的尾区。在这种情况下,有四个可能的尾区:聚a尾、聚c尾、聚g尾和聚t尾。然而,通常需要在尾区中具有很大的多样性。
102.在尾区中产生多样性的一种方法是通过在尾区的均聚碱基区内提供终止碱基。终止碱基是尾区的一部分,该尾区包含与均聚碱基区相邻的至少一个核苷酸,使得所述至少一个核苷酸由与所述均聚碱基区内的碱基不同的碱基组成。在一个实施方式中,终止碱基是一个核苷酸。在其它实施方式中,终止碱基包括多个核苷酸。通常,终止碱基两侧有两个均聚碱基区。在一个实施方式中,位于终止碱基两侧的两个均聚碱基区由相同的碱基组成。在另一实施方式中,两个均聚碱基区由两种不同的碱基组成。在另一实施方式中,尾区包含多于一个终止碱基。
103.在一个示例中,isfet可以检测100个氢离子的最小阈值数。靶分析物1结合到组合物上,所述组合物具有由100个核苷酸的聚a尾组成的尾区,后接一个胞嘧啶碱基,再后接另外的100个核苷酸的聚a尾,尾区总长度为201个核苷酸。靶分析物2结合到具有由200个核苷酸的聚a尾部组成的尾区的组合物上。加入dttp后,在有利于多核苷酸合成的条件下,与靶分析物1相关联的尾区上的合成可释放100个氢离子,这可与跟靶分析物2相关联的尾区上的多核苷酸合成(其可释放200个氢离子)区分开来。isfet可针对每个尾区检测不同的电输出信号。此外,如果添加dgtp,随后添加更多的dttp,则与靶分析物1相关联的尾区可能会释放一个,然后由于进一步的多核苷酸合成而再释放100个氢离子。基于尾区组成添加特定的三磷酸核苷产生的不同的电输出信号允许isfet检测来自每个尾区的氢离子,并且该信息可用于鉴定尾区及其对应的靶分析物。
104.均聚碱基区、终止碱基及其组合的各种长度可用于唯一地标记样品中的每种分析物。在美国专利申请号2016/0201119中描述了对适体和尾区的电气检测以鉴定基板中的靶分析物的附加说明,该申请通过引用以全文并入本文。
105.在一些实施方式中,基板上存储的数据目录中的大量信息生成了若干级别的内置冗余。在一些实施方式中,第一级信息细分包含在载玻片、泳道和数据的每个信息段的特定测序引发站点中。在一些实施方式中,各个泳道以各种组合存储,这些组合被生成为最佳检索,如本文所述。本文所述的系统和方法的计算机自动化
106.本公开提供了被编程为实现本公开的方法的计算机系统。图2示出了计算机系统201,其被编程或以其它方式配置为将基板设置在数据中心内的可安装机架上,并检索基板并将其传送至也包含在数据中心内的仪器以进行测序。计算机系统201可以调节本公开的各个方面,例如,数据中心的温度和存储在数据中心内的基板的配置。计算机系统201可以是用户的电子设备或相对于电子设备远程定位的计算机系统。电子设备可以是移动电子设备。
107.计算机系统201包括中央处理单元(cpu,本文也称为“处理器”和“计算机处理器”)205,其可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统201还包括存储器或存储器位置210(例如,随机存取存储器、只读存储器、闪存),电子存储单元215(例如,硬盘),用于与一个或多个其它系统通信的通信接口220(例如,网络适配器),以及外围设备225,例如高速缓存、其它存储器、数据存储和/或电子显示适配器。存储器210,存储单元215,接口220和外围设备225通过通信总线(实线)如主板与cpu 205通信。存储单元215可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统201可以借助于通信接口220可操作地耦合到计算机网络(“网络”)230。网络230可以是因特网、内联网和/或外联网、或者与因特网通信的内联网和/或外联网。在一些情况下,网络230是电信和/或数据网络。网络230可以包括一个或多个计算机服务器,其可以实现分布式计算,例如云计算。网络230在一些情况下借助于计算机系统201可实现对等网络,其可使耦合到计算机系统201的设备表现为客户端或服务器。在一些实施方式中,网络230包括用于机械地将基板传送到可安装的存储机架和用于测序的仪器的设备。在一些实施方式中,网络230包括用于测序的仪器。
108.cpu 205可以执行一系列机器可读指令,其可以具体化在程序或软件中。指令可以存储在存储器位置中,例如存储器210中。可以将指令引导到cpu 205,cpu 205随后可以程序化设定或以其它方式配置cpu 205以执行本公开的方法。由cpu 205执行的操作的示例可以包括获取,解码,执行和回写。
109.cpu 205可以是电路例如集成电路的一部分。系统201的一个或多个其它组件可以包括在电路中。在一些情况下,该电路是专用集成电路(asic))。
110.存储单元215可以存储文件,例如驱动程序、库和保存的程序。存储单元215可以存储用户数据,例如用户偏好和用户程序和核酸测序的读取结果。在一些情况下,计算机系统201可以包括在计算机系统201外部的一个或多个附加数据存储单元,例如位于通过内联网或因特网与计算机系统201通信的远程服务器上。
111.计算机系统201可以通过网络230与一个或多个远程计算机系统通信。例如,计算机系统201可以与用户的远程计算机系统通信(例如,测序仪器)。远程计算机系统的示例包括个人计算机(例如便携式pc)、触屏电脑或平板电脑(例如,ipad、galaxytab)、电话、智能电话(例如,iphone、支持android的设备、)或个人数字助理。用户可以经由网络230访问计算机系统201。
112.本文描述的方法可以通过存储在计算机系统201的电子存储位置上,例如在存储器210或电子存储单元215上的机器(例如,计算机处理器)可执行代码来实现。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器205执行。在一些情况下,可以从存储单元215调用代码并将其存储在存储器210上以供处理器205随时访问。在一些情况下,可以排除电子存储单元215,并且机器可执行指令存储在存储器210上。
113.可以预编译和配置代码以用于具有适于执行代码的处理器的机器,或者可以在运行时期间编译。代码可以以编程语言提供,可以选择该编程语言使代码能够以预编译或类编译(as-compiled)的方式执行。
114.本文提供的系统和方法的各方面,例如计算机系统201,可以具体化在编程中。该技术的各个方面可以被认为是通常以一种类型的机器可读介质中承载或具体化的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元,例如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘上。“存储”型介质可以包括计算机的有形存储器、处理器等或其相关模块,例如各种半导体存储器、磁带驱动器、磁盘驱动器等的任何一个或全部,其可以随时提供非暂时性存储用于软件编程。软件的全部或部分有时可以通过因特网或各种其它电信网络进行通信。例如,这类通信可以使软件从一个计算机或处理器加载到另一个计算机或处理器,例如,从管理服务器或主计算机加载到应用服务器的计算机平台。因此,可以承载软件元件的另一种类型的介质包括光波、电波和电磁波,例如通过有线和光学陆线网络以及跨越各种空中链路在本地设备之间的物理接口上使用的介质。携带这类波的物理元件,例如有线或无线链路、光链路等,也可以被认为是承载软件的介质。如本文所使用的,除非限定为非暂时性的有形“存储”介质,诸如计算机或机器“可读介质”之类的术语是指参与向处理器提供指令以供执行的任何介质。
115.因此,机器可读介质如计算机可执行代码可以采用许多形式,包括但不限于,有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,如任何计算机等中的任何存储设备,如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器,例如这类计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括在计算机系统内包含总线的线。载波传输介质可以采用电或电磁信号,或声波或光波的形式,例如在射频(rf)和红外(ir)数据通信期间生成的那些。因此,计算机可读介质的常见形式包括,例如:软盘(floppy disk)、软磁盘(flexible disk)、硬盘、磁带、任何其它磁性介质、cd-rom、dvd或dvd-rom,任何其它光学介质、穿孔卡纸带、任何其它带孔图案的物理存储介质、ram、rom、prom和eprom、flash-eprom、任何其它存储器芯片或盒式磁带、传输数据或指令的载波、传输此类载波的电缆或链路或计算机可从中读取编程代码和/或数据的任何其它介质。许多这些形式的计算机可读介质可涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。
116.计算机系统201可以包括电子显示器235或与之通信,电子显示器235包括用户界面(ui)240,用于提供例如,核酸分子测序的结果。ui的示例包括但不限于图形用户界面(gui)和基于web的用户界面。
117.可以通过一种或多种算法来执行本公开的方法和系统。可以在由中央处理单元2805执行时通过软件实现算法。例如,算法可以生成将基板传输到或传输出可安装机架(用于存储)和仪器(用于测序)的速率。
118.尽管已经在本文中示出和描述了本发明的优选实施例,但是对于本领域技术人员而言显而易见的是,这些实施例仅作为实例提供。并非意味着通过说明书中提供的特定实例来限制本发明。尽管已经参考前述说明书描述了本发明,但是本文中的实施方式的描述和说明并不意味着以限制性的意义来解释。在不脱离本发明的情况下,本领域技术人员现在会想到许多变化、改变和替换。此外,应当理解,本发明的所有方面不限于本文所阐述的具体描述、配置或相对比例,其取决于各种条件和变量。应该理解的是,本文描述的本发明的实施方式的各种替代方案可以用于实施本发明。因此,可以设想的是,本发明还应涵盖任
何这样的替代、修改、变化或等同形式。以下权利要求旨在限定本发明的范围,并且由此涵盖这些权利要求范围内的方法和结构及其等同形式。
119.本文提供的方法和系统可与其它方法和系统组合或由其它方法和系统修改,诸如例如,美国专利公开号20150330974和20180274028中描述的那些方法和系统,其各自通过引用全部并入本文。
120.尽管本文已经示出并描述了优选的实施方式,但对于本领域技术人员显而易见的是,这些实施方式仅以示例的方式提供。这并不意味着本发明受说明书中提供的具体实施例的限制。尽管已经参照上述说明书描述了本发明,但是本文实施例的描述和说明不意味着以限制性的意义来解释。在不脱离本发明的情况下,本领域技术人员现将会想到很多变化、改变和替代。此外,应当理解,本发明的所有方面不限于本文所述的具体描述、配置或相对比例,其取决于各种条件和变量。应当理解,在实施本发明时可以采用本文所述的本发明实施方式的各种替代方案。因此,可以设想本发明还将覆盖任何这样的替代、修改、变化或等同形式。以下述权利要求旨在限定本发明的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同形式。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献