一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于序列判定的方法和系统与流程

2020-08-11 21:47:00 来源:中国专利 TAG:引用 申请 专利申请 并入 美国
用于序列判定的方法和系统与流程

交叉引用

本申请要求于2017年10月26日提交的美国临时专利申请号62/577,450的权益,该申请通过引用整体并入本文。



背景技术:

阐明整个人类基因组这一目标引起了对用于小规模和大规模应用的快速核酸(例如,dna)测序技术的兴趣。随着对人类疾病遗传基础知识的增加,高通量dna测序已被用于各种各样的临床应用。尽管核酸测序方法和系统在广泛的分子生物学和诊断应用中普遍存在,但此类方法和系统在准确的碱基判定(call)方面可能会遇到挑战,诸如当测序信号包含被称为同聚物的重复核苷酸碱基区域时。特别地,基于指示核苷酸掺入的量化特征性信号执行碱基判定的测序方法可能具有测序错误(例如,在量化同聚物长度时),其源于信号水平的随机和不可预测的系统变化,以及对于每个序列都可能不同的邻近序列(context)依赖性信号。此类信号变化和邻近序列依赖性信号可能导致序列(例如,同聚物)判定方面的问题。



技术实现要素:

本文认识到需要改进的对序列(诸如包含同聚物的序列)的碱基判定。本文提供的方法和系统可显著减少或去除量化同聚物长度中的误差以及与邻近序列依赖性相关的误差。这样的方法和系统可实现准确和有效的序列(诸如包含同聚物的序列)的碱基判定、同聚物长度的量化以及序列信号中邻近序列依赖性的量化。

在一方面,本文公开了用于对核酸分子进行测序的方法,包括:(a)对所述核酸分子进行测序以生成多个序列信号;以及(b)至少部分基于以下来确定所述核酸分子的碱基判定:(i)所述多个序列信号,和(ii)所述多个序列信号的至少一部分的量化的邻近序列依赖性。在一些实施方案中,所述测序生成一个或多个估算序列,并且所述核酸分子的所述碱基判定至少部分基于以下来确定:(i)所述一个或多个估算序列,和(ii)所述一个或多个估算序列的至少一部分的量化的邻近序列依赖性。在一些实施方案中,(b)与(a)的所述测序实时执行。在一些实施方案中,所述一个或多个估算序列包含一个或多个长度n的同聚物。在一些实施方案中,n是至少1个碱基、至少2个碱基或至少3个碱基。在一些实施方案中,在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括至少基于所述同聚物或关联信号的聚类来确定所述同聚物的长度。

在一些实施方案中,所述多个序列信号通过对受试者的核酸进行测序而生成。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。

在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法,包括:(a)对脱氧核糖核酸(dna)分子进行测序,以提供多个序列信号和一个或多个估算序列,其中所述dna分子包含已知序列;以及(b)对于多个位点中的给定位点,至少基于以下来确定所述给定位点的一个或多个预期信号:(i)所述多个序列信号和/或所述一个或多个估算序列,和(ii)所述已知序列。在一些实施方案中,所述方法进一步包括:(c)对包含未知序列的第二集合的dna分子进行测序,从而生成第二多个序列信号;(d)至少部分基于以下来确定所述第二集合的dna分子的碱基判定:(i)所述第二多个序列信号,和(ii)所述一个或多个预期信号的至少一部分。在一些实施方案中,对所述第二集合的dna分子进行测序生成一个或多个估算序列,并且所述第二集合的dna分子的所述碱基判定至少部分基于所述一个或多个估算序列来确定。

在一些实施方案中,所述dna分子包含合成模板。在一些实施方案中,所述已知序列包含一个或多个长度n的同聚物。在一些实施方案中,n是至少1个碱基、至少2个碱基或至少3个碱基。在一些实施方案中,所述一个或多个估算序列包含一个或多个长度n的同聚物。在一些实施方案中,n是至少1个碱基、至少2个碱基或至少3个碱基。在一些实施方案中,量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与已知序列之间的邻近序列特异性映射。在一些实施方案中,基于所述序列信号的分布或所述估算序列的同聚物长度的分布来量化所述邻近序列依赖性。在一些实施方案中,在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括至少基于所述同聚物或关联信号的聚类来确定所述同聚物的长度。

在一些实施方案中,所述多个序列信号通过对受试者的核酸进行测序而生成。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。在一些实施方案中,所述碱基判定至少基于所述第二多个序列信号的邻近序列依赖性来确定。在一些实施方案中,所述碱基判定至少基于所述第二多个序列信号和所述一个或多个估算序列的邻近序列依赖性来确定。在一些实施方案中,(d)与(c)的所述测序实时执行。

在另一方面,本文公开了用于处理多个序列信号的方法,包括:(a)对核酸样品进行测序以提供多个序列信号和估算序列;(b)将所述多个估算序列中每个鉴别的至少n个碱基的估算同聚物序列截短为长度n的碱基的同聚物序列,以产生一个或多个hpn截短序列;(c)将所述一个或多个hpn截短序列与截短参考进行比对,所述截短参考已进行hpn截短从而包含截短为所述长度n的一个或多个同聚物序列;以及(d)至少基于与所述hpn截短参考比对的所述一个或多个hpn截短序列和/或与所述hpn截短参考比对的所述一个或多个hpn截短序列相关联的序列信号,从与所述hpn截短参考比对的所述一个或多个hpn截短序列生成共有序列,所述共有序列包括所述长度n的同聚物序列。

在一些实施方案中,n是5个碱基。在一些实施方案中,n是6个碱基。在一些实施方案中,n是7个碱基。在一些实施方案中,n是8个碱基。在一些实施方案中,所述同聚物序列的长度估计误差至少基于与所述hpn截短参考比对的所述一个或多个hpn截短序列的信号或估算的同聚物长度的分布来计算。在一些实施方案中,在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括至少基于所述同聚物序列或关联信号的聚类来确定所述同聚物序列的长度。

在一些实施方案中,所述多个序列信号通过对受试者的核酸进行测序而生成,并且所述hpn截短参考包括所述受试者的物种的hpn截短的参考基因组。在一些实施方案中,在(d)中计算或分类的长度的数目至少基于所述受试者的所述物种的倍性受到限制。在一些实施方案中,所述多个序列信号和估算序列通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号和估算序列通过流式测序生成。

在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的方法,所述方法包括:(a)对脱氧核糖核酸(dna)分子进行测序以提供多个序列信号和估算序列,其中所述dna分子包含已知序列;(b)将所述多个估算序列中每个鉴别的至少n个碱基的估算同聚物序列截短为长度n的碱基的同聚物序列,以产生一个或多个hpn截短序列;(c)将所述一个或多个hpn截短序列与截短参考进行比对,所述截短参考已进行hpn截短从而包含hpn截短为所述长度n的一个或多个同聚物序列;以及(d)至少基于以下来量化关联序列信号的所述邻近序列依赖性:(i)与所述hpn截短参考比对的所述一个或多个hpn截短序列和/或与所述hpn截短参考比对的所述一个或多个hpn截短序列相关联的序列信号,和(ii)所述已知序列。在一些实施方案中,所述方法进一步包括:(e)对包含未知序列的第二集合的dna分子进行测序,从而生成第二多个序列信号和估算序列;(f)将所述第二多个估算序列的每个鉴别的至少n个碱基的估算第二同聚物序列截短为长度n的碱基的同聚物序列,以产生一个或多个第二hpn截短序列;(g)将所述一个或多个第二hpn截短序列与所述hpn截短参考进行比对;以及(h)至少基于以下来确定所述第二多个dna分子的同聚物长度:(i)与所述hpn截短参考比对的所述一个或多个hpn截短序列和/或与所述hpn截短参考比对的所述一个或多个hpn截短序列相关联的序列信号,和(ii)所述量化的邻近序列依赖性。

在一些实施方案中,所述量化的邻近序列依赖性针对给定邻近序列进行分类。在一些实施方案中,所述给定邻近序列是n碱基邻近序列,其中“n”是大于或等于5的数字。在一些实施方案中,所述dna分子衍生自核糖核酸(rna)分子。在一些实施方案中,所述多个序列信号和估算序列通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号和估算序列通过流式测序生成。在一些实施方案中,量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与同聚物长度之间的邻近序列特异性映射。

在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的方法,所述方法包括:(a)对脱氧核糖核酸(dna)分子进行测序以提供多个序列信号和估算序列,其中所述dna分子包含已知序列;(b)将所述多个估算序列中每个鉴别的至少n个碱基的估算同聚物序列截短为长度n的碱基的同聚物序列,以产生一个或多个hpn截短序列;(c)将所述一个或多个hpn截短序列与截短参考进行比对,所述截短参考已进行hpn截短从而包含截短为所述长度n的一个或多个同聚物序列;以及(d)对于所述hpn截短参考中的多个位点中的每一个,至少基于以下来确定所述位点的预期信号:(i)与所述hpn截短参考比对的所述一个或多个hpn截短序列和/或与所述hpn截短参考比对的所述一个或多个hpn截短序列相关联的序列信号,和(ii)所述已知序列。在一些实施方案中,所述方法进一步包括:(e)对包含未知序列的第二集合的dna分子进行测序,从而生成第二多个序列信号和估算序列;(f)将所述第二多个估算序列的每个鉴别的至少n个碱基的估算第二同聚物序列截短为长度n的碱基的同聚物序列,以产生一个或多个第二hpn截短序列;(g)将所述一个或多个第二hpn截短序列与所述hpn截短参考进行比对;以及(h)至少基于以下来确定所述第二集合的dna分子的同聚物长度:(i)与所述hpn截短参考比对的所述一个或多个hpn截短序列和/或与所述hpn截短参考比对的所述一个或多个hpn截短序列相关联的序列信号,和

(ii)所述已知序列。

在一些实施方案中,所述dna分子衍生自核糖核酸分子。在一些实施方案中,所述多个序列信号和估算序列通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号和估算序列通过流式测序生成。在一些实施方案中,量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与同聚物长度之间的邻近序列特异性映射。

在另一方面,本文公开了用于处理多个序列信号的方法,包括:(a)对核酸样品进行测序以提供多个序列信号和估算序列;(b)处理所述多个序列信号和估算序列以确定包含同聚物序列的一个或多个序列的集合;(c)处理所述多个序列信号和估算序列以鉴别所述同聚物序列的至少一部分的存在和估计长度;以及(d)使用二次分析数据优化所述估计长度。在一些实施方案中,所述多个序列信号和估算序列通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号和估算序列通过流式测序生成。

在另一方面,本文公开了用于处理多个序列信号的方法,包括:(a)对核酸样品进行测序以提供所述多个序列信号;(b)将所述多个序列信号与参考信号进行比对;(c)至少基于所述比对的序列信号鉴别包含同聚物序列的参考位点;以及(d)至少基于所述鉴别的参考位点、所述参考位点的所述同聚物序列的长度和所述参考信号,从与所述参考信号比对的所述多个序列信号生成共有序列,所述共有序列包括n碱基的同聚物序列。

在一些实施方案中,所述同聚物序列的长度估计误差至少基于与所述参考信号比对的所述多个序列信号的信号或估算的同聚物长度的分布来计算。在一些实施方案中,在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述多个序列信号通过对受试者的核酸进行测序而生成,并且所述参考信号包括所述受试者的物种的参考基因组。在一些实施方案中,计算或分类的长度的数目至少基于所述受试者的所述物种的倍性受到限制。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。

在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法,所述方法包括:(a)对脱氧核糖核酸(dna)分子进行测序以提供多个序列信号,其中所述dna分子包含已知序列;(b)将所述多个序列信号与参考信号进行比对;以及(c)至少基于所述已知序列来量化与所述参考信号比对的所述多个序列信号中的所述邻近序列依赖性。在一些实施方案中,所述比对包括类似物信号处理。在一些实施方案中,所述方法进一步包括:(d)对包含未知序列的第二集合的dna分子进行测序,从而生成第二多个序列信号;(e)将所述第二多个序列信号与所述参考信号进行比对;以及(f)至少基于与所述参考信号比对的所述多个序列信号和所述量化的邻近序列依赖性来确定所述第二集合的dna分子的同聚物长度。

在一些实施方案中,所述dna分子衍生自核糖核酸分子。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。在一些实施方案中,量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与同聚物长度之间的邻近序列特异性映射。

在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法,所述方法包括:(a)对脱氧核糖核酸(dna)分子进行测序以提供所述多个序列信号,其中所述dna分子包含已知序列;(b)将所述多个序列信号与参考信号进行比对;以及(c)对于所述参考信号中的多个位点中的每一个,至少基于与所述参考信号比对的所述多个序列信号和所述已知序列来确定所述位点的预期信号。在一些实施方案中,所述比对包括类似物信号处理。在一些实施方案中,该方法进一步包括:(d)对包含未知序列的第二集合的dna分子进行测序,从而生成第二多个序列信号;(e)将所述第二多个序列信号与所述参考信号进行比对;以及(f)至少基于与所述参考信号比对的所述多个序列信号和所述已知序列来确定所述第二集合的dna分子的同聚物长度。

在一些实施方案中,所述dna分子衍生自核糖核酸分子。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。

在另一方面,本文公开了用于处理多个序列信号的方法,包括:(a)对核酸样品进行测序以提供所述多个序列信号;(b)将所述多个序列信号与参考信号进行比对;(c)至少基于所述比对的序列信号鉴别包含同聚物序列的基因组位点;(d)处理与所述参考信号比对的所述多个序列信号以鉴别所述同聚物序列的存在和估计长度;以及(e)使用二次分析数据优化所述估计长度。在一些实施方案中,所述比对包括类似物信号处理。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。

在另一方面,本发明公开了用于对核酸分子进行测序的系统,包含:存储在对所述核酸分子进行测序时生成的多个序列信号的数据库;以及操作地耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于至少部分基于以下来确定所述核酸分子的碱基判定:(i)所述多个序列信号,和(ii)所述多个序列信号的至少一部分的量化的邻近序列依赖性。

在另一方面,本文公开了用于处理多个序列信号的系统,包含:存储所述多个序列信号和对应于所述多个序列信号的邻近序列依赖性的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:对于多个位点中的每一个,至少基于以下来确定所述位点的预期信号:(i)所述多个序列信号和/或对应于所述多个序列信号的多个估算序列,和(ii)已知序列。在一些实施方案中,所述邻近序列依赖性包括所述多个位点中的每一个的信号幅度与已知序列之间的邻近序列特异性映射。

在另一方面,本文公开了用于处理多个序列信号和估算序列的系统,包含:存储所述多个序列信号和估算序列的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个估算序列中每个鉴别的至少n个碱基的估算同聚物序列截短为长度n的碱基的同聚物序列,以产生一个或多个hpn截短序列;(b)将所述一个或多个hpn截短序列与截短参考进行比对,所述截短参考已进行hpn截短从而包含截短为所述长度n的一个或多个同聚物序列;以及(c)至少基于与所述参考比对的所述一个或多个hpn截短序列和/或与所述hpn截短参考比对的所述一个或多个hpn截短序列相关联的序列信号,从与所述hpn截短参考比对的所述一个或多个hpn截短序列生成共有序列,所述共有序列包括所述长度n的同聚物序列。

在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的系统,包含:存储所述多个序列信号和估算序列的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个估算序列中每个鉴别的至少n个碱基的估算同聚物序列截短为长度n的碱基的同聚物序列,以产生一个或多个hpn截短序列;(b)将所述一个或多个hpn截短序列与截短参考进行比对,所述截短参考已进行hpn截短从而包含截短为所述长度n的一个或多个同聚物序列;以及(c)至少基于以下来量化关联序列信号的所述邻近序列依赖性:(i)与所述hpn截短参考比对的所述一个或多个hpn截短序列和/或与所述hpn截短参考比对的所述一个或多个hpn截短序列相关联的序列信号,和(ii)所述已知序列。在一些实施方案中,所述数据库存储训练数据,所述训练数据包括参考比对信号或从参考比对信号量化的邻近序列依赖性。

在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的系统,包含:存储所述多个序列信号和估算序列的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个估算序列中每个鉴别的至少n个碱基的估算同聚物序列截短为长度n的碱基的同聚物序列,以产生一个或多个hpn截短序列;(b)将所述一个或多个hpn截短序列与截短参考进行比对,所述截短参考已进行hpn截短从而包含截短为所述长度n的一个或多个同聚物序列;以及(c)对于所述hpn截短参考中的多个位点中的每一个,至少基于以下来确定所述位点的预期信号:(i)与所述hpn截短参考比对的所述一个或多个hpn截短序列和/或与所述hpn截短参考比对的所述一个或多个hpn截短序列相关联的序列信号,和(ii)所述已知序列。

在另一方面,本文公开了用于处理多个序列信号和估算序列的系统,包含:存储所述多个序列信号和估算序列的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)处理所述多个序列信号和估算序列以确定包含同聚物序列的一个或多个序列的集合;(b)处理所述多个序列信号和估算序列以鉴别所述同聚物序列的至少一部分的存在和估计长度;以及(c)使用二次分析数据优化所述估计长度。

在另一方面,本文公开了用于处理多个序列信号的系统,包含:存储所述多个序列信号的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个序列信号与参考信号进行比对;(b)至少基于所述比对的序列信号鉴别包含同聚物序列的参考位点;以及(c)至少基于所述鉴别的参考位点、所述参考位点的所述同聚物序列的长度和所述参考信号,从与所述参考信号比对的所述多个序列信号生成共有序列,所述共有序列包括n碱基的同聚物序列。

在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的系统,包含:存储所述多个序列信号的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个序列信号与参考信号进行比对;以及(b)至少基于与所述多个序列信号相关联的已知序列,量化与所述参考信号比对的所述多个序列读取信号中的所述邻近序列依赖性。

在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的系统,包含:存储所述多个序列信号的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个序列信号与参考信号进行比对;和(b)对于所述参考信号中的多个位点中的每一个,至少基于与所述参考信号比对的所述多个序列信号和与所述多个序列信号相关联的已知序列来确定所述位点的预期信号。

在另一方面,本文公开了用于处理多个序列信号的系统,包含:存储所述多个序列信号的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个序列信号与参考信号进行比对;(b)至少基于所述比对的序列信号鉴别包含同聚物序列的基因组位点;(c)处理与所述参考信号比对的所述多个序列信号以鉴别所述同聚物序列的存在和估计长度;以及(d)使用二次分析数据优化所述估计长度。

本公开内容的另一方面提供了包含机器可执行代码的非暂时性计算机可读介质,所述机器可执行代码在由一个或多个计算机处理器执行时实现上述或本文其他地方的任何方法。

本公开内容的另一方面提供了包含一个或多个计算机处理器和与之耦合的计算机存储器的系统。所述计算机存储器包含机器可执行代码,所述机器可执行代码在由一个或多个计算机处理器执行时实现上述或本文其他地方的任何方法。

通过以下在其中仅示出和描述了本公开内容的说明性实施方案的详细描述,本公开内容的其他方面和优点对于本领域技术人员将变得显而易见。将会认识到,本公开内容能够具有其他和不同的实施方案,并且其若干细节能够在各个明显的方面进行修改,所有这些都不偏离本公开内容。因此,附图和说明书在本质上将被认为是说明性而非限制性的。

援引并入

本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文,其程度如同特别地且单独地指出每个单独的出版物、专利或专利申请通过引用而并入。在通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相抵触的程度下,本说明书旨在取代和/或优先于任何此类矛盾的材料。

附图说明

本发明的新颖特征在所附权利要求中具体阐述。通过参考以下对其中利用到本发明原理的说明性实施方案加以阐述的详细描述以及附图(本文也称为“图”),将会获得对本发明特征和优点的更好理解,在这些附图中:

图1示出了cy5标记的核苷酸类似物的6个局部邻近序列的可再现荧光信号变化的实例。

图2示出了使用与hpn截短的参考序列的比对进行序列信号的初步分析的流程图。

图3示出了截短同聚物比对的实例,其中给定序列中所有鉴别的长度为n或更大的同聚物被截短为长度n的同聚物,然后与参考进行比对。

图4示出了局部邻近序列鉴别和量化的操作,其中初始序列判定按6碱基邻近序列分组。

图5示出了局部邻近序列鉴别和量化的操作,其中hpn截短的判定按6碱基邻近序列分组。

图6示出了邻近序列图谱的实例,其包括信号与序列中掺入的连续核苷酸的数目(例如,同聚物长度)之间的数学关系。

图7示出了使用与类似物参考信号的比对进行序列信号的初步分析的流程图。

图8示出了被编程或以其他方式配置用于实现本文提供的方法的计算机控制系统。

具体实施方式

虽然本文已经示出和描述了本公开内容的各种实施方案,但对于本领域技术人员显而易见的是,这样的实施方案仅以示例的方式提供。本领域技术人员可在不偏离本发明的情况下想到许多变化、改变和替代。应当理解,可以使用本文中所述的本发明的实施方案的各种替代方案。

如本文所用的术语“测序”通常是指用于生成或鉴别生物分子(诸如核酸分子)的序列的过程。这样的序列可以是核酸序列,其可包括核酸碱基序列。测序方法可以是大规模平行阵列测序(例如,illumina测序),其可使用固定在支撑物如流动细胞或珠子上的模板核酸分子来执行。测序方法可包括但不限于:高通量测序、下一代测序、合成测序、流式测序、大规模平行测序、鸟枪法测序、单分子测序、纳米孔测序、焦磷酸测序、半导体测序、连接测序、杂交测序、rna-seq(illumina)、数字基因表达(helicos)、单分子合成测序(smss)(helicos)、克隆单分子阵列(solexa)和maxim-gilbert测序。

如本文所用的术语“流式测序”通常是指合成测序(sbs)过程,在该过程中,循环或非循环地引入的单核苷酸溶液产生被感测到(例如,通过检测来自dna延伸的荧光信号的检测器)的分离的dna延伸。

如本文所用的术语“受试者”通常是指具有正在进行处理或分析的生物样品的个体。受试者可以是动物或植物。受试者可以是哺乳动物,诸如人、狗、猫、马、猪或啮齿动物。受试者可患有或疑似患有疾病,诸如癌症(例如,乳腺癌、结直肠癌、脑癌、白血病、肺癌、皮肤癌、肝癌、胰腺癌、淋巴瘤、食管癌或宫颈癌)或感染性疾病。受试者可患有或疑似患有遗传病症,诸如软骨发育不全、α-1抗胰蛋白酶缺乏症、抗磷脂综合征、孤独症、常染色体显性多囊肾病、进行性神经性腓骨肌萎缩征(charcot-marie-tooth)、猫叫综合征、克罗恩病、囊性纤维化、痛性脂肪病(dercumdisease)、唐氏综合征、杜安综合征(duanesyndrome)、杜氏肌营养不良、莱顿第五因子血栓形成倾向、家族性高胆固醇血症、家族性地中海热、脆性x综合征、戈谢病、血色素沉着症、血友病、前脑无裂畸形、亨廷顿病、克林费尔特综合征、马方综合征、强直性肌营养不良、神经纤维瘤病、努南综合征、成骨不全、帕金森病、苯丙酮尿症、波伦异常、卟啉症、早衰、色素性视网膜炎、重度联合免疫缺陷、镰状细胞病、脊髓性肌萎缩、泰-萨克斯病(tay-sachs)、地中海贫血、三甲基胺尿症、特纳综合征、腭帆心脏面部综合征、wagr综合征或威尔逊病。

如本文所用的术语“样品”通常是指生物样品。生物样品的实例包括核酸分子、氨基酸、多肽、蛋白质、碳水化合物、脂肪或病毒。在实例中,生物样品是包含一个或多个核酸分子如脱氧核糖核酸(dna)和/或核糖核酸(rna)的核酸样品。核酸分子可以是无细胞的或是无细胞核酸分子,诸如无细胞dna或无细胞rna。核酸分子可衍生自多种来源,包括人类、哺乳动物、非人哺乳动物、猿、猴、黑猩猩、爬行动物、两栖动物或鸟类来源。此外,可从含有无细胞序列的各种动物液体提取样品,该液体包括但不限于血液、血清、血浆、玻璃体、痰液、尿液、泪液、汗液、唾液、精液、粘膜排泄物、粘液、脊髓液、羊水、淋巴液等。无细胞多核苷酸可能是胎儿起源的(通过取自妊娠受试者的流体),也可能衍生自受试者自身的组织。

如本文所用的术语“核酸”或“多核苷酸”通常是指包含一个或多个核酸亚单位或核苷酸的分子。核酸可包含选自腺苷(a)、胞嘧啶(c)、鸟嘌呤(g)、胸腺嘧啶(t)和尿嘧啶(u)或其变体的一种或多种核苷酸。核苷酸通常包含核苷和至少1、2、3、4、5、6、7、8、9、10个或更多个磷酸(po3)基团。核苷酸可包含核碱基、五碳糖(核糖或脱氧核糖)以及一个或多个磷酸基团。

核糖核苷酸是其中的糖为核糖的核苷酸。脱氧核糖核酸是其中的糖为脱氧核糖的核苷酸。核苷酸可以是核苷单磷酸或核苷多磷酸。核苷酸可以是脱氧核糖核苷多磷酸,例如,脱氧核糖核苷三磷酸(dntp),其可选自脱氧腺苷三磷酸(datp)、脱氧胞苷三磷酸(dctp)、脱氧鸟苷三磷酸(dgtp)、尿苷三磷酸盐(dutp)和脱氧胸苷三磷酸(dttp)dntp,包含可检测的标签,诸如发光标签或标记(例如,荧光团)。核苷酸可包括任何可掺入生长的核酸链的亚单位。这样的亚单位可以是a、c、g、t或u,或者特定于一个或多个互补a、c、g、t或u,或者互补于嘌呤(即a或g,或其变体)或嘧啶(即c、t或u,或其变体)的任何其他亚单位。在一些实例中,核酸是脱氧核糖核酸(dna)、核糖核酸(rna)或其衍生物或变体。核酸可以是单链的或双链的。在一些情况下,核酸分子是环形的。

如本文所用的术语“核酸分子”、“核酸序列”、“核酸片段”、“寡核苷酸”和“多核苷酸”通常是指具有各种长度的多核苷酸,诸如脱氧核糖核酸或核糖核苷酸(rna)或其类似物。核酸分子可具有至少约10个碱基、20个碱基、30个碱基、40个碱基、50个碱基、100个碱基、200个碱基、300个碱基、400个碱基、500个碱基、1千碱基(kb)、2kb、3kb、4kb、5kb、10kb、50kb或更大的长度。寡核苷酸通常由四种核苷酸碱基:腺嘌呤(a);胞嘧啶(c);鸟嘌呤(g);和胸腺嘧啶(t)(当多核苷酸为rna时,用尿嘧啶(u)替代胸腺嘧啶(t))的特定序列组成。因此,术语“寡核苷酸序列”是多核苷酸分子的字母表示;或者,该术语可适用于多核苷酸分子本身。这种字母表示可输入到具有中央处理单元的计算机中的数据库中,并用于生物信息学应用,如功能基因组学和同源性搜索。寡核苷酸可包含一个或多个非标准核苷酸、核苷酸类似物和/或修饰核苷酸。

如本文所用的术语“核苷酸类似物”可包括但不限于二氨基嘌呤、5-氟尿嘧啶、5-溴尿嘧啶、5-氯尿嘧啶、5-碘尿嘧啶、次黄嘌呤、黄嘌呤(xantine)、4-乙酰胞嘧啶、5-(羧基羟甲基)尿嘧啶、5-羧甲基氨基甲基-2-硫尿苷、5-羧甲基氨基甲基尿嘧啶、二氢尿嘧啶、β甲基氨半乳糖基queosine、肌苷、n6-异戊烯基腺嘌呤、1-甲基鸟嘌呤、1-甲基肌苷、2,2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞嘧啶、5-甲基胞嘧啶、n6-腺嘌呤、7-甲基鸟嘌呤、5-甲基氨基甲基尿嘧啶、5-甲氧基氨基甲基-2-硫尿嘧啶、β嘧啶氨甘露糖基queosine、5'-甲氧基羧甲基尿嘧啶、5-甲氧基尿嘧啶、2-甲基硫-d46-异戊烯基腺嘌呤、尿嘧啶-5-氧乙酸(v)、wybutoxosine、假尿嘧啶、queosine、2-硫胞嘧啶、5-甲基-2-硫尿嘧啶、2-硫尿嘧啶、4-硫尿嘧啶、5-甲基尿嘧啶、尿嘧啶-5-氧乙酸甲酯、尿嘧啶-5-氧乙酸(v)、5-甲基-2-硫尿嘧啶、3-(3-氨基-3-n-2-羧基丙基)尿嘧啶、(acp3)w、2,6-二氨基嘌呤、硒代磷酸(phosphoroselenoate)核酸等。在一些情况下,核苷酸可包括其磷酸部分的修饰,包括对三磷酸部分的修饰。另外,修饰的非限制性实例包括更大长度的磷酸链(例如,具有4、5、6、7、8、9、10或多于10个磷酸部分的磷酸链)、具有巯基部分的修饰(例如,α硫代三磷酸和β硫代三磷酸)或具有硒部分的修饰(例如,硒代磷酸核酸)。核酸分子还可在碱基部分(例如,在通常可用于与互补核苷酸形成氢键的一个或多个原子处和/或在通常不能与互补核苷酸形成氢键的一个或多个原子处)、糖部分或磷酸骨架处进行修饰。核酸分子还可含有胺修饰基团,诸如氨基烯丙基dutp(aa-dutp)和氨基己基丙烯酰胺dctp(aha-dctp),以允许胺反应性部分(诸如n-羟基琥珀酰亚胺酯(nhs))的共价连接。本公开内容的寡核苷酸中的标准dna碱基对或rna碱基对的替代物可提供更高的密度(单位为每立方毫米(mm)的比特数)、更高的安全性(例如,对天然毒素的意外或有意合成的抗性)、更容易的光程序化聚合酶辨别或更低的二级结构。核苷酸类似物可能够与用于核苷酸检测的可检测部分反应或结合。

如本文所用的术语“游离核苷酸类似物”通常是指未与另外的核苷酸或核苷酸类似物耦合的核苷酸类似物。游离核苷酸类似物可通过引物延伸反应掺入生长的核酸链中。

如本文所用的,术语“引物”通常是指与模板核酸互补的多核苷酸。引物和模板核酸之间的互补性、同源性或序列同一性可能是有限的。引物的长度可以是8个核苷酸碱基至50个核苷酸碱基。引物的长度可大于或等于6个核苷酸碱基、7个核苷酸碱基、8个核苷酸碱基、9个核苷酸碱基、10个核苷酸碱基、11个核苷酸碱基、12个核苷酸碱基、13个核苷酸碱基、14个核苷酸碱基、15个核苷酸碱基、16个核苷酸碱基、17个核苷酸碱基、18个核苷酸碱基、19个核苷酸碱基、20个核苷酸碱基、21个核苷酸碱基、22个核苷酸碱基、23个核苷酸碱基、24个核苷酸碱基、25个核苷酸碱基、26个核苷酸碱基、27个核苷酸碱基、28个核苷酸碱基、29个核苷酸碱基、30个核苷酸碱基、31个核苷酸碱基、32个核苷酸碱基、33个核苷酸碱基、34个核苷酸碱基、35个核苷酸碱基、37个核苷酸碱基、40个核苷酸碱基、42个核苷酸碱基、45个核苷酸碱基、47个核苷酸碱基或50个核苷酸碱基。

引物可表现出与模板核酸的序列同一性或同源性或互补性。引物与模板核酸之间的同源性或序列同一性或互补性可基于引物的长度。例如,若引物长度为约20个核酸,则其可包含10个或更多个与模板核酸互补的连续核酸碱基。

如本文所用的术语“引物延伸反应”通常是指引物与模板核酸链的结合,然后是引物的延伸。其还可包括双链核酸的变性以及引物链与变性的模板核酸链中的一个或两个的结合,然后是引物的延伸。引物延伸反应可用于通过使用酶(聚合酶)以模板指导的方式将核苷酸或核苷酸类似物掺入引物。

如本文所用的术语“聚合酶”通常指能够催化聚合反应的任何酶。聚合酶的实例包括但不限于核酸聚合酶。聚合酶可天然发生或是合成的。在一些情况下,聚合酶具有相对较高的持续合成能力。示例性的聚合酶是φ29聚合酶或其衍生物。聚合酶可以是聚合作用的酶。在一些情况下,使用转录酶或连接酶(即催化键形成的酶)。聚合酶的实例包括dna聚合酶、rna聚合酶、热稳定聚合酶、野生型聚合酶、修饰聚合酶、大肠杆菌(e.coli)dna聚合酶i、t7dna聚合酶、噬菌体t4dna聚合酶φ29(phi29)dna聚合酶、taq聚合酶、tth聚合酶、tli聚合酶、pfu聚合酶、pwo聚合酶、vent聚合酶、deepvent聚合酶、ex-taq聚合酶、la-taq聚合酶、sso聚合酶、poc聚合酶、pab聚合酶、mth聚合酶、es4聚合酶、tru聚合酶、tac聚合酶、tne聚合酶、tma聚合酶、tea聚合酶、tih聚合酶、tfi聚合酶、platinumtaq聚合酶、tbr聚合酶、tfl聚合酶、pfutubo聚合酶、pyrobest聚合酶、pwo聚合酶、kod聚合酶、bst聚合酶、sac聚合酶、klenow片段、具有3'至5'外切核酸酶活性的聚合酶及其变体、修饰产物和衍生物。在一些情况下,聚合酶是单亚单位聚合酶。聚合酶可具有高持续合成能力,即聚合酶在不释放核酸模板的情况下连续地将核苷酸掺入核酸模板的能力。在一些情况下,聚合酶是经修饰以接受双脱氧核苷酸三磷酸的聚合酶,例如具有667y突变的taq聚合酶(参见例如,tabor等人,pnas,1995,92,6339-6343,其为了所有目的通过引用整体并入本文)。在一些情况下,聚合酶是具有修饰的核苷酸结合的聚合酶,其可能对核酸测序有用,非限制性实例包括thermosequenas聚合酶(gelifesciences)、amplitaqfs(thermofisher)聚合酶和sequencingpol聚合酶(jenabioscience)。在一些情况下,聚合酶被基因工程化为对双脱氧核苷酸具有辨别性,例如测序酶dna聚合酶(thermofisher)。

如本文所用的术语“支撑物”通常是指固体支撑物,诸如载玻片、珠子、树脂、芯片、阵列、基质、膜、纳米孔或凝胶。固体支撑物可以是例如平面基板(诸如玻璃、塑料、硅等)上的珠子或基板的孔内的珠子。基板可具有表面性质,诸如纹理、图案、微结构涂层、表面活性剂或其任何组合,以将珠子保持在期望位置(诸如待与检测器可操作通信的位置)。基于柱子的支撑物的检测器可被配置成维持基本上相同的读取速率,而与珠子的大小无关。所述支撑物可以是流动池或开放基板。此外,所述支撑物可包括生物支撑物、非生物支撑物、有机支撑物、无机支撑物或其任何组合。支撑物可与检测器进行光通信、可与检测器物理接触、可与检测器相隔一定距离或其任何组合。所述支撑物可具有多个可独立寻址的位置。核酸分子可在多个可独立寻址位置的给定可独立寻址位置处固定至支撑物。多个核酸分子中的每一个与支撑物的固定可借助于衔接子的使用。支撑物可与检测器光学耦合。在支撑物上的固定可借助于衔接子。

如本文所用的术语“标记”通常是指能够与诸如核苷酸类似物等物种耦合的部分。在一些情况下,标记可以是发射可被检测的信号(或减少已发射的信号)的可检测标记。在一些情况下,这样的信号可指示一个或多个核苷酸或核苷酸类似物的掺入。在一些情况下,标记可与核苷酸或核苷酸类似物耦合,其中核苷酸或核苷酸类似物可用于引物延伸反应。在一些情况下,标记可在引物延伸反应后与核苷酸类似物耦合。在一些情况下,标记可与核苷酸或核苷酸类似物特异性反应。耦合可以是共价的或非共价的(例如,通过离子相互作用、范德华力等)。在一些情况下,耦合可经由可切割的接头,该接头可以是可切割的,诸如可光切割(例如,在紫外光下可切割)、可化学切割(例如,经由还原剂,诸如二硫苏糖醇(dtt)、tris(2-羧基乙基)膦(tcep))或可酶切割(例如,经由酯酶、脂肪酶、肽酶或蛋白酶)。

在一些情况下,标记可以是光学活性的。在一些实施方案中,光学活性标记是光学活性染料(例如,荧光染料)。染料的非限制性实例包括sybr绿、sybr蓝、dapi、碘化丙锭、hoeste、sybr金、溴化乙锭、吖啶、原黄素、吖啶橙、吖啶黄素、荧光香豆素(fluorcoumanin)、椭圆玫瑰树碱、道诺霉素、氯喹、偏端霉素d、色霉素、乙菲啶(homidium)、光神霉素、多吡啶钌、氨茴霉素、菲啶和吖啶、溴化乙锭、碘化丙锭、碘化己锭、二氢乙锭、乙锭同型二聚体-1和乙锭同型二聚体-2、单叠氮化乙锭和acma、hoechst33258、hoechst33342、hoechst34580、dapi、吖啶橙、7-aad、放线菌素d、lds751、羟脒(hydroxystilbamidine)、sytoxblue、sytoxgreen、sytoxorange、popo-1、popo-3、yoyo-1、yoyo-3、toto-1、toto-3、jojo-1、lolo-1、bobo-1、bobo-3、po-pro-1、po-pro-3、bo-pro-1、bo-pro-3、to-pro-1、to-pro-3、to-pro-5、jo-pro-1、lo-pro-1、yo-pro-1、yo-pro-3、picogreen、oligreen、ribogreen、sybrgold、sybrgreeni、sybrgreenii、sybrdx、syto-40、syto-41、syto-42、syto-43、syto-44、syto-45(蓝色)、syto-13、syto-16、syto-24、syto-21、syto-23、syto-12、syto-11、syto-20、syto-22、syto-15、syto-14、syto-25(绿色)、syto-81、syto-80、syto-82、syto-83、syto-84、syto-85(橙色)、syto-64、syto-17、syto-59、syto-61、syto-62、syto-60、syto-63(红色)、荧光素、异硫氰酸荧光素(fitc)、四甲基异硫氰酸罗丹明(tritc)、罗丹明、四甲基罗丹明、r-藻红蛋白、cy-2、cy-3、cy-3.5、cy-5、cy5.5、cy-7、德克萨斯红(texasred)、phar-red、别藻蓝蛋白(apc)、sybrgreeni、sybrgreenii、sybrgold、celltrackergreen、7-aad、乙锭同型二聚体i、乙锭同型二聚体ii、乙锭同型二聚体iii、溴化乙锭、伞形酮、曙红、绿色荧光蛋白、赤藓红、香豆素、甲基香豆素、芘、孔雀绿、茋、萤光黄、级联蓝(cascadeblue)、二氯三嗪胺荧光素、丹磺酰氯、荧光镧系络合物(如包含铕和铽的那些络合物)、羧基四氯荧光素、5-羧基荧光素和/或6-羧基荧光素(fam)、vic、5-碘乙酰胺基荧光素或6-碘乙酰胺基荧光素、5-{[2-5-(乙酰基巯基)-琥珀酰基]氨基}荧光素和5-{[3-5-(乙酰基巯基)-琥珀酰基]氨基}荧光素(samsa-荧光素)、丽丝胺罗丹明b磺酰氯、5-羧基罗丹明和/或6-羧基罗丹明(rox)、7-氨基-甲基-香豆素、7-氨基-4-甲基香豆素-3-乙酸(amca)、bodipy荧光团、8-甲氧基芘-1,3,6-三磺酸三钠盐、3,6-二磺酸-4-氨基-萘二甲酰亚胺、藻胆蛋白、alexafluor350、alexafluor405、alexafluor430、alexafluor488、alexafluor532、alexafluor546、alexafluor555、alexafluor568、alexafluor594、alexafluor610、alexafluor633、alexafluor635、alexafluor647、alexafluor660、alexafluor680、alexafluor700、alexafluor750和alexafluor790染料、dylight350、dylight405、dylight488、dylight550、dylight594、dylight633、dylight650、dylight680、dylight755和dylight800染料,或者其他荧光团。

在一些实例中,标记可以是核酸嵌入剂染料。实例包括但不限于溴化乙锭、yoyo-1、sybr绿和evagreen。能量供体与能量受体之间、嵌入剂与能量供体之间或者嵌入剂与能量受体之间的近场相互作用可导致独特信号的生成或信号幅度的改变。例如,这样的相互作用可导致猝灭(即导致非辐射能量衰减的从供体到受体的能量转移)或福斯特共振能量转移(即导致辐射能量衰减的从供体到受体的能量转移)。标记的其他实例包括电化学标记、静电标记、比色标记和质量标签。

如本文所用的术语“猝灭剂”通常是指能够降低发射的信号的分子。标记可以是猝灭剂分子。例如,模板核酸分子可被设计成发射可检测信号。包含猝灭剂的核苷酸或核苷酸类似物的掺入可减少或消除信号,然后检测到该减少或消除。在一些情况下,如本文其他部分所述,在核苷酸或核苷酸类似物掺入后,可发生使用猝灭剂的标记。猝灭剂的实例包括blackhole猝灭剂染料(biosearchtechnologies),诸如bh1-0、bhq-1、bhq-3、bhq-10;qsy染料荧光猝灭剂(来自分子探针/invitrogen),诸如qsy7、qsy9、qsy21、qsy35和其他猝灭剂如dabcyl和dabsyl;cy5q和cy7q以及暗花菁染料(gehealthcare)。其信号可与上述猝灭剂一起减少或消除的供体分子的实例包括荧光团,诸如cy3b、cy3或cy5;dy猝灭剂(dyomics),诸如dyq-660和dyq-661;荧光素-5-马来酰亚胺;7-二乙基氨基-3-(4'-马来酰亚胺基苯基)-4-甲基香豆素(cpm);n-(7-二甲基氨基-4-甲基香豆素-3-基)马来酰亚胺(dacm)和atto荧光猝灭剂(atto-tecgmbh),诸如atto540q、580q、612q、647n、atto-633-碘乙酰胺、四甲基罗丹明碘乙酰胺或atto-488碘乙酰胺。在一些情况下,标记可以是不自猝灭的类型,例如二胺(bimane)衍生物,诸如单溴二胺(monobromobimane)。

如本文所用的术语“检测器”通常是指能够检测信号的装置,该信号包括指示存在或不存在掺入的核苷酸或核苷酸类似物的信号。在一些情况下,检测器可包括可检测信号的光学和/或电子组件。术语“检测器”可用于检测方法中。检测方法的非限制性实例包括光学检测、光谱检测、静电检测、电化学检测等。光学检测方法包括但不限于荧光测定法和紫外-可见光吸收。光谱检测方法包括但不限于质谱、核磁共振(nmr)波谱和红外光谱。静电检测方法包括但不限于基于凝胶的技术,例如凝胶电泳。电化学检测方法包括但不限于在对扩增产物进行高效液相色谱分离后对扩增产物的电化学检测。

如本文所用的术语“信号”、“信号序列”和“序列信号”通常是指与dna分子或dna的克隆群体相关的一系列信号(例如,荧光测量值),包括原始数据。可使用高通量测序技术(例如,流式sbs)获得此类信号。可对此类信号进行处理以获得估算序列(例如,在初步分析期间)。

如本文所用的术语“序列”或“序列读取”通常是指在测序过程中进行的一系列核苷酸定位(assignment)(例如,通过碱基判定)。这样的序列可衍生自信号序列(例如,在初步分析期间)。

如本文所用的术语“同聚物”通常是指0,1,2,…,n个顺序的核苷酸的序列。例如,含有顺序的a核苷酸的同聚物可表示为a、aa、aaa,…,最多n个顺序的a核苷酸。

如本文所用的术语“hpn截短”通常是指处理一个或多个序列的集合的方法,使得具有大于或等于整数n的长度的一个或多个序列的集合中的每个同聚物被截短为长度n的同聚物。例如,序列“agggggt”到3个碱基的hpn截短可导致“agggt”的截短序列。

如本文所用的术语“类似物比对”通常是指将信号序列与参考信号序列进行比对。

如本文所用的术语“邻近序列依赖性”或“邻近序列依赖关系”通常是指与局部序列、相对核苷酸表示或基因组位点的信号相关性。给定序列的信号可因邻近序列依赖性而变化,邻近序列依赖性可取决于局部序列、序列的相对核苷酸表示或序列的基因组位点。

用于碱基判定的局部邻近序列量化

流式合成测序(sbs)通常包括执行重复的dna延伸循环,其中核苷酸和/或标记的类似物的单个种类呈递给引物-模板-聚合酶复合物,然后在互补的情况下掺入该核苷酸。可针对模板的每个克隆群体(例如,珠子或集落)测量每个流的产物。所得核苷酸掺入物可通过对应于或零、一、二、三、四、五、六、七、八、九、十或多于十个顺序的掺入物或者与之相关的明确区分性信号来检测和量化。对这样的多个顺序的掺入物的准确量化包括对每个流中的集落上掺入的0,1,2,…,n个顺序的核苷酸的每种可能的同聚物的特征性信号进行量化。例如,含有顺序的a核苷酸的同聚物可表示为a、aa、aaa,…,最多n个顺序的a核苷酸。同聚物长度的准确量化(例如,序列中顺序的相同核苷酸的数目)可能会由于信号水平的随机和不可预测的系统变化而遇到挑战,其可导致在同聚物长度量化中的错误。在一些情况下,仪器和检测系统可通过监测仪器诊断和大量集落之间的共模行为来校准和移除。同聚物长度的准确量化(例如,序列中顺序的相同核苷酸的数目)还可能由于对于每个序列可能不同的邻近序列依赖性信号而遇到挑战。例如,在稀释标记的核苷酸的荧光测量的情况下,邻近序列既可影响标记类似物的数目(用于并入标记类似物的可变耐受性),也可影响单个标记类似物的荧光(例如,受±5碱基的局部邻近序列影响的染料的量子产率,如[kretschy,等人,sequence-dependentfluorescenceofcy3-andcy5-labeleddouble-strandeddna,bioconjugatechem.,27(3),840-848页]所述,其通过引用整体并入本文)。实际上,通过染料终止剂桑格循环测序,已经鉴别出对于3碱基邻近序列的信号的实质性系统变化(例如,如[zakeri,等人,peakheightpatternindichloro-rhodamineandenergytransferdyeterminatorsequencing,biotechniques,25(3),406-10页]所述,其通过引用整体并入本文)。例如,图1示出了对于cy5标记的核苷酸类似物,对于6个局部邻近序列的可再现荧光信号变化的示例。

本公开内容提供了用于邻近序列感知测序的方法和系统(例如,适合于流式sbs)。所述方法和系统可包括编码的历史数据和算法步骤,以准确且有效地确定碱基判定和/或从与核苷酸流相对应的给定的一系列序列信号量化同聚物长度。这样的编码的历史数据可通过使用一种或多种测序化学变体(例如,聚合酶、标记的类似物、缓冲液和条件)对不同邻近序列的复制进行深度学习来开发。邻近序列感知可包括与一个或多个核苷酸碱基位置相关联的信息,诸如评估的给定同聚物、给定同聚物之前的一个或多个碱基、给定同聚物之后的一个或多个碱基,或其任何组合。

在一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法。量化邻近序列依赖性可包括对脱氧核糖核酸(dna)分子进行测序以提供多个序列信号,并且在一些情况下,提供多个估算序列。dna分子可包含已知序列。在一些实施方案中,dna分子包括合成模板(例如,合成模板dna分子)。在一些实施方案中,已知序列包括长度n的一个或多个同聚物(其中n可以是至少1个碱基、至少2个碱基、至少3个碱基、至少4个碱基、至少5个碱基、至少6个碱基、至少7个碱基、至少8个碱基、至少9个碱基或至少10个碱基)。在一些实施方案中,多个估算序列包括长度为n的一个或多个同聚物(其中n可以是至少1个碱基、至少2个碱基、至少3个碱基、至少4个碱基、至少5个碱基、至少6个碱基、至少7个碱基、至少8个碱基、至少9个碱基或至少10个碱基)。接下来,可通过确定一个或多个位点中的每一个的预期信号来量化邻近序列依赖性。邻近序列依赖性可至少基于(i)多个序列信号,(ii)多个估算序列,(iii)已知序列,或(iv)其组合来量化。

局部邻近序列的鉴别可包括聚合多个估算序列及其相关序列信号。然后,多个估算序列及其相关序列信号可堆叠在一起,在一些情况下使用与参考基因组的比对,以鉴别和分组与相同基因组位置相关联的核苷酸碱基。多个估算序列及其相关序列信号可通过将估算序列相互比较来堆叠在一起,以鉴别共同的局部邻近序列。或者,多个估算序列及其相关序列信号可通过与参考比对而堆叠在一起。例如,多个估算序列(及其相关序列信号)可与参考基因组比对。或者,多个序列信号(及其相关的估算序列)可与参考信号比对。堆叠的估算序列及其相关信号可使用任何数目的可能包含邻近序列依赖性的连续碱基堆叠在一起,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基、16个碱基、17个碱基、18个碱基、19个碱基、20个碱基或多于20个碱基。

使用这些由n碱基邻近序列聚集和分组的估算序列,可以构建和训练邻近序列模型(例如,通过聚集针对特定基因组邻近序列的数据以观察任何系统行为),以学习如何解释信号以实现准确的碱基判定和/或确定同聚物长度。开发邻近序列模型可以包括基于邻近序列依赖性信号和估算序列之间的相关性,分析多个相关联的序列信号以发现系统行为,以及开发用于预测碱基判定和/或同聚物长度的规则,如本文其他部分所述。这样的相关性或邻近序列依赖性可包括在给定序列或信号之前和/或之后的多个碱基(例如,2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基、16个碱基、17个碱基、18个碱基、19个碱基、20个碱基或多于20个碱基)。例如,若基于邻近序列依赖性,“a”出现在第一序列(例如,“tctcg”)之后,则可预期第一信号水平(例如,标称信号的0.7),并且若“a”出现在第二序列(例如,“aaacc”)之后,则可预期第二信号水平(例如,预期标称信号的1.3)。这样的邻近序列依赖性可聚集到训练模型中以优化例如来自估算序列和/或序列信号的碱基判定和同聚物长度的估计。

例如,邻近序列模型可以基于通过对具有已知序列(例如,来自合成模板dna分子)的dna分子进行测序而获得的估算序列和相关信号的分析而建立和训练(例如,使用机器学习技术)。这样的邻近序列模型可包含对应于位点的n碱基部分的预期序列信号(例如,信号幅度)(例如,其中n是至少1个碱基、至少2个碱基、至少3个碱基、至少4个碱基、至少5个碱基、至少6个碱基、至少7个碱基、至少8个碱基、至少9个碱基或至少10个碱基)。备选地或附加地,邻近序列模型可包含对应于位点的n碱基部分的序列信号(例如,信号幅度)的分布、中值、平均值或其他量化量度。

本公开内容的方法和系统可包括仅使用先验已知序列(例如,同聚物之前的双链序列)的算法,或同时评估一系列流测量值以确定包含最有可能产生观察结果的序列的一系列同聚物长度(例如,最大似然序列测定)的算法。该算法可解释可能发生并影响序列信号的任何标记-标记相互作用,例如,猝灭。该算法还可解释可能发生并影响序列信号的任何已知的位置依赖性信号和/或任何光漂白作用。例如,邻近序列依赖性可能受核苷酸的混合群体(例如,包含天然核苷酸和修饰核苷酸)的流式测序的影响。这样的核苷酸混合群体可能在流式测序过程中竞争通过聚合酶的掺入,从而产生不同的邻近序列依赖性序列信号。

该算法可并入已知序列的训练数据,该已知序列包含与同聚物信号变化具有显著相关性的每个邻近序列的一个或多个复制。对于待应用该算法的每个不同的分立化学变化,可以重复这样的并入。

该算法可包含辅助输出,其可包括量化噪声(例如,泊松或二项随机变化)的评估或其他质量评估,包括同聚物长度的置信区间或误差评估。输出还可以包括对化学过程参数(例如,温度)的动态评估,以及最有可能解释观察结果的标记部分。

经训练的邻近序列模型可随后由一种或多种训练算法(例如,机器学习算法)应用,以预测碱基判定和/或同聚物长度(例如,通过对具有未知序列的dna分子进行测序获得的多个估算序列和相关信号的碱基判定和/或同聚物长度)。这样的预测可包括优化或校正多个估算序列的碱基判定和/或同聚物长度。或者,这样的预测可包括从多个序列信号确定碱基判定和/或同聚物长度。例如,可以对包含未知序列的第二集合的dna分子进行测序,从而生成第二多个序列信号和估算序列。接下来,可以生成第二集合的dna分子的碱基判定,例如,至少基于(i)与第二多个序列信号相关联的第二多个估算序列和/或序列信号,(ii)第二多个估算序列,(iii)预期信号的至少一部分,(iv)已知序列,或(v)其组合。这样的预测可以实时执行(例如,在测量序列信号的同时)。实时可以包括小于1秒、十分之一秒、百分之一秒、毫秒或更短的响应时间。实时可以包括相对于另一过程或操作(例如,测量序列信号)同时或基本上同时发生的过程或操作(例如,生成碱基判定)。本文所述的所有操作,如训练算法、预测和/或生成碱基判定以及其他操作(诸如本文其他地方所述的那些操作)能够实时发生。

用于同聚物判定的方法

本公开内容提供了用于准确和有效地对包含同聚物的序列进行碱基判定的方法和系统。这样的碱基判定可以作为测序过程,诸如执行核酸分子(例如,dna分子)的下一代测序(例如,合成测序或流式测序)的一部分来执行。这样的核酸分子可以获自或衍生自来自受试者的样品。这样的受试者可患有疾病或疑似患有疾病。本文所述的方法和系统可用于显著减少或消除量化同聚物长度中的误差以及与邻近序列依赖性相关联的误差。这样的方法和系统可以实现同聚物的准确有效的碱基判定、同聚物长度的量化以及序列信号中邻近序列依赖性的量化。

本文提供的方法和系统可用于直接判定同聚物长度,每个读取具有高准确性。此外,本文提供的方法和系统可包括将含有不确定长度的同聚物的临时量化读取(例如,估算序列)与参考进行比对。可以使用对同聚物长度误差施加低罚分的算法来执行这样的比对。使用多个比对读取的统计能力、同聚物长度和不确定性的评估(例如,置信区间或误差评估),本文提供的方法和系统可基于所有读取(例如,对于纯合位点)或簇读取的共有序列来确定同聚物长度。备选地或组合地,本文提供的方法和系统可对簇(例如,对于杂合位点)进行共有序列判定。

在一方面,本文公开了用于处理多个序列信号的方法。这样的方法可用于通过比对读取的共有序列来确定同聚物长度,如图2所示,其示出了使用与hpn截短的参考序列的比对进行序列信号的初步分析的流程图。该方法可包括对核酸样品进行测序以提供多个序列信号和估算序列。从这样的估算序列,可以鉴别至少n个碱基的同聚物序列(例如,包含含有相同碱基的多个连续核苷酸的同聚物的序列)。这些已鉴别的估算同聚物序列随后可被截短为长度n的碱基的同聚物序列,以产生一个或多个hpn截短序列。长度n可以是任何数目的多个碱基,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基或多于15个碱基。图3示出了截短同聚物比对的实例,其中给定序列中所有鉴别的长度为n或更大的同聚物被截短为长度n的同聚物,然后与参考进行比对。

在截短后,一个或多个hpn截短序列可以与一个或多个截短参考进行比对。这样的截短参考可以是hpn截短的,从而包含截短为长度n的一个或多个同聚物序列。在一个或多个hpn截短序列的比对后,可以从与一个或多个hpn截短的参考进行比对的一个或多个hpn截短序列生成共有序列。这样的共有序列可以包括长度n的同聚物序列。可以基于比对的hpn截短序列、与比对的hpn截短序列相关联的序列信号或其组合生成共有序列。

在一些实施方案中,用于处理多个序列信号的方法可以包括计算同聚物序列的长度估计误差。长度估计误差可包括同聚物序列长度(同聚物长度)的置信区间。例如,估算长度为5个碱基的同聚物的长度估计误差可包括[3,7]或5个碱基±2个碱基的置信区间。长度估计误差可至少基于与hpn截短参考比对的一个或多个hpn截短序列的信号或估算的同聚物长度的分布来计算。

在一些实施方案中,用于处理多个序列信号的方法可以包括预处理多个序列信号以去除系统误差。这样的预处理可以在截短鉴别的估算同聚物序列并将hpn截短序列与一个或多个截短参考进行比对之前执行。可以执行预处理以解决信号水平中的随机和不可预测的系统变化,其可导致量化同聚物长度时的误差。在一些情况下,可通过监测大量集落之间仪器诊断和共模行为来校准和去除仪器和检测的系统变化。

在一些实施方案中,用于处理多个序列信号的方法可包括确定同聚物序列的长度。可通过确定出现在由与多个序列信号相关联的比对的hpn截短序列生成的共有序列中的顺序核苷酸的数目来执行该确定。该确定可至少基于同聚物序列或与同聚物序列相关联的序列信号的聚类来执行。

在一些实施方案中,多个序列信号通过对受试者的核酸进行测序而产生。hpn截短参考可包括受试者物种的hpn截短参考基因组(例如,hpn截短的人参考基因组)。在一些情况下,当生成共有序列时,计算或分类的长度的数目可能受到限制,这至少基于受试者物种的倍性。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。

在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的方法。这样的方法可用于通过用测定对已知基因组进行广泛训练来量化同聚物长度。该方法可包括对脱氧核糖核酸(dna)分子进行测序,以提供多个序列信号和估算序列。在一些情况下,dna分子包含已知序列。从这样的估算序列,可以鉴别至少n个碱基的同聚物序列(例如,含有包含相同碱基的多个连续核苷酸的同聚物的序列)。这些鉴别的估算同聚物序列随后可被截短为长度n的碱基的同聚物序列,以产生一个或多个hpn截短序列。长度n可以是任何数目的多个碱基,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基或多于15个碱基。在截短后,一个或多个hpn截短序列可与一个或多个截短参考进行比对。这样的截短参考可以是hpn截短的,从而包含截短为长度n的一个或多个同聚物序列。在一个或多个hpn截短序列进行比对后,可以量化关联序列信号的邻近序列依赖性。这样的量化可至少基于(i)与一个或多个hpn截短参考比对的一个或多个hpn截短序列和/或与hpn截短参考比对的一个或多个hpn截短序列相关联的序列信号,(ii)已知序列,或(iii)其组合。

在一些实施方案中,用于量化多个序列信号和估算序列的邻近序列依赖性的方法包括对包含未知序列的第二集合的dna分子进行测序,从而生成第二多个序列信号和估算序列。从这样的估算序列,可以鉴别至少n个碱基的第二同聚物序列(例如,含有包含相同碱基的多个连续核苷酸的同聚物的序列)。这些鉴别的估算第二同聚物序列随后可被截短为长度n的碱基的同聚物序列,以产生一个或多个第二hpn截短序列。长度n可以是任何数目的多个碱基,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基或多于15个碱基。在截短后,一个或多个第二hpn截短序列可以与一个或多个hpn截短参考进行比对。在一个或多个hpn截短序列进行比对后,可以确定第二多个dna分子的同聚物长度。这样的确定可以至少基于(i)与hpn截短参考比对的一个或多个hpn截短序列和/或与hpn截短参考比对的一个或多个hpn截短序列相关联的序列信号,(ii)量化的邻近序列依赖性,或(iii)其组合。

在一些实施方案中,量化的邻近序列依赖性针对给定邻近序列进行分类。这样的给定邻近序列可以是n碱基邻近序列,其中“n”是大于或等于2的整数、大于或等于3的整数、大于或等于4的整数、大于或等于5的整数、大于或等于6的整数、大于或等于7的整数、大于或等于8的整数、大于或等于9的整数、大于或等于10的整数、大于或等于11的整数、大于或等于12的整数、大于或等于13的整数、大于或等于14的整数、大于或等于15的整数、大于或等于16的整数、大于或等于17的整数、大于或等于18的整数、大于或等于19的整数或者大于或等于20的整数。

例如,如图4所示,量化的邻近序列依赖性可针对6碱基邻近序列进行分类,其中初始序列判定(例如,估算序列)按6碱基邻近序列(在该实例中为“tgttca”)分组。然后使用按6碱基邻近序列分组的估算序列的关联信号来建立系统邻近序列映射。例如,对邻近序列内估算序列的单个碱基和同聚物(例如,在该实例中,分别为“t”、“g”、“tt”、“c”和“a”)的代表性信号测量(信号水平)及其信号变化进行测量并记录为历史数据。历史数据可以单独地或共同地存储在一个或多个数据库中。数据库可以包含任何数据结构,诸如图表、表格、列表、数组、图、索引、散列数据库、一个或多个图形或者任何其他类型的结构。

作为另一实例,如图5所示,量化的邻近序列依赖性可针对6碱基邻近序列进行分类,其中hpn截短序列按6碱基邻近序列(在该实例中为“tgttca”)分组。然后使用按6碱基邻近序列分组的hpn截短序列的关联信号来建立系统邻近序列映射。例如,对邻近序列内hpn截短序列的单个碱基和同聚物(例如,在该实例中,分别为“t”、“g”、“tt”、“c”和“a”)的代表性信号测量(信号水平)及其信号变化进行测量并记录为历史数据(例如,在本文所述的系统的数据库中)。

图6示出了邻近序列图谱的实例,其包括信号与序列中掺入的连续核苷酸的数目(例如,同聚物长度)之间的数学关系。这样的关系可以表示为邻近序列特异性映射(邻近序列图谱)。如图6所示,真实序列(包含长度为2至4的同聚物)和真实序列的关联邻近序列依赖性信号的比较表明,由于邻近序列依赖性,同聚物的信号测量(信号水平)与同聚物的长度之间并没有完美的线性关系。这种非线性关系可导致估算同聚物长度的误差,该误差可随后使用历史数据和背景图谱进行校正。单调邻近序列(例如,按照同聚物长度严格递增的信号)可用于将一系列信号中的每一个映射到校正的同聚物长度。邻近序列图谱可用于训练一种或多种算法(例如,机器学习算法),以将信号转换为预测序列和/或同聚物长度。例如,可以将在估算序列中找到的每个局部邻近序列与聚合数据库进行比较,以检索可应用于转换的规则。

在一些实施方案中,dna分子衍生自核糖核酸(rna)分子。例如,可以通过对rna分子执行逆转录以生成互补dna(cdna)分子或其衍生物来生成dna分子。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。在一些实施方案中,量化邻近序列依赖性包括针对多个位点中的每一个建立信号幅度与同聚物长度之间的关系。这样的关系可表示为邻近序列特异性映射(邻近序列图谱)。

在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的方法。这样的方法可以包括对脱氧核糖核酸(dna)分子进行测序,以提供多个序列信号和估算序列。在一些情况下,dna分子包含已知序列。从这样的估算序列,可以鉴别至少n个碱基的同聚物序列(例如,含有包含相同碱基的多个连续核苷酸的同聚物的序列)。这些鉴别的估算同聚物序列随后可被截短为长度n的碱基的同聚物序列,以产生一个或多个hpn截短序列。长度n可以是任何数目的多个碱基,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基或多于15个碱基。在截短后,一个或多个hpn截短序列可以与一个或多个截短参考进行比对。这样的截短参考可以是hpn截短的,从而包含截短为长度n的一个或多个同聚物序列。在一个或多个hpn截短序列进行比对后,可以确定所述hpn截短参考中的多个位点中的每一个的预期信号。这样的预期信号可至少基于以下来确定:

(i)与hpn截短参考比对的一个或多个hpn截短序列和/或与hpn截短参考比对的一个或多个hpn截短序列相关联的序列信号,

(ii)所述已知序列,或(iii)其组合。

在一些实施方案中,用于量化多个序列信号和估算序列的邻近序列依赖性的方法包括对包含未知序列的第二集合的dna分子进行测序,从而生成第二多个序列信号和估算序列。从这样的估算序列,可以鉴别至少n个碱基的第二同聚物序列(例如,含有包含相同碱基的多个连续核苷酸的同聚物的序列)。这些鉴别的估算第二同聚物序列随后可被截短为长度n的碱基的同聚物序列,以产生一个或多个第二hpn截短序列。长度n可以是任何数目的多个碱基,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基或多于15个碱基。在截短后,一个或多个第二hpn截短序列可以与一个或多个hpn截短参考进行比对。在一个或多个hpn截短序列进行比对后,可以确定第二多个dna分子的同聚物长度。这样的确定可以至少基于(i)与hpn截短参考比对的一个或多个hpn截短序列和/或与hpn截短参考比对的一个或多个hpn截短序列相关联的序列信号,(ii)量化的邻近序列依赖性,或(iii)其组合。

在一些实施方案中,dna分子衍生自核糖核酸(rna)分子。例如,可以通过对rna分子执行逆转录以生成互补dna(cdna)分子或其衍生物来生成dna分子。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。在一些实施方案中,量化邻近序列依赖性包括针对多个位点中的每一个建立信号幅度与同聚物长度之间的关系。这样的关系可表示为邻近序列特异性映射(邻近序列图谱)。

在另一方面,本文公开了用于处理多个序列信号的方法。这样的方法可用于通过并入二次分析数据来确定同聚物长度。该方法可包括对核酸样品进行测序以提供多个序列信号和估算序列。可对多个序列信号和估算序列进行处理以确定包含同聚物序列的一个或多个序列的集合。还可对多个序列信号和估算序列进行处理以鉴别同聚物序列的至少一部分的存在和/或估计长度。可使用一种或多种算法通过将信号转换为同聚物长度(例如,使用邻近序列图谱或其他邻近序列依赖性信息)来鉴别同聚物序列的存在和/或估计长度。同聚物序列的估计长度可使用二次分析数据进行优化。这样的二次分析数据可用于提供或增强邻近序列依赖性信息。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。

用于类似物比对的方法

在另一方面,本文公开了用于处理多个序列信号的方法。这样的方法可用于通过信号与参考信号(例如,类似物参考信号)的比对来确定同聚物长度,如图7所示,其示出了使用与类似物参考信号的比对来进行序列信号的初步分析的流程图。该方法可包括对核酸样品进行测序以提供多个序列信号。多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。至少基于比对的序列信号,可以鉴别包含同聚物序列的参考位点。可以从与参考信号比对的多个序列信号生成共有序列。共有序列可包含n个碱基的同聚物序列。可以至少基于所鉴别的参考位点、所述参考位点的同聚物序列的长度和参考信号(例如,类似物参考信号)来执行生成。

在一些实施方案中,用于处理多个序列信号的方法可包括计算同聚物序列的长度估计误差。长度估计误差可包括同聚物序列长度(同聚物长度)的置信区间。例如,估算长度为5个碱基的同聚物的长度估计误差可包括[3,7]或5个碱基±2个碱基的置信区间。长度估计误差可至少基于与参考信号比对的多个序列信号的信号或估算的同聚物长度的分布来计算。

在一些实施方案中,用于处理多个序列信号的方法可以包括预处理多个序列信号以去除系统误差。这样的预处理可以在将多个序列信号与参考信号进行比对之前执行。可以执行预处理以解决信号水平中的随机和不可预测的系统变化,其可导致量化同聚物长度时的误差。在一些情况下,可通过监测大量集落的仪器诊断和共模行为来校准和去除仪器和检测系统变化。

在一些实施方案中,多个序列信号通过对受试者的核酸进行测序而产生。在一些情况下,当生成共有序列时,计算或分类的长度的数目可能受到限制,这至少基于受试者物种的倍性。多个序列信号可以通过任何合适的测序方法如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。

在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法。该方法可包括对脱氧核糖核酸(dna)分子进行测序以提供多个序列信号。dna分子可包含已知序列。多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。可以在与所述参考信号比对的多个序列信号中对邻近序列依赖性进行量化。邻近序列依赖性的量化可以至少基于已知序列来执行。在一些实施方案中,该比对可以包括执行一种或多种类似物信号处理算法。

在一些实施方案中,用于量化多个序列信号的邻近序列依赖性的方法包括对包含未知序列的第二集合的dna分子进行测序,从而生成第二多个序列信号。第二多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。在第二多个序列信号进行比对后,可以确定第二多个dna分子的同聚物长度。这样的确定可以至少基于与所述参考信号比对的多个序列信号、量化的邻近序列依赖性或其组合。

在一些实施方案中,dna分子衍生自核糖核酸(rna)分子。例如,可以通过对rna分子执行逆转录以生成互补dna(cdna)分子或其衍生物来生成dna分子。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。在一些实施方案中,量化邻近序列依赖性包括针对多个位点中的每一个建立信号幅度与同聚物长度之间的关系。这样的关系可表示为邻近序列特异性映射(邻近序列图谱)。

在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法。该方法可包括对脱氧核糖核酸(dna)分子进行测序以提供多个序列信号。dna分子可包含已知序列。多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。在多个序列信号与参考信号进行比对之后,可以针对参考信号中的多个位点中的每一个来确定预期信号。该确定可至少基于与所述参考信号比对的多个序列信号、已知序列或其组合来执行。在一些实施方案中,比对可以包括执行一种或多种类似物信号处理算法。

在一些实施方案中,用于量化多个序列信号的邻近序列依赖性的方法包括对包含未知序列的第二集合的dna分子进行测序,从而生成第二多个序列信号。第二多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。在第二多个序列信号进行比对后,可以确定第二多个dna分子的同聚物长度。这样的确定可以至少基于与所述参考信号比对的多个序列信号、量化的邻近序列依赖性或其组合。

在一些实施方案中,dna分子衍生自核糖核酸(rna)分子。例如,可以通过对rna分子执行逆转录以生成互补dna(cdna)分子或其衍生物来生成dna分子。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。在一些实施方案中,量化邻近序列依赖性包括针对多个位点中的每一个建立信号幅度与同聚物长度之间的关系。这样的关系可表示为邻近序列特异性映射(邻近序列图谱)。

在另一方面,本文公开了用于处理多个序列信号的方法。该方法可包括对核酸样品进行测序以提供多个序列信号。多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。在多个序列信号与参考信号进行比对后,可鉴别包含同聚物序列的基因组位点。可以至少基于比对的序列信号来执行该鉴别。可对与参考信号比对的多个序列信号进行处理以鉴别同聚物序列的存在和/或估计长度。可使用一种或多种算法通过将信号转换为同聚物长度(例如,使用邻近序列图谱或其他邻近序列依赖性信息)来鉴别同聚物序列的存在和/或估计长度。同聚物序列的估计长度可使用二次分析数据进行优化。这样的二次分析数据可用于提供或增强邻近序列依赖性信息。多个序列信号可以由任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。

计算机控制系统

本公开内容提供了被编程用于实现本公开内容的方法的计算机控制系统。图8示出了计算机系统801,其被编程或以其他方式配置用于:处理多个序列信号和/或估算序列、存储多个序列信号和/或估算序列、执行序列的hpn截短、将序列与参考序列进行比对、将信号与参考信号进行比对、从比对序列生成共有序列、量化邻近序列依赖性(例如,序列信号和/或估算序列的邻近序列依赖性)、存储训练数据(例如,包含参考比对信号或由参考比对信号量化的邻近序列依赖性的数据)、确定一个或多个位点的预期信号、鉴别同聚物序列的存在和/或估计长度、将信号转换为同聚物长度以及/或者使用二次分析数据优化估计的同聚物长度。

计算机系统801可以调节本公开内容的方法和系统的各个方面,例如,处理多个序列信号和/或估算序列、存储多个序列信号和/或估算序列、执行序列的hpn截短、将序列与参考序列进行比对、将信号与参考信号进行比对、从比对序列生成共有序列、量化邻近序列依赖性(例如,序列信号和/或估算序列的邻近序列依赖性)、存储训练数据(例如,包含参考比对信号或由参考比对信号量化的邻近序列依赖性的数据)、确定一个或多个位点的预期信号、鉴别同聚物序列的存在和/或估计长度、将信号转换为同聚物长度以及/或者使用二次分析优化估计的同聚物长度。

计算机系统801可以是用户的电子设备或相对于电子设备远程定位的计算机系统。该电子设备可以是移动电子设备。计算机系统801包括中央处理单元(cpu,本文也称为“处理器”和“计算机处理器”)805,其可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统801还包括存储器或存储器位置810(例如,随机存取存储器、只读存储器、闪存)、电子存储单元815(例如,硬盘)、用于与一个或多个其他系统通信的通信接口820(例如,网络适配器)以及外围设备825,诸如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器810、存储单元815、接口820和外围设备825通过诸如主板等通信总线(实线)与cpu805通信。存储单元815可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统801借助于通信接口820可操作地耦合到计算机网络(“网络”)830。网络830可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。在一些情况下,网络830是电信和/或数据网络。网络830可以包括一个或多个计算机服务器,其可以实现分布式计算,诸如云计算。在一些情况下,网络830可以借助于计算机系统801实现对等网络,这可以使得耦合到计算机系统801的设备能够起到客户端或服务器的作用。

cpu805可以执行一系列机器可读指令,该机器可读指令可以体现在程序或软件中。指令可以存储在存储位置如存储器810中。指令可以针对cpu805,该指令随后可以编程或以其他方式配置cpu805以实现本公开内容的方法。由cpu805执行的操作的实例可以包括提取、解码、执行和回写。

cpu805可以是电路如集成电路的一部分。电路中可以包括系统801的一个或多个其他组件。在一些情况下,该电路是专用集成电路(asic)。

存储单元815可以存储文件,诸如驱动程序、库和保存的程序。存储单元815可以存储用户数据,例如用户偏好和用户程序。在一些情况下,计算机系统801可以包括一个或多个附加数据存储单元,所述附加数据存储单元位于计算机系统801外部,诸如位于通过内联网或因特网与计算机系统801通信的远程服务器上。

计算机系统801可通过网络830与一个或多个远程计算机系统通信。例如,计算机系统801可以与用户的远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如,便携式pc)、平板或平板型pc(例如,galaxytab)、电话、智能手机(例如,支持android的设备、)或个人数字助理。用户可以经由网络830访问计算机系统801。

本文所述的方法可通过机器(例如,计算机处理器)可执行代码的方式来实现,该机器可执行代码存储在计算机系统801的电子存储位置上,例如存储器810或电子存储单元815上。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间,该代码可由处理器805执行。在一些情况下,可从存储单元815检索代码并将其存储在存储器810上,以供处理器805迅速存取。在一些情况下,可排除电子存储单元815,并且将机器可执行指令存储在存储器810上。

该代码可以被预编译并配置用于由具有适于执行代码的处理器的机器使用,或者可以在运行期间被编译。代码可以用编程语言提供,可以选择编程语言以使代码能够以预编译或即时编译(as-compiled)的方式执行。

本文提供的系统和方法的各个方面,诸如计算机系统801,可以在编程中体现。该技术的各个方面可以被认为是“产品”或“制品”,其一般为在一种类型的机器可读介质上携带或体现的机器(或处理器)可执行代码和/或相关数据的形式。机器可执行代码可以存储在电子存储单元如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘上。“存储”型介质可以包括计算机的任何或全部有形存储器、处理器等,或其相关模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可以在任何时间为软件编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。例如,这样的通信可以使软件从能够一台计算机或处理器加载到另一台计算机或处理器中,例如从管理服务器或主机加载到应用服务器的计算机平台中。因此,可以承载软件元素的另一类型的介质包括光波、电波和电磁波,诸如跨本地设备之间的物理接口、通过有线和光学陆线网络以及各种空中链路而使用的。携载此类波的物理元件,诸如有线或无线链路、光学链路等,也可以被视为承载软件的介质。如本文所用,除非仅限于非暂时性有形的“存储”介质,否则计算机或机器“可读介质”等术语是指参与向处理器提供指令以供执行的任何介质。

因此,机器可读介质如计算机可执行代码可采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,诸如任何计算机中的任何存储设备等,诸如可用于实现如附图中所示的数据库等。易失性存储介质包括动态存储器,诸如这样的计算机平台的主存储器。有形传输介质包括同轴缆线、铜线和光纤,包括构成计算机系统内的总线的线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,诸如在射频(rf)和红外(ir)数据通信期间产生的那些。因此,计算机可读介质的常见形式包括例如:软盘、柔性盘、硬盘、磁带、任何其他磁性介质、cd-rom、dvd或dvd-rom、任何其他光学介质、穿孔卡片纸带、任何其他具有孔洞图案的物理存储介质、ram、rom、prom和eprom、flash-eprom、任何其他存储器芯片或匣盒、传送数据或指令的载波、传送此类载波的电缆或链路,或者计算机可以从中读取编程代码和/或数据的任何其他介质。这些计算机可读介质形式中的许多可涉及将一个或多个指令的一个或多个序列携带到处理器以供执行。

计算机系统801可以包括电子显示器835,或者与电子显示器835通信,电子显示器835包括用于提供例如算法、信号数据、序列数据和数据库的用户选择的用户界面(ui)840。ui的实例包括但不限于图形用户界面(gui)和基于网络的用户界面。

本公开内容的方法和系统可通过一种或多种算法来实现。算法可以在由中央处理单元805执行时通过软件的方式来实现。例如,该算法可以处理多个序列信号和/或估算序列、存储多个序列信号和/或估算序列、执行序列的hpn截短、将序列与参考序列进行比对、将信号与参考信号进行比对、从比对序列生成共有序列、量化邻近序列依赖性(例如,序列信号和/或估算序列的邻近序列依赖性)、存储训练数据(例如,包含参考比对信号或由参考比对信号量化的邻近序列依赖性的数据)、确定一个或多个位点的预期信号、鉴别同聚物序列的存在和/或估计长度、将信号转换为同聚物长度以及/或者使用二次分析数据优化估计的同聚物长度。

虽然本文已经示出和描述了本公开内容的优选实施方案,但是对于本领域技术人员而言显而易见的是,这些实施方案仅以示例的方式提供。本发明不意在受说明书中提供的具体实例的限制。虽然已经参考上述说明书描述了本发明,但是本文实施方案的描述和说明并不意味着以限制性意义进行解释。在不偏离本公开内容的情况下,本领域技术人员现将想到许多变化、改变和替代。此外,应当理解,本发明的所有方面不限于本文阐述的特定描述、配置或相对比例,而是取决于各种条件和变量。应当理解,本文所述的本发明实施方案的各种替代方案可用于实践本发明。因此,考虑到本发明还应涵盖任何此类替代、修改、变化或等同物。以下权利要求旨在限定本发明的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同物。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜