一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

参考引导的基因组测序的制作方法

2022-07-10 17:21:48 来源:中国专利 TAG:

参考引导的基因组测序
1.相关申请的交叉引用
2.本技术涉及2020年3月17日提交的并且名称为“devices and methods for locating a sample read in a reference genome”的共同未决的美国申请16/820,711(代理人案卷号wda-4726-us),其全部内容据此以引用方式并入。本技术还涉及2020年3月18日提交的并且名称为“reference-guided genome sequencing”的共同未决的美国申请16/822,010(代理人案卷号wda-4725-us),其全部内容据此以引用方式并入。


背景技术:

3.目前的dna(脱氧核糖核酸)样本处理的局限性导致样本读段或样本基因组的部分在样本基因组中具有通常未知的位置。对于在将样本读段彼此比较以在样本基因组内定位样本读段时不使用参考基因组的从头测序,通常将样本读段作为单个大组分析,这需要大量的存储器资源和高计算成本来将大组中的样本读段彼此比较以确定样本读段在样本基因组内的位置。此类从头测序的常规方法相对于基因组测序需要处理的大量数据是不可扩展的。更详细地,常规的从头测序方法通常将一大组样本读段存储在共享存储器诸如昂贵的2tb dram中。由于可通过独立的高带宽信道连接到共享dram的计算核的数量是有限的(例如,至多24个核),所以这种布置限制了可用于从头测序的独立计算线程的数量(例如,至多128个计算线程)。
4.对于使用参考基因组在样本基因组内定位样本读段的参考比对测序,通常针对每个样本读段搜索完整参考基因组以在参考基因组内定位样本读段。此类参考比对测序还需要大量的存储器资源来存储完整参考基因组,并且需要高计算成本来将每个样本读段与完整参考基因组进行比较。参考比对测序的常规方法也具有有限的可扩展性。更详细地,参考比对测序的常规方法可将样本读段随机地分成由对应的计算线程处理的组。然而,每个计算线程通常需要诸如16gb dram的大型专用存储器来存储整个参考基因组。在其他技术中,参考基因组可存储在单个共享的16gb dram中,但如上针对常规的从头测序所指出的,这种共享存储器布置限制了可访问共享存储器的核和计算线程的数量。因此,需要在计算成本、存储器资源和可扩展性方面改进基因组测序。
附图说明
5.通过下文所述的具体实施方式并且结合附图,本公开的实施方案的特征和优势将变得更加显而易见。提供附图和相关联描述是为了说明本公开的实施方案,而不是限制所要求保护的范围。
6.图1是根据一个或多个实施方案的用于基因组测序的系统的框图。
7.图2示出了根据一个或多个实施方案的图1的系统的参考引导设备中的多个单元组的示例。
8.图3示出了根据一个或多个实施方案的从头基因组测序的示例。
9.图4是根据一个或多个实施方案的从头基因组测序过程的流程图。
10.图5示出了根据一个或多个实施方案的参考比对基因组测序的示例。
11.图6是根据一个或多个实施方案的参考比对基因组测序过程的流程图。
具体实施方式
12.在以下具体实施方式中阐述了许多具体细节,以便提供对本公开的彻底理解。然而,对于本领域普通技术人员显而易见的是,可在不具有这些具体细节中的一些细节的情况下实践所公开的各种实施方案。在其他情况下,并未详细示出众所周知的结构和技术以避免不必要地模糊各种实施方案。
13.系统示例
14.图1是根据一个或多个实施方案的用于基因组测序的系统100的框图,该系统包括主机1011至101n和参考引导设备102。主机101与参考引导设备102通信以从参考引导设备102接收包括已由参考引导设备102分类的样本读段的相应样本组111至11n。在其他具体实施中,相反,主机101可接收指示或数据结构,该指示或数据结构指示从共享存储器获得样本读段池中的哪些样本读段以供相应主机101进一步处理。
15.在其中主机101执行参考比对测序的具体实施中,主机101还可接收对应于为样本读段所确定的概率性位置的任选的参考分区121至12n,其包括参考基因组(诸如人参考基因组h38)的一部分。任选的参考分区121至12n可从设备102或从另一设备接收,诸如从存储完整参考基因组的共享存储器接收。如下文参考图5和图6更详细地讨论的,主机101可使用任选的参考分区121至12n,通过将样本组11中的样本读段与相关联的参考分区12进行比较,将相应样本组11中的样本读段比对成重叠片段或重叠群。
16.在其中主机101执行从头测序的具体实施中,主机101可不接收任选的参考分区121至12n。在此类从头测序具体实施中,主机101通过将样本组11中的样本读段与样本组中的其他样本读段进行比较,将相应样本组11中的样本读段比对成重叠片段或重叠群。
17.为了便于描述,将在dna测序的上下文中描述本公开中的示例性实施方案。然而,本公开的实施方案不限于dna测序,并且通常可应用于任何基于核酸的测序,包括rna(核糖核酸)测序。
18.图1的示例中的样本读段可最初由一个或多个主机101或由图1中未示出的另一设备提供给参考引导设备102,以确定样本读段在存储在设备102的一个或多个阵列104中的参考基因组内的概率性位置。在一些具体实施中,生成样本读段的读取设备,诸如illumina设备(得自illumina,inc.,san diego,california)或纳米孔设备,可向参考引导设备102提供样本读段。在其他具体实施中,主机101或另一设备中的一者或多者可为参考引导设备102提供来自样本读段的样本子串,用于确定样本读段在参考基因组内的概率性位置。就其本身而言,设备102可为主机101提供存储在设备102的存储器108中的索引10,其基于与存储在设备102的一个或多个阵列104中的参考基因组相比较的样本子串来指示样本读段的概率性位置。在相关的共同未决申请16/820,711中提供了设备102和使用设备102在参考基因组内概率性地定位样本读段的方法的示例,该申请以引用方式并入上文。
19.主机101可包括例如计算机,诸如台式机或服务器、智能存储设备或其他处理节点,其可使用处理器109来实现基因组测序算法,诸如用于精确匹配的种子和扩展算法和/或用于基因组中的样本读段的近似匹配的计算上更复杂的算法,诸如burrows-wheeler算
法或smith-waterman算法。如下文更详细讨论的,设备102可用于在从头或参考比对测序之前将样本读段预处理成样本组11。就这一点而言,由参考引导设备102提供的概率性位置可在存储器资源和计算成本方面替代或提高原本由主机101的处理器109执行的算法的效率。此外,并且如下文参考图3至图6更详细地讨论的,由设备102提供的样本读段的概率性位置以及将样本读段分类成样本组11可允许提高基因组测序的可扩展性,从而降低执行从头或参考比对基因组测序的费用和时间。
20.如图1所示,每个主机101包括处理器109和存储器112,该存储器存储样本组11并任选地存储参考分区12。处理器109可包括例如中央处理单元(cpu)、微处理器(mpu)或微控制器(mcu)。处理器109也可以是片上系统(soc)的一部分。
21.主机101的存储器112可包括例如易失性ram诸如dram、非易失性ram、存储级内存(storage class memory,scm)或其他固态存储器。存储器112可由处理器109访问以存储和检索由处理器109使用的数据。就这一点而言,存储在存储器112中的数据可包括从由处理器109执行的应用程序加载的指令和/或在执行此类应用程序中使用的数据。
22.尽管本文中的描述通常是指固态存储器,但应理解,固态存储器可以包括各种类型的存储器设备中的一种或多种,诸如闪存集成电路、硫族化物ram(c-ram)、相变存储器(pc-ram或pram)、可编程金属化单元ram(pmc-ram或pmcm)、ovonic统一存储器(oum)、电阻ram(rram)、nand存储器(例如,单层单元(slc)存储器、多层单元(mlc)存储器(即,两层或更多层)或它们的任何组合)、nor存储器、eeprom、铁电存储器(feram)、磁阻ram(mram)、其他离散的非易失性存储器(nvm)芯片或它们的任何组合。
23.在一些具体实施中,参考引导设备102可包括例如一个或多个专用集成电路(asic)或现场可编程门阵列(fpga),用于生成指示来自样本读段的样本子串序列相对于参考基因组的概率性位置的索引10。样本子串序列的概率性位置可向主机101或存储多个样本读段的其他设备提供从其取得该样本子串序列的样本读段的概率性位置。如上所述,在一些具体实施中,主机101或另一设备中的一者或多者可为参考引导设备102提供当前样本子串序列以加载到设备102的一个或多个阵列104中。在其他具体实施中,主机101或另一设备中的一者或多者可为参考引导设备102提供样本读段,并且参考引导设备102可从样本读段中确定要加载到一个或多个阵列104中以用于与参考基因组进行比较的样本子串序列。
24.主机101和设备102可以在物理上协同定位或可以不在物理上协同定位。例如,在一些具体实施中,主机101和设备102可经由网络,诸如通过使用局域网(lan)或广域网(wan),诸如因特网、或者数据总线或数据网络结构进行通信。此外,本领域普通技术人员将理解,系统100的其他具体实施可包括用于提供样本读段的概率性位置的多个设备102。在某些实施方案中,一个或多个主机101和一个或多个设备102被集成为单个设备。
25.如图1的示例所示,设备102包括单元的一个或多个阵列104。如本文所用,单元通常是指用于存储代表一个或多个核苷酸(在本公开中称为碱基)的一个或多个值的存储器位置。在一些具体实施中,一个或多个阵列104可包括这样的单元,该单元还包括用于对存储在单元中的值执行一个或多个运算的逻辑。在此类示例中,一个或多个阵列中的每个单元可存储代表来自参考基因组的参考碱基的参考值和代表来自样本子串序列的碱基的样本值。单元可执行一个或多个运算以输出可由电路106或一个或多个阵列104的电路使用的值,以确定该一个或多个阵列104中的单元组是否存储与存储在单元组中的子串序列相匹
配的参考序列。在一些具体实施中,一个或多个阵列104可包括一个或多个脉动阵列,其中加载了代表来自参考基因组的参考碱基的参考值,并且可将代表来自样本子串序列的碱基的样本值加载到单元中,用于在将样本值传递到一个或多个阵列104的另一单元组中的下一个单元之前与参考值进行比较。
26.在其他具体实施中,一个或多个阵列104可包括可能不执行用以确定存储在单元中的值是否匹配的运算的固态存储器单元。例如,在一些具体实施中,电路106可确定存储在每个单元中的值是否匹配。作为另一变型,一个或多个阵列104可各自存储代表参考碱基的参考值或代表样本碱基的样本值。在此类具体实施中,存储参考值的单元可与存储样本值的单元配对,用于参考碱基与样本碱基的比较。在其他具体实施中,一个或多个阵列104中的单元可包括电路元件,诸如寄存器、锁存器或触发器。
27.设备102的电路106可包括例如硬连线逻辑、模拟电路和/或它们的组合。在其他具体实施中,电路106可包括一个或多个asic、微控制器、数字信号处理器(dsp)、fpga和/或它们的组合。在一些具体实施中,电路106可包括可与存储器108组合的一个或多个soc。如下文更详细讨论的,并且如相关申请16/820,711中所讨论的,电路106可被配置为识别一个或多个阵列104中的其中所存储的参考序列与存储在单元组中的当前子串序列相匹配的单元组。
28.更详细地,对于一个或多个阵列104中的每个单元组,来自参考基因组的参考碱基的参考序列可存储在该单元组中。参考序列对应于相应单元组中的单元的顺序。每个单元组被配置为存储代表参考基因组的一部分的参考序列,该参考基因组的该部分与由存储在一个或多个其他单元组中的一个或多个其他参考序列所代表的参考基因组的至少一个其他部分部分地重叠。下面参考图2更详细地讨论阵列中此类重叠参考序列的存储的示例。
29.此外,一个或多个阵列104中的每个单元组可被配置为存储与相应的单元组的顺序相对应的相同的当前子串序列。如上所述,电路106被配置为识别一个或多个阵列104中该多个单元组中的其中所存储的当前子串序列与存储在单元组中的参考序列相匹配的单元组。在一些具体实施中,可由电路106基于在执行至少一个逻辑运算(诸如一个或多个xnor运算和and运算)之后从单元输出的值来识别具有匹配序列的单元组。尽管xnor和and作为示例被提及,但本领域的普通技术人员将认识到,在其他实施方案中可通过不同的逻辑组合来实现相同的结果。在其他具体实施中,可由电路106基于在将代表参考碱基的参考值和代表样本碱基的样本值相乘之后从单元输出的值来进行具有匹配序列的单元组的识别。另外,在一些具体实施中,电路106可对存储在单元中的值执行所有运算,而不是由单元本身执行一些运算。
30.设备102的存储器108可包括例如易失性存储器,诸如dram,用于存储索引10。在其他具体实施中,存储器108可包括非易失性存储器,诸如mram。如图1所示,存储器108存储索引10,其可用于确定样本读段在由加载到或存储在一个或多个阵列104中的重叠参考序列所代表的参考基因组内的概率性位置。在一些具体实施中,索引10可包括数据结构,诸如位图或其他数据结构,其指示参考基因组中对应于被识别为存储匹配序列的单元组的索引或位置。电路106可为加载到一个或多个阵列104的每个单元组中的不同样本子串序列更新索引10。在一些具体实施中,电路106可指示具有多个匹配单元组的子串序列在索引10中的平均位置。在其他具体实施中,对于特定子串序列,可仅使用第一匹配单元组或某些匹配单元
组,或者对于具有存储匹配序列的超过单个单元组的子串序列,电路106可根本不更新索引10。
31.此外,一些具体实施可不使用索引或其他数据结构来指示具有匹配序列的单元组的位置。例如,在一些具体实施中,电路106可直接向主机101输出指示具有匹配序列的单元组的数据,或者可直接输出已被分类成特定样本组11的样本读段。就这一点而言,系统100中的设备102或另一设备可针对主机101执行将样本读段分类成组11。
32.如本领域普通技术人员参考本公开将理解的,其他具体实施可包括与图1的示例中的系统100所示的那些不同数量或布置的部件。例如,其他具体实施可将设备102与另一设备(诸如被配置为将样本读段分类成样本组11的硬件加速器(例如,图形处理单元(gpu))组合,或可包括不同数量的设备102,或包括用于将样本读段分类成样本组11的专用设备。如上所述,系统100的其他具体实施可包括用于在将多个样本读段分类成样本组11之前临时存储多个样本读段或多个样本读段的部分的共享存储器。在其他具体实施中,设备102可接收由读取设备生成的样本读段,该读取设备诸如illumina或纳米孔设备,其检测dna样本内的碱基。
33.图2示出了根据一个或多个实施方案的参考引导设备102中的多个单元组的示例。如图2的示例所示,阵列104包括单元组1101至110
l-19
。尽管图2中的单元组1101至110
l-19
被示出为列,但其他具体实施可包括物理上不被布置为列的单元组。在一些实施方案中,阵列104可用位于同一阵列的不同部分中或不同阵列中的备用单元池中的另一单元替代来自一个单元组的有缺陷单元。在其中每个单元组存储已相对于前一单元组移位一个参考碱基的重叠参考序列的具体实施中,l可等于参考基因组的全长,诸如32亿个单元组或单元列,如在完整参考人基因组h38的情况下。相反,其他具体实施可存储已移位了不同数量的参考碱基(例如移位了两个参考碱基)的重叠参考序列,使得需要更少的单元组或列,这允许阵列104的大小更小。然而,将重叠移位多于一个参考碱基可能以降低找到子串序列匹配的可能性为代价。
34.如图2的示例所示,每个单元组110存储代表参考碱基的参考值(例如,r1、r2、r3等)和代表样本碱基的样本值(s1、s2、s3等)。例如,在dna测序的情况下,由于存在四种可能的碱基:腺嘌呤(a)、鸟嘌呤(g)、胞嘧啶(c)和胸腺嘧啶(t),因此每个参考值和每个样本值可由两位表示。当每个单元组110存储样本值s1至s20的相同样本序列时,每个单元组110存储不同的部分重叠的参考序列,其相对于存储在相邻单元组中的参考序列移位一个参考碱基。例如,单元组1101存储具有参考值r1至r20的第一参考序列,而单元组1102存储具有参考值r2至r21的第二参考序列。在其他实施方案中,与图2的示例中所示的相比,移位偏移量和所产生的重叠在单元组之间可以是不同的。
35.在阵列104中存储部分重叠的参考序列和子串序列的布置通常允许有效地定位样本读段在参考基因组内的概率性位置。此外,参考序列仅需要加载到阵列104中或存储在该阵列中一次。然后,从样本读段加载或存储不同子串序列的迭代可提供样本读段在参考基因组内的概率性位置,其可由主机101用于智能地将样本读段分类成读段组以用于更有效的从头或参考比对测序,如下文参考图3至图6的示例性过程所讨论的。就这一点而言,不同的具体实施可使用第一类型的单元(诸如rom或nand闪存单元)来存储参考序列,并且使用第二类型的单元(诸如mram单元)来存储子串序列,该第二类型的单元更适于以更好的写耐
久性进行重复重写。
36.在图2的示例中使用的子串序列长度为20,包括样本值s1至s20。如相关共同未决申请16/820,711中更详细讨论的,可基于参考基因组内子串序列相对于单元数量的期望唯一性以及识别存储匹配序列的单元组或列所需的操作,来选择与单元组或列中的单元数量相对应的子串序列的长度。
37.示例性过程
38.图3示出了根据一个或多个实施方案的从头测序的示例。如图3所示,在预处理114中,使用参考引导设备102将多个样本读段13与参考基因组14进行比较,以将多个读段分类成更小的样本组111至11n。每个样本组11包括来自多个样本读段13的样本读段,该多个样本读段基于样本读段在参考基因组14(诸如h38)内的概率性位置对应于参考基因组14的一部分。然后,可将每组中的样本读段与同一样本组11中的其他样本读段进行比对,以形成重叠群1至n或重叠dna片段,其对应于样本组111至11n。可通过使用一种或多种算法,诸如本领域已知的用于执行从头测序的种子和扩展算法,将样本读段与同一样本组11中的其他样本读段进行比较来执行样本读段的比对。然后组装每个重叠群以形成对应的组装体1至n,然后可将其映射到染色体以完成基因组的测序。
39.在预处理114之外示出的从头测序的部分可由主机101独立地执行,与其中所有样本读段可存储在单个共享存储器中的常规从头测序相比,这提高了从头测序的可扩展性和效率。在图3的示例中,将多个样本读段13分类成样本组11允许将样本读段存储在n个存储器(诸如dram)中,这些存储器比如在常规从头测序中使用单个存储器来存储所有样本读段更小。如上所述,可通过独立的高带宽信道连接到较大共享存储器(诸如2tb dram)的计算核的数量是有限的(例如,至多24个核),这限制了可用于将样本读段组装和映射到测序的基因组中的独立计算线程的数量(例如,至多128个计算线程)。
40.另一方面,图3中所示的布置可提高可扩展性,使得与其中多个样本读段被存储在单个共享存储器中的常规布置相比,存储相应样本组的每个较小存储器可由最大数量的独立高带宽信道访问,从而产生总数更大的处理核和独立计算线程。此外,通过概率性地定位样本读段,提高了组装和映射样本读段的效率。还可在样本组之间几乎均等地划分样本读段,诸如在彼此的10%以内,以在主机101之间分配工作负荷并改进并行化。
41.例如,如果多个读段13包括x=200,000个长读段(例如,来自纳米孔设备的读段导致每个样本读段有5,000个碱基),则每个样本组11可包括200个样本读段,其中n=1,000个样本组11。然后,将样本读段存储在样本组11的每个共享存储器中所需的大小减小n倍,导致与单个大存储器相比,对于1,000个较小的存储器,总成本降低。然后,每个样本组11可由y=24个处理核访问。所得到的并行化可将可用于组装样本读段的核的总数从单个共享存储器的常规示例中的24个增加到存储相应样本组11的1,000个存储器的示例中的24,000个核。
42.图4是根据一个或多个实施方案的从头基因组测序过程的流程图。图4的过程可由例如包括参考引导设备102和主机101的系统100来执行。
43.在框402中,对于多个样本读段(例如,图3中的多个样本读段13)中的每个样本读段,将来自样本读段的子串序列与代表参考基因组(例如,图3中的参考基因组14)的不同部分的参考序列进行比较。在一些具体实施中,比较可包括确定多个单元组(例如,图1中的一
个或多个阵列104)中的每个单元组的比较值,该比较值代表存储在该单元组中的子串序列与存储在该单元组中的参考序列的比较结果。
44.子串序列包括来自样本读段的连续碱基序列。子串序列可由一个或多个主机101或由设备102随机选择。在其他具体实施中,可选择子串序列,使得子串序列遍布整个样本读段。如在相关的共同未决申请16/820,711中所讨论的,长度在17与25个碱基之间的子串序列可为大多数子串序列提供足够数量的唯一匹配(即,仅在参考基因组内的一个位置处匹配),以在参考基因组诸如h38内定位该子串序列。短于17个碱基的子串长度将需要来自样本读段的更大数量的子串序列以确定样本读段在参考基因组内的概率性位置。在参考基因组h38的情况下,子串长度短于15个碱基,对于几乎所有尝试的子串序列可能都无法鉴定参考基因组内的任何唯一匹配。
45.另一方面,子串长度大于25个碱基,就设备102中的一个或多个阵列104中的单元而言导致附加的存储成本,并且由于查找匹配序列所需的操作增加而导致更大的计算成本,而唯一匹配的数量几乎没有改进。结果,上文讨论的图2的示例使用20个碱基的子串长度,这意味着图2中的每个单元组110包括预定数量的20个单元。本领域的普通技术人员参考本公开将理解,对于其他示例,设备102中的每个单元组中的不同子串长度或不同预定数量的单元可以是优选的,诸如当使用不同的参考基因组或参考基因组的一部分时,如可以是针对与参考基因组的特定部分相关联的状况的医学诊断或遗传筛查的情况。此外,计算成本、单元数量以及在更大数量的唯一匹配方面的准确性之间的不同折衷也可能影响用于一个或多个阵列104中的每个单元组的单元数量。
46.在框404中,针对每个样本读段识别与来自该样本读段的一个或多个所比较的子串序列相匹配的一个或多个参考序列。在识别匹配参考序列时,设备102的一个或多个阵列104中的单元组110可被识别为存储代表参考基因组的一部分的参考序列,如上文关于图2中的阵列104的示例所讨论的。在一些具体实施中,识别可由设备102使用逻辑门来进行,诸如例如通过一个或多个阵列104中的单元的xnor和and门的组合和/或设备102的电路106。在其他具体实施中,匹配参考序列或存储匹配参考序列的单元组的识别可通过使用针对碱基的所存储的参考值和样本值执行计算,诸如通过使用这些值的内积或点积来进行。在相关的共同未决申请16/820,711中提供了识别与加载或存储在一个或多个阵列104中的子串序列相匹配的参考序列的示例。
47.在框406中,系统100基于与一个或多个所比较的子串序列相匹配的一个或多个所识别的参考序列,为每个样本读段确定样本读段在参考基因组内的概率性位置。就这一点而言,设备102的一个或多个阵列104中的第一匹配单元组可用作每个子串序列的位置,或另选地,假定一些子串序列导致多个匹配单元组,则多个匹配单元组可用作子串序列的可能位置。在一些情况下,由于子串序列中的错误,诸如由读取设备引起的读取错误或样本读段中的突变,可能不存在子串序列的匹配位置。在框406中由电路106或主机101确定的样本读段的位置从以下意义上说可以是概率性的:可针对来自样本读段的不同子串序列识别多个可能的位置,并且从匹配位置导出的一致性或统计性可用于在参考基因组内概率性地定位样本读段。
48.在一个示例中,所有子串序列的所有匹配单元组的所有位置的平均值被用于识别样本读段在参考基因组内的最可能位置。在另一示例中,在平均值中仅使用具有匹配的单
元组的每个子串序列的一个位置。在又一示例中,样本读段的概率性位置可通过识别参考基因组内与子串序列的匹配单元组相对应的最远间隔位置来确定。在其他示例中,在确定样本读段在参考基因组内的概率性位置时,可丢弃相对于一组匹配位置的一个或多个离群点位置。
49.在框408中,设备102或一个或多个主机101基于所确定的相应样本读段的概率性位置将多个样本读段分类成多个样本组。每个样本组可包括大致相同数量的样本读段(例如,在彼此的10%以内),以在主机101之间更均匀地分配组装和映射样本读段的工作负荷。在一些具体实施中,索引10或数据结构的一部分可由设备102提供给主机101,以指示要由主机101作为样本组11来处理的一组样本读段。在此类具体实施中,然后每个主机101可从共享存储器检索对应于所指派的样本组11的样本读段。在其他具体实施中,设备102可为每个主机101提供已被概率性地定位在指派给该主机的样本组11内的样本读段。在又一具体实施中,可从另一主机101检索所指派的样本组的样本读段。
50.在框410中,每个样本组11被存储在不同的存储器中。在一些具体实施中,每个主机101可包括其自己的存储器,诸如用于存储其指派的样本组11的存储器112。如上所述,使用分布在主机101之间的大量存储器通常比将所有多个样本读段存储在单个大存储器(诸如2tb dram)中更便宜。此外,每个存储器可由主机101的处理器109本地访问,并且允许更大数量的计算线程在整个系统100中同时并行操作。这可提供样本读段的更快测序或组装。
51.在框412中,通过将样本组中的样本读段与样本组中的其他样本读段进行比较来比对每个样本组中的样本读段。框412中的比较可比在常规的从头测序中那样从大量样本读段中随机比较样本读段而更快地完成,因为在每个定位样本组中存在较少的样本读段,并且由于在上述框402至408中执行的预处理而存在较大的样本读段重叠的可能性。
52.如本领域普通技术人员参考本公开将理解的,图4中示出的框的顺序在其他具体实施中可不同。例如,在进行到框408中的对多个样本读段进行分类之前,可按样本读段的迭代顺序重复框402至406。
53.尽管图4的基因组测序是从头进行的,但与参考比对测序相反,图4的方法使用参考引导的基因组测序的新技术来将样本读段预处理或分类成概率性定位的样本读段的组,以提高从头测序的效率、改善成本和可扩展性。下文针对参考比对测序所讨论的示例性过程还将多个样本读段预处理或分类成概率性定位的样本读段的组,以提高参考比对测序的效率、改善成本和可扩展性。此外,下文参考图5和图6讨论的参考比对测序示例进一步提供了用于参考比对测序的参考基因组的分区。
54.图5示出了根据一个或多个实施方案的参考比对基因组测序的示例。如图5所示,类似于上文讨论的图3中的从头测序的示例,在预处理116中,使用参考引导设备102将多个样本读段13与参考基因组14进行比较,以将多个样本读段分类成更小的样本组111到11n。然而,与图3中从头测序的示例不同,图5的参考比对测序还包括将参考基因组14分区成参考分区121至12n,这些参考分区与在预处理116中为相应样本组111至11n确定的概率性位置相关联。在一些具体实施中,每个参考分区12可存储在与相关联的样本组11相同的存储器(例如,图1中的存储器112)中。在其他具体实施中,样本组11和相关联的参考分区12可存储在不同的存储器中。
55.通过将参考分区121至12n中的每一者存储在图5中的不同存储器中,在不知道参考
基因组的哪些部分包括随机分组的样本读段的情况下,对于随机分组的样本读段,在每个主机101处存储整个参考基因组14将需要较少的存储器。通过预处理116将样本读段13分类成概率性定位的样本组111至11n,从而将参考基因组的部分与特定的样本组11相关联,可将参考基因组14分区成更小的参考分区12。
56.在一些具体实施中,如果在参考基因组的部分内不存在具有概率性位置的样本读段,则参考基因组的该部分可被丢弃或不用于参考分区121至12n中的任一者中。此类情况可由例如可能仅涉及参考基因组的特定部分的医学诊断或遗传筛查引起。在此类情况下,在处理资源、存储器资源和时间方面参考比对测序的效率通过不必存储和进行与完整参考基因组的比较而进一步提高。
57.在图5的示例中,基于样本读段在参考基因组14内的概率性位置,每个样本组11包括来自对应于参考基因组14(诸如h38)的参考分区12的多个样本读段13的大致相同数量的样本读段(例如,在彼此的10%以内)。然后将每个样本组11中的样本读段与同一样本组11中的其他样本读段进行比对,以形成重叠群1至n或重叠dna片段,其对应于样本组111至11n。可通过使用一种或多种算法,诸如本领域已知的用于执行参考比对测序的种子和扩展算法,将样本组11中的样本读段与定位的参考分区12进行比较来执行样本读段的比对。然后组装每个重叠群以形成相应的组装体1至n,然后可将其映射到染色体以完成样本基因组的测序。
58.此外,与其中整个参考基因组可存储在单个共享存储器(例如16gb dram)中的常规参考比对测序相比,使用多个存储器来存储用于参考比对测序的参考基因组的部分提高了参考比对测序的可扩展性和效率。如上所述,可通过独立的高带宽信道连接到此类共享存储器的计算核的数量是有限的(例如,至多24个核),这限制了可用于将样本读段组装和映射到测序基因组中的独立计算线程的数量(例如,至多128个计算线程)。
59.另一方面,图5中所示的布置可提高可扩展性,使得与其中整个参考基因组可存储在单个共享存储器中的常规布置相比,存储相应参考分区12的每个较小存储器可由最大数量的独立高带宽信道访问,从而产生总数更大的处理核和独立计算线程。此外,通过概率性地定位样本读段,提高了组装和映射样本读段的效率。
60.图6是根据一个或多个实施方案的参考比对基因组测序过程的流程图。图4的过程可由例如包括参考引导设备102和主机101的系统100来执行。
61.在框602中,对于多个样本读段(例如,图3中的多个样本读段13)中的每个样本读段,将来自样本读段的子串序列与代表参考基因组(例如,图5中的参考基因组14)的不同部分的参考序列进行比较。子串序列包括来自样本读段的连续碱基序列。子串序列可由一个或多个主机101或由设备102随机选择。在其他具体实施中,可选择子串序列,使得子串序列遍布整个样本读段。如在相关的共同未决申请16/820,711中所讨论的,并且如上所述,长度在17与25个碱基之间的子串序列可为大多数子串序列提供足够数量的唯一匹配(即,仅在参考基因组内的一个位置处匹配),以在参考基因组诸如h38内定位该子串序列。
62.本领域的普通技术人员参考本公开将理解,对于其他示例,设备102中的每个单元组中的不同子串长度或不同预定数量的单元可以是优选的,诸如当使用不同的参考基因组或参考基因组的一部分时,如可以是针对与参考基因组的特定部分相关的遗传状况的医学诊断或筛查的情况。此外,计算成本、设备102的一个或多个阵列104中的单元数量以及在更
大数量的唯一匹配方面的准确性之间的不同折衷也可能影响用于一个或多个阵列104中的每个单元组的单元数量。
63.在框604中,对于每个样本读段,识别与从样本读段取得的一个或多个所比较的子串序列相匹配的一个或多个参考序列。在识别匹配参考序列时,设备102的一个或多个阵列104中的单元组110可被识别为存储代表参考基因组的一部分的参考序列,如上文关于图2中的阵列104的示例所讨论的。在一些具体实施中,识别可由设备102使用逻辑门来进行,诸如例如通过一个或多个阵列104中的单元的xnor和and门的组合和/或设备102的电路106。在其他具体实施中,匹配参考序列或存储匹配参考序列的单元组的识别可通过使用针对碱基的所存储的参考值和样本值执行计算,诸如通过使用这些值的内积或点积来进行。
64.在框606中,系统100基于与一个或多个所比较的子串序列相匹配的一个或多个参考序列来确定每个样本读段在参考基因组内的概率性位置。设备102的一个或多个阵列104中的第一匹配单元组可用作每个子串序列的位置,或另选地,假定一些子串序列导致多个匹配单元组,则多个匹配单元组可用作子串序列的可能位置。在一些情况下,子串序列可能不具有任何匹配的参考序列。在框606中由设备102的电路106或主机101确定的样本读段的位置从以下意义上说可以是概率性的:可针对来自样本读段的不同子串序列识别多个可能的位置,并且从匹配位置导出的一致性或统计性可用于在参考基因组内概率性地定位样本读段。
65.在一个示例中,所有子串序列的所有匹配单元组的所有位置的平均值被用于识别样本读段在参考基因组内的最可能位置。在另一示例中,在平均值中仅使用具有匹配的单元组的每个子串序列的一个位置。在又一示例中,样本读段的概率性位置可通过识别参考基因组内与子串序列的匹配单元组相对应的最远间隔位置来确定。在其他示例中,在确定样本读段在参考基因组内的概率性位置时,可丢弃相对于一组匹配位置的一个或多个离群点位置。
66.在框608中,设备102或一个或多个主机101基于在框606中针对相应样本读段确定的概率性位置来分区参考基因组以用于参考比对测序。参考基因组的分区的大小可基于针对样本读段确定的位置的分布而变化。例如,分区的大小可基于位于分区中的样本读段的数量,使得每个分区与具有大致相等数量的样本读段的样本组相关联,诸如通过每个参考分区或样本组具有在其他参考分区或样本组的样本读段的数量的10%内的样本读段。在其他具体实施中,可均等地划分参考基因组的分区,并且可允许样本组之间的样本读段的数量的较大变化。
67.就这一点而言,如果在参考基因组的一些部分内不存在具有概率性位置的样本读段,则参考基因组的该部分可被丢弃或不指派给样本组。此类情况可由例如可能仅涉及参考基因组的特定部分的医学诊断或筛查引起。在此类情况下,在处理资源、存储器资源和时间方面参考比对测序的效率通过不必存储和进行与完整参考基因组的比较而进一步提高。
68.在框610中,参考基因组的不同分区存储在不同的存储器中,诸如在主机101的存储器112中。每个主机101可从设备102或从另一设备(诸如系统100中存储参考基因组的共享存储器)接收参考基因组的一部分。如上文参考图5所讨论的,将参考基因组的定位分区存储在不同的存储器中可允许由更大数量的处理核进行并行处理,而不必将整个参考基因组存储在多个更大的存储器中,如果样本读段被随机分组则会是这种情况。
69.在框612中,设备102或一个或多个主机101基于所确定的相应样本读段的概率性位置将多个样本读段分类成多个样本组。可对样本读段进行分类,使得每个样本组包括大致相同数量的样本读段(例如,在具有最多样本读段的样本组的10%的范围内)。在一些具体实施中,索引10或数据结构的一部分可由设备102提供给主机101,以指示要由主机101作为样本组11来处理的一组样本读段。在此类具体实施中,然后每个主机101可从共享存储器检索对应于所指派的样本组11的样本读段。在其他具体实施中,设备102可为每个主机101提供已被概率性地定位在指派给该主机101的样本组11内的样本读段。在又一具体实施中,可从另一主机101检索所指派的样本组的样本读段。
70.在框614中,基于样本组中的样本读段的概率性位置,将参考基因组的不同分区与相应样本组相关联。如上所述,参考基因组的分区的大小可基于针对样本组内的样本读段确定的概率性位置的分布而变化。就这一点而言,分区的大小可基于位于分区中的样本读段的数量,使得每个分区与大致相等数量的样本读段相关联。在其他具体实施中,可均等地划分参考基因组的分区,而不考虑样本组内的样本读段的分布。
71.在框616中,每个样本组11被存储在不同的存储器中,该存储器可以是与框610中用于存储参考基因组的相关分区的存储器相同或不同的存储器。在一些具体实施中,每个主机101可包括其自己的存储器,如图1中存储相应的相关联的样本组11和参考基因组分区12的存储器112。如上所述,使用分布在主机101之间的更大数量的存储器通常比将所有多个样本读段存储在单个大存储器(诸如2tb dram)中更便宜。此外,每个存储器可由主机101的处理器109访问,并且允许更大数量的计算线程同时并行操作。这可提供样本读段的更快测序或组装。
72.在框618中,通过将样本组中的样本读段与样本组的参考基因组的相关联分区进行比较来比对每个样本组中的样本读段。框618中的比较可比如参考比对测序的常规技术中那样将样本读段与完整参考基因组进行比较更快地完成,因为由于参考基因组的分区的较小大小,定位样本组中的样本读段需要较少的比较。此外,在更多存储器中存储参考基因组的更小分区促进了更大的可扩展性,以允许更多的计算线程访问存储在不同存储器中的参考基因组的分区。
73.如本领域普通技术人员参考本公开将理解的,图6中示出的框的顺序在其他具体实施中可不同。例如,框608中参考基因组的分区可在框612中将多个样本读段分类成多个样本组之后发生。又如,在框610中将参考基因组的不同分区存储在不同存储器中之前,可在框616中将每个样本组存储在不同存储器中。再如,在进行到框408中的对参考基因组进行分区之前,可按样本读段的迭代顺序重复框602至606。
74.如上所述,前述参考引导设备和方法通常允许样本读段被概率性地定位在参考基因组内。这可通过基于样本读段在参考基因组中的位置将样本读段预处理成组以用于进一步测序来提高从头和参考比对测序的效率。在从头测序的情况下,与其中使用较大且较昂贵的存储器通过较少数量的计算线程访问所有样本读段的常规方法相比,这可通过允许更多的计算线程访问较小存储器中的多个定位的样本读段组来提高从头测序的可扩展性和效率。在参考比对测序的情况下,与可使用一个或显著更少的共享存储器(各自存储完整参考基因组)的常规参考比对测序相比,定位的样本读段组允许将参考基因组的更小且统计上更相关的部分存储在每个定位组的更小且更便宜的存储器中,同时还允许更多的计算线
程访问该多个更小的存储器以提高可扩展性。
75.其他实施方案
76.本领域的普通技术人员将会知道,结合本文公开的示例所描述的各种例示性逻辑块、模块和过程可以实现为电子硬件、软件或两者的组合。此外,前述过程可体现在计算机可读介质上,该计算机可读介质使处理器、控制器或其他电路执行或实施某些功能。
77.为了清楚地说明硬件和软件的这种可互换性,上面已经在其功能方面对各种例示性部件、块和模块进行了总体描述。将此功能性实现为硬件还是软件取决于特定应用和施加在整个系统的设计约束。本领域的普通技术人员可以针对每个特定应用以不同方式实现所描述的功能,但这种实现决策不应被解释为导致脱离本公开的范围。
78.结合本文公开的示例所描述的各种例示性逻辑块、单元、模块和电路可以用被设计用于执行本文所述功能的通用处理器、gpu、dsp、asic、fpga或其他可编程逻辑器件、离散门或晶体管逻辑、分立硬件部件或其任何组合来实现或执行。通用处理器可以是微处理器,但是在替代方案中,处理器可以是任何传统的处理器、控制器、微控制器或状态机。处理器或控制器电路还可以实现为计算设备的组合,例如dsp和微处理器的组合、多个微处理器、soc、结合dsp内核的一个或多个微处理器,或任何其他此类配置。
79.结合本文公开的示例而描述的方法或过程的活动可直接体现于硬件中、由处理器或控制器电路执行的软件模块中或两者的组合中。该方法或算法的步骤也可以以与示例中提供的顺序另选的顺序执行。软件模块可驻留在ram存储器、闪存存储器、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动介质、光学介质或本领域中已知的任何其他形式的存储介质中。示例性存储介质耦接到处理器或控制器电路,使得处理器或控制器电路可以从该存储介质读取信息,并且可以向该存储介质写入信息。在替代方案中,存储介质可以是处理器或控制器电路的组成部分。处理器或控制器电路和存储介质可驻留在asic或soc中。
80.提供了本公开的示例性实施方案的上述描述,以使得任何本领域普通技术人员能够制作或使用本公开的实施方案。对这些示例的各种修改对于本领域普通技术人员而言将是显而易见的,并且在不脱离本公开的范围的情况下,本文公开的原理可以应用于其他示例。所述实施方案将在所有方面被认为仅仅是示例性的而非限制性的。此外,在以下权利要求书中以“a和b中的至少一者”的形式使用的语言应理解为意指“仅a、仅b或a和b两者”。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献