一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于在参考基因组中定位样本读段的设备和方法与流程

2022-07-10 20:18:30 来源:中国专利 TAG:

用于在参考基因组中定位样本读段的设备和方法
1.相关申请的交叉引用
2.本技术涉及2020年3月17日提交的并且名称为“reference-guided genome sequencing”的共同未决的美国申请16/821,849(代理人案卷号wda-4724-us),其全部内容据此以引用方式并入。本技术还涉及2020年3月18日提交的并且名称为“reference-guided genome sequencing”的共同未决的美国申请16/822,010(代理人案卷号wda-4725-us),其全部内容据此以引用方式并入。


背景技术:

3.目前的dna(脱氧核糖核酸)样本处理的局限性导致样本读段或样本基因组的部分在样本基因组中具有通常未知的位置。对于在将样本读段彼此比较以在样本基因组内定位样本读段时不使用参考基因组的从头测序,通常将样本读段作为单个大组分析,这需要大量的存储器资源和高计算成本来将大组中的样本读段彼此比较以确定样本读段在样本基因组内的位置。此类从头测序的常规方法相对于基因组测序需要处理的大量数据是不可扩展的。更详细地,常规的从头测序方法通常将一大组样本读段存储在共享存储器诸如昂贵的2tb dram中。由于可通过独立的高带宽信道连接到共享dram的计算核的数量是有限的(例如,至多24个核),所以这种布置限制了可用于从头测序的独立计算线程的数量(例如,至多128个计算线程)。
4.对于使用参考基因组在样本基因组内定位样本读段的参考比对测序,通常针对每个样本读段搜索完整参考基因组以在参考基因组内定位样本读段。此类参考比对测序还需要大量的存储器资源来存储完整参考基因组,并且需要高计算成本来将每个样本读段与完整参考基因组进行比较。参考比对测序的常规方法也具有有限的可扩展性。更详细地,参考比对测序的常规方法可将样本读段随机地分成由对应的计算线程处理的组。然而,每个计算线程通常需要诸如16gb dram的大型专用存储器来存储整个参考基因组。在其他技术中,参考基因组可存储在单个共享的16gb dram中,但如上针对常规的从头测序所指出的,这种共享存储器布置限制了可访问共享存储器的核和计算线程的数量。因此,需要在计算成本、存储器资源和可扩展性方面改进基因组测序。
附图说明
5.通过下文所述的具体实施方式并且结合附图,本公开的实施方案的特征和优势将变得更加显而易见。提供附图和相关联描述是为了说明本公开的实施方案,而不是限制所要求保护的范围。
6.图1是根据一个或多个实施方案的包括参考引导设备的用于基因组测序的系统的框图。
7.图2示出了根据一个或多个实施方案的参考引导设备中的多个单元组的示例。
8.图3是描述人参考基因组h38中不同长度的子串的唯一性的图。
9.图4a示出了根据一个或多个实施方案的在参考引导设备中识别其中所存储的当
前子串序列与参考序列相匹配的单元组的示例。
10.图4b是根据一个或多个实施方案的用于将子串碱基值与存储在单元中的参考碱基值进行比较的电路的示例。
11.图4c是根据一个或多个实施方案的用于比较单元组中的单元输出值的电路的示例。
12.图5是根据一个或多个实施方案的样本读段定位过程的流程图。
13.图6是根据一个或多个实施方案的使用逻辑运算的匹配识别子过程的流程图。
14.图7是根据一个或多个实施方案的使用参考向量和子串向量的内积的匹配识别子过程的流程图。
具体实施方式
15.在以下具体实施方式中阐述了许多具体细节,以便提供对本公开的彻底理解。然而,对于本领域普通技术人员显而易见的是,可在不具有这些具体细节中的一些细节的情况下实践所公开的各种实施方案。在其他情况下,并未详细示出众所周知的结构和技术以避免不必要地模糊各种实施方案。
16.系统示例
17.图1是根据一个或多个实施方案的用于基因组测序的系统100的框图,该系统包括主机101和参考引导设备102。主机101与参考引导设备102通信以确定样本读段在参考基因组内的概率性位置。在一些具体实施中,设备102可为主机101提供存储在设备102的存储器108中的指示样本读段的概率性位置的索引10。在其他具体实施中,设备102可为主机101提供样本读段的概率性位置的另一数据结构或指示。
18.样本读段或从样本读段取得的样本子串序列最初可由主机101和/或由图1中未示出的另一设备(诸如由附加的主机)提供给参考引导设备102,以确定样本读段在存储在设备102的一个或多个阵列104中的参考基因组内的概率性位置。在一些具体实施中,生成样本读段的读取设备,诸如illumina设备(得自illumina,inc.,san diego,california)或纳米孔设备,可向参考引导设备102提供样本读段。
19.为了便于描述,将在dna测序的上下文中描述本公开中的示例性实施方案。然而,本公开的实施方案不限于dna测序,并且通常可应用于任何基于核酸的测序,包括rna(核糖核酸)测序。
20.主机101可包括例如计算机,诸如台式机或服务器,其可实现基因组测序算法,诸如用于精确匹配的种子和扩展算法和/或用于基因组中的样本读段的近似匹配的计算上更复杂的算法,诸如burrows-wheeler算法或smith-waterman算法。如下文更详细讨论的,设备102可用于在从头或参考比对测序之前预处理样本读段。就这一点而言,由参考引导设备102提供的概率性位置可在存储器资源和计算成本方面替代或提高由主机101执行的算法的效率。此外,并且如相关共同未决申请16/821,849和16/822,010中所述,这两个申请均以引用方式并入上文,由设备102提供的样本读段的概率性位置可允许提高基因组测序的可扩展性,从而降低执行从头或参考比对基因组测序的费用和时间。
21.在一些具体实施中,参考引导设备102可包括例如一个或多个专用集成电路(asic)或现场可编程门阵列(fpga),用于生成指示来自样本读段的样本子串序列相对于参
考基因组的概率性位置的索引10。样本子串序列的概率性位置可为主机101提供从其取得该样本子串序列的样本读段的概率性位置。在一些具体实施中,主机101或另一设备可为参考引导设备102提供当前样本子串序列以加载到设备102的一个或多个阵列104中。在其他具体实施中,主机101或另一设备可为参考引导设备102提供样本读段,并且参考引导设备102可从样本读段中确定要加载到一个或多个阵列104中的样本子串序列。
22.主机101和设备102可以在物理上协同定位或可以不在物理上协同定位。例如,在一些具体实施中,主机101和设备102可经由网络,诸如通过使用局域网(lan)或广域网(wan),诸如因特网、或者数据总线或数据网络结构进行通信。此外,本领域普通技术人员将理解,其他具体实施可包括用于提供样本读段的概率性位置的多个主机101和/或多个设备102。在某些实施方案中,主机101和设备102(或多个主机和设备)被集成为单个设备或系统。
23.如图1的示例所示,设备102包括一个或多个阵列104。如本文所用,单元通常是指用于存储代表一个或多个核苷酸(在本公开中称为碱基)的一个或多个值的存储器位置。在一些具体实施中,一个或多个阵列104可包括这样的单元,该单元还包括用于对存储在单元中的值执行一个或多个运算的逻辑。在此类示例中,一个或多个阵列中的每个单元可存储代表来自参考基因组的参考碱基的参考值和代表来自样本子串序列的碱基的样本值。单元可执行一个或多个运算以输出可由电路106或一个或多个阵列104的电路使用的值,以确定该一个或多个阵列104中的单元组是否存储与存储在单元组中的子串序列相匹配的参考序列。在一些具体实施中,一个或多个阵列104可包括一个或多个脉动阵列,其中加载了代表来自参考基因组的参考碱基的参考值,并且可将代表来自样本子串序列的碱基的样本值加载到单元中,用于在将样本值传递到一个或多个阵列104的另一单元组中的下一个单元之前与参考值进行比较。
24.在其他具体实施中,一个或多个阵列104可包括可能不执行用以确定存储在单元中的值是否匹配的运算的固态存储器单元。例如,在一些具体实施中,电路106可确定存储在每个单元中的值是否匹配。作为另一变型,一个或多个阵列104可各自存储代表参考碱基的参考值或代表样本碱基的样本值。在此类具体实施中,存储参考值的单元可与存储样本值的单元配对,用于参考碱基与样本碱基的比较。在其他具体实施中,一个或多个阵列104中的单元可包括电路元件,诸如寄存器、锁存器或触发器。
25.尽管本文中的描述通常是指固态存储器,但应理解,固态存储器可以包括各种类型的存储器设备中的一种或多种,诸如闪存集成电路、硫族化物ram(c-ram)、相变存储器(pc-ram或pram)、可编程金属化单元ram(pmc-ram或pmcm)、ovonic统一存储器(oum)、电阻ram(rram)、nand存储器(例如,单层单元(slc)存储器、多层单元(mlc)存储器(即,两层或更多层)或它们的任何组合)、nor存储器、eeprom、铁电存储器(feram)、磁阻ram(mram)、其他离散的非易失性存储器(nvm)芯片或它们的任何组合。
26.电路106可包括例如硬连线逻辑、模拟电路和/或它们的组合。在其他具体实施中,电路106可包括一个或多个asic、微控制器、数字信号处理器(dsp)、fpga和/或它们的组合。在一些具体实施中,电路106可包括可与存储器108组合的一个或多个片上系统(soc)。如下文更详细讨论的,电路106被配置为识别一个或多个阵列104中的其中所存储的参考序列与存储在单元组中的当前子串序列相匹配的单元组。
27.更详细地,对于一个或多个阵列104中的每个单元组,来自参考基因组的参考碱基的参考序列可存储在该单元组中。参考序列对应于相应单元组中的单元的顺序。每个单元组被配置为存储代表参考基因组的一部分的参考序列,该参考基因组的该部分与由存储在一个或多个其他单元组中的一个或多个其他参考序列所代表的参考基因组的至少一个其他部分部分地重叠。下面参考图2更详细地讨论阵列中此类重叠参考序列的存储的示例。
28.此外,一个或多个阵列104中的每个单元组被配置为存储与相应的单元组的顺序相对应的相同的当前子串序列。如上所述,电路106被配置为识别一个或多个阵列104中该多个单元组中的其中所存储的当前子串序列与存储在单元组中的参考序列相匹配的单元组。在一些具体实施中,可由电路106基于在执行至少一个逻辑运算(诸如xnor运算)之后从单元输出的值来识别具有匹配序列的单元组。在其他具体实施中,可由电路106基于在将代表参考碱基的参考值和代表样本碱基的样本值相乘之后从单元输出的值来进行具有匹配序列的单元组的识别。在其他具体实施中,电路106可对存储在单元中的值执行所有运算,而不是由单元本身执行一些运算。
29.设备102的存储器108可包括例如易失性存储器,诸如dram,用于存储索引10。在其他具体实施中,存储器108可包括非易失性存储器,诸如mram。如图1所示,存储器108存储索引10,其可由主机101使用以确定样本读段在由加载到或存储在一个或多个阵列104中的重叠参考序列所代表的参考基因组内的概率性位置。在一些具体实施中,索引10可包括数据结构,诸如位图或其他数据结构,其指示参考基因组中对应于被识别为存储匹配序列的单元组的索引或位置。电路106可为加载到一个或多个阵列104的每个单元组中的不同样本子串序列更新索引10。在一些具体实施中,电路106可指示具有多个匹配单元组的子串序列在索引10中的平均位置。在其他具体实施中,对于特定子串序列,可仅使用第一匹配单元组,或者对于具有存储匹配序列的超过单个单元组的子串序列,电路106可根本不更新索引10。
30.此外,一些具体实施可不使用索引或其他数据结构来指示具有匹配序列的单元组的位置。例如,在一些具体实施中,电路106可直接向主机101输出指示具有匹配序列的单元组的数据。
31.如本领域普通技术人员参考本公开将理解的,其他具体实施可包括与图1的示例中的系统100所示的那些不同数量或布置的部件。例如,其他具体实施可组合主机101和设备102,或者可包括不同数量的设备102和/或主机101。
32.图2示出了根据一个或多个实施方案的参考引导设备102中的多个单元组的示例。如图2的示例所示,阵列104包括单元组1101至110
l-19
。尽管图2中的单元组1101至110
l-19
被示出为列,但其他具体实施可包括物理上不被布置为列的单元组。在一些具体实施中,阵列104可用位于同一阵列的不同部分中或不同阵列中的备用单元池中的另一单元替代来自一个单元组的有缺陷单元。在其中每个单元组存储已相对于前一单元组移位一个参考碱基的重叠参考序列的具体实施中,l可等于参考基因组的全长,诸如32亿个单元组或单元列,如在完整参考人基因组h38的情况下。相反,其他具体实施可存储已移位了不同数量的参考碱基(例如移位了两个参考碱基)的重叠参考序列,使得需要更少的单元组或列,这允许阵列104的大小更小。然而,将重叠移位多于一个参考碱基可能以降低找到子串序列匹配的可能性为代价。
33.如图2的示例所示,每个单元组110存储代表参考碱基的参考值(例如,r1、r2、r3
等)和代表样本碱基的样本值(s1、s2、s3等)。例如,在dna测序的情况下,由于存在四种可能的碱基:腺嘌呤(a)、鸟嘌呤(g)、胞嘧啶(c)和胸腺嘧啶(t),因此每个参考值和每个样本值可由两位表示。当每个单元组110存储样本值s1至s20的相同样本序列时,每个单元组110存储不同的部分重叠的参考序列,其相对于存储在相邻单元组中的参考序列移位一个参考碱基。例如,单元组1101存储具有参考值r1至r20的第一参考序列,而单元组1102存储具有参考值r2至r21的第二参考序列。在其他实施方案中,与图2的示例中所示的相比,移位偏移量和所产生的重叠在单元组之间可以是不同的。
34.在阵列104中存储部分重叠的参考序列和子串序列的布置通常允许有效地定位样本读段在参考基因组内的概率性位置。此外,参考序列仅需要加载到阵列104中或存储在该阵列中一次。然后,从样本读段加载或存储不同子串序列的迭代可提供样本读段在参考基因组内的概率性位置,其可由主机101用于智能地将样本读段分类成读段组以用于更有效的从头或参考比对测序,如在共同未决的相关申请16/821,849和16/822,010中所讨论的,该申请以引用方式并入上文。就这一点而言,不同的具体实施可使用第一类型的单元(诸如rom或nand闪存单元)来存储参考序列,并且使用第二类型的单元(诸如mram单元)来存储子串序列,该第二类型的单元更适于以更好的写耐久性进行重复重写。
35.在图2的示例中使用的子串序列长度为20,包括样本值s1至s20。如下文参考图3更详细地讨论的,可基于参考基因组内子串序列相对于单元数量的期望唯一性以及识别存储匹配序列的单元组或列所需的操作,来选择与单元组或列中的单元数量相对应的子串序列的长度。
36.图3是描述人参考基因组h38中不同长度的子串序列的唯一性的图。图3中的虚线表示如果对于沿x轴指示的不同子串长度均匀地随机选择参考基因组h38中的每个碱基的预期分布。图3中的实线表示对于沿x轴指示的不同子串长度,在参考基因组h38内观察到的子串序列的唯一性。具体地,随机选择长度在1与44个碱基之间的1,000个子串序列,并且对于每个子串序列计数在h38中的匹配数。图3中实线与虚线之间的差异显示参考基因组中碱基的分布不是完全随机的。因此,实际上可使用比均匀随机分布中稍长的子串长度,以获得更唯一的匹配。
37.如图3中的实线所示,长度在17与25个碱基之间的子串序列可为大多数子串序列提供足够数量的唯一匹配(即,仅在h38内的一个位置处匹配),以在h38内定位该子串序列。短于17个碱基的子串长度将需要来自样本读段的更大数量的子串序列以确定样本读段在参考基因组内的概率性位置。如图3所示,子串长度短于15个碱基,对于几乎所有尝试的子串序列可能都无法鉴定h38内的任何唯一匹配。
38.另一方面,子串长度大于25个碱基,就一个或多个阵列104中的单元而言将导致附加的存储成本,并且由于所需的操作增加而导致更大的计算成本,而唯一匹配的数量几乎没有改进。结果,上文讨论的图2的示例使用20个碱基的子串长度,这意味着图2中的每个单元组110包括预定数量的20个单元。本领域的普通技术人员参考本公开将理解,对于其他示例,每个单元组中的不同子串长度或不同预定数量的单元可以是优选的,诸如当使用不同的参考基因组或参考基因组的一部分时,如可以是针对与参考基因组的特定部分相关的遗传状况的医学诊断的情况。此外,计算成本、单元数量以及在更大数量的唯一匹配方面的准确性之间的不同折衷也可能影响用于一个或多个阵列104中的每个单元组的单元数量。
39.图4a示出了根据一个或多个实施方案的用于识别其中所存储的当前子串序列与参考序列相匹配的单元组的示例性阵列。如图4a所示,阵列104包括多个单元组,如同上文讨论的图2的示例。在图4a的示例中,每个单元组由从1到l-(m-1)的列号i表示。每个单元组或列中的每个单元也由从1到m的行号j表示。如上所讨论的,l-(m-1)可对应于来自参考基因组的重叠参考序列的数量,并且m可对应于子串序列中的碱基数量,诸如20个碱基,如同图2中的示例性阵列104。
40.参考基因组的参考序列可加载或存储在单元组中,其中每个单元存储代表来自参考序列的参考碱基的参考值。如上所述,从一个单元列或组到下一个组或列的参考序列可重叠预定数量的参考值或参考碱基,诸如重叠一、二或三个参考值或碱基。组或列中单元的顺序对应于参考序列中参考碱基的顺序。在一些具体实施中,在将参考引导设备运输至客户之前,参考序列可最初由参考引导设备的制造商为特定参考基因组加载或存储。在其他具体实施中,参考序列可由客户在现场加载或存储。
41.当前子串序列被加载或存储在单元组中,其中每个单元存储代表来自当前子串序列的样本碱基的样本值。每个单元组或列可存储相同的当前子串序列。另外,组或列中的单元的顺序对应于当前子串序列中的样本碱基的顺序。在一些具体实施中,阵列104可包括脉动阵列,其中当前子串序列从一个单元组或列传递到下一个。
42.如下文参考图4b和图4c更详细讨论的,在每个单元诸如单元i,j中的参考值与样本值之间进行比较,并且每个单元向电路106提供单元输出值以识别其中所有参考值与所有子串值相匹配的单元列或组。然后,匹配的单元列或组的位置可用于更新数据结构,诸如图1中的索引10。在其他具体实施中,匹配的单元列或组的位置可替代地被提供给另一设备,诸如图1中的主机101,而不更新数据结构。
43.图4b是根据一个或多个实施方案的用于将子串碱基值与存储在单元中的参考碱基值进行比较的电路的示例。如上所述,每个子串碱基和参考碱基可由两位表示。例如,a碱基可由二进制值00表示,c碱基可由二进制值01表示,g碱基可由二进制值10表示,并且t碱基可由二进制值11表示。在其他具体实施中,这些碱基可由其他值表示,如在下文参考图7讨论的使用内积的示例中,其中碱基可具有包括1或-1的值。
44.如图4b的示例所示,单元i,j内的电路包括输出到and门的两个xnor门。更详细地,存储在单元i,j中的子串碱基值i,j的第一位与存储在单元i,j中的参考碱基值i,j的第一位一起被输入到第一xnor门。子串碱基值i,j的第二位与参考碱基值i,j的第二位一起被输入到第二xnor门。如果xnor门的两个输入匹配,则输出具有高二进制值1。另一方面,如果xnor门的两个输入不匹配,则输出具有低二进制值0。
45.来自每个xnor门的输出值被输入到and门。如果两个输入都是1,指示参考碱基值和子串碱基值的第一位和第二位中的每一者都匹配,则来自and门的单元比较输出值是高二进制值1。否则,来自and门的单元比较输出值是低二进制值0。该高或低二进制值从单元输出到电路,诸如到图1中的电路106,以识别其中所有参考碱基值与存储在单元组中的所有子串碱基值相匹配的单元列或组。
46.图4c是根据一个或多个实施方案的用于比较单元组中的单元输出值的电路的示例。如图4c所示,来自单元组中的每个单元的单元比较输出值被输入到and门以产生列i的列输出值,如果列i中的所有单元1到m的单元比较输出值都具有高二进制值1来指示匹配,
则来自该列的and门的列输出值是高二进制值1。该列输出值可用于将该单元列或组识别为具有匹配的子串序列和参考序列。图4c所示的电路可以是阵列104外部的电路的一部分,或者可以是阵列104的一部分。
47.在一些情况下,可存在被识别为存储与当前子串序列相匹配的参考序列的多个单元组。在此类情况下,电路106可仅使用第一匹配位置,第一匹配位置与其他匹配位置,或可使用所有匹配位置来在参考基因组内定位当前子串序列。在其他情况下,当前子串序列可能导致不匹配。例如,从中取得子串序列的样本读段中的突变或读取错误可能防止匹配或者可能导致匹配中的错误。
48.其他具体实施可使用识别其中所存储的参考序列与存储在单元组中的子串序列相匹配的单元组的不同电路或不同过程。例如,内积或点积运算可替代地用于识别存储匹配序列的单元组,而不是逻辑门,如下文参考图7的匹配识别子过程更详细讨论的。又如,图4c中的nand门可由用于对单元组的单元比较输出值求和且接着将该和与单元组中的单元数量进行比较的电路替代。在此类示例中,如果来自该组中的单元的和等于该组中的单元的数量,则该单元组的参考序列与子串序列相匹配。
49.示例性识别过程
50.图5是根据一个或多个实施方案的样本读段定位过程的流程图。图5的过程可例如由图1中的设备102和/或主机101来执行。
51.在框502中,将参考序列存储在多个单元组中的相应单元组中用于来自参考基因组的参考碱基。如上文参考图2所述,参考序列的存储位置对应于单元组中单元的顺序。此外,每个参考序列代表参考基因组的一部分,该参考基因组的该部分与由存储在一个或多个其他单元组中的一个或多个其他参考序列所代表的参考基因组的至少一个其他部分部分地重叠或移位。
52.在一些具体实施中,参考引导设备102可从主机101接收参考序列或参考基因组。在其他具体实施中,参考引导设备102可由制造商预先配置,其中参考序列被编程或存储在特定基因组(诸如人基因组h38)的单元组中。
53.在框504中,将当前子串序列存储在多个单元组中的每个单元组中用于来自样本读段的样本碱基。当前子串序列在每个单元组内的存储位置对应于该单元组的顺序。当前子串序列可从主机101接收,或者可由设备102从主机101提供的样本读段中选择。在一些具体实施中,设备102或主机101的电路106可从样本读段中随机选择子串序列。在其他具体实施中,电路106或主机101可选择在整个样本读段中间隔开的子串序列。
54.在框506中,电路106识别多个单元组中的其中所存储的参考序列与存储在单元组中的当前子串序列相匹配的单元组。在一些具体实施中,可使用逻辑门来进行单元组的识别,如上文针对图4a至图4c讨论的示例中那样。在其他具体实施中,可通过使用所存储的参考值和样本值执行计算来进行单元组的识别,如下文讨论的图7的示例性匹配识别子过程。
55.在框508中,电路106或主机101确定在框504中存储的子串序列是否是来自要存储在单元组中的样本读段的最后一个子串序列。在一些具体实施中,预定数量的子串序列可被迭代地存储在设备102的单元中,用于与来自参考基因组的参考序列进行比较。从样本读段取得的不同子串序列的数量可取决于例如子串序列的长度(例如,图2中的20个碱基)、参考基因组的长度、样本读段的长度(例如,来自illumina设备的250或300个碱基的短读段对
来自纳米孔设备的5,000个碱基的长读段)、用于创建样本读段的方法的准确性以及用于在参考基因组内定位样本读段的期望准确性。在一个示例中,250或300个碱基的短读段可位于仅具有少数匹配子串序列的参考基因组中。此类示例可仅使用来自样本读段的十个子串序列来生成足够的匹配以在参考基因组中定位样本读段。
56.如果在框508中确定当前子串序列不是来自样本读段的最后一个子串序列,则过程进行至框510,以用来自样本读段的下一个子串序列重写当前子串序列,以将该下一个子串序列存储在该多个单元组中。然后,图5的过程返回到框506,以识别其中参考序列与该下一个子串序列相匹配的单元组。值得注意的是,由于相同的参考序列可被重新用于该下一个子串序列,因此不重复框502。对于来自样本读段的子串序列的多次迭代,仅必须加载或存储参考序列或参考基因组一次就可提高样本读段位置识别过程的效率。
57.在一些具体实施中,电路106或主机101可在框508中基于先前测试的子串序列的数量来确定是否需要另一个子串序列来定位样本读段。例如,如果前四个子串序列已导致匹配,则不需要测试第六子串序列。另一方面,如果前四个子串序列没有导致任何匹配,则可加载第五子串序列。
58.如果在框508中确定当前子串序列是来自样本读段的最后一个子串序列,则过程进行至框512,以基于来自样本读段的不同子串序列的已识别的单元组来确定样本读段在参考基因组内的概率性位置。如上文针对框506所述,第一匹配单元组可用作每个子串序列的位置,或另选地,假定一些子串序列导致多个匹配单元组,则多个匹配单元组可用作子串序列的可能位置。在其他情况下,由于读取样本中的错误或样本中的突变,子串序列可能不具有匹配位置。在框512中由电路106或主机101确定的样本读段的位置从以下意义上说可以是概率性的:可针对来自样本读段的不同子串序列识别多个可能的位置,并且从匹配位置导出的一致性或统计性可用于在参考基因组内概率性地定位样本读段。
59.在一个示例中,所有子串序列的所有匹配单元组的所有位置的平均值被用于识别样本读段在参考基因组内的最可能位置。在另一示例中,在平均值中仅使用具有匹配的单元组的每个子串序列的一个位置。在又一示例中,样本读段的概率性位置可通过识别参考基因组内与子串序列的匹配单元组相对应的最远间隔位置来确定。在其他示例中,在确定样本读段在参考基因组内的概率性位置时,可丢弃相对于一组匹配位置的一个或多个离群点位置。
60.图6是根据一个或多个实施方案的使用逻辑运算的匹配识别子过程的流程图。图6的子过程可由阵列104和/或电路106中的单元执行,作为上文讨论的图5的样本读段定位过程中的框506的一部分,以识别其中所存储的参考序列与存储在单元组中的当前子串序列相匹配的单元组。
61.在框602中,在多个单元组的每个单元中执行至少一个xnor运算,以将来自当前子串序列的样本碱基与来自参考序列的参考碱基进行比较。如上文参考图4a所讨论的,在单元中可使用两个xnor门和一个and门来比较存储在单元中的参考碱基和样本碱基的值。
62.在框604中,从多个单元组的每个单元输出比较值,该比较值指示该单元的样本碱基是否与该单元的参考碱基相匹配。比较值可以是指示参考值和存储在单元中的样本值是否匹配的高二进制值1或低二进制值0。
63.在框608中,电路106通过对从相应单元组中的单元输出的比较值执行and运算来
识别其中所存储的参考序列与当前子串序列相匹配的单元组。如果比较值中的任一者具有低二进制值0,则and运算的结果将具有低二进制值0,从而指示该单元组没有存储匹配序列。另一方面,如果所有比较值具有高二进制值1,则and运算的结果将具有高二进制值1,从而指示该单元组存储匹配序列。在其他具体实施中,电路106可通过对比较值求和并将该和与该单元组中单元的预定数量进行比较来识别其中所存储的参考序列与当前子串序列相匹配的单元组。在此类具体实施中,如果来自单元的所有比较值具有值1,则当所有单元具有匹配值时,单元组的比较值之和将等于单元组中单元的总数。尽管xnor和and作为示例被提及,但本领域的普通技术人员将认识到,在其他实施方案中可通过其他逻辑组合来实现相同的结果。
64.如上所述,可使用其他过程来识别其中所存储的参考序列与存储在单元组中的子串序列相匹配的单元组。就这一点而言,图7是根据一个或多个实施方案的使用参考向量和子串向量的内积或点积的匹配识别子过程的流程图。图7的子过程可由阵列104和/或电路106中的单元执行,作为上文讨论的图5的样本读段定位过程中的框506的一部分,以识别其中所存储的参考序列与存储在单元组中的当前子串序列相匹配的单元组。
65.在框702中,对于每个单元计算代表子串碱基的第一存储值和代表参考碱基的第二存储值的乘积。存储在单元组中的子串值可表示子串向量,并且存储在单元组中的参考值可表示单元组的参考向量。例如,每个参考值和每个样本值可由包括1和/或-1的两个数字表示。在此类示例中,碱基c可具有值1,1,碱基g可具有值-1,-1,碱基t可具有值1,-1,并且碱基a可具有值-1,1。如本领域普通技术人员参考本公开将理解的,1和-1的不同组合可用于表示碱基。
66.在框704中,将针对单元组中的每个单元所计算的乘积从每个单元输出到电路106。在其他具体实施中,电路106可计算存储在单元中的值的乘积。
67.对于每个单元组,在框706中对从单元输出的乘积求和。然后在框708中将每个单元组的乘积之和与该单元组中的单元数量的两倍或子串序列长度的两倍进行比较。在其他具体实施中,可将每个单元组的乘积之和与该组中单元数量的不同预定倍数进行比较。例如,在单元输出指示匹配的值1和指示不匹配的值0的具体实施中,将总和与1乘以单元总数进行比较,而不是与组中单元数量的两倍进行比较。类似地,在单元输出指示匹配的值0的具体实施中,将总和与0乘以单元数量进行比较。
68.在框710中,电路106或主机101识别其中乘积之和等于该单元组中单元数量的两倍或子串序列长度的两倍的单元组。此类单元组具有匹配的序列,因为来自此类组的单元的每个乘积等于1,并且因此合计达到单元数量的两倍(或子串序列长度的两倍)。
69.例如,仅使用四个碱基作为子串序列长度,出于说明的目的,子串序列长度比上文讨论的17至25个碱基的范围短,单元组的参考序列可表示为r=ccag,匹配子串序列可表示为s1=ccag,并且非匹配子串序列可表示为s2=ggag。然后,使用上文针对框702讨论的分配给碱基的值,编码的参考序列或参考向量是[1,1,1,1,-1,1,-1,-1]。编码的匹配子串序列或匹配子串序列向量也将是[1,1,1,1,-1,1,-1,-1]。编码的非匹配子串序列或非匹配子串序列向量将是[-1,-1,-1,-1,-1,1,-1,-1]。
[0070]
取参考向量与匹配子串序列向量的点积或内积得到8,它是该单元组中单元数量的两倍或4个碱基长度的子串序列长度的两倍。另一方面,取参考向量和非匹配子串序列向
量的点积或内积得到0,它小于该组中单元数量或子串序列长度的两倍。因此,产生小于该组中单元数量的两倍或子串序列长度的两倍的值的内积或点积不对应于存储匹配序列的单元组。
[0071]
如上所述,前述参考引导设备和方法通常可允许样本读段被概率性地定位在参考基因组内。这可通过基于样本读段在参考基因组中的位置将样本读段预处理成组以用于进一步测序来提高从头和参考比对测序的效率。在从头测序的情况下,与其中使用较大且较昂贵的存储器通过有限数量的计算线程访问所有样本读段的常规方法相比,这可通过允许更多的计算线程访问较小共享存储器中的每个定位的样本读段组来提高从头测序的可扩展性和效率。在参考比对测序的情况下,与可使用单个共享存储器来存储完整参考基因组的常规参考比对测序相比,定位的样本读段组可允许仅将参考基因组的更小相关部分存储在每个定位组的更小且更便宜的存储器中,同时允许更多的计算线程访问该多个更小的存储器以提高可扩展性。
[0072]
其他实施方案
[0073]
本领域的普通技术人员将会知道,结合本文公开的示例所描述的各种例示性逻辑块、模块和过程可以实现为电子硬件、软件或两者的组合。此外,前述过程可体现在计算机可读介质上,该计算机可读介质使处理器、控制器或其他电路执行或实施某些功能。
[0074]
为了清楚地说明硬件和软件的这种可互换性,上面已经在其功能方面对各种例示性部件、块和模块进行了总体描述。将此功能性实现为硬件还是软件取决于特定应用和施加在整个系统的设计约束。本领域的普通技术人员可以针对每个特定应用以不同方式实现所描述的功能,但这种实现决策不应被解释为导致脱离本公开的范围。
[0075]
结合本文公开的示例所描述的各种例示性逻辑块、单元、模块和电路可以用被设计用于执行本文所述功能的通用处理器、gpu、dsp、asic、fpga或其他可编程逻辑器件、离散门或晶体管逻辑、分立硬件部件或其任何组合来实现或执行。通用处理器可以是微处理器,但是在替代方案中,处理器可以是任何传统的处理器、控制器、微控制器或状态机。处理器或控制器电路还可以实现为计算设备的组合,例如dsp和微处理器的组合、多个微处理器、soc、结合dsp内核的一个或多个微处理器,或任何其他此类配置。
[0076]
结合本文公开的示例而描述的方法或过程的活动可直接体现于硬件中、由处理器或控制器电路执行的软件模块中或两者的组合中。该方法或算法的步骤也可以以与示例中提供的顺序另选的顺序执行。软件模块可驻留在ram存储器、闪存存储器、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动介质、光学介质或本领域中已知的任何其他形式的存储介质中。示例性存储介质耦接到处理器或控制器电路,使得处理器或控制器电路可以从该存储介质读取信息,并且可以向该存储介质写入信息。在替代方案中,存储介质可以是处理器或控制器电路的组成部分。处理器或控制器电路和存储介质可驻留在asic或soc中。
[0077]
提供了本公开的示例性实施方案的上述描述,以使得任何本领域普通技术人员能够制作或使用本公开的实施方案。对这些示例的各种修改对于本领域普通技术人员而言将是显而易见的,并且在不脱离本公开的范围的情况下,本文公开的原理可以应用于其他示例。所述实施方案将在所有方面被认为仅仅是示例性的而非限制性的。此外,在以下权利要求书中以“a和b中的至少一者”的形式使用的语言应理解为意指“仅a、仅b或a和b两者”。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献