一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

试剂盒和使用试剂盒的方法与流程

2022-07-10 19:04:01 来源:中国专利 TAG:


1.本公开总体上涉及基因组学或用于临床基因组学的系统、设备和过程;更具体地,本公开涉及试剂盒或用于使用所述试剂盒执行用于对遗传物质进行处理的湿实验室测定以便在准确性和效率显著提高的单一测定中准确且成本有效地鉴定多种变体类型的试剂盒或方法。本公开进一步涉及有效获取和准确处理基因组序列数据集并且解决偏差的影响以准确检测给定基因组序列数据集中的拷贝数变体的系统和方法。


背景技术:

2.随着医学和计算技术的最新进展,在基因组测序和对应测序数据的分析方面取得了快速进展。测序数据通常以短读段序列生成,例如,在50个与300个脱氧核糖核酸(dna)碱基之间,其中这些读段序列跨个体的基因组随机分布。遗传分析涉及许多复杂的湿实验室和计算机模拟过程的组合,其中所述过程从获取给定个体的生物样品以得到用于进行进一步分析的遗传物质开始。当代测序技术,例如下一代测序(ngs),能够通过将长dna分子转化为更小的片段分子,以扩增形式对所述片段分子进行测序以生成对应的片段序列,并且然后将所述片段序列拼接在一起以生成长dna分子的dna读段来对长dna分子进行测序。在某些情景中,使用基因组技术对基因组中基因的蛋白质编码区(被称为外显子组)进行测序。可替代地,可以使用全基因组测序方法替代外显子组测序,但与外显子组测序方法相比实施起来成本高。全基因组测序与外显子组测序之间引入的偏差和数据错误存在很大差异,并且目前可用的外显子组测序测定中的每一种之间存在进一步差异,这使得鉴定不同突变类型更加困难。
3.此外,此类测序技术,例如,ngs提供了输入数据(例如,外显子组序列数据),这些输入数据形成了鉴定基因组中不同突变类型(即不同类型的变体)的基础,这些突变类型可能是或可能不是给定个体中表现为一种或多种表型的疾病或异常的出现的原因。存在于基因组中的此类不同突变类型或变体的实例包含但不限于单核苷酸变体(snv)、拷贝数变异(cnv)和插入缺失。当基因组中的单一dna碱基被不同的dna碱基取代时,基因组中就会发生snv。由于仅需要鉴定一个缺席者碱基对,因此可以容易地执行此类snv的检测,并且因此在本领域中是众所周知的并且经过研究。另一方面,当dna碱基对的序列在基因组中复制或缺失时,基因组中就会发生cnv。通常,cnv的大小可能从基因组的十多个碱基到几兆碱基不等。因此,与snv相比,检测此类cnv是复杂的任务。
4.目前,在对遗传物质进行处理以鉴定不同的变体类型时遇到了许多技术问题。使用单独的测试、工具和平台对不同变体类型(snv、cnv等)进行检测、可视化和分析的不连贯方法,执行多个测试以鉴定不同突变类型所涉及的高成本,以及进行单独测试时遗漏某些变体的风险是在处理遗传物质以鉴定不同突变类型时遇到的一些技术问题。通常,染色体微阵列已成为用于检测较大变体类型(如cnv)的细胞遗传学应用的已建立标准,而ngs通常被保留用于较小突变类型,如snv或由少量碱基变异引起的突变。随着ngs测定成本的降低,正在开发许多系统和方法来从测序数据中获取cnv,因为据估计cnv占罕见疾病致病性的约
10%-15%。目前,需要单独执行不同的测试来检测不同的突变类型,即snv、cnv等。在最近的研究中,据估计,微阵列分析仅检测到患有遗传病症的患者中约12%的致病事件。然后将那些没有致病发现的患者送交到在大多数情况下为dna测序的第二测试。因此,执行两项测试会导致更高的成本以及更长的时间来评估疾病是否存在。此外,据估计,约5%的样品具有多种致病变体,约12%的样品具有双重变体,即包含cnv和snv的组合。如果在给定时间点单独进行外显子组测序或cnv分析,则会错过此类情况。
5.此外,如今,成本的降低使得执行ngs测序变得更加实惠,并且从ngs数据中得到cnv的需求一直在上升。有若干种工具可用于cnv检测,但此类工具对用户不友好,并且需要用户专业知识(即生物信息学专业知识)。例如,大多数现有的工具和系统仅可使用命令行(即文本界面,其中程序的命令以连续文本行的形式与计算机交互)进行操作,这并不易于使用。此外,每种工具仅擅长一个领域。例如,一些工具和系统擅长用于体细胞样品或原发性样品,而一些工具和系统则擅长分析来自全基因组测序(wgs)的数据,但同样不适合于外显子组测序数据。此外,一些工具和系统擅长使用来自靶向基因组的数据进行遗传分析,以检测具有临床可接受的敏感性和特异性的某些突变类型(即变体)。此外,大量致病性基因组改变落在从ngs和微阵列检测此类突变类型的空位之间。在临床上,对此类突变类型(变体)的另外的测试依赖于多重连接依赖性探针扩增(通常被称为mlpa),这种方法执行起来价格昂贵并且每个基因需要一个试剂盒。另外,这可能会增加测试时间。此外,常规测定不允许数据分析、可视化和变体解释的综合方法,导致误解或遗漏变体(即由于低序列覆盖率)。因此,这是一个技术问题,因为常规的解决方案需要执行不同的测试,难以在临床实验室中实施,并且作为单独和不连贯的解决方案工作,即单独确定不同的突变类型,其中结果彼此不连贯,这导致下游处理效率低下,进一步导致相对地低覆盖(即仅适用于特定结构域区域),并且提供较差的结果可视化。
6.遇到的另一个挑战是样品跟踪。维持样品完整性对于变体的解释至关重要。例如,样品经历了从给定样品中提取dna到生成测序数据的许多物理步骤,这使其成为导致样品混淆的易受攻击的过程。另外,样品混淆可能会带来临床风险,延迟提供结果,并且进一步地可能导致时间和试剂的浪费,从而产生不利的财务影响。
7.另外,药物基因组学是对个体的基因构成如何影响个体对药物的反应的研究,这可以为尝试个体化药物选择和药物给药以避免药物不良反应、副作用和最大化药物疗效提供重要信息。例如,食品和药物管理局(fda)现在在几乎每个医学学科使用的超过100种药物的标签上都包含了药物基因组学信息,强调了药物基因组学信息的广泛覆盖和实施的潜在影响。个体中的这种基因变异可以影响给定药物从人体中激活或清除的速度以及引发期望的靶反应可能需要的给定药物的量。据估计,仅有30%-70%的患者对药物产生积极反应,并且患者甚至可能面临发生药物不良反应(adr)的潜在风险。目前,药物基因组标志物的广泛采用在很大程度上仅限于预先设计的靶向测定,这意味着任何进行外显子组测序的人都需要运行单独的测定,这需要更多的样品并且产生另外的测试途径和成本。此外,许多标准ngs流水线通常不称为纯合野生型(由于另外的存储和计算要求,并且这些变体中的许多在人群中很常见,并且因此被标准过滤方法过滤掉),这是不期望的。此外,在某些场景中,许多致病突变位于由一些现有的现成外显子组测定捕获的编码区之外。这可能会导致医生采取预防措施的决策支持不正确,或者由于在现成的基于外显子组测定的试剂盒中未
捕获致病突变和对致病突变进行测序而导致错过对疾病的评估而导致治疗不正确。
8.因此,鉴于上述讨论,需要克服与用于处理遗传物质、分析基因组序列数据和鉴定多种突变类型的常规试剂盒、系统和方法相关联的上述缺陷。
9.随着医学和计算技术的最新进展、基因组测序方面的快速进步、对应的测序数据的分析,如此通常在例如在50个与300个脱氧核糖核酸(dna)碱基之间的短读段序列中生成的测序数据随机分布在患者的基因组中。此类短读段测序数据是使用许多不同的实验室技术产生的,所有这些技术都将其自己的数据错误或偏差引入到了生成的数据中,这是不期望的。
10.在某些场景中,为了降低成本,经测序的基因组区域通常局限于在被称为“临床外显子组测序”的过程中的已知涉及发病机制的基因小组。所述基因小组被定义为基因组内的靶区列表,并且通常在其中含有一组选定的基因或基因区域,这些基因或基因区域与所研究的疾病或表型具有已知或疑似关联。有许多捕获测定试剂盒可供使用,所述试剂盒通常针对略有不同的基因小组进行定制,并且使用替代性设计和过程来捕获所关注序列。可替代地,可以使用全基因组测序方法替代外显子组测序,但与外显子组测序方法相比实施起来成本高。全基因组测序与外显子组测序之间引入的偏差和数据错误存在很大差异,并且目前可用的外显子组测序测定中的每一种之间存在进一步差异。
11.进一步地,此类测序技术提供输入数据,所述输入数据形成了鉴定基因组中若干种遗传变体或突变的基础,所述遗传变体或突变可能是或可能不是给定个体中表现为表型的疾病或异常的出现的原因。存在于基因组中的此类遗传变体或突变的实例包含但不限于单核苷酸变体(snv)、拷贝数变体(cnv)和结构变体(sv)。人类dna通常包括被称为核苷酸的dna碱基,即成对的腺嘌呤(a)、鸟嘌呤(g)、胞嘧啶(c)和胸腺嘧啶(t),使得“a”与“t”配对(a-t)并且“c”与“g”配对(c-g)。当基因组中的单一dna碱基被不同的dna碱基取代时,基因组中就会发生snv。例如,如果用“g”替换“a”,则原来的碱基对a-t被替换为碱基对g-t。在此类情况下,由于有缺陷的碱基对g-t,个体的基因组中会出现异常。然而,由于仅需要鉴定一个缺席者碱基对,因此可以容易地执行此类snv的检测,并且因此在本领域中是众所周知的并且经过研究。另一方面,当dna碱基对的序列在基因组中复制或缺失时,基因组中就会发生cnv。通常,cnv的大小可能从基因组的十多个碱基到几兆碱基不等。因此,检测此类cnv是复杂的任务,并且没有很多现有系统和方法能够有效鉴定基因组中的cnv,并且即使鉴定出一些cnv,也存在许多假阳性,并且某些其它cnv被遗漏。此外,在生成的短读段测序数据中引入的偏差(或数据错误)、在全基因组测序与外显子组测序之间引入的偏差以及当前可用的外显子组测序测定中的每个测定之间的进一步差异,使得cnv识别(即检测)过程更成问题。此外,存在一些已知的应用程序用于检测拷贝数变体。然而,由于上述偏差(或数据错误)问题以及由于使用多种不同的测序测定类型,此类应用程序的性能各不相同,并且因此不可靠且不准确。
12.因此,鉴于上述讨论,需要克服与用于处理和分析基因组序列数据的常规系统和方法相关联的上述缺陷。


技术实现要素:

13.本公开寻求提供一种用于设备中的改进的试剂盒,其中所述试剂盒用于遗传筛查
以及执行湿实验室测定,所述湿实验室测定包含处理来源于一个或多个细胞外显子组的遗传物质,以及检测来自所述遗传物质的遗传dna读数中的单核苷酸变体(snv)、插入缺失和拷贝数变异(cnv)。本公开还寻求提供一种用于使用试剂盒的方法,所述试剂盒执行湿实验室测定,所述湿实验室测定包含处理来源于一个或多个细胞外显子组的遗传物质,以及检测来自所述遗传物质的遗传dna读数中的snv、插入缺失和cnv。本公开寻求提供一种针对现有的低覆盖率问题的解决方案,所述低覆盖率表示来自一个或多个细胞外显子组的基因组测序读数数据中对变体的误解或遗漏变体。本公开进一步寻求提供一种针对使用单独的测试、工具和平台进行检测、可视化和/或进一步分析不同变体类型(snv、cnv和插入缺失)的不连贯方法以及为鉴定不同变体类型而执行多个测试所涉及的高成本的现有问题的解决方案。
14.本公开的目的是提供至少部分地克服现有技术中遇到的问题的解决方案,以及提供改进的试剂盒和提供集成解决方案的方法,所述集成解决方案是用户友好的、具有成本效益的并且能够以相对较高的覆盖率从单一测定中同时检测不同的变体类型(snv、cnv和插入缺失),从而导致遗漏变体的概率显著降低,并且进一步允许以连接的和集成的方法对检测到的不同变体类型进行可视化和进一步分析。
15.一方面,本公开提供了一种用于在设备中示意并且用于遗传筛查的试剂盒,其中所述试剂盒在操作时执行湿实验室测定,其中所述测定包含处理来源于一个或多个细胞外显子组的遗传物质,其中所述测定检测来自所述遗传物质的遗传dna读数中的单核苷酸变体(snv)、插入缺失和拷贝数变异(cnv),
16.所述试剂盒的特征在于,
17.所述试剂盒可作为处理所述遗传物质的单一测定来执行;并且
18.所述试剂盒包含软件产品,所述软件产品可在计算硬件上执行以使所述计算硬件调用一种或多种算法以通过将所述遗传dna读数的部分与一种或多种dna序列转录物进行比较来处理所述遗传dna读数,以便确定对应于所述dna读数数据中的所述一种或多种dna序列转录物的变体的出现,
19.其中所述一种或多种算法包含:
20.(i)用于在所述单一测定中同时检测来自所述遗传物质的所述遗传dna读数中的snv、插入缺失和cnv的算法;
21.(ii)用于对来自所述遗传物质的所述遗传dna读数中存在的临床相关cnv进行注释的算法;
22.(iii)根据与一个或多个部分相关联的表型对来自所述遗传物质的所述遗传dna读数的所述一个或多个部分进行优先级排序的算法;
23.(iv)检测药物基因组学(pgx)标志物的变体识别的算法;以及
24.(v)被配置成在所述单一测定中样品跟踪snp的算法。
25.另一方面,本公开提供了一种用于使用试剂盒的方法,其中所述试剂盒在使用时执行湿实验室测定,其中所述测定包含处理来源于一个或多个细胞外显子组的遗传物质,其中所述测定检测来自所述遗传物质的遗传dna读数中的单核苷酸变体(snv)、插入缺失和拷贝数变异(cnv),所述方法的特征在于所述方法包含:
26.(i)将所述试剂盒作为处理所述遗传物质的单一测定应用;以及
27.(ii)在计算硬件上执行所述试剂盒的软件产品,以使所述计算硬件调用一种或多种算法以通过将所述遗传dna读数的部分与一种或多种dna序列转录物进行比较来处理所述遗传dna读数,以便确定对应于所述dna读数数据中的所述一种或多种dna序列转录物的变体的出现,
28.其中所述一种或多种算法包含:
29.(a)用于在所述单一测定中同时检测来自所述遗传物质的所述遗传dna读数中的snv、插入缺失和cnv的算法;
30.(b)用于对来自所述遗传物质的所述遗传dna读数中存在的临床相关cnv进行注释的算法;
31.(c)根据与一个或多个部分相关联的表型对来自所述遗传物质的所述遗传dna读数的所述一个或多个部分进行优先级排序的算法;以及
32.(d)检测药物基因组学(pgx)标志物的变体识别的算法;以及
33.(e)被配置成在所述单一测定中样品跟踪snp的算法。
34.本公开的实施例基本上消除或至少部分地解决了现有技术中的上述问题,并且使所述试剂盒能够作为对遗传物质进行处理的单一测定来执行,使得从单一测定中经济有效地确定不同的变体类型(snv、cnv、插入缺失和pgx标志物),并且同时具有高覆盖率,从而导致遗漏变体的概率显著降低。本公开还通过提供一种集成解决方案来解决不连贯方法的问题,所述集成解决方案不仅使得能够以连接的、用户友好的和集成的方法对不同变体类型进行检测,而且还使得能够同时可视化和进一步分析,这降低了误解遗传变体的风险。
35.本公开还寻求提供一种改进的系统,所述系统获取和处理基因组序列数据集以检测拷贝数变体。本公开还寻求提供一种用于获取和处理基因组序列数据集以检测拷贝数变体的改进的方法。本公开寻求提供对由于给定基因组序列数据集中的偏差而对给定基因组序列数据集中的拷贝数变体的低效和不可靠检测的现有问题的解决方案。此外,本公开进一步寻求解决现有问题,即如何从多个不同应程序中鉴定用于特定基因组序列数据集的有效且最佳的应用程序,这有助于准确且可靠地检测可能存在偏差(或数据错误)的特定基因组序列数据集中的拷贝数变体。
36.本公开的目的是提供一种解决方案,所述解决方案至少部分地克服了现有技术中遇到的问题并且提供了改进的系统和方法,所述系统和方法通过鉴定对给定基因组序列数据集可靠且有效的最佳应用程序,解决了偏差对有效且准确检测给定基因组序列数据集中的拷贝数变体的影响。
37.一方面,本公开提供了一种获取和处理基因组序列数据集以检测其中的一个或多个拷贝数变体(cnv)的系统,所述系统包括:
[0038]-被配置成处理受试者的基因组的至少一部分以生成原始基因组序列数据集的设备;以及
[0039]-计算布置,所述计算布置包括数据存储器装置和控制电路系统,其中所述控制电路系统被配置成:
[0040]-从所述设备中获取所述原始基因组序列数据集和预存储在所述数据存储器装置中的多个候选cnv检测应用程序;
[0041]-通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序来执行
第一cnv识别以获得所述原始基因组序列数据集的随机选择区中的基线cnv,其中所述基线cnv是所述原始基因组序列数据集中预先存在的cnv,被认为是真值;
[0042]-组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集;
[0043]-通过使用预存储在所述数据存储器装置中的模拟应用程序模拟所述原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列数据集,其中所述模拟基因组序列数据集包括所述人工cnv集和所述基线cnv集;
[0044]-在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置;
[0045]-通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述模拟基因组序列数据集中执行第二cnv识别;
[0046]-从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基线cnv集,以获得新cnv集;
[0047]-基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置;
[0048]-基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度;
[0049]-基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优;以及
[0050]-利用所选候选cnv检测应用程序识别所述基因组序列数据中的cnv。
[0051]
另一方面,本公开的实施例提供了一种处理原始基因组序列数据集以检测其中的一个或多个拷贝数变体(cnv)的系统,所述系统包括:
[0052]-计算布置,所述计算布置包括数据存储器装置和控制电路系统,其中所述控制电路系统被配置成:
[0053]-获取所述原始基因组序列数据集和预存储在所述数据存储器装置中的多个候选cnv检测应用程序;
[0054]-通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序来执行第一cnv识别以获得所述原始基因组序列数据集的随机选择区中的基线cnv,其中所述基线cnv是所述原始基因组序列数据集中预先存在的cnv,被认为是真值;
[0055]-组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集;
[0056]-通过使用预存储在所述数据存储器装置中的模拟应用程序模拟所述原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列数据集,其中所述模拟基因组序列数据集包括所述人工cnv集和所述基线cnv集;
[0057]-在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置;
[0058]-通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述模拟基因组序列数据集中执行第二cnv识别;
[0059]-从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基
线cnv集,以获得新cnv集;
[0060]-基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置;
[0061]-基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度;
[0062]-基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优;以及
[0063]-利用所选候选cnv检测应用程序识别所述基因组序列数据中的cnv。
[0064]
又另一方面,本公开的实施例提供了一种用于获取和处理基因组序列数据集以检测其中的一个或多个拷贝数变体(cnv)的方法,其中所述方法使用包括设备和计算布置的系统来实施,其中所述方法包括:
[0065]-通过使用所述设备处理受试者的基因组的至少一部分以生成原始基因组序列数据集;
[0066]-通过使用所述计算布置的控制电路系统,从所述设备中获取所述原始基因组序列数据集和预存储在所述计算布置的数据存储器装置中的多个候选cnv检测应用程序;
[0067]-通过使用所述控制电路系统,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序来执行第一cnv识别以获得所述原始基因组序列数据集的随机选择区中的基线cnv,其中所述基线cnv是所述原始基因组序列数据集中预先存在的cnv,被认为是真值;
[0068]-通过使用所述控制电路系统,组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集;
[0069]-通过使用所述控制电路系统,通过使用预存储在所述数据存储器装置中的模拟应用程序模拟所述原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列数据集,其中所述模拟基因组序列数据集包括所述人工cnv集和所述基线cnv集;
[0070]-通过使用所述控制电路系统,在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置;
[0071]-通过使用所述控制电路系统,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述模拟基因组序列数据集中执行第二cnv识别;
[0072]-通过使用所述控制电路系统,从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基线cnv集,以获得新cnv集;
[0073]-通过使用所述控制电路系统,基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置;
[0074]-通过使用所述控制电路系统,基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度;
[0075]-通过使用所述控制电路系统,基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优;以及
[0076]-通过使用所述控制电路系统,利用所选候选cnv检测应用程序识别所述基因组序
列数据中的cnv。
[0077]
又另一方面,本公开的实施例提供了一种用于获取和处理基因组序列数据集以检测其中的一个或多个拷贝数变体(cnv)的方法,其中所述方法使用包括计算布置的系统来实施,其中所述方法包括:
[0078]-通过使用所述计算布置的控制电路系统,获取原始基因组序列数据集和预存储在所述计算布置的数据存储器装置中的多个候选cnv检测应用程序;
[0079]-通过使用所述控制电路系统,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序来执行第一cnv识别以获得所述原始基因组序列数据集的随机选择区中的基线cnv,其中所述基线cnv是所述原始基因组序列数据集中预先存在的cnv,被认为是真值;
[0080]-通过使用所述控制电路系统,组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集;
[0081]-通过使用所述控制电路系统,通过使用预存储在所述数据存储器装置中的模拟应用程序模拟所述原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列数据集,其中所述模拟基因组序列数据集包括所述人工cnv集和所述基线cnv集;
[0082]-通过使用所述控制电路系统,在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置;
[0083]-通过使用所述控制电路系统,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述模拟基因组序列数据集中执行第二cnv识别;
[0084]-通过使用所述控制电路系统,从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基线cnv集,以获得新cnv集;
[0085]-通过使用所述控制电路系统,基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置;
[0086]-通过使用所述控制电路系统,基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度;
[0087]-通过使用所述控制电路系统,基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优;以及
[0088]-通过使用所述控制电路系统,利用所选候选cnv检测应用程序识别所述基因组序列数据中的cnv。
[0089]
又另一方面,本公开的实施例提供了一种计算机程序产品,其包括其上存储有计算机可读指令的非暂时性计算机可读存储介质,所述计算机可读指令可由包括处理硬件的计算机化装置执行以上述方法。
[0090]
又另一方面,本公开的实施例提供了一种用于获取和处理基因组序列数据集以检测其中的一个或多个拷贝数变体(cnv)的方法,其中所述方法使用包括计算布置的系统来实施,其中所述方法包括:
[0091]-通过使用所述计算布置的控制电路系统,获取原始基因组序列数据集和预存储在所述计算布置的数据存储器装置中的多个候选cnv检测应用程序;
[0092]-通过使用所述控制电路系统,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序来执行第一cnv识别以获得所述原始基因组序列数据集的随机选择区中的基线cnv,其中所述基线cnv是所述原始基因组序列数据集中预先存在的cnv,被认为是真值;
[0093]-通过使用所述控制电路系统,组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集;
[0094]-通过使用所述控制电路系统,通过使用预存储在所述数据存储器装置中的模拟应用程序模拟所述原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列数据集,其中所述模拟基因组序列数据集包括所述人工cnv集和所述基线cnv集;
[0095]-通过使用所述控制电路系统,在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置;
[0096]-通过使用所述控制电路系统,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述模拟基因组序列数据集中执行第二cnv识别;
[0097]-通过使用所述控制电路系统,从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基线cnv集,以获得新cnv集;
[0098]-通过使用所述控制电路系统,基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置;
[0099]-通过使用所述控制电路系统,基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度;
[0100]-通过使用所述控制电路系统,基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优;以及
[0101]-通过使用所述控制电路系统,利用所选候选cnv检测应用程序识别所述基因组序列数据中的cnv。
[0102]
本公开的实施例基本上消除或至少部分地解决了现有技术中的上述问题,并且使得能够选择用于检测基因组序列数据集中的拷贝数变体的最佳应用程序。针对特定基因组序列数据集的所选最佳应用程序有助于准确且可靠地检测此基因组序列数据集中的拷贝数变体。
[0103]
本公开的另外的方面、优点、特征和目的将从附图和结合下面所附权利要求解释的说明性实施例的详细描述中变得显而易见。
[0104]
应当理解,本公开的特征易于以各种组合进行结合,而不背离由所附权利要求限定的本公开的范围。
附图说明
[0105]
当结合附图阅读时,将更好理解以上发明内容以及以下说明性实施例的具体描述。出于说明本公开的目的,在附图中示出了本公开的示例性构造。然而,本公开不限于本文所公开的具体方法和工具。此外,本领域的技术人员将理解附图并不是按比例绘制的。在可能的情况下,相似的元件已用相同的数字指示。
[0106]
现在将通过举例并且参考以下图来描述本公开的实施例,其中:
[0107]
图1a是根据本公开的实施例的在设备中使用的试剂盒的框图;
[0108]
图1b是根据本公开的另一个实施例的在设备中使用的试剂盒的框图;
[0109]
图2是根据本公开的实施例的用于实施用于执行定制的湿实验室外显子组测定的试剂盒的示例性场景的图解;
[0110]
图3是描绘根据本公开的实施例的使用执行湿实验室测定的试剂盒的方法的步骤的流程图;并且
[0111]
图4是描绘根据本公开的另一个实施例的使用执行湿实验室测定的试剂盒的方法的步骤的流程图。
[0112]
图5a是根据本公开的实施例的获取和处理基因组序列数据集以检测拷贝数变体(cnv)的系统的框图;
[0113]
图5b是根据本公开的另一个实施例的获取和处理基因组序列数据集以检测拷贝数变体(cnv)的系统的网络环境的图解;并且
[0114]
图6a和6b是描绘根据本公开的实施例的用于获取和处理基因组序列数据集以检测拷贝数变体(cnv)的方法的步骤的流程图。
[0115]
在附图中,带下划线的数字用来表示带下划线的数字所定位的项或与所述带下划线的数字相邻的项。未加下划线的数字涉及通过线所标识的项,所述线将未加下划线的数字与项连接。当数字未加下划线并带有相关联的箭头时,未加下划线的数字将用于标识箭头所指向的常规项。
具体实施方式
[0116]
以下详细描述说明了本公开的实施例以及可以实施所述实施例的方式。尽管已经公开了执行本公开的一些模式,但是本领域技术人员将认识到用于执行或实践本公开的其它实施例也是可能的。
[0117]
一方面,本公开提供了一种用于在设备中使用的用于遗传筛查的试剂盒,其中所述试剂盒在操作时执行湿实验室测定,其中所述测定包含处理来源于一个或多个细胞外显子组的遗传物质,其中所述测定检测来自所述遗传物质的遗传dna读数中的单核苷酸变体(snv)、插入缺失和拷贝数变异(cnv),
[0118]
所述试剂盒的特征在于,
[0119]
所述试剂盒可作为处理所述遗传物质的单一测定来执行;并且
[0120]
所述试剂盒包含软件产品,所述软件产品可在计算硬件上执行以使所述计算硬件调用一种或多种算法以通过将所述遗传dna读数的部分与一种或多种dna序列转录物进行比较来处理所述遗传dna读数,以便确定对应于所述dna读数数据中的所述一种或多种dna序列转录物的变体的出现,
[0121]
其中所述一种或多种算法包含:
[0122]
(i)用于在所述单一测定中同时检测来自所述遗传物质的所述遗传dna读数中的snv、插入缺失和cnv的算法;
[0123]
(ii)用于对来自所述遗传物质的所述遗传dna读数中存在的临床相关cnv进行注释的算法;
[0124]
(iii)根据与一个或多个部分相关联的表型对来自所述遗传物质的所述遗传dna读数的所述一个或多个部分进行优先级排序的算法;
[0125]
(iv)检测药物基因组学(pgx)标志物的变体识别并且在所述单一测定中单独检测样品跟踪snp的算法。
[0126]
另一方面,本公开的实施例提供了一种用于使用试剂盒的方法,其中所述试剂盒在使用时执行湿实验室测定,其中所述测定包含处理来源于一个或多个细胞外显子组的遗传物质,其中所述测定检测来自所述遗传物质的遗传dna读数中的单核苷酸变体(snv)、插入缺失和拷贝数变异(cnv),所述方法的特征在于所述方法包含:
[0127]
(i)将所述试剂盒作为处理所述遗传物质的单一测定应用;以及
[0128]
(ii)在计算硬件上执行所述试剂盒的软件产品,以使所述计算硬件调用一种或多种算法以通过将所述遗传dna读数的部分与一种或多种dna序列转录物进行比较来处理所述遗传dna读数,以便确定对应于所述dna读数数据中的所述一种或多种dna序列转录物的变体的出现,
[0129]
其中所述一种或多种算法包含:
[0130]
(a)用于在所述单一测定中同时检测来自所述遗传物质的所述遗传dna读数中的snv、插入缺失和cnv的算法;
[0131]
(b)用于对来自所述遗传物质的所述遗传dna读数中存在的临床相关cnv进行注释的算法;
[0132]
(c)根据与一个或多个部分相关联的表型对来自所述遗传物质的所述遗传dna读数的所述一个或多个部分进行优先级排序的算法;以及
[0133]
(d)检测药物基因组学(pgx)标志物的变体识别并且在单一测定中单独检测样品跟踪snp的算法。
[0134]
本公开提供了一种集成解决方案,所述集成解决方案用于从使用上述试剂盒和方法执行的单一测定中同时检测、可视化和进一步分析不同的变体类型(即snv、cnv和插入缺失的组合)。所公开的试剂盒可作为对遗传物质(如外显子组或靶向基因(即外显子组)小组小组)进行处理的单一测定来执行,以从遗传物质中获得遗传dna读数。试剂盒用于遗传筛查。遗传筛查的实例包含但不限于孕前筛查、胚胎植入前遗传筛查或与辅助生殖技术相关的应用。以连接和集成的方式在单一测定中一起检测不同的变体类型(即snv、cnv、插入缺失和pgx标志物),这显著增加了遗传变体检测的覆盖率并且减少了对变体的误解并且避免在来源于细胞外显子组的遗传dna读数中意外遗漏潜在变体(即临床相关的不同变体类型)。试剂盒利用软件产品和具有dna序列转录物的广泛数据集来确定与dna读数数据中的一个或多个dna序列转录物相对应的变体的出现,这有效地处理和减少了偏差(如果外显子组测序中有的话)的影响,并且为试剂盒提供了直接从提取的样品中检测多种(即双重、三重等)致病变体(即cnv和snv、或cnv、snv和pgx标志物的组合)的能力。试剂盒允许以连接和集成的方式对检测到的不同变体类型进行可视化和进一步分析。
[0135]
贯穿本技术,变体或遗传变异是指任何物种、群组或群体或可以在任何物种、群组或群体中的个体的背景下看到,并且可在基因和等位基因中观察到。导致遗传变异的事实可能包含但不限于基因突变、交叉、重组、遗传漂变、基因流动和环境因素或加剧自然选择过程。变体可能会带来进化上的变化。
[0136]
进一步地,术语单核苷酸变体(snv)和单核苷酸多态性(snp)在本文中等同地使用。
[0137]
上述试剂盒不需要进行多次测定和测试,并且因此是高度成本有效的。此外,试剂盒防止样品混淆,由此提高临床安全,防止浪费时间和试剂,并且因此提供时间和成本方面的节省。在设备中使用的试剂盒可以使用易于使用的图形用户界面进行操作,并且整个试剂盒和方法易于在临床实验室中实施。试剂盒在计算硬件上执行软件产品,使计算硬件系统地调用一种或多种算法来处理遗传dna读数,从而确保对不同变体类型的连贯分析;计算硬件可以是当代膝上型计算机、计算工作站或类似物(例如,当代四核处理器计算机,其处理器在大约3ghz下运行)。试剂盒还使得能够通过底层算法来识别纯合野生型,以鉴定其中变体的存在,而无需过滤掉此类变体,从而进一步减少遗漏任何临床使用变体的机会。试剂盒可以容易地被设计为专门用于实体的定制临床外显子组测定,以便根据所述实体的应用领域而更有效。例如,在由试剂盒执行的定制临床外显子组测定中有效地捕获了表现为表型(例如疾病)的致病变体。可替代地阐述的,试剂盒使得能够检测、可视化和分析导致个体(目前由于处理来源于一个或多个细胞外显子组的遗传物质的不连贯方法而被忽视)的罕见疾病的多种变体类型,并且分析从此类经处理的遗传物质中获得的遗传dna读数。
[0138]
本公开提供了一种用于设备中的试剂盒。所述试剂盒在操作时执行湿实验室测定,其中所述测定包含处理来源于一个或多个细胞外显子组的遗传物质,并且其中所述测定检测来自所述遗传物质的遗传脱氧核糖核酸(dna)读数中的单核苷酸变体(snv)、插入缺失和拷贝数变异(cnv)。本文中“试剂盒”是指外显子组捕获试剂盒。具体地,所述试剂盒是用于检测多种变体类型的单一测定外显子组捕获试剂盒。所述试剂盒包含使得能够处理来自于至少一个外显子组的遗传物质的组件,以及软件产品,所述组件被配置成在所述软件产品上操作;例如,所述组件任选地包含,例如,预先制备的板阵列。术语“设备”是指试剂盒是其一部分或试剂盒在其中与设备相关联地操作的机器或系统。在一个实例中,所述设备可以是脱氧核糖核酸(dna)读数设备,如测序平台。测序平台可以是大型测序仪或紧凑型台式测序仪。试剂盒当在设备中使用时被配置成执行湿实验室测定以获得遗传dna读数。术语“细胞外显子组”是指受试者的基因组中蛋白质编码基因中的一个或多个外显子的完整序列。根据一个实施例,细胞外显子组是外显子组加(exome )。外显子组加是指蛋白质编码外显子以及对发病机制有已知贡献的非编码区(例如,已知的剪接修饰位点和/或转录因子结合位点)。基因中的一个或多个外显子的序列被转录,使得外显子保留在mrna内,而内含子(基因的非编码区)通过mrna剪接去除并且有助于由此基因编码的最终蛋白质产物。与设备一起使用的试剂盒被配置成处理靶区,如细胞外显子组,以得到遗传物质。对受试者细胞外显子组中的变体(如snv、插入缺失和cnv)的鉴定可以提供关于受试者可能患有的遗传病症和遗传疾病的信息。
[0139]
根据一个实施例,套件在多个阶段中操作。具体地,多个阶段是指四个连续的阶段,如第一选择阶段、第二湿实验室阶段、第三数据处理阶段和第四可视化阶段,所述四个连续的阶段以连接和集成的方式相互同步地工作。第一选择阶段是指使用试剂盒的实体能够根据定制要求从多个特征中选择所关注特征集的选择阶段(即,试剂盒作为可根据特定供应商、实体或最终用户的要求进行配置的定制临床外显子组测定来操作)。第二湿实验室阶段是指遗传物质处理阶段,使用试剂盒根据第一选择阶段中所选的所关注特征集从遗传
物质中获得遗传dna读数。第三数据处理阶段是指数据处理流水线阶段,其中根据在第一选择阶段中所选的所关注特征集处理来自第二数据处理阶段的输出(即遗传dna读数数据)。第四可视化阶段是指渲染图形用户界面以用于可视化和进一步分析在第三数据处理阶段处理的数据的可视化阶段。
[0140]
在第一选择阶段中,向(购买中或任选地购买试剂盒后的)用户提供根据要求选择特征的选项。试剂盒允许数据处理、变体过滤、变体优先级排序和经处理数据(例如报告)的可视化。数据处理特征和可视化特征是可配置的,并且可根据需要提供给试剂盒的所有者。在一个实施方案中,令牌提供对某些所选特征的访问(或激活某些所选特征)。试剂盒允许根据选择来选择的多个特征的实例包含但不限于外显子组测序偏好和多个定制变体鉴定模块。使用试剂盒可配置此类多个特征。在一个实例中,允许用户使用试剂盒来选择全外显子组测序(wes)、浅全基因组测序(swgs)或其组合(即,wes
±
swgs或swgs
±
wes),以及外显子组加分析特征。wes和swgs使用下一代测序(ngs)来鉴定基因编码区(外显子)中的遗传变体,涵盖致病变体。术语“外显子组加”是指蛋白质编码外显子以及对发病机制有已知贡献的非编码区(例如,已知的剪接修饰位点和/或转录因子结合位点)。因此,外显子组加是用于鉴定具有临床和药物基因组学用途的不同类型的变体(例如,蛋白质截短变体)的更强大工具。
[0141]
除了外显子组测序偏好外,还可根据选择来选择(即,可以选择加入或选择退出)以下特征:i)产前模块;ii)早期婴儿型癫痫性脑病(eiee)神经医学模块;和携带者筛查面板模块。产前模块包含用于鉴定产前测试中的变体的处理的和已知的dna序列转录物数据集的组合。例如,产前模块包含至少2598种胎儿异常基因转录物。eiee神经医学模块包含用于鉴定与eiee相关的变体的处理的和已知的dna序列转录物数据集的组合。例如,eiee神经医学模块包含至少5019种癫痫基因哈瓦那转录物特征。eiee是以癫痫为特征的罕见神经病症。eiee是严重的进行性综合征,发病较早(例如,通常在一岁之前),并且一些患有eiee的儿童在以后的生活中可能继续发展为其它癫痫病症。观察到,在相当大比例的儿童中,癫痫被错误地鉴定为胃肠道病症并且作为胃肠道病症来治疗。已知存在300多种导致eiee的基因,并且因此神经医学模块提供了对需要覆盖此类基因的相对更广泛和全面的覆盖率(例如,与仅包含这些基因的子集的常规面板相比)。携带者筛查面板模块尝试鉴定生下患上一种或预先选择的一组孟德尔病状(mendelian condition)的孩子的风险较高的受试者(或夫妇),由此使得能够考虑替代性的生产选择和早期干预策略。任选地,使用扩展的携带者筛查(ecs)面板模块,其鉴定多种(例如,超过10种)疾病的生殖风险。
[0142]
在第二湿实验室阶段,试剂盒允许出于测序的目的在本地提取dna样品。使用已知的dna/rna分离方法从生物受试者中提取dna样品。从任何生物样品类型中提取dna的任何方法都应满足的基本标准包含:高效提取、为下游过程(如下一代测序(ngs))提取足够量的dna/rna、去除污染物和dna的质量和纯度。在一个实例中,紫外线吸光度通常用于评估所提取的dna的纯度。对于纯dna样品,260nm处的吸光度与280nm处的吸光度的比率为约1.8。受试者的生物样品是指通过在受控环境下采样而优选地非侵入性地采集的实验室样本,即,医学受试者的组织、液体或来源于受试者的其它材料的收集物质。生物样品的实例包含但不限于血液、咽拭子、痰、手术引流液、组织活检、羊水或胎儿样品。
[0143]
根据一个实施例,dna样品被剪切。剪切是酶剪切(例如,使用限制酶)或声剪切。本
领域普通技术人员应当理解,可以使用任何其它dna片段化方法(如雾化或长dna分子可能被化学片段化或使用转座元件),而不限制本公开的范围。剪切后的片段化dna样品用于制备swgs(浅-低水平)文库,在序列偏好中选择了swgs特征的情况下,所述文库并入唯一分子标识符(umi)和对应样品的索引(即,样品索引)。此外,剪切后的片段化dna样品也用于wes文库制备,所述文库还包含umi和样品索引,以防在第一选择阶段中在序列偏好中选择了wes特征。在wes中,通过基因组片段与互补寡核苷酸或“诱饵”的特异性杂交来靶向和富集基因组的蛋白质编码区。然后使用高通量下一代测序(ngs)技术对这些靶向区域进行测序。此后,合并swgs和wes文库(即,将swgs与wes文库结合)进行高覆盖率的双末端外显子组测序(这使得能够进行全外显子组加下游分析)。对此类所选文库执行测序。在一个实例中,使用限定数量的碱基对(bp)配对末端读段(短读段)进行测序(例如,使用ngs测序)。在另一个实例中,用长读段测序(即,具有对单一读段中平均超过10kb进行测序的能力)执行测序。
[0144]
在一个实例中,在ngs中,在dna区段长度相对较长,例如,超过250个碱基对的一些情况下,片段与通用衔接子(即位于读段末端的小片段已知dna)连接并且使用衔接子粘接到载玻片(例如,在基于illumina的测序中)。在一些情况下,例如在外显子组测序中分离出对应于功能性基因的编码区的mrna转录物。使此类mrna转录物经受逆转录以获得cdna片段。根据一个实施例,与设备一起使用的试剂盒被进一步配置成在下一代测序(ngs)过程中同时执行对多个互补脱氧核糖核酸(cdna)片段分子的测序以产生遗传物质以获得遗传dna读数。值得注意的是,测序(例如,dna测序)是确定给定dna区段中核苷酸序列的过程。在nsg中,测序是使用边合成边测序的并行方式完成的,以产生由数百万个短测序读段构成的并发数据的集合。然后采用计算装置检测每个图像中每个读段位置位点的碱基,然后将所述碱基用于构建序列。由设备获得的序列读数对应于遗传dna读数数据(即测序数据)。
[0145]
根据一个实施例,试剂盒不需要设置数千个pcr反应。试剂盒允许在单一测定(例如,单一溶液试管)中富集外显子组加区。靶向外显子组加测序允许在一个简单的步骤中并行富集靶区,以评估潜在的疾病相关区和候选基因。将从测序中获得的测序数据上传到基于云的序列分析和可视化平台。在一个实例中,测序数据(即遗传dna读数数据)以二进制碱基识别(bcl)、fastq、二进制比对映射(bam)、变体识别格式(vcf)或浏览器可扩展数据(bed)格式的形式上传。试剂盒通信地耦接到基于云的序列分析和可视化平台。
[0146]
在一个实例中,原始基因组测序读数是指二进制碱基识别(bcl)数据,即直接来自测序仪的原始测序读数。fastq格式是基于文本的格式,用于存储碱基识别和对应的质量信息。bam格式是序列比对格式(sam)文件的压缩二进制版本,用于表示经比对的序列。vcf格式是文本文件,用于存储基因序列变异(基因的变异)。bed格式提供了灵活的方式来定义在注释跟踪中显示的数据线。使用在第一选择阶段提供对所选模块(即,特征)的访问的所选令牌来上传测序数据。任选地,所选样品跟踪测定(即,根据在第一选择阶段中执行的选择)也在本地运行。在此类情况下,先前执行的样品跟踪测定的输出也会上传到基于云的序列分析和可视化平台中。在一个实例中,样品跟踪测定的输出包含用作标志物以避免样品混淆的snp数据。
[0147]
根据一个实施例,第三数据处理阶段,即,数据处理流水线阶段开始于遗传dna读数数据(即,测序数据)的上传。在第一选择阶段根据所选特征(例如,模块令牌)触发特定处理流水线。在一个实例中,测序数据的初始比对与参考基因组数据集一起执行。测序数据与
例如grch38/hg38人类基因组构建组装比对。在一个实例中,检查所有读段在每个位置处都具有高于阈值(例如,大于10)的质量评分。这减少了容易出错的读段的数量,由此改进了比对结果。通过使用比对数据或原始测序数据,生成有质量控制的样品跟踪snp。snp和在一些情况下短串联重复序列标志物可能用于遗传样品跟踪以避免样品混淆。进一步地,umi去重易受在测序数据(即上传的原始测序数据或比对数据)上执行的影响。长dna分子的dna片段在其扩增之前包含标识符,被称为唯一分子标识符(umi)。值得注意的是,umi是长度在8个到16个碱基对范围内的随机核苷酸序列。在扩增期间,对应于给定片段分子的给定umi连接到从给定片段分子产生的重复分子中的每个重复分子上。在测序期间,umi作为单独的一条读段数据被读取。对测序数据(即,上传的原始测序数据或从与参考基因组数据集一起执行的测序数据的初始比对中获得的比对数据)执行umi去重。作为解复用的结果,umi序列(或其它条形码,如果有的话)与每个dna片段分子的实际测序数据(即,正向读段组和反向读段组)分离。
[0148]
此外,所述试剂盒可作为处理所述遗传物质的单一测定来执行。试剂盒通常执行单一湿实验室测定来对遗传物质进行处理,以获得遗传dna读数,所述遗传物质进而用于检测遗传dna读数中的snv、插入缺失和cnv。单一测定本身能够检测来自遗传物质的遗传dna读数中的snv、插入缺失和cnv。应当理解,当细胞外显子组内的单一dna碱基被不同的dna碱基取代时,细胞外显子组中就会发生snv。例如,如果用“g”替换“a”,则原来的碱基对“a-t”被替换为碱基对“g-t”。在此类情况下,由于有缺陷的碱基对“g-t”,受试者的外显子组中会出现异常。snv可能导致若干种类型的遗传病症或疾病,如镰状细胞性贫血、β-地中海贫血、囊性纤维化等。值得注意的是,受试者疾病的严重程度和受试者对治疗的反应方式也是遗传变异(如snv)的表现。例如,载脂蛋白e(apoe)基因中的单碱基变体与较低的阿尔茨海默氏病(alzheimer

s disease)风险有关;应当理解,umi去重是指在处理遗传读数数据时去除非生物重复的过程。此外,“插入缺失”是指与受试者的基因组中的碱基(如a、t、c或g)的插入或缺失相关联的小的遗传变异或变体。在一个实例中,插入缺失的长度可以从1个碱基对到10,000个碱基对变化,包含可能相隔多年的插入和删除事件,并且可能以任何方式彼此不相关。值得注意的是,插入缺失可以进一步包含微插入缺失,使得微插入缺失对应于导致长度改变1个到50个碱基对的插入缺失。插入缺失也可能导致若干种类型的遗传病症或疾病,如布卢姆综合征(bloom syndrome),这是罕见的常染色体隐性遗传病症,其特征在于受试者身材矮小、易患癌症和基因组不稳定。值得注意的是,布卢姆综合征主要在犹太人口和日本人口中观察到。因此,为了处理犹太人受试者或日本人受试者的遗传dna读数,靶区可以包含导致布卢姆综合征的基因。此外,cnv是指受试者的基因组中重复的区段,并且基因组中的重复数量在人口中的受试者之间有所不同。cnv是拷贝数变异事件的结果,拷贝数变异事件是影响大量碱基对的重复或缺失事件类型。通常,基因组中dna序列的差异有助于受试者的独特性。这些差异可能会影响大多数特性,包含对疾病的易感性。由于cnv通常涵盖基因,因此cnv检测在人类疾病和药物反应两者中都具有重要作用。此外,与其它遗传变体(例如,snp和插入缺失)相比,cnv的大小更大,并且通常可能涉及复杂的重复dna序列。在某些情况下,cnv还涵盖整个基因,这些基因具有归因于其的特定蛋白质编码功能。出于这些原因,cnv可能更容易被误解,并且与其它遗传变体相比难以被检测到。应当理解,cnv与如遗传疾病等遗传病症有关。在人类基因组中,目前发现大多数cnv是不会直接导致疾病的
良性变体。然而,存在cnv影响关键发育基因并且导致罕见疾病,例如智力障碍的若干种情况。某些报告称cnv会导致影响神经系统的神经系统病症,并且有助于帕金森氏病(parkinson

s disease)和阿尔茨海默氏病以及神经精神病症,如双相情感障碍和精神分裂症。人口中可能还存在数千种cnv,其由于上文讨论的各种原因和问题而未被检测到。因此,与设备一起使用的试剂盒被配置成处理遗传dna读数以检测其中的snv、插入缺失和cnv。随后,对snv、插入缺失和cnv的准确且全面的检测在决策支持中得到应用,并且促进查明基因组的细胞外显子组中的靶区,所述靶区需要聚焦以用于例如通过执行基因疗法治疗由于特定的检测到的snv、插入缺失或cnv而被鉴定出的罕见遗传病症。在一些情况下,可以采用某些snv、插入缺失或cnv来增加法医学中的辨别能力。
[0149]
更进一步地,所述试剂盒包含软件产品,所述软件产品可在计算硬件上执行以使所述计算硬件调用一种或多种算法以通过将所述遗传dna读数的部分与一种或多种dna序列转录物进行比较来处理所述遗传dna读数,以便确定对应于所述dna读数数据中的所述一种或多种dna序列转录物的变体的出现,术语“软件产品”是指可由计算机或其它数字系统(如计算硬件)执行的任何指令集合或指令集,以便配置计算硬件以执行作为软件产品意图的任务。另外,软件产品旨在涵盖存储在如随机存取存储器(ram)、硬盘、光盘等存储介质中的指令,并且还旨在涵盖所谓的“固件”,即存储在rom等上的软件。任选地,软件产品是指软件应用程序和相关联数据。此类软件产品以各种方式组织,例如软件产品包含被组织成文库的软件组件、存储在远程服务器等上的基于互联网的程序、源代码、解释代码、目标代码、直接可执行代码等。应当理解,软件产品任选地调用系统级代码或调用驻留在服务器或其它位置上的其它软件以执行某些功能,如指示计算硬件。术语“计算硬件”是指可操作以响应和处理驱动与设备一起使用的试剂盒的指令的计算元件。任选地,计算硬件包含但不限于微处理器、微控制器、复杂指令集计算(cisc)微处理器、精简指令集(risc)微处理器、超长指令字(vliw)微处理器或任何其它类型的处理电路。此外,术语“计算硬件”任选地是指一个或多个单独的硬件、处理装置以及与任选地由其它计算装置共享的计算装置相关联的各种元件。另外,一个或多个单独的计算装置和元件布置在各种架构中,用于在与设备一起使用时响应和处理驱动试剂盒的指令。计算硬件被配置成调用例如,作为一个或多个应用程序存储在计算硬件中的一种或多种算法。术语“算法”是指执行特定任务所需的指令集。本文中,一种或多种算法由计算硬件调用(即,执行)以执行任务,如确定对应于dna读数数据中的一种或多种dna序列转录物的变体的出现。通过将遗传dna读数的部分与一种或多种dna序列转录物进行比较,调用一种或多种算法来处理遗传dna读数。需要对遗传dna读数进行此类处理以确定对应于dna读数数据中的一个或多个dna序列转录物的变体的出现。所述一种或多种算法的实例包含但不限于基于回归的算法、基于读段深度数据的算法等。
[0150]
术语“dna序列转录物”是指参考基因组序列,如来源于包括关于序列中存在的引起疾病的变体的经验证信息的公开可用的dna数据库或自我处理的dna数据库的基因变体序列。此类dna序列转录物用作比较dna读数数据以确定对应于dna读数数据中的一种或多种dna序列转录物的变体的出现的参考。
[0151]
根据一个实施例,所述一种或多种dna序列转录物包含共有编码序列(ccds)转录物。ccds转录物是在基因组注释中在人类和小鼠参考基因组组装上进行了相同的注释的蛋白质编码区(即,外显子组)的数据集。使用自动化流水线过程生成并且通过多项质量保证
检查的相同地被注释的编码区被分配稳定且被跟踪的标识符(ccds id)。另外,ccds转录物数据集通过严格的质量保证测试和手动处理进行维护。遗传dna读数与ccds转录物序列的序列比对鉴定任何不同的潜在区。在这些区出现不同类型变体的可能性很大。在一个实例中,使用比对工具(例如,基本局部比对搜索工具(blast)的离线或在线版本或其它比对工具)执行序列比对。进一步地,遗传dna读数(即,查询序列)与其它更多dna序列转录物(即,靶序列)的序列比对提供了对特定类型的变体和对应的致病表型的透彻理解。通常使用序列覆盖率和序列相似性在查询和靶序列的每次比对中生成比对评分。序列覆盖率百分比和序列相似性指示相同的序列(即,完美匹配),这进而表示受试者具有导致疾病的遗传变体并且得到确认。此外,执行使用与设备相关联的显示屏上渲染的gui的分析,以检查遗传变体是显性的还是隐性的,或者遗传变体将导致表型出现的可能性有多大。
[0152]
根据一个实施例,一种或多种dna序列转录物包含至少一种病态基因refseq转录物。病态基因refseq转录物是从公开可用的数据库(被称为病态基因refseq转录物数据库)获取的基因序列,所述数据库包括基因和遗传表型的综合集合。值得注意的是,病态基因refseq转录物数据库是公开可用的数据库,并且由国家医学图书馆与美国约翰霍普金斯大学的william h.welch医学图书馆合作维护,并且定期更新。病态基因refseq转录物包含关于已知孟德尔病症,如镰状细胞性贫血、戴萨克斯症(tay-sachs disease)、囊性纤维化、色素性干皮病等的信息。病态基因refseq转录物包括其数据库中至少15,000个基因的信息。通常,病态基因refseq转录物专注于建立基因型与表型之间的关系。根据一个实施例,一种或多种dna序列转录物包含至少4091种病态基因refseq转录物。病态基因refseq转录物数据库包括提供关于人类基因和遗传表型的信息的至少4091种病态基因refseq转录物。如果通过遗传dna读数与病态基因refseq转录物的序列比对生成比对评分(高于指定阈值),则指示dna读数的一部分具有导致特定孟德尔病症的变体。
[0153]
根据一个实施例,所述一种或多种dna序列转录物包含至少一种胎儿异常基因转录物。胎儿异常基因转录物是从数据库中获取的基因变体序列,所述数据库包括关于人类基因组中存在的导致胎儿异常的变体的信息。胎儿异常是指胎儿中产生的遗传缺陷,所述缺陷可能会影响妊娠,使女性的分娩过程复杂化,并且可能对儿童的生命构成严重威胁。值得注意的是,胎儿异常,也被称为出生缺陷,包含由于胎儿的身体的一个或多个部位的遗传缺陷而可能产生的可能增加儿童发病和死亡的机会的结构变化。此外,胎儿异常可能导致可能会损害儿童的健康、阻碍儿童的发育并且降低儿童的生活质量的缺陷。根据一个实施例,所述一种或多种dna序列转录物包含至少2598种胎儿异常基因转录物。胎儿异常基因转录物数据库包括提供关于导致缺陷的基因的信息的至少2598种胎儿异常基因转录物,所述缺陷如羊膜带综合征、软骨发育不全、唐氏综合征(down syndrome)、特纳氏综合征(turner

s syndrome)、脊柱神经管闭合不全、连体双胞胎、羊水过多、rh血型不合、胃肠道闭锁等。试剂盒被配置成从数据库中检索任何更新的胎儿异常基因转录物数据,以便在序列比对和分析中仅使用最新的变体数据。如果通过遗传dna读数与胎儿异常基因转录物的序列比对生成比对评分(高于指定阈值),则指示dna读数的一部分具有导致特定胎儿异常的变体。
[0154]
根据一个实施例,所述一种或多种dna序列转录物包含至少一种癫痫异常基因转录物。癫痫异常转录物是从数据库中获取的基因变体序列,所述数据库包括与癫痫,更具体
地,早期婴儿型癫痫性脑病(eiee)相关的信息。eiee的原因可能是遗传的,如由于儿童的基因组中的特定类型变体。癫痫异常转录物用作参考以鉴定可能导致儿童eiee发作的此类变体的存在。可能导致eiee的变体的鉴定任选地用于胎儿的疾病评估目的。通常,eiee是与年龄相关的病症,其特征在于在儿童出生后的前三个月内的强直性痉挛发病,与睡眠周期无关,每天可能发生数百次,从而导致儿童精神运动障碍和死亡。因此,此类癫痫异常转录物有助于提供与eiee相关的信息,所述信息可能有助于检测胎儿中导致eiee的特定基因变体以进行产前筛查。
[0155]
根据一个实施例,所述一种或多种dna序列转录物包含至少5019种癫痫基因哈瓦那转录物特征。哈瓦那(人类和脊椎动物分析和注释)转录物强调如可替代地剪接的转录物和假基因等领域。哈瓦那转录物注释考虑并利用各种数据,如cpg岛(即,其中“c-g”序列频率高于其它序列的dna短序列)、基因预测、重复和基因组特征标记。此外,哈瓦那转录物特征使用的注释软件是分布式注释系统(das)感知的,因此哈瓦那转录物能够链接到外部数据源。如果通过遗传dna读数与癫痫基因哈瓦那转录物序列的序列比对生成比对评分(高于指定阈值),则指示dna读数的一部分具有导致特定癫痫病症的变体。
[0156]
根据一个实施例,一种或多种dna序列转录物包含至少一种acmg 59基因refseq转录物。acmg(即,美国医学遗传学和基因组学学院)59基因refseq转录物是包括关于目前59个基因的信息的数据库。所述数据库包括被报告为偶然发现或次要发现的基因的列表。创建acmg 59基因refseq转录物的目的是通过旨在预防或显著降低人类发病率和死亡率的已建立的干预措施来鉴定和管理所选高度外显性遗传病症的风险。
[0157]
根据一个实施例,所述一种或多种dna序列转录物包含dna序列的可能致病变体和非编码变体(clinvar)。clinvar是公开可用的数据库,其包括关于医学上重要的变体与表型之间的关系的信息。clinvar数据库包含报告人类变异的信息、对此变异与人类健康关系的解释以及支持每种解释的证据。值得注意的是,clinvar数据库中的每条记录都表示提交者、变异和表型。clinvar数据库也可以表示对不同基因的中单一等位基因、复合杂合子、单倍型和等位基因组合的解释。应当理解,人类基因组的一部分的大部分是非编码dna,因此,关于此类非编码dna中的非编码变体的信息也可以呈现在clinvar数据库中。如果通过遗传dna读数与dna序列的致病变体和非编码变体的序列比对产生比对评分(高于指定阈值),则指示dna读数的一部分具有导致特定病症的变体,如clinvar数据库中变体的对应注释所指示的。
[0158]
根据一个实施例,所述一种或多种dna序列转录物包含至少一种样品跟踪snp。生物样品经历了从dna提取到测序数据的生成的许多物理步骤,由此使生物样品容易受到不准确处理的影响,例如,由于生物样品的混淆。阳性结果的鉴定是使用直系同源方法完成的,但是使用此类直系同源方法难以鉴定阴性结果。另外,生物样品混淆可能延迟结果的返回,浪费时间和试剂,这会产生财务影响。因此,一种或多种dna序列转录物包含有助于在整个过程中跟踪生物样品,由此减少混淆的机会的至少一种样品跟踪snp。
[0159]
此外,一种或多种算法包含用于在单一测定中同时检测来自遗传物质的遗传dna读数中的snv和cnv和任选地插入缺失的算法。可在计算硬件上执行的软件产品使计算硬件调用算法来同时检测作为来自遗传物质的遗传dna读数中的双重变体的snv和cnv两者。在遗传dna读数中检测snv和cnv使得能够鉴定由于任何检测到的snv和cnv的组合而可能出现
在受试者中的遗传疾病或病症。值得注意的是,snv和cnv在受试者的整个基因组中共存,因此,snv影响cnv的基因型测量,并且反之亦然。在一个实施例中,snv和cnv的组合被检测为相同基因组区中的双重变体。在snv基因分型期间生成的数据可以用于提取信息,如遗传dna读数中cnv的位置。此外,一些cnv可以通过使用许多常见的snv阵列来检测。所述算法被配置成检测遗传dna读数中的snv和cnv,以鉴定各种snv和cnv的组合同时对受试者的影响。
[0160]
此外,一种或多种算法包含用于对来自所述遗传物质的所述遗传dna读数中存在的临床相关cnv进行注释的算法。在遗传dna读数的外显子组区中检测到的cnv通常具有临床相关性。存在于受试者的遗传dna读数的外显子组区中的cnv比存在于内含子区中的cnv的促成发病机制的概率更大。因此,假设存在于外显子组区中的cnv具有临床相关性,因为它们可能与受试者遗传病症和遗传疾病的出现有关。所述算法被配置成对在受试者的遗传dna读数中检测到的所有cnv中的临床相关cnv进行注释。此外,可能需要鉴定导致特定遗传病症出现的特定类型的cnv。在此类情况下,算法被配置成检测具有临床相关性的特定类型的cnv并且对其进行注释。在一个实例中,临床研究需要鉴定名为“亨廷顿氏病(huntington

s disease,hd)”的神经系统病症。所述算法然后被配置成检测亨廷顿基因中“cag”碱基对的三核苷酸重复。“cag”三核苷酸重复超过36次通常指示可能患上亨廷顿氏病。因此,所述算法对在遗传dna读数中检测到的所有cnv中“cag”三核苷酸的重复进行注释,以验证受试者是否可能患上亨廷顿氏。
[0161]
此外,一种或多种算法包含根据与一个或多个部分相关联的表型对来自所述遗传物质的所述遗传dna读数的所述一个或多个部分进行优先级排序的算法。遗传dna读数的一部分中的变体可能导致受试者出现特定表型。所述算法被配置成对遗传dna读数的此类一个或多个部分进行优先级排序,以鉴定可能有助于所关注特定表型的变体。在一个实例中,与受试者相关联的表型为:眼睛的向上倾斜形状、眼睛虹膜上的白点、扁平的鼻梁、突出的舌头、第五指的单一屈曲沟等。与上述表型相关联的遗传dna读数的一个或多个部分优先于遗传dna读数的其它部分。此类优先级排序使得能够容易且快速地检测遗传异常,因为结果仅限于可能导致表型并具有临床相关性的特定变体。所述算法能够鉴定可能与上述表型相关的遗传病症、综合征或疾病。
[0162]
此外,一种或多种算法包含检测药物基因组学(pgx)标志物的变体识别并且单独检测样品跟踪snp的算法。pgx标志物有助于确定受试者的基因组中存在的各种变体之间的关系,以及由于各种变体而导致的药物对受试者的影响。应当理解,由于每个受试者中存在的变体的差异,每个受试者可能经历来自药物的不同反应。因此,药物基因组学有助于建立变体与药物之间的关系,以便根据受试者的基因组中存在的变体为每个受试者提供个性化和更好的诊断。例如,酶cyp2d6在人体内由基因“cyp2d6”编码。不同人之间产生酶cyp2d6的效率和量变化很大,取决于所述人的基因“cyp2d6”的存在、不存在、拷贝等。一些人能够快速消除由酶cyp2d6代谢的某些药物,而一些人缓慢消除由酶cyp2d6代谢的药物。应当理解,药物的快速代谢导致药物功效降低,而药物的缓慢代谢可能导致毒性。因此,需要相应地为每个人施用和个性化此类药物的剂量。所述算法被配置成检测变体识别,如针对用于药物基因组学(pgx)标志物的基因“cyp2d6”。
[0163]
根据一个实施例,所述软件产品包含算法,所述算法当在所述计算硬件上执行时检测所述dna读数数据中与所述dna序列转录物相关的重复和缺失中的至少一种,并且其中
所述试剂盒用于的所述遗传筛查包含孕前筛查、胚胎植入前遗传筛查或与辅助生殖技术相关的应用中的至少一种,并且其中使用单细胞测序对所述遗传物质进行处理。算法检测到重复和缺失,如插入缺失,以鉴定遗传病症或与之相关联的遗传疾病。例如,囊性纤维化、布鲁姆综合征等是由于遗传dna读数中存在插入缺失而引起的。已知的是,不同的致病变体类型在长度方面具有不同的范围。例如,snp影响单一碱基,并且插入缺失通常影响不到十个碱基,但缺失和重复跨越数百到数千个碱基。因此,与通常比(通过测序获得的)ngs短读段短得多并且因此在单一dna读段中清晰可见且可鉴定的snp和插入缺失不同,而超过ngs读段长度的缺失和重复需要对ngs测序数据进行适当分析。因此,基于与dna序列转录物的比较来检测重复和缺失变体。在一个实施方案中,可能会使用探针。成功结合到基因组dna的探针有进行扩增的能力,因此经扩增的探针的量与基因组dna的量成正比(即,使基因组dna的量减半的缺失将产生经扩增探针的一半,由此指示缺失)。类似地,与其它经扩增探针相比,重复增加(加倍)在特定位点处的基因组dna的量,并且将在同一时间产生两倍多的经扩增探针。
[0164]
根据一个实施例,试剂盒用于孕前筛查、胚胎植入前遗传筛查或与辅助生殖技术相关的应用。孕前筛查是指允许确定给定个体(父母)是否处于怀上患有遗传病症的孩子的风险的遗传筛查。胚胎植入前遗传筛查是指允许在妊娠前确定通过体外受精(ivf)产生的胚胎中的遗传缺陷的遗传筛查。通常,在胚胎植入前遗传筛查中,对来自假定染色体正常遗传父母的胚胎进行非整倍性筛查。辅助生殖技术与帮助实现妊娠的技术和程序有关。使用单细胞测序对遗传物质进行处理,单细胞测序利用ngs技术提供来自单独细胞的测序数据(例如,外显子组或转录组),从而提供对单独细胞的功能或基因表达的更好理解。
[0165]
根据一个实施例,操作试剂盒以检测来自所述遗传物质的遗传dna读数中的拷贝数变异(cnv),所述试剂盒进一步包括控制电路系统,所述控制电路系统被配置成:接收所述遗传dna读数和多个候选cnv检测应用程序;通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序来执行第一cnv识别以获得所述遗传dna读数的随机选择区中的基线cnv,其中所述基线cnv是所述遗传dna读数中预先存在的cnv,被认为是真值;组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集;通过使用模拟应用程序模拟所述遗传dna读数的至少一个靶区中的人工cnv集来生成模拟基因组序列数据集,其中所述模拟基因组序列数据集包括所述人工cnv集和所述基线cnv集;在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置;通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述模拟基因组序列数据集中执行第二cnv识别;从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基线cnv集,以获得新cnv集;基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置;基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度;基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优;以及利用所选候选cnv检测应用程序识别所述基因组序列数据中的cnv。
[0166]
根据一个实施例,所述试剂盒的所述控制电路系统被进一步配置成通过鉴定以下
各项来确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的所述召回程度:真阳性,在所述新cnv集中的新cnv的位置与所述人工cnv集中的人工cnv的对应位置相匹配的情况下;假阳性,在与所述人工cnv集中的人工cnv的位置不同的位置处检测到所述新cnv集中的新cnv的位置的情况下;以及假阴性,在所述人工cnv集中的人工cnv的位置处没有检测到所述新cnv集中的新cnv的情况下。
[0167]
根据一个实施例,所述试剂盒的所述控制电路系统被进一步配置成测量所述新cnv集中的新cnv的位置与所述人工cnv集中的人工cnv的对应位置的重叠程度,以确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的所述精确程度。
[0168]
根据一个实施例,所述试剂盒的所述控制电路系统被进一步配置成基于测得的所述新cnv集中的所述新cnv的所述位置与所述人工cnv集中的所述人工cnv的所述对应位置的重叠程度,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序将最高精确程度分配给所述多个候选cnv检测应用程序中的第一候选cnv检测应用程序。
[0169]
根据一个实施例,所述试剂盒的所述控制电路系统被进一步配置成设置指定阈值以确定所述新cnv集中的所述新cnv的所述位置与所述人工cnv集中的所述人工cnv的所述对应位置的所述重叠程度。
[0170]
根据一个实施例,来自遗传物质的遗传dna读数是通过全基因组测序、外显子组测序或两者产生的。
[0171]
根据一个实施例,所述试剂盒的所述控制电路系统被进一步配置成生成与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的精确-召回曲线关系,并且其中所述选择所述多个候选cnv检测应用程序之一为最优取决于所述召回程度与所述精确程度之间的平衡,其中与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关的所述召回程度与所述精确程度之间的所述平衡由所生成的精确-召回曲线关系中对应的精确-召回曲线下面积指示。
[0172]
根据一个实施例,所述试剂盒进一步包括湿实验室,所述湿实验室被配置成在所述湿实验室布置中处理所述受试者的生物样品以至少得到所述受试者的所述基因组的所述部分,以便生成所述遗传dna读数。
[0173]
根据一个实施例,所述软件产品包含算法,所述算法当在所述计算硬件上执行时检测存在于与所述dna序列转录物相关的所述dna读数数据中的一个或多个基因间变体。由变体引起的一些致病变体位于通过外显子组测定捕获的编码区之外。外显子组测定检测位于编码区之外的变体失败可能导致错过鉴定致病变体事件,由此导致对受此类一种或多种基因间变体影响的基因变体的误解。例如,基因调控元件,如顺式元件或反式元件通常是保守的,但如果由于变体而改变,会导致结合对应的转录因子失败。这进而导致基因转录和蛋白质形成的失败。产生蛋白质失败可能会导致病症。因此,为了避免任何基因变体的误解或遗漏,还基于与相关dna序列转录物的序列比对来检测dna读数数据中存在的基因间变体。如果发现基因间变体的相同匹配(或高于指定相似性阈值(例如,90%相似性)),则确认受试者具有特定基因间变体。
[0174]
根据一个实施例,软件产品包含算法,所述算法当在计算硬件上执行时检测异质变体以在大量候选者中识别有助于表型(例如,疾病)的功能上最重要的线粒体变体。mtdna数据是从测序数据(即,从swgs和wes数据)中提取的。在一个实例中,使用“mtoolbox”工具,
所述工具是本领域已知的用于高通量测序中人类线粒体变体的异质性注释和优先级分析的自动化流水线。在一个实例中,映射到mtdna上的读段被重新比对到核基因组(grch38/hg38)上,以丢弃核线粒体序列和扩增产物。
[0175]
根据一个实施例,软件产品包含算法,所述算法当在计算硬件上执行时提供使用图形用户界面(gui)实施的可视化布置,以可视地传送遗传dna读数中snv和cnv的检测结果、对遗传dna读数中存在的临床相关cnv进行的注释、根据与一个或多个部分相关联的表型对来自遗传物质的遗传dna读数的一个或多个部分进行的优先级排序以及对药物基因组学(pgx)标志物的变体识别和样品跟踪snp的检测。可视化布置是指用于结果的可视化表示的一个或多个组件的集合。在一个实例中,可视化布置是膝上型计算机、个人计算机、医疗监测器等。“gui”是指在可视化布置(如显示屏)上渲染的结构化用户界面元素集。任选地,在可视化布置上渲染的gui由可由相关联的数字系统执行的任何指令集合或指令集生成。另外,gui可操作用于与用户交互以传达图形和/或文本信息并且接收来自用户的输入。此外,gui元素是指在gui中具有大小和位置的可视对象。用户界面元素可能是可见的,尽管有时用户界面元素可能是隐藏的。用户界面控件被认为是用户界面元素。文本块、标签、文本框、列表框、线和图像窗口、对话框、框架、面板、菜单、按钮、图标等是用户界面元素的实例。除了大小和位置之外,用户界面元素还可以具有其它性质,如边距、间距等。所述算法被配置成与gui通信以可视地表示检测到的变体、对遗传dna读数中存在的临床相关cnv进行的注释、根据与一个或多个部分相关联的表型对来自遗传物质的遗传dna读数的一个或多个部分进行的优先级排序以及对药物基因组学(pgx)标志物的变体识别和样品跟踪snp的检测。根据另一个实施例,所述算法被配置成与gui通信以可视地表示dna读数数据中相对于dna序列转录物的重复和缺失、dna读数数据中存在的相对于dna序列转录物的基因间变体以及通过基因遗传模式进行的组合的snv和cnv过滤和解释。
[0176]
根据一个实施例,在多个阶段的第四可视化阶段中,gui被渲染以基于多个定义的设置与第三数据处理流水线阶段中的检测结果进行通信和交互。多个定义的设置(以下称为预设设置)、知识库和面板以交互方式通过所渲染的gui(即,可视界面)被选择和应用。换句话说,在gui上渲染各种数据处理操作的结果以供进一步分析。此外,数据处理是基于通过渲染的可视界面选择和应用的预设设置、知识库和面板执行的。第三数据处理阶段和第四可视化阶段彼此同步执行。在一个实施方案中,多个预设设置中的第一预设设置(预设1)允许预加载主要基因面板和相关联数据(例如,前述产前模块或前述eiee模块面板)。在主要面板基于预定义规则没有检测到可鉴定的致病变体的情况下,应用多个预设设置中的第二预设设置(预设2)。在第二预设设置中,孟德尔遗传(例如,omim或morbid)数据和hpo数据被预加载并且与预加载的主要基因面板和相关联数据一起渲染。
[0177]
根据一个实施例,所述软件产品包含算法,所述算法当在所述计算硬件上执行时通过基因遗传模式提供组合的snv和cnv过滤和解释,其中所述基因遗传模式包含存在隐性基因的可能性。基因遗传模式(也被简称为遗传模式(moi))是指遗传特性或遗传病症从一代传给下一代的方式。例如,遗传模式可以是常染色体显性基因遗传模式、常染色体隐性基因遗传模式、x连锁显性基因遗传模式、x连锁隐性基因遗传模式、多因子基因遗传模式、线粒体基因遗传模式等。组合的snv和cnv过滤过程任选地通过例如使用基因遗传模式来执行。在一个实例中,某人具有与色盲相关的携带者基因,即,所述人不是色盲,但携带色盲的
隐性基因。所述人的基因组中的变体被过滤掉,以鉴定与色盲相关的携带者基因的存在。此类鉴定有助于鉴定所述人的后代出现色盲的概率。在亲代中需要至少一个显性携带者基因才能表现为表型,并且因此过滤有助于避免与后代发展表型的概率相关的任何误解。组合的snv和cnv过滤过程任选地还包括,例如,选择被识别为存在于遗传dna读数中的确信变体,以及消除可能已被错误鉴定的变体。此类过滤使得能够准确检测遗传dna读数中的变体。此外,任选地执行对snv和cnv的过滤以提取变体子集、组合来自若干个外显子组测定的变体等。与和湿实验室处理和可视化不连贯并且使用单独的系统和装置并且有时甚至操作实体(例如,实验室、诊所、研究中心)进行操作的现有分析方法相比,所公开的试剂盒被设计成作为定制的临床外显子组测定,专门用于根据实体的应用领域更有效的实体,并且使得不仅能够检测,还能够进一步可视化,并且进一步使用单一测定同时分析导致个体的罕见疾病的包含双重变体或三重变体的多种变体类型,由于在处理来源于一个或多个细胞外显子组的遗传物质时采用不连贯的方法,以及对从此类经处理的遗传物质中获得的遗传dna读数进行单独或不连贯的分析,所述多种变体类型目前被忽略(例如,忽略同一基因组区中的双重变体cnv和snv)。由于所公开的试剂盒允许在单一测定中同时检测snv和cnv(即,snv和cnv的组合)作为来自遗传物质的遗传dna读数中的双重变体,因此所述试剂盒以集成方式提供了对组合snv和cnv进行过滤和解释的能力,其中至少通过使用组合的snv和cnv过滤和解释,此类双重变体的临床意义很容易辨别。进一步地,此类过滤允许鉴定人的后代中临床显著(或相关)表型(例如,遗传病症)的出现概率,这在孕前筛查、胚胎植入前遗传筛查和/或与辅助生殖技术相关的应用中具有实际意义。
[0178]
根据一个实施例,确定dna读数数据中变体的出现进一步包括检测遗传dna读数数据中的短串联重复序列(str)和vntr(可变数量串联重复序列)。str通常是在dna链上连续重复多次的1个到13个碱基对的单元。任选地,1个到6个重复碱基对形成str。值得注意的是,str是人类基因组中的高突变序列。在用于法医学、人口遗传学等各种应用的遗传dna读数中检测到str。可以在基因间区以及多种不同基因的非编码区和编码区两者中找到vntr。由于长且高度多态的串联重复序列引起的疾病是重复扩增疾病。基因组的编码序列中的串联重复序列可能导致有毒或功能失常的蛋白质的产生,而非编码区中的串联重复序列可能导致染色体脆性的产生、染色体脆性所在基因的沉默、转录的调节和翻译、涉及如剪接和细胞结构等过程的蛋白质的隔离等。
[0179]
dna读数数据中变体出现的确定进一步包括检测遗传dna读数数据中的镶嵌变体。镶嵌现象是指在一个生物体(如受试者)中存在两个或多个发现具有遗传差异的细胞群,并且通常是由于在发展期间获取体细胞变体。通常,体细胞变体在癌细胞中很常见。在一个实施方案中,“mutect”工具用于鉴定镶嵌变体。在一个实例中,与其它类型的变体相比,父母/受影响的孩子三重数据的队列可能用于此类为低频率变体的镶嵌变体检测。
[0180]
根据一个实施例,根据遗传dna读数数据上对应位点处的变体类型对识别出的不同变体(重复和缺失变体,包含进一步的cnv识别、snv、插入缺失、str和vntr)进行标记。对符合基因遗传模式(moi)(即,观察到的基因mo1)和家族中的预期moi的变体进行标记(或注释)。遗传模式(moi)是遗传特性或病症从一代传给下一代的方式。例如,常染色体显性遗传、常染色体隐性遗传、x连锁显性遗传、x连锁隐性遗传、多因子遗传和线粒体遗传是从一代传给下一代的遗传特性或病症。由于隐性-显性等位基因的各种组合,每种遗传模式都会
导致受影响和未受影响的家庭成员的特性模式。
[0181]
根据一个实施例,软件产品当在计算硬件上执行时确定变体是遗传变体还是从头变体。由父母之一传给后代的变体被称为遗传变体,而由于父母之一的生殖细胞(卵子或精子)中的变体或在早期胚胎发生期间受精卵本身出现的变体而在后代中首次出现的遗传变异被称为从头变体。从头变体可能导致许多严重的早发性遗传病症,如智力残疾、自闭症谱系障碍、发育疾病等。因此,在第三数据处理流水线阶段,检测到的变体被确定为是遗传变体还是从头变体,因为这两种变体的影响在个体中有所不同。
[0182]
根据一个实施方案,将检测到的变体在主要基因面板上进行分类(即,执行变体分层)。此外,基于所关注基因对所有检测到的变体执行变体优先级排序。此外,当所述检测到的变体与从定义基因变异和对应病症的指定数据源获取的预存储变体序列匹配时,自动填充证据代码。例如,在检测到的变体与acmg提供的变体序列匹配的情况下,会自动填充acmg证据代码。acmg表示美国医学遗传学和基因组学学院,其已发布针对报告某些基因的外显子中的偶然发现的建议(通常规定了59个基因)。例如,最近的版本推荐是acmg sf v2.0(可在pubmed 27854360中获得),其指示每个基因变异和具有临床意义(例如,可能致病的)的对应病症的综合列表和相关数据。如上文所讨论的,在第三数据处理阶段执行的各种数据处理操作的结果被渲染在gui(即,可视界面)上以供进一步分析,并且基于预设设置、知识库和通过渲染的可视界面选择和应用的面板执行数据处理。因此,除了第一和第二预设设置之外,可通过gui选择第三预设设置。第三预设设置与面板无关,并且用于配置可以用于疾病评估的决策支持的报告模板。例如,在可视界面上渲染了携带者筛查面板报告和计算的贝叶斯携带者风险(bayes carrier risk)。贝叶斯携带者风险是指受试者的孩子受到一种或预选的一组孟德尔病状影响的概率。贝叶斯载体风险是使用贝叶斯定理计算的,在所述定理中,当满足给定数量的预定义条件时,会根据给定条件总数中实际满足多少条件来计算概率评分。满足条件的数量越多,受试者具有将疾病传给孩子的风险(即,处于高贝叶斯携带者风险)的概率就越大。贝叶斯定理被实施为使用状态表来满足的条件,所述状态表定义所述条件并且检查在给定时间满足多少条件以计算贝叶斯携带者风险。
[0183]
根据一个实施例,可选择其它研究预设选项用于可视分析。多个已定义设置的第四预设设置可通过gui选择。第四预设设置允许基于共享等位基因(例如,由多个检测算法共享和检测的变体)执行队列分析和过滤。还可通过gui选择第五预设设置。第五预设设置允许基于共享等位基因同时执行多个谱系的str、ntr、snp连锁分析。
[0184]
本公开还涉及如上文所描述的方法。上文所公开的各种实施例和变体加以必要的变更应用于所述方法。
[0185]
根据一个实施例,所述方法的特征在于所述方法用于在多个阶段中实施所述测定,其中在所述多个阶段中的第一选择阶段中,所述方法允许从可使用所述试剂盒进行配置的多个特征中选择一组所关注特征,其中所述多个特征包含外显子组测序偏好和多个自定义变体鉴定模块。
[0186]
根据一个实施例,所述方法的特征在于所述方法用于在多个阶段中实施所述测定,其中在所述多个阶段中的第二湿实验室阶段中,所述方法允许根据在所述第一选择阶段中所选择的一组所关注特征使用所述试剂盒处理所述遗传物质,以从所述遗传物质中获得所述遗传dna读数数据,其中所述遗传dna读数数据对应于测序数据,并且其中所述试剂
盒用于孕前筛查、胚胎植入前遗传筛查或与辅助生殖技术相关的应用中的至少一种,并且其中使用单细胞测序对所述遗传物质进行处理。
[0187]
根据一个实施例,所述方法的特征在于所述方法用于在多个阶段中实施所述测定,其中在所述多个阶段中的第三数据处理流水线阶段中,所述方法允许根据在所述第一选择阶段中所选择的一组所关注特征来确定所述dna读数数据中变体的出现,其中所述确定所述dna读数数据中变体的出现进一步包括:
[0188]-根据在所述第一选择阶段中所选择的一组所关注特征来触发特定处理流水线;
[0189]-对所述遗传dna读数数据执行唯一分子标识符(umi)解复用;
[0190]-执行线粒体(mtdna)流水线以测量所述遗传dna读数数据中的异质变体;
[0191]-检测所述遗传dna读数数据中的短串联重复序列(str)和vntr(可变数量串联重复序列);
[0192]-检测所述遗传dna读数数据中的镶嵌变体;
[0193]-使用家族中的预期遗传模式(moi)对检测到的符合基因moi的变体进行标记;
[0194]-确定检测到的变体是遗传变体还是从头变体;以及
[0195]-当所述检测到的变体与从定义基因变异和对应病症的指定数据源获取的预存储变体序列匹配时,自动填充证据代码。
[0196]
根据一个实施例,所述方法的特征进一步在于所述方法用于在多个阶段中实施所述测定,其中在所述多个阶段中的第四可视化阶段中,所述方法允许渲染图形用户界面,以基于多个定义的设置传送所述第三数据处理流水线阶段中的检测的结果并且与所述结果进行交互。
[0197]
根据一个实施例,所述对遗传物质进行处理包括以下中的一项、多项或全部:
[0198]
(a)从取自受试者的样品中提取所述遗传物质;
[0199]
(b)优选地通过测量所提取的遗传物质的uv吸光度来评估其纯度;
[0200]
(c)在所述遗传物质为rna的情况下,对所述rna进行逆转录以获得cdna;
[0201]
(d)在所述遗传物质为dna或cdna的情况下,对所述遗传物质进行剪切或消化以获得片段;
[0202]
(e)优选地通过与互补寡核苷酸杂交来富集蛋白质编码区;以及
[0203]
(f)将在(d)中获得的所述片段连接到衔接子,并且将连接产物粘接到如载玻片等固体载体上。
[0204]
根据一个实施例,所述样品选自组织、活组织检查、胎儿样品和体液,所述体液优选地为血液、咽拭子、痰、外科引流液或羊水。
[0205]
根据一个实施例,所述遗传物质是dna或rna,优选地dna。
[0206]
另一方面,本公开的实施例提供了一种获取和处理基因组序列数据以检测其中的拷贝数变体(cnv)的系统,所述系统包括:
[0207]-被配置成处理受试者的基因组的至少一部分以生成原始基因组序列数据集的设备;以及
[0208]-计算布置,所述计算布置包括数据存储器装置和控制电路系统,其中所述控制电路系统被配置成:
[0209]-从所述设备中获取所述原始基因组序列数据集和预存储在所述数据存储器装置
中的多个候选cnv检测应用程序;
[0210]-通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序来执行第一cnv识别以获得所述原始基因组序列数据集的随机选择区中的基线cnv,其中所述基线cnv是所述原始基因组序列数据集中预先存在的cnv,被认为是真值;
[0211]-组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集;
[0212]-通过使用预存储在所述数据存储器装置中的模拟应用程序模拟所述原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列数据集,其中所述模拟基因组序列数据集包括所述人工cnv集和所述基线cnv集;
[0213]-在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置;
[0214]-通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述模拟基因组序列数据集中执行第二cnv识别;
[0215]-从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基线cnv集,以获得新cnv集;
[0216]-基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置;
[0217]-基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度;
[0218]-基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优;以及
[0219]-利用所选候选cnv检测应用程序识别所述基因组序列数据中的cnv。
[0220]
另一方面,本公开的实施例提供了一种处理原始基因组序列数据集以检测其中的一个或多个拷贝数变体(cnv)的系统,所述系统包括:
[0221]-计算布置,所述计算布置包括数据存储器装置和控制电路系统,其中所述控制电路系统被配置成:
[0222]-获取所述原始基因组序列数据集和预存储在所述数据存储器装置中的多个候选cnv检测应用程序;
[0223]-通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序来执行第一cnv识别以获得所述原始基因组序列数据集的随机选择区中的基线cnv,其中所述基线cnv是所述原始基因组序列数据集中预先存在的cnv,被认为是真值;
[0224]-组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集;
[0225]-通过使用预存储在所述数据存储器装置中的模拟应用程序模拟所述原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列数据集,其中所述模拟基因组序列数据集包括所述人工cnv集和所述基线cnv集;
[0226]-在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置;
[0227]-通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述
模拟基因组序列数据集中执行第二cnv识别;
[0228]-从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基线cnv集,以获得新cnv集;
[0229]-基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置;
[0230]-基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度;
[0231]-基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优;以及
[0232]-利用所选候选cnv检测应用程序识别所述基因组序列数据中的cnv。
[0233]
另一方面,本公开的实施例提供了一种用于获取和处理基因组序列数据以检测其中的拷贝数变体(cnv)的方法,其中所述方法使用包括设备和计算布置的系统来实施,其中所述方法包括:
[0234]-通过使用所述设备处理受试者的基因组的至少一部分以生成原始基因组序列数据集;
[0235]-通过使用所述计算布置的控制电路系统,从所述设备中获取所述原始基因组序列数据集和预存储在所述计算布置的数据存储器装置中的多个候选cnv检测应用程序;
[0236]-通过使用所述控制电路系统,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序来执行第一cnv识别以获得所述原始基因组序列数据集的随机选择区中的基线cnv,其中所述基线cnv是所述原始基因组序列数据集中预先存在的cnv,被认为是真值;
[0237]-通过使用所述控制电路系统,组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集;
[0238]-通过使用所述控制电路系统,通过使用预存储在所述数据存储器装置中的模拟应用程序模拟所述原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列数据集,其中所述模拟基因组序列数据集包括所述人工cnv集和所述基线cnv集;
[0239]-通过使用所述控制电路系统,在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置;
[0240]-通过使用所述控制电路系统,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述模拟基因组序列数据集中执行第二cnv识别;
[0241]-通过使用所述控制电路系统,从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基线cnv集,以获得新cnv集;
[0242]-通过使用所述控制电路系统,基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置;
[0243]-通过使用所述控制电路系统,基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度;
[0244]-通过使用所述控制电路系统,基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一
作为最优;以及
[0245]-通过使用所述控制电路系统,利用所选候选cnv检测应用程序识别所述基因组序列数据中的cnv。
[0246]
又另一方面,本公开的实施例提供了一种计算机程序产品,其包括其上存储有计算机可读指令的非暂时性计算机可读存储介质,所述计算机可读指令可由包括处理硬件的计算机化装置执行以上述方法。
[0247]
又另一方面,本公开的实施例提供了一种用于获取和处理基因组序列数据集以检测其中的一个或多个拷贝数变体(cnv)的方法,其中所述方法使用包括计算布置的系统来实施,其中所述方法包括:
[0248]-通过使用所述计算布置的控制电路系统,获取原始基因组序列数据集和预存储在所述计算布置的数据存储器装置中的多个候选cnv检测应用程序;
[0249]-通过使用所述控制电路系统,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序来执行第一cnv识别以获得所述原始基因组序列数据集的随机选择区中的基线cnv,其中所述基线cnv是所述原始基因组序列数据集中预先存在的cnv,被认为是真值;
[0250]-通过使用所述控制电路系统,组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集;
[0251]-通过使用所述控制电路系统,通过使用预存储在所述数据存储器装置中的模拟应用程序模拟所述原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列数据集,其中所述模拟基因组序列数据集包括所述人工cnv集和所述基线cnv集;
[0252]-通过使用所述控制电路系统,在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置;
[0253]-通过使用所述控制电路系统,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述模拟基因组序列数据集中执行第二cnv识别;
[0254]-通过使用所述控制电路系统,从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基线cnv集,以获得新cnv集;
[0255]-通过使用所述控制电路系统,基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置;
[0256]-通过使用所述控制电路系统,基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度;
[0257]-通过使用所述控制电路系统,基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优;以及
[0258]-通过使用所述控制电路系统,利用所选候选cnv检测应用程序识别所述基因组序列数据中的cnv。
[0259]
本公开提供了获取和处理基因组序列数据以检测cnv的系统和方法。所述系统包括控制电路系统,所述控制电路系统被配置成确定与用于检测基因组序列数据中的cnv的多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度。
进一步地,控制电路系统基于与多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度来比较多个候选cnv检测应用程序。控制电路系统基于用于识别所述基因组序列数据中的所述cnv的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优。利用所选候选cnv检测应用程序识别所述基因组序列数据中的cnv。此类所选候选cnv检测应用程序考虑了由于使用各种捕获测定试剂盒和用于生成基因组序列数据的测序技术类型而引入系统中的偏差的影响。值得注意的是,控制电路系统被配置成针对特定基因组序列数据选择最佳cnv检测应用程序以检测cnv。针对特定基因组序列数据的所选最佳cnv检测应用程序消除了在特定基因组序列数据中引入的偏差的影响,并且由此使得能够有效处理特定基因组序列数据以准确检测其中存在的新cnv。针对每个基因组序列数据的最佳cnv检测应用程序选择允许准确检测每个基因组序列数据中的cnv。因此,获取和处理基因组序列数据的系统可靠地检测任何给定基因组序列数据的cnv。所述系统能够检测导致个体罕见疾病的cnv。例如,一些检测到的cnv可能会导致疾病或异常,如目前由于基因组序列数据的处理和电子分析中的错误而被忽视的亨廷顿氏病。
[0260]
上述系统获取和处理基因组序列数据集以检测其中的cnv。所述系统包括被配置成处理受试者的基因组的至少一部分以生成原始基因组序列数据集的设备。术语“拷贝数变体”或cnv是指个体的基因组中重复的区段,并且基因组中的重复数量在人口中的个体之间有所不同。“拷贝数变体”是拷贝数变异事件的结果,拷贝数变异事件是影响大量碱基对的重复或缺失事件类型。通常,基因组中dna序列的差异有助于个体的独特性。这些差异可能会影响大多数特性,包含对疾病的易感性。由于cnv通常涵盖基因,因此cnv检测在人类疾病和药物反应两者中都具有重要作用。此外,与其它遗传变体(例如,snp)相比,cnv的大小更大,并且通常可能涉及复杂的重复dna序列。在某些情况下,cnv还涵盖整个基因,这些基因具有归因于其的特定蛋白质编码功能。出于这些原因,cnv可能更容易被误解,并且与其它遗传变体相比难以被检测到。
[0261]
应当理解,cnv与如遗传疾病等遗传病症有关。在人类基因组中,目前发现大多数cnv是不会直接导致疾病的良性变体。然而,存在cnv影响关键发育基因并且导致罕见疾病。例如,某些报告称cnv会影响神经系统,并且导致帕金森氏病和阿尔茨海默氏病。人口中可能还存在数千种cnv,其由于上文讨论的各种原因和问题而未被检测到。因此,所述系统被配置成处理基因组序列数据集以检测其中的cnv。随后,对cnv的准确且全面的检测在决策支持中得到应用,并且促进查明基因组中的靶区,所述靶区需要聚焦以用于例如通过执行基因疗法治疗由于特定的检测到的cnv而被鉴定出的罕见遗传病症。在一些情况下,可以采用某些cnv来增加法医学中的辨别能力。
[0262]
贯穿本公开,术语“设备”是指被配置成获取和处理受试者(例如,人)的生物样品,具体地,受试者的基因组的一部分的机器或硬件平台。在一个实例中,所述设备可以是脱氧核糖核酸(dna)读数设备,如测序平台。测序平台可以是大型测序仪或紧凑型台式测序仪。进一步地,贯穿本公开,术语“基因组的一部分”是指具有受试者的给定基因组序列的基因组的段。
[0263]
根据一个实施例,所述系统进一步包括湿实验室布置,并且其中所述湿实验室布置被配置成在所述湿实验室布置中处理所述受试者的生物样品以至少得到所述受试者的
所述基因组的所述部分,以便生成所述原始基因组序列数据集。如本文所使用的,术语“湿实验窒布置”是指设施、诊所和/或以下的设置:仪器、设备和/或装置,所述仪器、设备和/或装置用于体液样品的提取(侵入性或非侵入性)、采集、处理和分析;遗传物质的收集、处理和分析;遗传物质的扩增、富集和处理;以及从经扩增的遗传物质接收的遗传信息的分析,以得到受试者的基因组的至少一部分,以生成原始基因组序列数据集。本文中,仪器、设备和/或装置可以包含但不限于离心机、elisa、分光光度计、pcr、rt-pcr、高通量筛查(hts)系统、下一代测序系统、微阵列系统、超声、基因分析仪、脱氧核糖核酸(dna)测序仪和snp分析仪。值得注意的是,执行对生物样品的体外处理以得到受试者的基因组的至少一部分,以生成原始基因组序列数据集。通常,在测序中执行标准流水线过程,以处理从湿实验室布置中的受试者体外提取的生物样品,以制备包括多个互补脱氧核糖核酸(cdna)片段分子的测序文库。此外,受试者的生物样品是指通过在受控环境下采样而优选地非侵入性地采集的实验室样本,即,医学受试者的组织、液体或来源于受试者的其它材料的收集物质。生物样品的实例包含但不限于血液、咽拭子、痰、手术引流液、组织活检、羊水或胎儿样品。
[0264]
根据一个实施例,湿实验室布置处理受试者的生物样品以分离dna(或rna),确定其中无细胞dna(cfdna)片段的存在,以制备测序文库并且进一步对分离的遗传物质进行测序。术语“无细胞dna”是指不在细胞内的dna。本文中,湿实验室布置提取生物样品中存在的无细胞dna(cfdna)并且获得dna片段。在一个实例中,为了执行下一代测序(ngs),从受试者中分离输入样品,如受试者的dna的样品。例如,在对血液采样后,从采样的血液中分离出少量dna。分离的dna的数量不足以进行测序文库制备。因此,输入样品然后被分割成短区段。这些区段的长度任选地相同,例如,少于250个碱基对,任选地在100个到250个碱基对的范围内。长度任选地还取决于所使用的测序机器的类型或要进行的实验的类型。在dna区段长度相对较长,例如,超过250个碱基对的一些情况下,片段与通用衔接子(即位于读段末端的小片段已知dna)连接并且使用衔接子粘接到载玻片(例如,在基于illumina的测序中)。在一些情况下,例如在外显子组测序中分离出对应于功能性基因的编码区的mrna转录物。
[0265]
根据一个实施例,所述设备被进一步配置成在下一代测序(ngs)过程中同时执行对多个互补脱氧核糖核酸(cdna)片段分子的测序以生成原始基因组序列数据集。值得注意的是,测序(例如,dna测序)是确定给定dna区段中核苷酸序列的过程。下文描述了ngs过程的一个实例。
[0266]
在一个实例中,在ngs中,大量的短读段(例如,多个cdna片段分子)在单一运行中被测序。在制备好测序文库后,进行pcr以扩增每个读段,从而创建具有相同读段的多个拷贝的点。然后通过变性将经扩增的拷贝分离成单链用于后续测序。在nsg中,测序是使用边合成边测序的并行方式完成的,以产生由数百万个短测序读段构成的并发数据的集合。因此,载玻片上覆盖着大量的核苷酸和dna聚合酶。此类核苷酸被荧光标记,具有独特的碱基颜色(例如,不同的核酸碱基,即,a、t、c和c,颜色不同)。荧光标记的碱基具有终止子,使得一次仅添加一个碱基。由于一次添加一个碱基,这使得能够捕获载玻片的图像。每个读段位置中的荧光信号指示最近添加的特定碱基。然后为下一个循环准备载玻片。终止子被自动移除,从而允许添加下一个碱基,并且荧光信号被移除,从而防止信号污染下一个图像。重复所述过程,一次添加一个核苷酸并且在其之间成像。然后采用计算装置,如计算布置,检测每个图像中每个读段位置位点的碱基,然后将所述碱基用于构建序列。由所述设备获得
的序列读数对应于原始基因组序列数据集(或读数)。通常,来源于生物样品的原始基因组序列数据集包含偏差(或随机数据错误)。有益地,本文中所描述的系统提供了显著准确的结果,尽管原始基因组序列数据集中存在偏差。作为ngs的替代方案,长读段测序也可以适用。
[0267]
根据一个实施例,所述设备被配置成执行外显子组测序或全基因组测序(wgs)中的至少一个,以生成原始基因组序列数据集。所述设备是测序平台,用于执行外显子组测序,以生成原始基因组序列数据集。术语“外显子组”是指基因组中蛋白质编码基因中的所有外显子的完整序列。可替代地,取决于用户偏好,可以执行wgs以生成原始基因组序列数据集。在一个实例中,wgs利用大的全基因组(例如,人类基因组)来生成原始测序数据集。任选地,所述设备可能用于执行小的全基因组测序(例如,微生物)、靶向基因测序(扩增子、基因小组)、全转录组测序、使用mrna测序的基因表达谱或靶向基因表达谱。
[0268]
此外,所述系统包括计算布置,所述计算布置包括数据存储器装置和控制电路系统。值得注意的是,术语“计算布置”是指包含可编程和/或非可编程组件的结构和/或硬件模块,所述组件被配置成存储、处理和/或共享生物信息,如与受试者的基因组有关的原始序列数据集。此外,应当理解,计算布置任选地实施为单一硬件计算装置,如服务器,或者以并行或分布式架构操作的多个硬件计算装置。在一个实例中,计算布置任选地包含如数据存储器装置、处理器、显示器、网络接口等组件,以存储、处理和/或与其它计算组件(如用户装置/用户设备)共享信息。计算布置的实例包含但不限于医疗系统、服务器、电子装置、专用计算生物学设备或其它计算装置。任选地,计算布置是机器的一部分(即,集成到设备中)。如本文所使用的,术语“数据存储器装置”是指存储数据的非暂时性计算机可读存储介质。在一个实例中,数据存储器装置是易失性数据存储器。在另一个实例中,数据存储装置是快速存取存储器(例如,固态数据存储器)与持久性存储器(例如,光盘驱动器、磁性硬盘数据存储器)的组合,用于存储当前正在由计算布置使用的数据。数据存储器装置的实例包含但不限于随机存取存储器(ram)、同步动态随机存取存储器(sdram)、动态ram(dram)、双列直插式存储器模块(dimm)、视频随机存取存储器(vram)、图形双倍数据速率(gddr)ram、rom等。
[0269]
此外,术语“控制电路系统”是指可操作以响应和处理驱动上述系统的指令的计算元件。任选地,控制电路系统包含但不限于微处理器、微控制器、复杂指令集计算(cisc)微处理器、专用集成电路(asic)、精简指令集(risc)微处理器、超长指令字(vliw)微处理器或任何其它类型的处理或控制电路系统。此外,控制电路系统可以指一个或多个单独的处理器、处理装置、作为机器的一部分的处理单元以及与系统相关联的各种元件。任选地,控制电路系统和数据存储器装置彼此通信地耦接。
[0270]
此外,控制电路系统被配置成从所述设备中获取所述原始基因组序列数据集和预存储在所述数据存储器装置中的多个候选cnv检测应用程序。控制电路系统通信地耦接到所述设备以获取由所述设备生成的原始基因组序列数据集。术语“多个候选cnv检测应用程序”是指可能检测cnv但在精确和召回方面的性能有所不同的不同应用程序。在一个实例中,不同应用程序是不同的软件应用程序、算法或多个可执行代码。多个候选cnv检测应用程序的实例包含但不限于基于回归的cnv检测应用程序、基于读段深度数据的cnv检测应用程序等。cnv检测应用程序的一些实例包含“canoes”、“dragen
tm”、“exomedepth”、“sentieon”等。canoes是通过使用负二项分布和使用基于回归的方法估计读段序列的方差来检测cnv的cnv检测应用程序,所述基于回归的方法基于给定基因组序列数据集中的所选参考样品。dragen
tm
是映射、对齐、分类和复制cnv的cnv检测应用程序。exomedepth是使用读段深度数据从外显子组测序实验中识别cnv的cnv检测应用程序。
[0271]
不同的cnv检测应用程序作为候选应用程序(即,多个候选cnv检测应用程序)存储在数据存储器装置中,所述数据存储器装置由控制电路系统检索以处理从设备获取的原始基因组序列数据集。在一个实例中,控制电路系统被配置成一次一个地检索存储在数据存储器装置中的多个候选cnv检测应用程序。在另一个实例中,控制电路系统被配置成一次检索多个候选cnv检测应用程序中的所有候选cnv检测应用程序(即,并发/并行处理),并且然后使用检索到的多个候选cnv检测应用程序中的每个候选cnv检测应用程序来处理原始基因组序列数据集。
[0272]
此外,控制电路系统被配置成通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序来执行第一cnv识别以获得所述原始基因组序列数据集的随机选择区中的基线cnv,其中所述基线cnv是所述原始基因组序列数据集中预先存在的cnv,被认为是真值。本文中使用的术语“cnv识别”是指从原始基因组序列数据集中鉴定拷贝数变体的过程。任选地,cnv识别分多个步骤进行。在第一步骤中,由设备执行外显子组测序或wgs以创建fastq格式的文件。fastq(也被称为fastq)是用于存储下一代测序(ngs)数据的常用格式。在第二步骤中,将在第一步骤中获得的序列与参考基因组进行比对,以创建二进制比对映射(bam)文件格式的文件。在第三步骤中,对来自参考基因组的比对读段的差异进行鉴定。第三步骤促进进一步处理以鉴定原始基因组序列数据集中的拷贝数变体。出于全面检测cnv的目的,第一cnv识别用于原始基因组序列数据集的下游处理。基线cnv是指已知存在于原始基因组序列数据集中并且从多个候选cnv检测应用程序中识别处的天然存在的cnv。由于已知基线cnv存在,因此基线cnv被认为是真值,用于比较多个候选cnv检测应用程序的性能。控制电路系统利用多个候选cnv检测应用程序中的每个候选cnv检测应用程序在原始基因组序列数据集的随机选择区中执行第一cnv识别,以从多个候选cnv检测应用程序中的每个候选cnv检测应用程序获得基线cnv。值得注意的是,从多个候选cnv检测应用程序中的每个候选cnv检测应用程序获得的基线cnv可以相同或可以不同。
[0273]
此外,控制电路系统被配置成组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集。从多个候选cnv检测应用程序中的每个候选cnv检测应用程序获得的基线cnv在数量和/或其在原始基因组序列数据集的随机选择区中的相应位置方面可能不同。控制电路系统组合从每个候选cnv检测应用程序获得的结果以形成基线cnv集(即,从所有多个候选cnv检测应用程序获得的基线cnv的集合),使得每个获得的基线cnv在所述基线cnv集中仅出现一次。例如,从第一候选cnv检测应用程序获得的基线cnv为cnv1、cnv2和cnv3。从第二候选cnv检测应用程序获得的基线cnv为cnv1、cnv2、cnv3和cnv4。从第三候选cnv检测应用程序获得的基线cnv为cnv1和cnv3。控制电路系统组合所获得的基线cnv cnv1、cnv2、cnv3和cnv4,以获得被认为是真值的基线cnv集。
[0274]
此外,控制电路系统被配置成通过使用预存储在数据存储器装置中的模拟应用程序模拟原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列数据
集。模拟的基因组序列数据集包括人工cnv集和基线cnv集。原始基因组序列数据集的“靶区”是指在原始基因组序列数据集中用于测序的一个或多个所关注区(例如,焦点基因小组)。参考本公开,靶区可以是其中由于cnv而存在的异常可能导致发病机制的区。例如,靶区可以是对应于原始基因组序列数据集中的外显子的区,即,基因组中的某些所关注编码区。关于受试者的基因组的靶区中存在的一种或多种cnv的信息可能用于决策支持,以便帮助鉴定由于鉴定出的一种或多种cnv导致的受试者的罕见遗传病症的出现。因此,控制电路系统模拟原始基因组序列数据集的至少一个靶区中的人工cnv集,用于鉴定可能导致罕见遗传病症出现的cnv。术语“模拟应用程序”是指被配置成运行和模拟人工cnv集以评估多个候选cnv检测应用程序的框架。控制电路系统利用预存储在数据存储器装置中的模拟应用程序来模拟人工cnv集,使得在原始基因组序列数据集的靶区中生成人工cnv。由于人工cnv集是在原始基因组序列数据集中模拟的,原始基因组序列数据集包括被识别的基线cnvs集合,因此,模拟基因组序列数据集包括由模拟应用程序模拟的人工cnv集和在由控制电路系统进行第一cnv识别期间识别的基线cnv集。值得注意的是,原始基因组序列数据集的靶区可能与原始基因组序列数据集的随机选择区重叠。
[0275]
任选地,模拟应用程序是“ximmer”工具。“ximmer”工具是可自动配置和运行各种cnv检测应用程序的分析流水线。“ximmer”工具充当可以在测序数据中创建人工cnv的模拟应用程序。“ximmer”工具可能用作可以结合来自多个cnv检测应用程序的结果并且允许用户检查多个cnv检测应用程序连同相关注释的可视化和处理工具。
[0276]
此外,控制电路系统被配置成在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置。模拟基因组序列数据集中每个人工cnv和每个基线cnv的位置由控制电路系统记录,所述控制电路系统用作在稍后阶段测量多个候选cnv检测应用程序的性能的参考。基线cnv集的每个基线cnv的位置是已知的,并且因此可以可靠地将每个基线cnv的位置用作参考。进一步地,在预定义的靶区处模拟人工cnv,所述预定义的靶区的位置对于模拟应用程序是已知的。模拟基因组序列数据集中的人工cnv集中的每个人工cnv和基线cnv集中的每个基线cnv的位置存储在数据库中。值得注意的是,所述数据库是数据存储器装置的一部分。
[0277]
此外,控制电路系统被配置成通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述模拟基因组序列数据集中执行第二cnv识别。控制电路系统利用多个候选cnv检测应用程序中的每个候选cnv检测应用程序在模拟基因组序列数据集中执行第二cnv识别以获得cnv,如存在于模拟基因组序列数据集中的基线cnv集和人工cnv集。值得注意的是,从多个候选cnv检测应用程序中的每个候选cnv检测应用程序获得的基线cnv集和人工cnv集可以相同也可以不同。应当理解,在执行第二cnv识别期间识别的cnv可以包括一个或多个基线cnv,所述基线cnv在执行第一cnv识别期间可能未被检测到。应当进一步理解,在执行第二cnv识别期间识别的cnv可以包括不同于存在于人工cnv集中的模拟人工cnv的一个或多个cnv。
[0278]
此外,控制电路系统被配置成从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基线cnv集,以获得新cnv集。从模拟基因组序列数据集中的第二cnv识别获得的新cnv集可以包括人工cnv集和在消除所述基线cnv集之后除了模拟人工cnv之外的一个或多个cnv。
[0279]
此外,控制电路系统被配置成基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置。将模拟基因组序列数据集中的新cnv集中的新cnv的序列与人工cnv集的每个人工cnv的序列进行比较以确定模拟基因组序列数据集中新cnv集中的新cnv的位置。类似地,执行新cnv集中的每个新cnv的序列与已知位置的每个人工cnv的序列的比较以确定新cnv集的位置。
[0280]
此外,控制电路系统被配置成基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度。控制电路系统比较多个候选cnv检测应用程序中的每个候选cnv检测应用程序在确定模拟基因组序列数据集中的新cnv集的准确位置方面的性能。进一步地,基于所述性能,控制电路系统确定与多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度。
[0281]
根据一个实施例,控制电路系统被进一步配置成在所述新cnv集中的新cnv的位置与所述人工cnv集中的人工cnv的对应位置相匹配的情况下,通过真阳性鉴定来确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的所述召回程度。如果新cnv的位置与模拟基因组序列数据集中人工cnv的对应位置相同(或几乎相同),则认为检测到的新cnv为真阳性。在一个实例中,候选cnv检测应用程序执行第二cnv识别以获得新cnv。在此类情况下,假设人工cnv的序列可以是模拟基因组序列数据集中位置l1处的“attcgac”。如果新cnv的序列“attcgac”的位置与人工cnv的序列“attcgac”的位置l1匹配,则控制电路系统鉴定出真阳性。
[0282]
控制电路系统被进一步配置成在与所述人工cnv集中的人工cnv的位置不同的位置处检测到所述新cnv集中的新cnv的位置的情况下,通过假阳性鉴定来确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的所述召回程度。如果在与所述人工cnv集中的人工cnv的位置不同的位置处检测到所述新cnv集中的新cnv的位置,则认为检测到的新cnv为假阳性。在一个实例中,候选cnv检测应用程序执行第二cnv识别以获得新cnv。在此类情况下,假设人工cnv的序列可以是模拟基因组序列数据集中位置l1处的“tccgaactg”。如果在与人工cnv集中的人工cnv的序列“tccgaactg”的位置l1不同的位置(例如,位置l2)处检测到具有序列“tccgaactg”的新cnv的位置,则控制电路系统鉴定出假阳性。
[0283]
控制电路系统被进一步配置成在所述人工cnv集中的人工cnv的位置处没有检测到所述新cnv集中的新cnv的情况下,通过假阴性鉴定来确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的所述召回程度。换句话说,如果在所述人工cnv集中的人工cnv的位置处没有检测到所述新cnv集中的新cnv,则检测到的新cnv被认为是假阴性。应当理解,由候选cnv检测应用程序在模拟基因组序列数据集中检测到的cnv的总数等于与候选cnv检测应用程序相关联的真阳性和假阴性。控制电路系统被进一步配置成确定与具有较多数量的真阳性的候选cnv检测应用程序而不是具有较少数量的真阳性的候选cnv检测应用程序相关联的更高的召回程度。在一个实例中,三个候选cnv检测应用程序a、b和c用于识别基因组序列数据集中的cnv。候选cnv检测应用程序a在基因组序列数据集中鉴定出5个cnv,因此,它被分配了5个真阳性。候选cnv检测应用程序b在基因组序列数据集中鉴定出8个cnv,因此,它被分配了8个真阳性。候选cnv检测应用程序c在基因组序列
数据集中鉴定出3个cnv,因此,它被分配了3个真阳性。因此,控制电路系统确定与候选cnv检测应用程序b相关联的召回程度最高,并且控制电路系统确定与候选cnv检测应用程序c相关联的召回程度是三个候选cnv检测应用程序中最低的。
[0284]
根据一个实施例,所述控制电路系统被进一步配置成测量所述新cnv集中的新cnv的位置与所述人工cnv集中的人工cnv的对应位置的重叠程度,以确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的所述精确程度。换句话说,与多个候选cnv检测应用程序相关联的精确程度是新cnv的确定位置相对于人工cnv的对应位置的精确度的度量。例如,新cnv集中的检测到的新cnv的序列可以为“aggtccagc”。如果候选cnv检测应用程序检测到具有序列“aggtccagc”的新cnv的位置与具有序列“aggtccagc”的人工cnv的位置精确重叠,则控制电路系统确定与多个候选cnv检测应用程序相关联的精确程度为高。
[0285]
根据一个实施例,所述控制电路系统被进一步配置成设置指定阈值用于确定所述新cnv集中的新cnv的位置与所述人工cnv集中的人工cnv的对应位置的重叠程度。特定阈值是新cnv集中的新cnv的位置与人工cnv集中的人工cnv的对应位置的最小重叠程度的度量,使得如果新cnv的位置的重叠程度大于指定阈值,则称新cnv的位置与人工cnv的对应位置相匹配。任选地,指定阈值50%被设置用于确定新cnv集中的新cnv的位置与人工cnv集中的人工cnv的对应位置的重叠程度。在此类情况下,如果候选cnv检测应用程序检测到新cnv的位置与人工cnv的对应位置的重叠程度为50%(即,50%匹配或重叠)或更多,则称新cnv与人工cnv的对应位置相匹配。
[0286]
根据一个实施例,所述控制电路系统被进一步配置成基于测得的所述新cnv集中的所述新cnv的所述位置与所述人工cnv集中的所述人工cnv的所述对应位置的重叠程度,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序将最高精确程度分配给所述多个候选cnv检测应用程序中的第一候选cnv检测应用程序。值得注意的是,候选cnv检测应用程序检测到的重叠程度越大,与之相关联的精确程度就越高。在一个实例中,由第一候选cnv检测应用程序测得的重叠程度为80%,由第二候选cnv检测应用程序测得的重叠程度为67%,并且由第三候选cnv检测应用程序测得的重叠程度为70%。因此,与第一候选cnv检测应用程序相关联的精确程度最高,并且与第二候选cnv检测应用程序相关联的精确程度最低。
[0287]
此外,控制电路系统被配置成基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优。多个候选cnv检测应用程序中的候选cnv检测应用程序被选择为最优的,具有最高召回程度和与之相关联的最高精确程度。然而,最优候选cnv检测应用程序也可以基于取决于其在各种应用中的使用的召回程度与精确程度之间的折衷来选择。选择用于特定基因组序列数据的最佳候选cnv检测应用程序以用于识别此基因组序列数据中的拷贝数变体,以提供最优结果,即,促进基因组序列数据中拷贝数变体的最佳识别。
[0288]
根据一个实施例,控制电路系统被进一步配置成生成与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的精确-召回曲线关系,并且其中选择所述多个候选cnv检测应用程序之一为最优取决于所述召回程度与所述精确程度之间的平衡。与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关的所述召回程度与所
述精确程度之间的平衡由所生成的精确-召回曲线关系中对应的精确-召回曲线下面积指示。可以对新cnv的检测进行评分并且用于创建精确-召回曲线关系。任选地,精确-召回曲线关系显示为图形精确-召回曲线图。精确-召回曲线关系是每个候选cnv检测应用程序性能的度量。精确-召回曲线关系描绘了与候选cnv检测应用相关联的召回程度和精确程度的变化以及与之相关联的灵敏度测量的变化。利用此类精确-召回曲线关系,精确-召回曲线可以方便且准确地鉴定出最优候选cnv检测应用程序。通过选择具有最大精确-召回曲线下面积的精确-召回曲线来选择最优候选cnv检测应用程序。可替代地,一些需要cnv检测的应用程序可能会优先考虑精确程度而不是召回程度,或反之亦然。因此,最优候选cnv检测应用程序的选择过程是通过基于使用候选cnv检测应用程序的应用程序的精确程度和召回程度的差分加权来执行的。
[0289]
此外,控制电路系统被配置成利用所选候选cnv检测应用程序识别基因组序列数据中的cnv。控制电路系统被配置成利用最优候选cnv检测应用程序准确识别基因组序列数据中的cnv。由系统的控制电路系统对cnv的准确检测提供了决策支持,使得能够识别个体基因组序列数据中的疾病或异常。此外,疾病或异常的识别有助于随后例如,通过执行基因疗法对所鉴定出的疾病或异常的治疗。
[0290]
本公开还涉及如上文所描述的方法。上文所公开的各种实施例和变体加以必要的变更应用于所述方法。
[0291]
根据一个实施例,所述方法进一步包括由所述控制电路系统通过鉴定以下各项来确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度:
[0292]-真阳性,在所述新cnv集中的新cnv的位置与所述人工cnv集中的人工cnv的对应位置相匹配的情况下;
[0293]-假阳性,在与所述人工cnv集中的人工cnv的位置不同的位置处检测到所述新cnv集中的新cnv的位置的情况下;以及
[0294]-假阴性,在所述人工cnv集中的人工cnv的位置处没有检测到所述新cnv集中的新cnv的情况下。
[0295]
根据一个实施例,所述方法进一步包括通过使用所述控制电路系统,测量所述新cnv集中的新cnv的位置与所述人工cnv集中的人工cnv的对应位置的重叠程度,以确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的精确程度。
[0296]
根据一个实施例,所述方法进一步包括通过使用所述控制电路系统,基于测得的所述新cnv集中的所述新cnv的所述位置与所述人工cnv集中的所述人工cnv的所述对应位置的重叠程度,通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序将最高精确程度分配给所述多个候选cnv检测应用程序中的第一候选cnv检测应用程序。
[0297]
根据一个实施例,所述方法进一步包括通过使用所述控制电路系统,设置指定阈值以确定所述新cnv集中的所述新cnv的所述位置与所述人工cnv集中的所述人工cnv的所述对应位置的所述重叠程度。
[0298]
根据一个实施例,所述方法进一步包括通过使用所述控制电路系统,生成与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的精确-召回曲线关系,并且其中所述选择所述多个候选cnv检测应用程序之一为最优取决于所述召回程度与所述精确程度之间的平衡,其中与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程
序相关的所述召回程度与所述精确程度之间的所述平衡由所生成的精确-召回曲线关系中对应的精确-召回曲线下面积指示。
[0299]
附图详细描述
[0300]
参考图1a,示出了根据本公开的实施例的在设备102中使用的试剂盒104的框图100a。试剂盒104当在操作中时执行湿实验室测定。所述测定包含处理来源于一个或多个细胞外显子组的遗传物质。所述测定检测来自遗传物质的遗传dna读数中的单核苷酸变体(snv)、插入缺失和拷贝数变体(cnv)。试剂盒104可作为处理遗传物质的单一测定来执行以获得遗传dna读数。试剂盒104包含软件产品(未示出),所述软件产品可在计算硬件(未示出)上执行以使所述计算硬件调用算法,通过将所述遗传dna读数的部分与一个或多个dna序列转录物进行比较来处理所述遗传dna读数,以确定对应于所述dna读数数据中的所述一个或多个dna序列转录物的变体的出现。
[0301]
由计算硬件调用的算法包含用于检测来自遗传物质的遗传dna读数中的snv和cnv两者以及任选地插入缺失的算法。计算硬件进一步调用用于对来自所述遗传物质的所述遗传dna读数中存在的临床相关cnv进行注释的算法。计算硬件进一步调用根据与一个或多个部分相关联的表型对来自所述遗传物质的所述遗传dna读数的所述一个或多个部分进行优先级排序的算法。此外,计算硬件进一步调用检测药物基因组学(pgx)标志物的变体识别和样品跟踪snp的算法。
[0302]
参考图1b,示出了根据本公开的实施例的在设备102中使用的试剂盒104的框图100b。在本实施例中,所述设备进一步包含计算硬件106。试剂盒104进一步包含软件产品108和遗传物质处理布置110。
[0303]
试剂盒104当在操作中时执行湿实验室测定。所述测定包含处理来源于细胞外显子组的遗传物质(例如,通过单细胞测序)。试剂盒104在孕前筛查、胚胎植入前遗传筛查或与辅助生殖技术相关的应用中得到应用。在此实施例中,遗传物质处理布置110用于处理遗传物质以获得遗传dna读数。所述测定检测来自遗传物质的遗传dna读数中的单核苷酸变体(snv)、插入缺失和拷贝数变体(cnv)。试剂盒104可作为处理遗传物质的单一测定来执行以获得遗传dna读数。试剂盒104的软件产品108可在计算硬件106上执行以使计算硬件106通过将遗传dna读数的部分与dna序列转录物进行比较来处理所述遗传dna读数,以确定与dna读数数据中的dna序列转录物相对应的变体的出现。
[0304]
试剂盒104的软件产品108可在计算硬件106上执行,以使计算硬件106检测来自遗传物质的遗传dna读数中的snv和cnv两者;对来自所述遗传物质的所述遗传dna读数中存在的临床相关cnv进行注释;根据与一个或多个部分相关联的表型对来自所述遗传物质的所述遗传dna读数的所述一个或多个部分进行优先级排序;并且检测药物基因组学(pgx)标志物的变体识别和样品跟踪snp。
[0305]
本技术领域的技术人员应当理解,图1a和1b仅出于清楚起见包含系统100a和100b的简化图解,其不应过度限制本文中权利要求的范围。本领域技术人员将认识到本公开的实施例的许多变型、替代方案和修改。
[0306]
参考图2,示出了根据本公开的实施例的用于实施示例性试剂盒以执行定制湿实验室测定的示例性场景200。示例性场景200包含四个顺序阶段,即,第一选择阶段202a、第二湿实验室阶段202b、第三数据处理阶段202c和第四可视化阶段202d。
[0307]
第一选择阶段202a是指使用试剂盒的实体能够根据定制要求选择所关注特征集的选择阶段(即,可根据特定供应商、实体或最终用户的要求进行配置的定制临床外显子组测定)。第二湿实验室阶段202b是指遗传物质处理阶段,使用试剂盒根据第一选择阶段202a中所选的所关注特征集从遗传物质中获得遗传dna读数。第三数据处理阶段202c是指数据处理流水线,其中根据在第一选择阶段202a中所选的所关注特征集处理来自第二湿实验室阶段202b的输出(即,遗传dna读数)。第四可视化阶段202d是指渲染图形用户界面以用于可视化和进一步分析在第三数据处理阶段202c处理的数据的可视化阶段。
[0308]
在第一选择阶段202a中,当(购买中或任选地购买试剂盒后的)用户具有根据要求选择所关注特征的选项。试剂盒允许数据处理、变体过滤、变体优先级排序和经处理数据的可视化。在此示例性场景200中,在步骤204a处,数据处理特征和可视化特征是可配置的,并且可根据需要提供给试剂盒的所有者。在此实施例中,令牌提供对某些所选特征(或模块)的访问或激活某些所选特征(或模块)。在步骤204b处,选择外显子组测序偏好,即,全外显子组测序(wes)、浅全基因组测序(swgs)或其组合(即,wes
±
swgs或swgs
±
wes)。在步骤204c处,选择外显子组加分析特征。除了外显子组测序偏好外,还可根据选择来选择(即,允许选择加入或选择退出)以下特征:i)产前模块204d;ii)早期婴儿型癫痫性脑病(eiee)神经医学模块204e;和携带者筛查面板模块204f。
[0309]
在第二湿实验室阶段202b中,在步骤206处,本地提取dna样品。在步骤208a处,所选样品跟踪测定(即,根据在第一选择阶段202a中执行的选择)也在本地运行。在步骤208b处,dna样品被剪切(酶剪切或声剪切)。在步骤210a处,剪切后的片段化dna样品用于制备swgs(浅-低水平)文库,在第一选择阶段202a中在序列偏好中选择了swgs特征的情况下,所述文库并入唯一分子标识符(umi)和对应样品的索引(即,样品索引)。在步骤210b处,剪切后的片段化dna样品用于wes文库制备,所述文库还包含umi和样品索引,以防在第一选择阶段202a中在序列偏好中选择了wes特征。在步骤212处,合并swgs和wes文库(即,将swgs与wes文库结合)进行高覆盖率的双末端外显子组测序(这使得能够进行全外显子组加下游分析)。
[0310]
在步骤214处,执行对汇集的文库的测序。在此情况下,使用定义数量的碱基对(bp)配对末端读段(通过下一代测序(ngs)的短读段)进行测序。可以应用长读段测序作为替代方案。在步骤216处,将从测序中获得的测序数据上传到通信地耦接到试剂盒的基于云的序列分析和可视化平台。本此实施例中,上传的测序数据为bcl、fastq、bam、vcf或bed格式。测序数据与指示在第一选择阶段202a中提供对所选模块(即,特征)的访问的所选令牌的解释请求(ir)一起上传。在步骤218处,包含用于在步骤208a处执行的跟踪的snp数据的样品跟踪测定的输出也被上传到基于云的序列分析和可视化平台中。
[0311]
在第三数据处理阶段202c中,数据处理流水线阶段开始,其中处理上传的测序数据。在步骤220处,根据在第一选择阶段202a中选择的特征(即,以令牌形式选择的模块)触发特定处理流水线。在步骤222处,测序数据的初始比对与参考基因组数据集一起执行。测序数据与最新版本的基因组构建组装比对(在此情况下,使用grch38/hg38人类基因组构建组装)。此比对使得能够鉴定个体的基因组序列中有意义的变异,以区分什么是健康的和什么是潜在病态的。在步骤224a处,使用在步骤222处的比对数据或上传的原始测序数据,生成有质量控制的样品跟踪snp。snps和在一些情况下短串联重复序列标志物用于遗传样品
跟踪以避免样品混淆。在步骤226a处,对测序数据(即,对上传的原始测序数据或在步骤222处获得的比对数据)执行umi解复用。在步骤228a处,使用在步骤222处的比对数据或原始测序数据,执行线粒体(mtdna)流水线以测量异质性(即,异质变体)并且在大量候选者中识别有助于表型(例如,疾病)的功能上最重要的线粒体变体。mtdna数据是从测序数据(即,从swgs和wes数据)中提取的。在一个实施方案中,步骤224a、226a和228a同时执行。在另一个实施方案中,步骤224a、226a和228a以任何定义的顺序依次执行。
[0312]
在步骤224b处,在第四可视化阶段202d中,将在步骤222a处生成的有质量控制的样品跟踪snp渲染在gui(即,可视界面)上。gui在设备(未示出)上渲染。在步骤226b处,gui允许设置配置以控制在第三数据处理阶段202c处的数据处理操作。在第三数据处理阶段202c处执行的各种数据处理操作的结果被渲染在gui上以供进一步分析,并且基于多个定义的设置(即,预设设置)、指定的知识库和通过渲染的gui选择和应用的面板执行数据处理。第三数据处理阶段202c和第四可视化阶段202d彼此同步执行。在此示例性场景200中,多个预设设置(预设1)中的第一预设设置250a在被选择时允许预加载主要基因面板和相关联数据(例如,产前模块204d或eiee模块面板204e)。在主要面板基于预定义规则没有检测到可鉴定的致病变体的情况下,应用多个预设设置中的第二预设设置250b(预设2)。在第二预设设置250b中,孟德尔遗传(例如,omim或morbid)数据和hpo数据被预加载并且与预加载的主要基因面板和相关联数据一起渲染。
[0313]
现在返回参考第三数据处理阶段202c,在步骤230处,对dna读数数据中的重复和缺失变体进行检测。在步骤232处,执行拷贝数变异(cnv)识别。可替代地,使用算法在遗传dna读数中同时检测snv和cnv两者。另外,还执行了对药物基因组学(pgx)标志物的变体识别。在步骤234处,执行snv和插入缺失识别。在步骤236处,执行str和vntr识别。在步骤238处,检测镶嵌变体。在步骤240处,根据遗传dna读数数据上对应位点处的变体类型对识别出的不同变体(重复和缺失变体,包含进一步的cnv识别、snv、插入缺失、str和vntr)进行标记并且通过gui可视化。对符合基因遗传模式(moi)(即,观察到的基因moi)和家族中的预期moi的变体进行标记(或注释)。在步骤242处,确定变体是遗传变体还是从头变体。在步骤244处,将检测到的变体在主要基因面板上进行分类(即,执行变体分层)。在步骤246处,基于所关注基因对所有检测到的变体执行变体优先级排序。在步骤248处,在检测到的变体与acmg提供的变体序列匹配的情况下,会自动填充acmg证据代码。acmg表示美国医学遗传学和基因组学学院,其已发布针对报告某些基因的外显子中的偶然发现的建议(通常规定了59个基因)。
[0314]
在第四可视化阶段202d中,如上文所讨论的,在第三数据处理阶段202c处执行的各种数据处理操作的结果被渲染在gui(即,可视界面)上以供进一步分析,并且基于预设设置、知识库和通过渲染的gui选择和应用的面板执行数据处理。因此,除了第一预设设置250a和第二预设设置250b之外,提供了第三预设设置250c并且可通过gui选择所述第三预设设置。第三预设250c设置与面板无关,并且用于配置用于疾病评估的决策支持的报告模板。还提供了其它研究预设选项250d,并且可选择用于可视分析。第四预设设置250e可通过gui选择,所述第四预设设置允许基于在不同步骤中检测到的共享等位基因来执行队列分析和过滤。第五预设设置250f可通过gui选择,所述第五预设设置允许基于在不同步骤中检测到的共享等位基因同时执行对多个谱系的str、ntr、snp连锁分析,并且在序列比对中通
过gui可视化。
[0315]
参考图3,示出了描绘根据本公开的实施例的使用执行湿实验室测定的试剂盒的方法的步骤的流程图300。所述方法是使用试剂盒实施的。所述试剂盒在使用时执行湿实验室测定。如图所示,在步骤302处,所述测定处理来源于一个或多个细胞外显子组的遗传物质,其中所述测定检测来自所述遗传物质的遗传dna读数中的单核苷酸变体(snv)、插入缺失和拷贝数变异(cnv)。在步骤304处,将试剂盒作为处理所述遗传物质的单一测定进行应用。在步骤306处,在计算硬件上执行所述试剂盒的软件产品,以使所述计算硬件调用一种或多种算法,通过将所述遗传dna读数的部分与一个或多个dna序列转录物进行比较来处理所述遗传dna读数,以确定对应于所述dna读数数据中的所述一个或多个dna序列转录物的变体的出现。此外,在步骤306处,算法被配置成检测来自遗传物质的遗传dna读数中的snv和cnv两者。进一步地,算法被配置成对来自遗传物质的遗传dna读数中存在的临床相关cnv进行注释。此外,算法被配置成根据与一个或多个部分相关联的表型对来自所述遗传物质的所述遗传dna读数的所述一个或多个部分进行优先级排序。此外,算法被配置成检测药物基因组学(pgx)标志物的变体识别和样品跟踪snp。
[0316]
步骤302、304和306仅为说明性的,并且在不脱离本文权利要求的范围的情况下,还可以提供其它替代方案,其中添加一个或多个步骤、删除一个或多个步骤或者以不同顺序提供一个或多个步骤。
[0317]
参考图4,示出了描绘根据本公开的另一个实施例的使用执行湿实验室测定的试剂盒的方法的步骤的流程图400。如图所示,在步骤402处,处理来源于受试者的细胞外显子组的遗传物质。在步骤404处,试剂盒当与设备一起使用时作为处理上述步骤得到的遗传物质的单一测定进行应用。在步骤406处,在来自遗传物质的遗传dna读数中检测snv和cnv。在步骤408处,对遗传物质的遗传dna读数中存在的临床相关cnvs进行注释。在步骤410处,根据与遗传dna读数的部分相关联的表型,从遗传物质对遗传dna读数的部分进行优先级排序。在步骤412处,检测药物基因组学(pgx)标志物的变体识别并且单独检测样品跟踪snp。
[0318]
步骤402、404、406、408、410和412仅为说明性的,并且在不脱离本文权利要求的范围的情况下,还可以提供其它替代方案,其中添加一个或多个步骤、删除一个或多个步骤或者以不同顺序提供一个或多个步骤。
[0319]
参考图5a,示出了根据本公开的实施例的获取和处理基因组序列数据集以检测拷贝数变体(cnv)的系统500a的框图。如图所示,系统500a包括设备502和计算布置504。设备502被配置成处理受试者的基因组的至少一部分以生成原始基因组序列数据集。此外,计算布置504包括数据存储器装置506和控制电路系统508。控制电路系统508被配置成从所述设备502中获取所述原始基因组序列数据集以及预存储在所述数据存储器装置506中的多个候选cnv检测应用程序。此外,控制电路系统508被配置成通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序执行第一cnv识别以获得原始基因组序列数据集的随机选择区中的基线cnv。值得注意的是,基线cnv是原始基因组序列数据集中预先存在的cnv,被认为是真值。此外,控制电路系统508被配置成组合从所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的所述基线cnv以生成基线cnv集。此外,控制电路系统508被配置成通过使用预存储在数据存储器装置506中的模拟应用程序(例如,zimmer工具)模拟原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列
数据集。值得注意的是,模拟的基因组序列数据集包括人工cnv集和基线cnv集。此外,控制电路系统508被配置成在所述模拟基因组序列数据集中记录所述人工cnv集中的每个人工cnv和所述基线cnv集中的每个基线cnv的位置。此外,控制电路系统508被配置成通过使用所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序在所述模拟基因组序列数据集中执行第二cnv识别。此外,控制电路系统508被配置成从获得自所述模拟基因组序列数据集中的所述第二cnv识别的cnv中消除所述基线cnv集,以获得新cnv集。此外,控制电路系统508被配置成基于记录的所述人工cnv集的位置,确定所述模拟基因组序列数据集中所述新cnv集中的每个新cnv的位置。此外,控制电路系统508被配置成基于所述新cnv集的位置与所述人工cnv集的位置的比较,确定与所述多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度。此外,控制电路系统508被配置成基于用于识别所述基因组序列数据中的所述拷贝数变体的所述召回程度和所述精确程度的组合,选择所述多个候选cnv检测应用程序之一作为最优。此外,控制电路系统508被配置成利用所选候选cnv检测应用程序识别基因组序列数据中的cnv。
[0320]
参考图5b,示出了根据本公开的另一个实施例的获取和处理基因组序列数据集以检测一个或多个拷贝数变体(cnv)的系统500b的网络环境的图解。结合来自图5a的元素描述图5b。如图所示,在系统500b中,设备502和计算布置504通过数据通信网络510通信地耦接。计算布置504包括数据存储器装置506和控制电路系统508。数据通信网络510是有线或无线通信网络。进一步示出了通信地耦接到计算布置504和设备502的湿实验室布置512。湿实验室布置512被配置成处理受试者的生物样品以得到受试者的基因组的至少一部分以生成原始基因组序列数据集。
[0321]
本技术领域的技术人员应当理解,图1a和1b仅出于清楚起见包含系统500a和500b的简化图解,其不应过度限制本文中权利要求的范围。本领域技术人员将认识到本公开的实施例的许多变型、替代方案和修改。
[0322]
参考图6a和6b,示出了描绘根据本公开的实施例的用于获取和处理基因组序列数据集以检测一个或多个拷贝数变体(cnv)的方法的步骤的流程图600。所述方法是使用包括设备和计算布置的系统来实施的。
[0323]
在步骤602处,通过使用设备处理受试者的基因组的至少一部分以生成原始基因组序列数据集。在步骤604处,通过使用计算布置的控制电路系统获取来自设备的原始基因组序列数据集和预存储在计算布置的数据存储器装置中的多个候选cnv检测应用程序。在步骤606处,通过使用多个候选cnv检测应用程序中的每个候选cnv检测应用程序执行第一cnv识别以获得原始基因组序列数据集的随机选择区中的基线cnv。此外,基线cnv是原始基因组序列数据集中预先存在的cnv,被认为是真值。在步骤608处,通过使用控制电路系统,组合从多个候选cnv检测应用程序中的每个候选cnv检测应用程序中获得的基线cnv以生成基线cnv集。在步骤610处,通过使用预存储在数据存储器装置中的模拟应用程序模拟原始基因组序列数据集的至少一个靶区中的人工cnv集来生成模拟基因组序列数据集。值得注意的是,模拟的基因组序列数据集包括人工cnv集和基线cnv集。在步骤612处,在模拟基因组序列数据集中记录人工cnv集中的每个人工cnv和基线cnv集中的每个基线cnv的位置。在步骤614处,通过使用多个候选cnv检测应用程序中的每个候选cnv检测应用程序在模拟基因组序列数据集中执行第二cnv识别。在步骤616处,从获得自模拟基因组序列数据集中的
第二cnv识别的cnv中消除基线cnv集,以获得新cnv集。在步骤618处,基于记录的人工cnv集的位置,确定模拟基因组序列数据集中新cnv集中的每个新cnv的位置。在步骤620处,基于新cnv集的位置与人工cnv集的位置的比较,确定与多个候选cnv检测应用程序中的每个候选cnv检测应用程序相关联的召回程度和精确程度。在步骤622处,基于用于识别基因组序列数据中的拷贝数变体的召回程度和精确程度的组合,选择多个候选cnv检测应用程序之一作为最优。在步骤624处,通过使用控制电路系统,利用所选候选cnv检测应用程序识别基因组序列数据中的cnv。
[0324]
步骤602、604、606、608、610、612、614、616、618、620、622和624仅为说明性的,并且在不脱离本文权利要求的范围的情况下,还可以提供其它替代方案,其中添加一个或多个步骤、删除一个或多个步骤或者以不同顺序提供一个或多个步骤。
[0325]
在不脱离如所附权利要求所限定的本公开的范围的情况下,可以对之前描述的本公开的实施例进行修改。用于描述本公开并且要求保护本公开的表达,如“包含(including)”、“包括(comprising)”、“并入(incorporating)”、“具有(have)”、“是(is)”旨在以非排他性的方式进行解释,即允许也存在未明确描述的项、组分或元件。提及单数也应被解释为涉及复数。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献