一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

确定精子提供者、卵母细胞提供者和对应受孕体之间的遗传关系的系统和方法与流程

2022-05-26 20:38:35 来源:中国专利 TAG:

确定精子提供者、卵母细胞提供者和对应受孕体之间的遗传关系的系统和方法
相关申请的交叉援引
1.本技术要求于2019年6月21日提交的美国临时专利申请 62/865,130的优先权,该申请的全部内容通过引用并入本技术。援引加入
2.本文引用的任何专利、专利申请和出版物的公开内容通过援引整体并入本技术。
技术领域
3.本文提供的实施例通常涉及用于分析基因组核酸和基因组特征分类的系统和方法。本文提供的实施例中包括与确定受孕体、卵母细胞和精子之间的相关性有关的系统和方法。


背景技术:

4.体外受精(ivf)是一种辅助生殖技术,越来越受高龄妇女、受孕困难的夫妇的欢迎,并作为促进妊娠的一种手段。受精过程包括提取卵子、取得精子样本,然后在实验室环境中手动结合卵子和精子。然后将胚胎植入宿主子宫以将胚胎带到足月。当对胚胎进行活检或收集无细胞dna进行遗传分析时,会产生第四样本。许多ivf设施每年接待数千名患者,生产数万个胚胎。监护链(chain of custody)至关重要,因为未能确保这一点将导致一对夫妇生下一个不属于他们的孩子。对植入前受孕体进行的最常见的遗传分析形式,低通下一代测序(ngs)目前无法确定受孕体是否与各自的父母组有遗传关系。
5.当前的ivf监护链问题主要通过广泛的人工监督来解决,在某些情况下,通过读取条形码或rfid标签的电子系统来解决。然而,人工监督容易出错,患者或样本标签容易出错。为了从基因上识别相应的精子贡献者、卵子贡献者和所产生的植入前受孕体是否相关,这可以称为植入前三联体 (preimplantation trio linkage,ptl),可以使用snp阵列。然而,这项技术已接近生命周期的尽头,正在被测序方法稳步取代。此外,市场缺乏使用低通测序方法进行ptl的选择。
6.因此,需要更快速、成本更低的系统和方法来解决血缘关系检测和样本错误识别问题,从而可以正确识别遗传关系。


技术实现要素:

7.本文提供了用于分析基因组核酸和分类基因组特征的方法和系统,包括用于确定遗传关系的目的,例如ptl。
8.根据各种实施例,提供了一种用于确定受孕体与精子提供者和卵母细胞提供者的遗传关系的方法。该方法可以包括:接收受孕体、精子提供者和卵母细胞提供者的序列数据;将接收到的序列数据与参考基因组进行比对 (align);识别精子提供者、卵母细胞提供者和受孕体序列数据中的单核苷酸多态性(snp);使用填充(imputation)参考来填充精子
提供者序列数据和卵母细胞提供者序列数据中的缺失间隙;计算精子提供者和受孕体之间的父本一致性分数,该分数包括(a)受孕体和精子提供者之间共有的snp计数和(b) 在受孕体中发现但在精子提供者中不存在的snp计数;计算卵母细胞提供者和受孕体之间的母本一致性分数,该分数包括(a)受孕体和卵母细胞提供者之间共同的snp计数和(b)在受孕体中发现但在卵母细胞提供者中不存在的 snp计数;以及如果父本一致性分数和/或母本一致性分数超过预定阈值,则将精子提供者和/或卵母细胞提供者分类为与受孕体相关。
9.根据各种实施例,提供了一种存储用于确定受孕体与精子提供者和卵母细胞提供者的遗传关系的计算机指令的非暂时性计算机可读介质。该方法可以包括:接收受孕体、精子提供者和卵母细胞提供者的序列数据;将接收到的序列数据与参考基因组进行比对;识别精子提供者序列数据、卵母细胞提供者序列数据和受孕体序列数据中的单核苷酸多态性(snp);使用填充参考来填充精子提供者序列数据和卵母细胞提供者序列数据中的缺失间隙;计算精子提供者和受孕体之间的父本一致性分数,该分数包括(a)受孕体和精子提供者之间共有的snp计数和(b)在受孕体中发现但在精子提供者中不存在的 snp计数;计算卵母细胞提供者和受孕体之间的母本一致性分数,该分数包括 (a)受孕体和卵母细胞提供者之间共同的snp计数和(b)在受孕体中发现但在卵母细胞提供者中不存在的snp计数;以及如果父本一致性分数和/或母本一致性分数超过预定阈值,则将精子提供者和/或卵母细胞提供者分类为与受孕体相关。
10.根据各种实施例,提供了一种用于确定受孕体与精子提供者和卵母细胞提供者的遗传关系的系统。该系统可以包括:用于接收受孕体、精子提供者和卵母细胞提供者序列数据的数据存储,通信地连接到数据存储的计算设备,以及显示器,其通信地连接到计算设备并被配置为显示包含与受孕体的分类相关性的报告。该计算设备可以包括:比对引擎,被配置为将接收到的序列数据与参考基因组比对;snp识别引擎,被配置为识别精子提供者序列数据、卵母细胞提供者序列数据和受孕体序列数据中的单核苷酸多态性(snp);填充引擎,被配置为使用填充参考来填充精子提供者序列数据和卵母细胞提供者序列数据中的缺失间隙以及相关性引擎。该相关性引擎可以被配置为:计算精子供体和精子供体之间的父本一致性分数,该分数包括(a)在受孕体和精子供体之间共有的snp计数和(b)在受孕体中发现但在精子提供者中不存在的 snp计数;计算卵母细胞提供者和受孕体之间的母本一致性分数,该分数包括 (a)受孕体和卵母细胞提供者之间共同的snp计数和(b)在受孕体中发现但在卵母细胞提供者中不存在的snp计数;以及如果父本一致性分数和/或母本一致性分数超过预定阈值,则将精子提供者和/或卵母细胞提供者分类为与受孕体相关。
附图说明
11.为了更完整地理解本文公开的原理及其优点,现结合附图参考以下描述,其中:
12.图1是显示根据各种实施例的用于确定受孕体与精子提供者和卵母细胞提供者的遗传关系的处理流程的示例性流程图。
13.图2是显示根据各种实施例的用于将后代(例如,受孕体或胚胎) 的遗传异常分类为母本或父本起源的处理流程的示例性流程图。
14.图3是描绘根据各种实施例的用于检测和/或分类识别的遗传异常的亲本起源的逻辑流程的决策树图。
15.图4是根据各种实施例,条形图,该图描绘了与单体胚胎的变异等位基因匹配的母亲的变异等位基因在每条染色体的分析的总变异等位基因中的比率(蓝色条)和与胚胎的变异等位基因匹配的父亲的变异等位基因在每条染色体的分析的总变异等位基因中的比率(橙色条)相比较,。
16.图5a和5b显示了根据各种实施例,每条染色体的分析的与父本变异等位基因匹配的三体胚胎的变异等位基因的数量与每条染色体的母本变异等位基因匹配的胚胎的分析的变异等位基因的数量的比较结果。图5a显示了根据各种实施例,对于23条染色体(蓝点)中的每一个,与父源(ovp) 共享的胚胎变异等位基因的数量与和母源(ovm)共享的胚胎变体等位基因的数量的关系图。对角虚线表示图表上与母源共享的胚胎变异等位基因的数量将等于每个染色体与父源共享的胚胎变异等位基因的数量的点。图5b是根据各种实施例的图6a中所示结果的另一个图示,其显示了每条染色体与母亲共享的等位基因计数与与父亲共享的等位基因计数的比率。
17.图6是显示根据各种实施例,相对于6号染色体(碱基对中的x 轴)上的位置而言,与母源(ovm)共享的胚胎变异等位基因的数量与与父源 (ovp)共享的胚胎变异等位基因的数量的比率(y轴)的图表。
18.图7示出了根据各种实施例,对于23条染色体(蓝点)中的每一个,与父源(ovp)共享的胚胎变异等位基因的数量与与母源(ovm)共享的胚胎变异等位基因的数量的图表。对角虚线表示图表上与母源共享的胚胎变异等位基因的数量将等于每个染色体与父源共享的胚胎变异等位基因的数量的点。
19.图8是根据各种实施例的用于确定受孕体与精子提供者和卵母细胞提供者的遗传关系的系统的示意图。
20.图9是示出根据各种实施例的用于确定受孕体与精子提供者和卵母细胞提供者的遗传关系的方法的示例性流程图。
21.图10示出了根据各种实施例的关于初始n=14家庭数据集的亲本一致性和新分数的图表。
22.图11示出了根据各种实施例的亲本匹配聚类图。
23.图12示出了根据各种实施例的亲本匹配聚类图。
24.图13示出了根据各种实施例,在确定受孕体的遗传关系时,母本和父本的相对新颖性和相似性分数的图表。
25.图14示出了根据各种实施例的在确定受孕体的遗传关系中的相对母本和父本新颖性和相似性分数的图表。
26.图15是根据各种实施例的用于执行本文提供的方法的计算机系统的框图。
27.应当理解,附图不一定按比例绘制,附图中的对象也不一定按彼此的关系按比例绘制。附图是旨在使本文公开的装置、系统和方法的各种实施例变得清楚和理解的描绘。在可能的情况下,在整个附图中将使用相同的附图标记来指代相同或相似的部件。此外,应当理解,附图不旨在以任何方式限制本教导的范围。
28.上述识别的数字是以表示而非限制的方式提供的。附图可以显示简化视图或局部视图,并且附图中元件的尺寸可以被放大或以其他方式不成比例。此外,当在本文中使用术语“在之上”、“附着到”、“连接到”、“耦合到”或类似词汇时,一个元件(例如,材料、层、衬底
等)可以“在之上”、“附着到”、“连接到”或“耦合到”另一元件,而不管该元件是直接在之上、附着到、连接到或耦合到另一元件还是在一个元件和另一个元件之间存在一个或多个中间元件。此外,当提及元件列表(例如元件a、b、c)时,此类引用旨在包括所列元件中的任何一个元件本身、少于所有所列元件的任何组合,和/或所有列出的元件的组合。说明书中的部分划分只是为了便于审查,并不限制所讨论元件的任何组合。
具体实施方式
29.本文提供了用于分析基因组核酸和基因组特征分类的方法和系统,例如,包括遗传异常。在一些实施例中,所述方法和系统用于确定受孕体与精子提供者和卵母细胞提供者的遗传关系。
30.应注意,在整个描述中,对受孕体的任何引用也可以包括胚胎。因此,这两个术语可以互换使用,并且一个术语相对于另一个术语的这些使用并不以任何方式将本文中的各种实施例限制为一种类型的样本相对于另一种类型的样本。从广义上讲,所分析的样本是受孕体的产物。因此,术语受孕体或胚胎可与胎儿、流产、儿童等互换使用,使用任何此类术语并不以任何方式将本文中的各种实施例限制为一种类型的样本相对于另一种类型的样本。
31.对于所分析样本的母亲和父亲(或父母)可以做出同样的描述。由于“母亲”和“父亲”这两个词可能具有社会结构,因此理解这两个类别的广度很重要。根据各种实施例,术语“母亲”、“父亲”或“父母”的使用在已知识别方面是通用的,因此,不应解释为意味着所分析样本的亲子关系是已知的。如本文将详述的,将讨论在其中确定例如遗传或遗传关系的模式的各种实施例。在任一情况下,亲子关系可以是已知的,也可以是未知的,但可以通过本文中的各种实施例来确定。此外,术语母亲可指母本dna、假定的母本dna、已知和未知遗传关系的卵/卵母细胞、卵子供体、卵子或妊娠携带者、血液等。同样,父亲一词也可以指父亲的dna、假定的父本dna、精子、精子捐献者、血液等。
32.除非另有定义,与本文描述的本教导相关使用的科学和技术术语应具有本领域普通技术人员通常理解的含义。此外,除非上下文另有要求,单数术语应包括复数,而复数术语应包括单数。通常,与本文所述的细胞和组织培养、分子生物学、以及蛋白质和寡核苷酸或多核苷酸化学和杂交相关的术语和技术是本领域公知的和常用的。标准技术用于例如核酸纯化和制备、化学分析、重组核酸和寡核苷酸合成。酶促反应和纯化技术根据制造商的说明书或如本领域中通常完成的或如本文所述进行的。本文所述的标准分子生物学技术和程序通常根据本领域公知的常规方法进行,并且如在本说明书通篇引用和讨论的各种一般性和更具体的参考文献中所述。参见例如sambrook等人,《分子克隆:实验室手册》(第三版,冷泉港实验室出版社,冷泉港,纽约2000)。结合术语使用的以及本文所述的实验室程序和标准技术是本领域公知和常用的。
[0033]“多核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间键连接的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。通常,多核苷酸包含至少三个核苷。通常寡核苷酸的大小范围从几个单体单元,例如3-4,到数百个单体单元。每当多核苷酸(例如寡核苷酸)由字母序列(例如“atgcctg”)表示时,应理解核苷酸从左到右按5
′‑
》3

的顺序排列,并且除非另有说明,“a”表示脱氧腺苷,“c”表示脱氧胞苷,“g”表示脱氧鸟苷,“t”表示胸苷。字
母a、c、g和t可用于指碱基本身、核苷或包含碱基的核苷酸,如本领域标准。
[0034]
dna(脱氧核糖核酸)是包含4种核苷酸组成的核苷酸链;a(腺嘌呤)、t(胸腺嘧啶)、c(胞嘧啶)和g(鸟嘌呤),rna(核糖核酸)由4 种核苷酸组成;a、u(尿嘧啶)、g和c。某些核苷酸对以互补方式彼此特异性结合(称为互补碱基配对)。也就是说,腺嘌呤(a)与胸腺嘧啶(t)配对 (然而,在rna的情况下,腺嘌呤(a)与尿嘧啶(u)配对),胞嘧啶(c) 与鸟嘌呤(g)配对。当第一核酸链与由与第一链中的核苷酸互补的核苷酸组成的第二核酸链结合时,两条链结合形成双链。如本文所用,“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”或“核酸测序读数”表示指示dna或rna分子(例如,全基因组、全转录组、外显子组、寡核苷酸、多核苷酸、片段等)中核苷酸碱基(例如,腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶/尿嘧啶)顺序的任何信息或数据。应当理解,本教导考虑使用所有可用的各种技术、平台或技术获得的序列信息,包括但不限于:毛细管电泳、微阵列、基于连接的(ligation-based)系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸识别系统、焦磷酸测序、基于离子或ph的检测系统、基于电子签名的系统等。
[0035]
如本文所用,术语“细胞”与术语“生物细胞”可互换使用。生物细胞的非限制性实例包括真核细胞、植物细胞、动物细胞,例如哺乳动物细胞、爬行动物细胞、鸟类细胞、鱼细胞等、原核细胞、细菌细胞、真菌细胞、原生动物细胞等,从组织中分离的细胞,例如肌肉、软骨、脂肪、皮肤、肝脏、肺、神经组织等,免疫细胞,例如t细胞、b细胞、自然杀伤细胞、巨噬细胞等,胚胎(例如,受精卵)、卵母细胞、卵子、精细胞、杂交瘤、培养细胞、来自细胞系的细胞、癌细胞、感染细胞、转染和/或转化细胞、报告细胞等。哺乳动物细胞可以来自例如人、小鼠、大鼠、马、山羊、绵羊、牛、灵长类动物等。
[0036]
基因组是细胞或有机体(包括动物,如哺乳动物,如人类)的遗传物质,包含核酸,如dna。例如,在人类中,总dna包括基因、非编码dna和线粒体dna。人类基因组通常包含23对线性染色体:22对常染色体 (常染色体)加上决定性别的x和y染色体。23对染色体包括来自每个亲本的一个副本。构成染色体的dna被称为染色体dna,存在于人类细胞的细胞核中(核dna)。线粒体dna作为环状染色体位于线粒体中,仅从母本遗传,与位于细胞核中的dna的核基因组相比,通常被称为线粒体基因组。
[0037]
如本文所用,短语“基因组特征”是指定义的或指定的基因组元件或区域。在一些情况下,基因组元件或区域可以具有一些带注释的结构和/ 或功能(例如,染色体、基因、蛋白质编码序列、mrna、trna、rrna、重复序列、反向重复、mirna、sirna等)或者是遗传/基因组变异(例如,单核苷酸多态性/变异、插入/缺失序列、拷贝数变异、倒位等),其表示一个或多个核苷酸、基因组区域、基因或一组基因组区域或基因(在dna或rna中) 由于例如突变、重组/交叉或遗传漂变而发生了相对于特定物种或特定物种内的亚群相关的变化。
[0038]
倍性是指细胞或生物体基因组中同源染色体组的数量(指定为n)。例如,具有一组染色体的细胞或生物体被称为单倍体(monoploid)。具有两组同源染色体(2n)的细胞或生物体被称为二倍体。多倍体是其中一个或多个细胞(例如胚胎、后代或生物体)拥有两个以上完整的单倍体(haploid)染色体组的状态。单倍体(haploid)是指具有生物体通常完整的体细胞染色体组一半的细胞。例如,配子或生殖(性)细胞,如人类的卵子和精子细胞,是单倍体。受精过程中单倍体配子的融合产生二倍体合子,其中包含一组来自雌配子的同源染色体和一组来自雄配子的同源染色体。具有正常数量的常染色体(22个) 和单个性染色体
对(xx或xy)的人类胚胎被称为整倍体胚胎。因此,对于人类,整倍体状态是二倍体。在本文的各种实施例中,短语“所有染色体”可以包括所有常染色体和性染色体。在本文的各种实施例中,短语“所有染色体”不包括性染色体。
[0039]
术语“等位基因”指基因的替代形式。在人类或其他二倍体生物中,每个基因位点有两个等位基因。等位基因遗传自父母:一个等位基因遗传自母亲,一个等位基因遗传自父亲。一对等位基因代表一个基因的基因型。如果某一特定位点的两个等位基因相同,则该基因型被称为纯合子。如果在某一特定位点的两个等位基因存在差异,则该基因型被称为杂合子。
[0040]
术语“单倍型”是指染色体中变异或多态性的一组或组合,这些变异或多态性由于染色体中的邻近性而倾向于共分离。单倍型可以根据单个基因、多个基因或基因间序列的变异组合来描述。由于单倍型中变异的紧密性,变异发生的位置往往很少或没有重组或交叉,它们往往世代相传并一起遗传。
[0041]
如本文所用,短语“遗传异常”是指基因组相对于正常、野生型或参考基因组的变化。一般来说,遗传异常包括染色体异常和基因缺陷。通常,基因缺陷包括改变,包括但不限于单碱基突变、替换、插入和缺失以及拷贝数变异。染色体异常包括染色体数目或结构的改变,例如重复和缺失,例如染色体区域的重复或丢失、倒位和易位。一种常见的染色体异常被称为非整倍性,这是由于一条额外或缺失的染色体而导致的染色体数目异常。例如,人类的单体性是一种异常,其特征是染色体有一个拷贝丢失(只有一个拷贝而不是正常的两个拷贝)。人类的三体性是一种异常现象,其特征是染色体拷贝增加(三个拷贝而不是正常的两个拷贝)。染色体数目异常的胚胎称为非整倍体胚胎。大多数非整倍体是母体起源的,是由卵母细胞减数分裂过程中分离错误造成的。因此,减数分裂非整倍体将发生在胚胎的所有细胞中。然而,有丝分裂错误在人类植入前胚胎中也很常见,并可能导致有丝分裂非整倍性和具有多个细胞群 (例如,一些细胞是非整倍体,一些细胞是整倍体)的染色体嵌合胚胎。人类细胞中的多倍性是一种异常,其中细胞(例如在胚胎中)拥有多于两套完整的染色体。多倍性的示例包括三倍性(3n)和四倍性(4n)。人类中的多倍性可以以多种形式出现,导致性染色体平衡(例如,不可通过现有cnv方法检测) 或性染色体不平衡(例如,可通过cnv方法检测)。人类的平衡性多倍性包含3个或更多基因组的完整拷贝,其中每个拷贝仅包含x染色体(例如,69:xxx 或92:xxxx)或包含相同数量的x和y染色体(例如,92:xxyy)。人类不平衡的性别多倍性包含3个或更多完整拷贝的单倍体基因组,其中至少一个拷贝包含y染色体(例如,69:xxy、69:xyy)并且不包含相等拷贝数量的x 和y染色体。染色体异常会对细胞和生物体产生多种不同的影响,包括葡萄胎妊娠、流产以及遗传异常和疾病。
[0042]
一般而言,可以使用多种技术来识别基因组变异,包括但不限于:基于阵列的方法(例如,dna微阵列等)、实时/数字/定量pcr仪器方法和全向或靶向核酸测序系统(例如,ngs系统、毛细管电泳系统等)。使用核酸测序,分辨率或覆盖率可以是一个或多个水平,并且在某些情况下可以在单碱基分辨率下使用。
[0043]
如本文所用,短语“遗传模式”是指基因组特征(例如,非整倍性)在细胞、胚胎或生物体基因组中从亲本细胞或生物体(例如二倍体细胞和生物体)传递的方式。例如,在人类中,后代(例如胚胎)从每个亲本(一个母本和一个父本)接收一个基因等位基因,然后构成后代二倍体细胞中的两个等位基因。后代或胚胎中特定等位基因或基因组特征的遗传模式
决定了哪个亲本将基因组特征遗传给后代。将基因组特征传给后代或胚胎的亲本称为起源亲本。
[0044]
如本文所用,“后代”是指配子(例如雌性和雄性生殖细胞)结合的产物,包括但不限于例如卵裂球、合子、胚胎、胎儿、新生儿或儿童。后代dna可以从任何来源获得,包括例如卵裂球活检、滋养外胚层活检、内细胞团活检、囊胚活检、体外胚胎培养液(embryo spent media)、cfdna、受孕产物、绒毛膜绒毛取样和/或羊膜穿刺术。
[0045]
如本文所用,“亲本”或“遗传亲本”是指配子对后代的贡献者并且包括例如卵子和精子供体,只要配子dna源自供体。
[0046]
短语“镶嵌胚胎”表示包含两种或更多种细胞遗传学上不同的细胞系的胚胎。例如,镶嵌胚胎可以包含具有不同类型的非整倍性的细胞系或整倍体和遗传异常细胞的混合物,这些细胞包含具有遗传变异的dna,这些变异可能对胚胎在怀孕期间的生存能力有害。
[0047]
短语“下一代测序”(ngs)是指与传统的基于桑格和毛细管电泳的方法相比具有增加通量的测序技术,例如具有在一个时间产生数十万个相对小的序列读数的能力时间。下一代测序技术的一些示例包括但不限于合成测序、连接测序和杂交测序。更具体地说,illumina的miseq、hiseq和nextseq 系统以及life technologies corp的个人基因组机器(pgm)、离子激流和solid 测序系统提供了对整个或靶向基因组的大规模并行测序。solid系统和相关的工作流程、方案、化学等更详细地描述于国际申请日期为2006年2月1日的 pct公开号wo 2006/084132,标题为“reagents,methods,and libraries forbead-based sequencing”,2010年8月31日提交的标题为“low-volumesequencing system and method of use”的序列号为12/873,190的美国专利申请,以及2010年8月31日提交的标题为“fast-indexing filter wheel and method ofuse”的序列号为12/873,132的美国专利申请中,这些申请中的每一个的全部内容通过援引并入本文。
[0048]
短语“测序运行”是指为确定与至少一种生物分子(例如,核酸分子)有关的一些信息而进行的测序实验的任何步骤或部分。
[0049]
关于核酸测序的术语“读数”是指针对已进行测序的核酸片段例如ngs确定的核苷酸序列。读数可以是定义读数长度的任意数量核苷酸的任何序列。
[0050]
短语“测序覆盖率”或“序列覆盖率”在本文中可互换使用,通常是指序列读数和参考之间的关系,例如细胞或生物体的全基因组、基因组中的一个基因座或一个核苷酸在基因组中的位置。覆盖可以用多种形式描述(参见,例如sims等人(2014)自然评论:遗传学15:121-132)。例如,覆盖可以指有多少基因组在碱基对水平上被测序,可以计算为nl/g,其中n是读取数, l是平均读取长度,g是长度,或基因组(参考)的碱基数。例如,如果参考基因组为1000mbp,并且对平均长度为100bp的1亿个读数进行测序,则覆盖率的冗余将为10x。此类覆盖可以表示为“倍”,例如1x、2x、3x等(或 1、2、3等倍数覆盖)。覆盖率还可以指测序相对于参考核酸的冗余,以描述参考序列被读数覆盖的频率,例如,在测序期间读取任何给定基因座的单个碱基的次数。因此,可能存在一些未被覆盖且深度为0的碱基和一些被覆盖且深度介于1和50之间的任何碱基。覆盖率冗余提供了序列数据可靠性的指示,也称为覆盖深度。覆盖率的冗余可以针对尚未与参考或比对(例如,定位 (mapped))读数比对的“原始”读数进行描述。也可以根据读数覆盖的参考 (例如基因组)的百分比来考虑覆盖率。例如,如果参考基因组为10mbp,并且序列读取数据定位到参考的8mbp,则覆盖百分比将为80%。序
列覆盖率也可以用覆盖广度来描述,覆盖广度是指在特定深度对给定次数进行测序的参考碱基的百分比。
[0051]
如本文所用,关于核酸测序的短语“低覆盖率”是指小于约10x、或约0.001x至约10x、或约0.002x至约0.2x、或约0.01x的到约0.05x的测序覆盖率。
[0052]
如本文所用,关于核酸测序的短语“低深度”是指小于约10x、或约0.1x至约10x、或约0.2x至约5x、或约0.5x至约2x的测序深度。
[0053]
关于基因组序列核酸序列的术语“分辨率”是指通过细胞(例如胚胎或生物体)的核酸测序获得的基因组核酸序列(例如,整个基因组的序列或基因组的特定区域或基因座)的质量或准确性和范围。基因组核酸序列的分辨率主要由测序过程覆盖的深度和广度决定,并涉及对测序过程中读取的独特碱基数量和测序过程中读取任何一个碱基的次数的考虑。短语“低分辨率序列”或“低分辨率序列数据”或“稀疏序列数据”在本文中可互换使用,参考细胞(例如胚胎或生物体)的基因组核酸序列,是指对通过低覆盖、低深度测序方法获得的基因组核酸的核苷酸碱基序列信息。核酸序列数据生成
[0054]
本文提供的用于分析基因组核酸和基因组特征分类的方法和系统的一些实施例包括分析细胞和/或生物体基因组的核苷酸序列。在一些实施例中,本文提供的方法和系统包括对从细胞和/或生物体的全基因组测序获得的序列的分析。在一些实施例中,本文提供的方法和系统包括分析细胞和/或生物体的整个基因组的序列。可以使用本文描述的和/或本领域已知的多种方法获得核酸序列数据。在一个示例中,细胞(例如胚胎细胞)的基因组核酸序列可以从细胞中提取的dna样本的下一代测序(ngs)中获得。ngs,也称为第二代测序,基于高通量、大规模并行测序技术,涉及对dna样本(例如,从胚胎中提取的)的核酸扩增所产生的数百万个核苷酸进行并行测序(参见,例如,kulski(2016)“next-generation sequencing-an overview of the history, tools and

omic’applications,”记载于下一代测序-进展、应用和挑战,j. kulski编辑,london:intech open,第3-60页)。
[0055]
需要通过ngs测序的核酸样本可以通过多种方式获得,具体取决于样本的来源。例如,人类核酸可以经由脸颊刷拭子很容易地获得,以收集细胞,然后从中提取核酸。为了从胚胎中获得用于测序的最佳dna量(例如,用于植入前遗传筛选),通常在囊胚阶段通过滋养外胚层活检收集细胞(例如 5-7个细胞)。例如,可以从产品或受孕、绒毛膜绒毛样本和/或羊膜穿刺术中获得胎儿核酸。在经由ngs测序之前,dna样本需要进行处理,包括例如片段化、扩增和接头连接。在此类处理中对核酸的操作可能会在扩增序列中引入人为假象(artifact)(例如,与聚合酶链反应(pcr)扩增相关的gc偏差)并限制序列读数的大小。因此,ngs方法和系统与系统之间可能不同的错误率相关联。此外,与识别序列读数中的碱基(例如,碱基调用)结合使用的软件会影响来自ngs测序的序列数据的准确性。此类人为假象和限制可能使对基因组的长重复区域进行测序和定位以及识别基因组中的多态等位基因和非整倍体变得困难。例如,因为大约40%的人类基因组由重复的dna元件组成,与参考基因组中的重复元件比对的相同序列的较短单读数通常无法准确定位到基因组的特定区域。解决并可能减少序列确定中错误和/或不完整性的一些影响的一种方法是增加测序覆盖率和/或深度。然而,测序覆盖率的增加与测序时间和成本的增加有关。还可以使用双端测序,这在将序列定位到基因组或参考组时提高了序列读数放置的准确性,例如在长重复区域
中,并提高了结构重排(例如基因缺失、插入和倒位)的分辨率。例如,在本文提供的方法的一些实施例中,使用从来自胚胎的核酸的配对末端ngs获得的数据将读数定位增加了平均15%。双端测序方法是本领域已知的和/或本文描述的,并且涉及确定核酸片段在两个方向上的序列(即,从片段的一端读取一次,从片段的另一端读取第二次)。双端测序还通过将读取数量加倍,特别是增加了困难基因组区域的覆盖率,有效地增加了测序覆盖率冗余。
[0056]
通常进行三种主要类型的核酸ngs测序:全基因组测序(wgs)、全外显子组测序(wes)和靶向测序(ts)。全基因组测序是一种全面的方法,其中对整个基因组(而不是其中的一部分)进行测序。wes是对仅占基因组约2%的蛋白质编码区(外显子)进行测序。靶向测序是一种高深度覆盖型测序,在这种测序中,基因组的有限数量的特定区域被测序。靶向测序通常使用基于扩增子的富集进行,其中,使用特异性引物仅扩增特定的感兴趣区域(靶向扩增),从中制备核酸文库用于测序或基于捕获的方法,其中片段核酸杂交以捕获寡核苷酸以分离感兴趣区域用于测序。核酸序列分析
[0057]
在本文提供的用于分析基因组核酸和对基因组特征进行分类的方法和系统的一些实施例中,从细胞(例如胚胎细胞或生物体)获得的核酸序列用于使用基因组定位方法重建细胞/生物体的基因组(或其部分)。通常,基因组定位涉及在称为比对的过程中将序列与参考基因组(例如,人类基因组) 匹配。可用于定位过程的人类参考基因组的示例包括基因组参考联盟的发布,例如2009年发布的grch37(hg19)和2013年发布的grch38(hg38)(例如参见,https://genome.ucsc.edu/cgi-bin/hggateway?db=hg19 https://www.ncbi.nlm.nih.gov/assembly/gcf_000001405.39)。通过比对,通常使用计算机程序将序列读数分配给基因组位点以进行序列匹配。许多对比程序是公开可用的,包括bowtie(例如参见, http://bowtie-bio.sourceforge.net/manual.shtml)以及bwa(例如参见, http://bio-bwa.sourceforge.net/)。已处理(例如去除pcr重复和低质量序列) 并与基因座匹配的序列通常称为比对和/或定位序列或比对和/或定位读数。
[0058]
在将序列读取定位到基因组参考中,可以检测和/或识别单核苷酸变异(snv)。单核苷酸变异是基因组中单核苷酸位置变异的结果。用于snv 检测的几种不同ngs分析程序(例如,变异调用软件)是公开的,在本领域已知和/或如下描述(例如,包括但不限于gatk(参见,例如,https://gatk.broadinstitute.org/)和深度变异(参见,例如poplin等人(2018年) 自然生物技术36:983-987)。简单地说,比对后,bcf工具软件(开源)用于生成以最小覆盖率(如1)和最小深度(如1)识别的所有碱基的堆积,并从比对期间生成的bam文件生成基因型调用。通过细胞或生物体样本核酸序列的基因组定位来检测和识别基因组特征,如染色体异常,例如非整倍性,具有特殊的挑战性,特别是当序列数据是通过低覆盖率和/或低分辨率测序方法获得时。这种方法的主要挑战来自这样一个概念,即ngs方法在读取生成过程中容易在测序读取中引入错误。错误率介于1:100和1:10000之间,这取决于测序平台的方法,在低覆盖率和/或低深度测序时,识别变异和测序错误之间的差异是一个独特而困难的信息学挑战。计算机程序和系统是本领域已知的和/ 或本文中描述的用于在鉴定某些基因组特征时增加序列数据解释的容易性和/ 或准确性。例如,在美国专利申请公开号2020/0111573中描述了用于自动检测染色体异常的系统和方法,包括节段重复/缺失、镶嵌特征、非整倍性和具有不平衡性染色体的多倍性,其通过援引并入本文。此类方法包括
去噪/归一化 (对原始序列读数进行去噪和归一化基因组序列信息以校正基因座效应)以及机器学习和人工智能以将基因座分数解释(或解码)为核型图。例如,测序完成后,原始序列数据被解复用(归因于给定样本),读数与参考基因组(例如 hg19)比对,以及每100万个碱基对位(base pair bin)中的读数总数被计算在内。该数据根据gc含量和深度进行归一化,并根据已知结果的样本生成的基线进行测试。然后将与2拷贝数量的统计偏差(如果存在,如果不存在=整倍体)报告为非整倍性。使用这种方法,减数分裂非整倍体和有丝分裂非整倍体可以基于cnv度量相互区分。基于与正常的偏差,生成具有存在的染色体总数、存在的任何非整倍性以及这些非整倍性的镶嵌水平(如果适用)的核型。
[0059]
还应注意,术语snv和snp(单核苷酸多态性)均根据各种实施例使用。尽管这两个术语对于本领域的普通技术人员是可以区分的(snp是具有良好表征的snv),但是根据本文的各种实施例,可以互换地使用这些术语。因此,任一术语的使用都应包括这两个术语,在其适用到分析接收到的序列数据的过程中。
[0060]
ngs中可能出现的人为假象、覆盖率变化和错误也对使用序列数据准确分类特定基因组特征提出了挑战,例如在评估基因组特征的遗传模式和确定、预测/推断基因组特征的亲本来源,或者确定受孕体与精子提供者或卵母细胞提供者的遗传关系。例如,在分析基因组特征(例如非整倍性)的遗传模式时,使用低覆盖率和/或低深度(例如,低分辨率)序列数据的挑战包括获得极低数量或无高质量的数据,其符合美国医学遗传学学院标准要求的高深度snp(参见richards等(2015)《医学遗传学》17:405-423),用于准确调用,导致后代(如胚胎)和父母(如母亲和/或父亲)序列中缺少重叠,并阻止相位/单倍型测定的准确评估。增加序列覆盖率,尽管其相关的效率降低和成本增加,可能会改善ngs序列数据,从而可以用于确定基因组特征的遗传模式或与受孕体的遗传关系。应对挑战的其他方法,例如,评估遗传模式以确定基因组特征的亲本来源,例如非整倍体,包括使用微阵列和荧光原位杂交 (fish),它们不像ngs那样是高通量技术,而且成本更高,需要更长的时间进行分析。
[0061]
本文提供了改进、高效、快速和具成本效益的方法和系统,用于检测和/或识别细胞(例如胚胎细胞或生物体细胞)的一个或多个或多个基因组特征和/或评估、分类或确定一个或多个或多个细胞的遗传模式,以确定、预测和/或推断母系或父系基因组特征的亲本起源或谱系,或确定受孕体与精子提供者或卵母细胞提供者的遗传关系。在本文提供的方法的一些实施例中,相对低的覆盖率和/或低深度(例如,低分辨率)序列数据用于识别细胞(例如胚胎细胞)或生物体的基因组特征,例如染色体异常,并评估基因组特征的遗传模式以确定,预测和/或推断基因组特征的亲本起源为母本或父本,或确定受孕体与精子提供者或卵母细胞提供者的遗传关系。在各种实施例中,所述方法和包含所述方法的系统,使用从总基因组核酸或细胞总dna(或总核dna) 的核酸样品的低覆盖率和/或低深度全基因组测序获得的核酸序列数据(例如,低分辨率序列数据),而不是仅从基因组的部分或预先确定的特定靶向区域的测序获得。例如,在各种实施例中,所述方法和系统可用于确定受孕体与精子提供者或卵母细胞提供者的遗传关系,或对胚胎中的基因组特征的遗传模式进行分类,所述胚胎包括例如在植入前通过ivf生成的胚胎。在一些实施例中,本文提供的方法和系统可用于确定受孕体与精子提供者或卵母细胞提供者的遗传关系,或对染色体异常的遗传模式进行分类,例如着床前胚胎(如ivf胚胎)中的非整倍性,的多倍性和/或染色体片段增益和/或损失(例如,约20百万碱基或更大的片段增益和/或损失)。
[0062]
图1是用于检测和/或识别基因组特征和/或评估、分类、确定、预测和/或推断细胞(例如胚胎或生物)基因组核酸的一个或多个基因组特征的遗传模式和/或亲本起源,并确定受孕体与精子提供者或卵母细胞提供者的遗传关系的示例性方法的工作流100的图解表示。在一些实施例中,该方法用于检测或识别染色体异常(例如,多倍性,例如平衡性染色体多倍性)和/或评估、分类、确定、预测和/或推断一个或多个染色体异常的遗传模式和/或亲本起源。在一些实施例中,染色体异常是非整倍性,例如减数分裂非整倍体和 /或多倍性(例如平衡性染色体多倍性)。
[0063]
如图1的步骤101和102所示,使用具有适当设置的任何合适的比对软件程序,从后代(例如胚胎)和假定的母本和父本贡献者(母亲和父亲或父母)的核酸测序读取序列(数据),并将其与参考(例如人类)基因组比对,用于定位。在方法100的一些实施例中,序列读取从后代和亲本基因组核酸的低覆盖率和/或低深度(例如,低分辨率)测序获得,例如,核酸的低覆盖率和/或低深度(例如,分辨率)全基因组测序。在步骤103中,分析序列数据以检测和/或识别snv和染色体异常,例如染色体拷贝数变异(cnv)和结构拷贝数变异(例如,非整倍性、不平衡性多倍性和片段染色体增益和丢失),以检测和/或识别父母的snv。步骤103中用于检测/识别染色体异常的分析在本文中称为“cnv”分析。在步骤104a和104b中,为子代及其子代生成包含最终拷贝数分析结果的核型图,并且接收子代和父代的snv数据文件。在一些实施例中,该方法从步骤104a和104b开始,接收子代的核型图和snv 数据以及亲本的snv数据,这些数据可以基于通过子代和父代基因组核酸的低覆盖率和/或低深度(例如,低分辨率)测序获得的核酸序列信息,例如,核酸的低覆盖率和/或低深度(如分辨率)全基因组测序。在一些实例中,用于生成核图和snv数据的序列读取通过低覆盖率和/或低深度(例如,低分辨率)双端端测序方法获得,该方法可提供数据的数量级增加。本领域已知和/ 或本文描述的用于分析和解释定位读取的方法。例如,在一些实施例中,在包括如美国专利申请公开号2020/011573中所述进行的定位读取的分析的过程中生成核型图和snv数据。例如,使用人工智能(ai)/机器学习(ml),当与染色体位置比对的基因组序列读取的频率偏离频率阈值时,可以识别去噪样本基因组序列数据集中的拷贝数变化。然后根据该分析确定胚胎的核型。
[0064]
在该示例性方法中,在来自后代和两个配子贡献者(遗传亲本) 的核酸中识别的单核苷酸变异(snv)用于预测或推断胚胎和亲本中的等位基因和/或单倍型。如果超过1%的人群在基因组的特定位置没有携带相同的核苷酸,snv通常被称为单核苷酸多态性(snp)。snv通常是一个更通用的术语,用于描述特征不明显的基因座。人类基因组中大约有1000万个或更多的单核苷酸多态性,平均每个具有200个碱基。尽管一些snp可能与性状或疾病有关,但大多数snp没有已知的功能。没有两个个体(同卵双胞胎除外)具有相同模式的snp,它们在给定人群中以主要和次要同种型形式存在。在本文提供的用于检测和/或识别基因组特征(例如,多倍性,例如平衡性染色体多倍性)和/或评估、分类、确定、预测和/或推断一个或多个基因组特征(例如非整倍性和/或多倍性)的遗传模式和/或亲本起源的方法和系统的一个实施例中,基因型填充(图1的步骤105)用于根据对基因组序列中识别的snv的分析,为后代(例如胚胎)及其各自配子贡献者或遗传亲本基因组所有染色体构建和推断预测等位基因和/或单倍型。
[0065]
低覆盖率和/或低深度(例如,低分辨率)测序会产生缺少数据点的稀疏数据,从而
提供基因型的概率表示(基因型可能性)。基因型填充方法用于细化基因型可能性并填补由于后代和亲本基因组核酸的低覆盖率和/或低深度(例如,低分辨率)测序而导致的稀疏定位序列读取造成的空白,其中胚胎和亲本之间的序列信息重叠量可能有限。填充是缺失基因型和单倍型阶段的统计推断,由此可以推断后代(如胚胎)和父母一方或双方基因组的所有染色体的等位基因或单倍型。基因型填充涉及从序列数据和具有完全确定的等位基因的完全定相个体的单倍型参考面板中对基因分型snv位置的基因型进行定相,然后是在基因分型位置匹配的匹配单倍型。已知单倍型(例如,人类单倍型)的公开可用参考面板包括单倍型参考联盟数据集(例如,参见 https://www.ebi.ac.uk/ega/studies/egas00001001710),其中包含在人类基因组组装grch37和1000基因组计划中编码的阶段性snv基因型(参见,例如,https://www.internationalgenome.org/)。用于基因型插补的方法在本领域中是已知的并且包括,例如,(参见,例如,browning等人(2018)am j hum genet 103(3):338-348,browning and browning(2007)am j hum genet 81:1084-1097 和http://faculty.washington.edu/browning/beagle/beagle.html#download),mach (参见,例如li等人(2009)ann rev genom hum genet 10:387-406,li等人 (2010)genet epidemiol 34:816-834 andhttp://csg.sph.umich.edu/abecasis/mach/tour/imputation.html).
[0066]
在图1的方法的各种实施例中,缺失变异数据的填充和染色体单倍型的定相是使用beagle 5.0版进行的。beagle程序不对基因组样本之间的相关性做出任何假设。尽管与其他方法相比,这可能会导致变异回收的和对具有已知关系的基因组样本进行适当定相准确性的相对降低,但一个优点是,在不相关的样本(例如错误标记的亲本/后代样本)的情况下,beagle将不试图在其分析中强行设定关系。此外,与其他一些程序相比,beagle版本5相对较快。填充和填充定相性能可能受到数据库中相关预定相单倍型数据的可用性的限制。在图1的方法的一些实施例中,使用包含来自2,504名受试者的单倍型的 phase 3 1000基因组单倍型参考数据库来执行填充过程。使用额外的序列变异数据来扩充参考数据库可能会改进特定目标人群的单倍型推断。在本文提供的方法和系统的一些实施例中引入填充产生了为父母一方或双方以及后代(例如胚胎)预测的一组完全定相的和完整的等位基因和/或单倍型。然后将该信息用于确定母源和/或父源等位基因对胚胎的贡献的比率,其用于检测和/或识别基因组特征和/或评估、推断或确定基因组特征的遗传模式(poi),例如,非整倍性和多倍性。
[0067]
在图1的方法的步骤105中确定的推断的等位基因和/或变异的单倍型(含有snv的序列)的完全定相完整的组用于在图1所示方法的步骤 106a或步骤107中将后代的遗传异常(即,先前在步骤104a中识别的异常) 分类为母本或父本起源。如图1所示,如果后代(例如胚胎)的核型图表明胚胎中存在非整倍体,则该方法进入步骤106a以分析和确定遗传模式。如果后代的核型图表明后代中不存在非整倍性和/或不平衡性多倍性,则该方法进入步骤106b以首先确定后代是否表现出全基因组剂量不平衡且为多倍体,然后进入步骤107以确定多倍性的遗传模式。beagle 5.0版填充程序的一个限制是它假定所有分析的染色体都是二倍体并相应地回送填充数据。因此,单倍体数据通常被编码为纯合二倍体。三倍体(和更复杂的)单倍型同样被归为二倍体。在这种情况下,本文描述的遗传分析模式不是基于推断的一组正确的单倍型,而是基于在低覆盖率和/或低深度(例如,低分辨率)测序数据中鉴
定的含有 snv的变异的频率及其与父母的剂量关系,如本文所述。具体来说,定相和填充的数据被视为假染色体,如果真的是非整倍体,则预计它们是相同的,并且匹配母本或父本基因型,而不是两者,至少对于可提供信息(informative) 的变异而言。在图2中描绘了在遗传模式(poi)确定步骤106a或步骤107 的一个实施例中使用的示例性方法200的工作流程。
[0068]
在图1的方法的实施例的步骤106a或步骤107中将胚胎异常(例如,非整倍性和/或多倍性)分类为母本或父本起源,计算后代的相关性度量 (例如胚胎),基因组dna与母亲和父亲的关系。在一个实施例中,该计算涉及计数在与母亲或父亲共享的后代(例如胚胎)中的每个确定的基因组位(基因组的限定区域,例如,100万个碱基)中识别的总变异,并将计数转换为用户定义大小的每个基因组区域的单个相关性值。在计数之前,过滤输入的等位基因/单倍型变异序列数据(参见图2的步骤201)。鉴于低通序列数据,尤其是来自某些测序仪的低通序列数据,通常包含大量测序人为假象,因此预计输入数据将不完美。因此,计数过程的第一步是过滤检测到的变异。具体而言,在一些实施例中,以下序列被鉴定并被排除在计数之外:(1)后代、母亲和父亲(三人组)之间任何缺失等位基因的位点序列(在这种情况下无法推断相关性),(2)三人组中具有恒定等位基因的位点序列(非信息性),(3)在三人组中的一个个体中具有新等位基因的位点序列(非信息性和人为假象的可能性),以及(4)仅与整倍体遗传一致的位点序列(对于非整倍体关系估计的非信息性)。
[0069]
过滤还可以包括排除与孟德尔遗传不一致的snp。在图2的方法的这个实施例中,输入变异被间接过滤(即,通过比较后代和亲本之间的关系)。此方法假定正确的三人组,并且在错误指定亲本的情况下不一定过滤正确的位点。
[0070]
在过滤变异之后(通常具体到输入观察到的定相/填充的含有 snv的变异的约10%),剩余的变异被分配到单个染色体内的用户定义大小基因组区域的位中(例如,100万个碱基)(图2的步骤202)。
[0071]
在图2的步骤203中,对每个定义的位内的变异进行计数并且为每个位生成两个值。第一个值是后代和母体成分之间一起定相的变异数量,第二个值是后代和父体成分之间一起定相的变异数量。为了确定单个染色体非整倍性的遗传,仅对已知为非整倍性的区间(基于与非整倍体cnv调用相关的区间)评估该特定非整倍性。其中包括未在结果文件中报告的一组计数,例如: (a)ovm(即“与母源共享的后代变异”),它是胚胎和母亲之间共享的替代 (即非参考)等位基因的计数,以及(b)ovp(即“与父源共享的后代变异”),其是胚胎和父本样本之间共享的替代等位基因的计数。参考等位基因与参考基因组匹配,通常预计大多数等位基因与参考基因组匹配。替代等位基因是对于任何给定基因座存在与参考基因组不匹配的变体的等位基因。因为绝大多数碱基/等位基因与母亲、父亲和后代的参考基因组相匹配,所以参考等位基因的信息量较少。因为绝大多数碱基/等位基因与母亲、父亲和后代的参考基因组相匹配,所以参考等位基因的信息量较少。仅使用替代等位基因,因为参考等位基因通常是非信息性的。
[0072]
步骤203的计数函数的输出是一组ovm和ovp计数,每个位,跨指指定分析中的所有染色体(对于具有非整倍体核型的胚胎,仅非整倍体的特定染色体,或对于具有不指示非整倍体但与多倍体相关的核型的胚胎的所有染色体)。在图2的步骤204中,这些计数被转换成单个相关性值,被称为每位的剂量测量。在每个位中计算两个统计数据:(1)l2rat,其是
其中ovm和ovp是计数,s是smooth可控元素(在配置文件中或经由命令行参数提供)。平滑参数s用于防止在计数为零的位的情况下出现无限值。1 到30之间的值是合理的(较大的值会缩小估计值),以及(2)diff,其定义为ovm

ovp。在一些实施例中,l2rat是默认剂量测量,并且对异常值更稳健,并且可以根据需要缩小。两个估计都以零为中心(当后代与母亲或父亲的关系没有更强时,并且当后代与母亲的关系比父亲强时都取正值,否则为负值。在这个实施例中,假设对于整倍体遗传,剂量统计应该以零为中心,并且偏离零超出偶然预期的值表明来自母亲或父亲的更强的关系(即更多数量的遗传变异)。在胚胎样本被母本材料污染的情况下,这种假设是错误的。在这种情况下,所有染色体的剂量统计数据都会向正方向移动,因此可能会错误地出现多倍体。
[0073]
在图2的步骤205中,在指定的剂量测量(例如l2rat)上计算一个样本t-统计量。计算的测试统计数据集是感兴趣区域中所有位的估计剂量值集。例如,如果指定了一个10兆碱基的区域并且位的大小为1兆碱基,那么t检验将基于10个l2rat估计值,每个位一个。在步骤205中,为每个提供的感兴趣区域(例如,整个基因组、所有指定的染色体和任何指定的节段区域)生成测试统计量。在此步骤中还提供了位的数量、剂量统计的平均值和标准偏差以及p值和自定义置信度度量。位的大小和最小分析区域大小的选择都是用户可控的。因为推断的单倍型很大,所以小的位大小不是最佳的,因为相邻区域是相关的,因此小的相邻位中的计数也可能是相关的。这可能导致t 统计量的方差比预期的更大(即,它们可以产生比保证更大的t检验值,包括正值和负值)。
[0074]
在图2的步骤206中,使用t统计量和用户可控的分类/检测阈值为每个遗传异常(例如非整倍体)分配亲本起源。亲本起源的确定基于所有染色体(基因组水平关联,例如,在多倍体后代的情况下)和在个体染色体水平 (在非整倍体后代的情况下)的亲代-后代等位基因匹配的数量。在样本不是多倍体的情况下,已知的染色体非整倍性基于完整的染色体测试统计数据对亲本起源进行分类。因此,在减数分裂非整倍性水平(整个和部分染色体),在进行相似度比较时,仅考虑存在于该染色体中与非整倍性相关的等位基因。测试中的位的数量将取决于位的大小和染色体长度(分析将具有更大的统计能力来分类较长染色体的非整倍性)。此类测试的输出将是:“母本”、“父本”或“未分类”。当测试统计量未能超过用户可控阈值 (class_threshold_aneuploid)时,返回“未分类”输出。尽管这些类别是固定的,但返回的特定消息是用户可控的。在胚胎样本不是多倍体的情况下,已知的节段性非整倍体(满足用户可控大小要求)基于区域测试统计进行分类。测试中的位的数量将取决于位的大小和区域大小(对较长区域的非整倍性进行分类具有更大的统计能力)。此类测试的输出将是:“母本”、“父本”或“未分类”。当测试统计量未能超过用户可控阈值 (class_threshold_aneuploid)时,返回“未分类”输出。尽管这些类别是固定的,但返回的特定消息是用户可控的。
[0075]
返回图1,在步骤106b中,基于共享变异等位基因的数量估计母本和父本对后代(例如,胚胎)的整个基因组(即,所有染色体)的贡献,并用于检测任何以前未检测到的多倍体或确认在后代的核型图中检测和鉴定的多倍体。步骤106b直接在步骤105之后针对通过早期核型分析过程未被鉴定为非整倍性并且在cnv数据中显示或未显示多倍性证据的任何后代进行,二倍体雄性胚胎除外。如果后代被鉴定为二倍体雄性(46,xy),则不评估多倍体
或遗传模式。此外,在图1的步骤106a中评估遗传模式的所有非雄性非整倍体后代在步骤106b中分析母本和父本对后代的整个基因组(即所有染色体)的贡献以确定是否存在任何未检测到的多倍性。此步骤仅在后代样本先前未报告为“多倍体”且样本也不是雄性的情况下执行。此类测试的输出将是:“母本”、“父本”或“未检测到”。当测试统计量未能超过用户可控阈值 (detect_threshold_polyploidy)时,将返回“未检测到”的输出。尽管这些类别是固定的,但返回的特定消息是用户可控的。多倍体检测的阈值设置高于多倍体的亲本来源的分类,即使对于全基因组分析也是如此。在已知的(如在初始核型图中确定的)非整倍体后代样本的情况下,多倍体的亲本起源基于图1的步骤107中的全基因组测试统计来分类。测试中的位的数量将取决于位的大小。此类测试的输出将是:“母本”、“父本”或“未分类”。当测试统计量未能超过用户可控阈值(class_threshold_polyploid)时,返回“未分类”的输出。尽管这些类别是固定的,但返回的特定消息是用户可控的。
[0076]
图3是描绘用于进行本文提供的检测和/或分类遗传异常的亲本起源的方法的一些实施例的逻辑流程的决策树图。对于该方法的一些实施例,该图描绘了确定由该实施例测试的任何样本的最终结果的过程,并且被称为亲本起源(poo)传递途径。对后代(例如胚胎)核酸样本的测试按照以下决策路径进行。如果样本是非多倍体雌性(xx),则通过该方法对其进行评估以确定基因组剂量是否显着偏离预期,如果是,则将其表征为多倍体(母本或父本) 并报告。如果样本不是非多倍体xx并且被称为多倍体(xxy或xyy),那么它会进入多倍体遗传模式(poi)表征的传递途径,然后进行报告。如果样本既不是非多倍体xx,也不是多倍体xxy或xyy,并且通过cnv分析称为单倍体,则它进入评估全基因组剂量失衡的传递途径并被报告。所有其他不符合前面列出的标准的样本都将被评估为全染色体非整倍性和节段染色体非整倍性。如果这些是通过cnv分析确定的镶嵌非整倍性,则它们不会被该方法询问。如果它们是整个拷贝变化(减数分裂非整倍性),该方法会尝试将感兴趣的区域分类为母本、父本或未分类,并报告结果。
[0077]
转向图1的步骤108,根据各种实施例,上述方法可以扩展以解决和克服血缘关系和样本错误识别的问题,以通过进行相关性分析来确定受孕体与精子提供者和卵母细胞提供者的遗传关系。一般来说,样本错误识别的问题可以通过一些一般步骤来解决。这些步骤包括,例如,1)使用备用测序数据填充完整样本基因组(上文已详细讨论),2)计算样本与假定父母之间的关系度量(上文已详细讨论),以及3)生成母本和父本关系分数(在上面和下面更详细地讨论),以及4)将分数与阈值进行比较,以将结果分类为与声明的亲子关系一致或潜在不一致。
[0078]
关于(1),给定一组稀疏序列数据文件(特别是在以低覆盖/深度测序时),通过将获得的测序数据与人类基因组中已知变异的参考集(例如,来自1000个基因组计划)进行比较来完成预过滤步骤。此过滤器可以去除可能由于测序人为假象而导致的变异。然后可以对过滤的数据文件进行填充。同样,鉴于低通序列数据会产生大量测序人为假象和缺陷,这些最初被包含在填充数据中。因此,可以在计数之前对检测到的变异进行进一步的过滤。例如,第二过滤器可以过滤三人组中任何缺失等位基因的位点(在这种情况下无法推断相关性)和三人组中具有恒定等位基因的位点(非信息性),同时保留胚胎中具有新等位基因的位点以测量亲本一致性(即确认样本的相关性)。
[0079]
在填充和预计数过滤之后,对变异进行计数以测量遗传一致性和新颖性。具体而
言,例如,可以计数所有过滤的变异,如果胚胎(或受孕体) 基因型的任一等位基因不能从任一亲本(例如,假定的亲本)经由整倍体或非整倍体传递遗传,则可计数新变异,并且如果至少一个不与母亲共享的等位基因与父亲共享,或至少一个不与父亲共享的等位基因与母亲共享,则可以计数一致变异(与声明的遗传一致)。如果后代中至少有一个等位基因与母亲共享,则可以计数母本一致的变异。如果后代中至少有一个等位基因与父亲共享,则可以计数父本一致的变异。然后可以将新颖性计算为新颖变异与总(过滤)变异的比率。
[0080]
根据各种实施例,并且根据步骤108,亲本一致性分数可以通过使用上文描述的母本和父本一致性的计数结果计算总体(亲本)分数来确定。比较母本和父本的一致性可以通过取对数(以2为底)来获得个体亲本分数的比率。
[0081]
可以使用以下公式计算父母一致性的度量,同时还结合新颖性母本和父本分数其中i是亲本(假定的母亲或父亲),是后代和父母i之间一致的snp数量, nn是新snp的数量(即在任一亲本中都没有看到的胚胎中的snp),n
snp
是在三人组中观察到的snp的数量,以及nc是与指定母本或父本样本一致的snp 数量。
[0082]
如将在下面的示例中讨论和说明的,这些计算可用于定义阈值以比较分数以确定假定父母与所考虑的受孕体之间的一般关系。
[0083]
在各种实施例中,提供了用于评估、分类、确定、预测和/或推断受孕体与精子提供者和卵母细胞提供者的遗传关系的方法。这些方法可以经由计算机软件或硬件来实现。该方法还可以在计算设备/系统上实施,该计算设备/系统可以包括用于评估、分类、确定、预测和/或推断受孕体与精子提供者和卵母细胞提供者的遗传关系的引擎的组合。在各种实施例中,计算设备/ 系统可以经由直接连接或通过互联网连接以通信方式连接到数据源、样本分析器和显示设备中的一个或多个。
[0084]
图8是根据各种实施例的用于受孕体与精子提供者和卵母细胞提供者的遗传关系的系统800的示意图。系统800可以包括数据存储810、计算设备830和显示器880。系统800还可以包括样本分析器890。
[0085]
样本分析器890可以通过串行总线(如果两者都形成集成仪器平台812)或通过网络连接(如果两者都是分布式/分离设备)通信地连接到数据存储810。样本分析器890可以被配置为分析来自受孕体820、卵母细胞822 和精子824的样本。样本分析器可以是测序仪器,例如下一代测序仪器,被配置为对样本进行测序以收集测序数据以供进一步分析。在各种实施例中,测序数据然后可以存储在数据存储810中用于后续处理。在各种实施例中,可以将测序数据集实时馈送到计算设备830。在各种实施例中,测序数据集也可以在处理之前存储在数据存储810中。在各种实施例中,测序数据集也可以实时馈送到计算设备830。
[0086]
数据存储810可以通信地连接到计算设备830。在各种实施例中,计算设备830可以经由网络连接通信地连接到数据存储810,该网络连接可以是“硬连线”物理网络连接(例如,互联网、lan、wan、vpn等)或无线网络连接(例如,wi-fi、wlan等)。在各种实施例中,计算设备830可以是工作站、大型计算机、分布式计算节点(“云计算”或分布式网络系统的一部分)、个人计算机、移动设备等。
[0087]
数据存储810可以被配置为接收受孕体、精子提供者和卵母细胞提供者的序列数
据。在各种实施例中,受孕体是植入前受孕体。在各种实施例中,通过低覆盖率测序获得受孕体、精子提供者和卵母细胞提供者的序列数据中的至少一种。低覆盖率测序可以在大约0.001和10x之间。低覆盖率测序可以在大约0.01和0.5x之间。低覆盖率测序可以在大约0.25和0.2x之间。
[0088]
计算设备830可以进一步包括比对引擎840、单核苷酸多态性识别引擎(snp识别引擎)850、填充引擎860和相关性引擎870。如上所述,计算设备830可以通信地连接到数据存储810。
[0089]
比对引擎840可以被配置为将接收到的序列数据与参考基因组比对。引擎840还可以被配置为识别比对的受孕体序列数据中的感兴趣区域,并且还识别精子提供者、卵母细胞提供者中的snp,以及受孕体序列数据中识别感兴趣区域。感兴趣的区域可以是全基因组。感兴趣的区域可以是观察到的拷贝数变异。
[0090]
snp识别引擎850可以被配置为识别精子提供者序列数据、卵母细胞提供者序列数据和受孕体序列数据中的单核苷酸多态性(snp)。
[0091]
填充引擎860可以被配置为使用填充参考来填充精子提供者序列数据和卵母细胞提供者序列数据中的缺失间隙。填充参考可以包括至少1000 个基因组。
[0092]
填充引擎860可以进一步被配置为过滤受孕体、精子提供者和卵母细胞提供者测序数据中的至少一个以去除测序人为假象。过滤可以包括排除未包括在已知snp的参考列表中的snp。参考列表可以包括至少1000个基因组。过滤可以包括排除在受孕体、精子和卵母细胞之间具有任何缺失等位基因的位点序列。过滤可以包括排除在受孕体、精子和卵母细胞之间具有恒定等位基因的位点序列。过滤可以包括排除在受孕体、精子和卵母细胞之一内具有新等位基因的位点序列。过滤还可以包括排除与孟德尔遗传不一致的snp。
[0093]
相关性引擎870可以被配置为计算精子提供者和受孕体之间的父本一致性分数,该分数包括(a)受孕体和精子提供者之间共有的snp的计数和(b)在受孕体中发现但在精子提供者中不存在的snp计数。相关性引擎 870可以被配置为计算卵母细胞提供者和受孕体之间的母体一致性分数,该分数包括(a)受孕体和卵母细胞提供者之间共同的snp计数和(b)在受孕体中发现但在卵母细胞提供者中不存在的snp计数。如果父系一致性分数和/或母系一致性分数超过预定阈值,相关性引擎870可以被配置为将精子提供者和 /或卵母细胞提供者分类为与受孕体相关。
[0094]
比对引擎可以进一步被配置为识别比对的受孕序列数据中的感兴趣区域,并且相关性引擎870可以被配置为计数在为受孕体序列数据识别的感兴趣区域和卵母细胞提供者序列数据上的对应区域中受孕体和卵母细胞之间共有的snp的数量以确定母本贡献值,以及计数在为受孕体序列数据识别的感兴趣区域和精子提供者序列数据上的对应区域中受孕体和精子之间共有的snp的数量以确定父本贡献值,并根据卵母细胞和精子之间的相对贡献值,将受孕体的遗传模式分类为母系或父系。在各种实施例中,感兴趣区域是整个基因组,并且相关性引擎870可以被配置为计数整个基因组上的snp以确定母本和父本的贡献值并确定受孕体是否是多倍体。当受孕体是多倍体时,相关性引擎870可以被配置为基于卵母细胞和精子之间的相对贡献值将多倍体的遗传模式分类为母系或父系。
[0095]
在确定了受孕体与精子提供者和卵母细胞提供者的遗传关系之后,它可以作为结果或概要显示在通信地连接到计算设备830的显示器或客户端880上。在各种实施例中,显
示器880可以是瘦客户端计算设备。在各种实施例中,显示器880可以是具有网络浏览器(例如,internet explorer
tm
、 firefox
tm
、safari
tm
等)的个人计算设备,其可以用于控制感兴趣区域引擎 (roi引擎)840、单核苷酸多态性识别引擎(snp识别引擎)850、填充引擎 860、以及遗传模式引擎(poi引擎)870的操作。
[0096]
应当理解,取决于特定应用或系统架构的要求,各种引擎可以组合或折叠成单个引擎、组件或模块。在各种实施例中,感兴趣区域引擎(roi 引擎)840、单核苷酸多态性识别引擎(snp识别引擎)850、填充引擎860和遗传模式引擎(poi引擎)870可以包括额外的引擎或组件,如特定应用程序或系统架构所需要的。
[0097]
图9是显示根据各种实施例的用于确定受孕体与精子提供者和卵母细胞提供者的遗传关系的方法900的示例性流程图。
[0098]
在步骤910中,接收受孕体、精子提供者和卵母细胞提供者的序列数据。受孕体可以是植入前受孕体。在各种实施例中,通过低覆盖率测序获得受孕体、精子提供者和卵母细胞提供者序列数据中的至少一种。低覆盖率测序可以在大约0.001和10x之间。低覆盖率测序可以在大约0.01和0.5x之间。低覆盖率测序可以在大约0.25和0.2x之间。
[0099]
在步骤920中,将接收到的序列数据与参考基因组比对。
[0100]
在步骤930中,识别精子提供者、卵母细胞提供者和受孕序列数据中的单核苷酸多态性(snp)。
[0101]
在步骤940中,精子提供者序列数据和卵母细胞提供者序列数据中的缺失间隙使用填充参考来填充。填充参考可以包括至少1000个基因组。
[0102]
在各种实施例中,该方法还可以包括过滤精子提供者、卵母细胞提供者和受孕体序列数据中的至少一种以去除测序人为假象。过滤可以包括排除未包括在已知snp的参考列表中的snp。参考列表可以包括大约1000个已知基因组。过滤可以包括排除在受孕体、精子和卵母细胞之间具有任何缺失等位基因的位点序列。过滤可以包括排除在受孕体、精子和卵母细胞之间具有恒定等位基因的位点序列。过滤可以包括排除在受孕体、精子和卵母细胞之一内具有新等位基因的位点序列。过滤还可以包括排除与孟德尔遗传不一致的snp。
[0103]
在步骤950中,计算精子提供者和受孕体之间的父本一致性分数,该分数包括(a)受孕体和精子提供者之间共有的snp计数和(b)在受孕体中发现但在精子提供者中不存在的snp计数。
[0104]
在步骤960中,计算卵母细胞提供者和受孕体之间的母本一致性分数,该分数包括(a)受孕体和卵母细胞提供者之间共同的snp计数和(b) 在受孕体中发现但在卵母细胞提供者中不存在的snp计数。
[0105]
在步骤970中,如果父本一致性分数和/或母本一致性分数超过预定阈值,则将精子提供者和/或卵母细胞提供者分类为与受孕体相关。
[0106]
在各种实施例中,该方法可以进一步包括在比对的受孕体序列数据中识别感兴趣区域,以及在精子提供者、卵母细胞提供者中识别snp,以及在受孕体序列数据中识别感兴趣区域。感兴趣区域可以是全基因组。感兴趣区域可以是拷贝数变异。
[0107]
在各种实施例中,该方法可以进一步包括在比对的受孕体序列数据中识别感兴趣区域。该方法可以包括计数在为受孕体序列数据识别的感兴趣区域和卵母细胞提供者序列数据上的对应区域中受孕体和卵母细胞之间共有的snp的数量以确定母本贡献值。该方法
可以包括计数在为受孕体序列数据识别的感兴趣区域和精子提供者序列数据上的对应区域中受孕体和精子之间共有的snp的数量以确定父本贡献值。该方法可以包括基于卵母细胞和精子之间的相对贡献值将受孕体的遗传模式分类为母系或父系。
[0108]
在各种实施例中,当感兴趣区域是整个基因组时,该方法可以进一步包括计数整个基因组的snp以确定母本和父本贡献值并确定受孕体是否是多倍体。当受孕体是多倍体时,多倍体的遗传模式可以根据卵母细胞和精子之间的相对贡献值分类为母系或父系。示例示例1

单体性父母来源的分类
[0109]
使用nextseq测序系统(illumina)以0.1x覆盖率对从具有已知核型42;xy;-14;-15;-19;-21的人类胚胎中提取的核酸和来自父母双方的核酸样本进行测序。使用bowtie 2比对程序比对序列读数并定位到人类参考基因组 (hg19)。计算每个100万个碱基对的位中的读取总数。根据gc含量和深度对数据进行归一化,并根据已知结果样本生成的基线进行测试。偏离拷贝数是 2的统计被报告为非整倍性(如果存在,如果不存在=整倍体)。确定了 42;xy;-14;-15;-19;-21的核型。测序数据中的snv是按照此处描述的方法定义的。使用来自胚胎和每个亲本的snv数据以及使用phase 3 1000基因组单倍型数据库作为参考面板的beagle 5.0版本填充程序进行缺失变异数据的填充和染色体单倍型的定相。如本文所述,通过计数与母亲和父亲共享的胚胎中的变异并将计数转换为用户定义的每个基因组区域的单个相关性值,计算胚胎基因组dna与母亲和父亲两者的相关性度量。
[0110]
分析结果在图4所示的条形图中描述。对于22条常染色体和x 染色体中的每一条(图的x轴是染色体数),图4显示了该染色体中与母亲匹配的变异等位基因的比率(蓝色条)和与父亲匹配的变异等位基因的比率(橙色条)(y轴是与任一给定父母匹配的胚胎变异等位基因的比率)。匹配变异等位基因比率的比较表明,对于大多数染色体(除此xy雄性胚胎的x染色体) 而言,平均而言,母亲和父亲的匹配等位基因比率非常相似。然而,对于14、 15、19和21号染色体,父亲的匹配等位基因的比率高于母亲的匹配等位基因的比率。此外,与父亲匹配的信息等位基因(informative alleles)数量的总计数比例(匹配等位基因与总变异等位基因的比率)高于与母亲匹配的那些。这些结果表明四种染色体缺失是母本起源的,并且表明单体的母系遗传模式。示例2-三体性父母来源的分类
[0111]
如示例1中所述,对从具有已知核型47;xx; 16的人类胚胎中提取的核酸和来自父母双方的核酸样本进行测序和分析。图5a显示了23条染色体(蓝点)中与父源(ovp)共享的胚胎变异等位基因的数量对与每条染色体与母源(ovm)共享的胚胎变异等位基因的数量。对角虚线表示图表上与母源共享的胚胎变异等位基因的数量将等于每个染色体与父源共享的胚胎变异等位基因的数量的点。位于对角线上方的点代表胚胎和父亲之间共享的变异等位基因多于胚胎和母亲之间共享的染色体。位于对角线下方的点代表胚胎和母亲之间共享的变异等位基因多于胚胎和父亲之间共享的染色体。如图5a中的图表所示,在对角线下方有更多的点。此外,距离对角线最远的点,代表16 号染色体的共享等位基因计数,与母亲共享等位基因计数与与父亲共享等位基因计数的比率最大(几乎是2:1)。这些结果表明,胚胎中额外的16号染色体是母本起源的,并且表明了三体遗传的母系模式。图5b是图5a中所示结果的另一个图形表示,显示了每条染色体与母亲共享的等位基因计数与与父亲共享的
等位基因计数的比率。示例3

染色体节段缺失的亲本来源分类
[0112]
从具有已知核型46;xy;del(6)(q25.1-qter);mos33.0% del(6)(pter-q25.1)的人类胚胎中提取的核酸和来自的父母双方的核酸如示例1 所述进行测序和分析。胚胎中第6号染色体p臂的缺失大小约为2000万个碱基。在该示例中,计数了与母亲和父亲的6号染色体变异等位基因匹配的胚胎的6号染色体的分析的变异等位基因的数量。图6显示了相对于6号染色体上的位置(x轴碱基对),与母源(ovm)共享的胚胎变异等位基因的数目与与父源(ovp)共享的胚胎变异等位基因的数目的比率(y轴)。染色体q臂的位置开始于约62,000,000bp,q25.1-ter的位置位于约150,000,000bp。如图所示,从150,000,000bp和更高的位置开始,ovm/ovp的比率几乎完全大于1.0。这些结果表明,第6号染色体的节段缺失起源于父本,并表明缺失的父系遗传模式。示例4

多倍性亲本来源的分类
[0113]
如示例1中所述,对从具有已知核型68;xxy;mos28.2%-19的人类胚胎中提取的核酸和来自父母双方的核酸样本进行测序和分析。图7显示了对于23条染色体(蓝点)中的每一个,与父源(ovp)共享的胚胎变异等位基因的数量与与母源(ovm)共享的胚胎变异等位基因的数量的关系图。对角虚线表示图表上与母源共享的胚胎变异等位基因的数量将等于每个染色体与父源共享的胚胎变异等位基因的数量的点。位于对角线上方的点代表胚胎和父亲之间共享的变异等位基因多于胚胎和母亲之间共享的染色体。位于对角线下方的点代表胚胎和母亲之间共享的变异等位基因多于胚胎和父亲之间共享的染色体。如图7中的图表所示,所有点都远低于对角线。图8中显示的等位基因向更高母本贡献的整体转变支持了多倍性可能起源于母本的发现。
[0114]
在另一个实施例中,以0.1x覆盖率测序的来自人类胚胎的滋养外胚层活检的核酸的cnv分析(使用本文所述的方法进行)确定该胚胎是雌性并且具有8号染色体的缺失。图10a以图表显示cnv分析的结果,是每个染色体(x轴上列出)在y轴上的染色体拷贝数(cn),说明了在8号染色体上与cn 2的偏差。基本上如示例1中所述并使用本文所述的方法评估倍性和遗传模式来分析胚胎和父母双方的核酸(以0.1x测序)。分析结果在图10b中以染色体剂量图的形式描绘,其中染色体数垂直列出,母本剂量测量在x轴上。染色体剂量是母本与父本样本与胚胎相关性的相对量度,以对数2标度表示。正值表示胚胎和母亲之间的关系更强;负值表示胚胎和父亲之间的关系更强。如图10b所示,结果确定了胚胎中的全基因组母本剂量不平衡,表明胚胎具有来自母体的额外遗传物质。8号染色体的丢失,虽然由于全基因组增益的偏好而没有被调用,但似乎是母系的(图10b中的蓝色框),如剂量表所示,存在来自母亲的1个8号染色体拷贝和来自父亲的1个8号染色体拷贝。根据这些结果,胚胎报告为68,xxx;-8三倍性的起源是母本。示例5

多倍性亲本来源的分类
[0115]
为了解决非血缘家庭数据指标的效用和性能,图10显示了初始 n=14家庭数据集的亲本一致性和新分数的结果,该图示出了,根据各种实施例,初始n=14家庭数据集上的示例父母一致性和新分数的图表。
[0116]
结果按家族结构被分类,“ref”指原始未置换的家族;“mm-母本”(即“不匹配母本”)指的是一个家庭,其中母亲被故意选择为来自无关家庭的母亲;“mm-父本”(即“不匹配
父本”)指的是一个家庭,其中父亲被故意选择为来自无关家庭的父亲,而“mm-父母”(即“不匹配父母”)指的是一个家庭,其中胚胎被分配给来自无关家庭的父母。
[0117]
如图10所示,利用亲本一致性和新颖性分数的方法成功区分结果,因为每个类别在不同的集群中干净地分开。还可以观察到,集群不是正态分布的,并且显示出明显的异常值(例如,参考样本沿垂直轴的偏差)。这可能是由于胚胎染色体异常、胚胎在群体水平上的遗传差异更大、或测序或其他实验室变异来源。
[0118]
此外,虽然集群是不同的,但可以沿着对角线看到观察到的最佳分离。因此,如上所述,计算了转化的亲本分数,其中还包含了胚胎新颖性的测量值。
[0119]
该计算的结果图由图11的亲本匹配聚类图说明。该图显示了四个不同聚类,无错配,双亲错配、父本错配和母本错配。该图还显示了可用于对样本的亲本进行分类的潜在简单阈值(水平线和垂直线)。
[0120]
在解决近亲家庭对分类的影响问题时,最初的预期是,在近亲家庭中,变异较少,因为父本和母本样本看起来比其他情况下更相似。因此,亲本一致性分数的成分可能更具可变性,而胚胎新颖性成分可能更小。为了检验这一预期,我们对一组13个家庭进行了评估。图12的亲本匹配聚类图说明了这些家族的结果,包括它们的正确分数和它们在相似置换场景下的分数,不包括未通过测序qc的样本。在图上可观察到的结果通常显示与最初观察到的相同的聚类模式(比较图11和12)。示例6

验证和确认
[0121]
根据各种实施例,本文讨论的系统和方法为了验证目的参照黄金标准进行了测试,图13和14示出了这种测试的结果。
[0122]
图13显示了根据各种实施例的在确定受孕体的遗传关系中的相对母本和父本分数的图表。特别是,该图使用训练数据来测试已建立的阈值,以确保隔离遗传集群的准确性。测试对象都观察到多倍性和非多倍性。下表1 提供了阈值表。表1
ꢀꢀ
父本分数母本分数正确父母《0.155《0.155意外的父本遗传《0.155》0.155意外的母本遗传》0.155《0.155意外的亲本遗传》0.155》0.155
[0123]
该图产生了集群,类似于示例5的图11-12,显示了没有错配的四个不同的集群,即双亲错配、父本错配和母本错配。
[0124]
与图13类似,图14显示了根据各种实施例的在确定受孕体的遗传关系中相对母本和父本的新颖性和相似度分数的图表。特别地,该图说明了本文中的各种实施例相对于之前讨论的黄金标准snp阵列技术的准确性。如图所示,对受孕体和假定父母之间的遗传关系进行分类的准确度在黄金标准的 99.4%到100%之间。敏感性和特异性指标也非常高,仅报告了一个假阳性和零个假阴性。计算机实现系统
[0125]
在各种实施例中,用于确定胚胎中感兴趣区域的遗传模式的方法可以通过计算机软件或硬件来实施。即,如图8所示,本文公开的方法可以在包括比对引擎840、单核苷酸多
态性识别引擎(snp识别引擎)850、填充引擎860和相关性引擎870的计算设备830上实施。在各种实施例中,计算设备 830可以通过直接连接或通过互联网连接以通信方式连接到数据存储810和显示设备880。
[0126]
应当理解,图8中描绘的各种引擎可以组合或折叠成单个引擎、组件或模块,这取决于特定应用程序或系统架构的要求。此外,在各种实施例中,对齐引擎840、snp识别引擎850、插补引擎860和相关性引擎870可以包括特定应用或系统架构所需要的附加引擎或组件。
[0127]
图15是说明可以在其上实现本教导的实施例的计算机系统1500 的框图。在本教导的各种实施例中,计算机系统1500可以包括用于传送信息的总线602或其他通信机制,以及与总线1502耦合用于处理信息的处理器1504。在各种实施例中,计算机系统1500还可以包括存储器,其可以是随机存取存储器(ram)1506或其他动态存储设备,耦合到总线1502用于确定将由处理器1504执行的指令。存储器还可以用于在要由处理器1504执行的指令的执行期间存储临时变量或其他中间信息。在各种实施例中,计算机系统1500还可以包括耦合到总线1502的只读存储器(rom)1508或其他静态存储设备,用于为处理器1504存储静态信息和指令。存储设备1510,例如磁盘或光盘,可以提供并耦合到总线1502以用于存储信息和指令。
[0128]
在各种实施例中,计算机系统1500可以经由总线1502耦合到显示器1512,例如阴极射线管(crt)或液晶显示器(lcd),用于向计算机用户显示信息。包括字母数字键和其他键的输入设备1514可以耦合到总线1502 以将信息和命令选择传送到处理器1504。另一种类型的用户输入设备是光标控件1516,例如鼠标、轨迹球或光标方向键,用于将方向信息和命令选择传送到处理器1504并用于控制显示器1512上的光标移动。该输入设备1514通常在两个轴上具有两个自由度,第一轴(即,x)和第二轴(即,y),这允许设备指定平面中的位置。然而,应当理解,这里还考虑允许3维(x、y和z) 光标移动的输入设备1514。
[0129]
与本教导的某些实施方式一致,响应于处理器1504执行包含在存储器1506中的一个或多个指令的一个或多个序列,可由计算机系统1500提供结果。此类指令可从另一计算机可读介质或计算机可读存储介质(例如存储设备1510)读入存储器1506。包含在存储器1506中的指令序列的执行可使处理器1504执行本文所述的过程。或者,可以使用硬连线电路代替软件指令或与软件指令结合使用以实现本教导。因此,本教导的实现不限于硬件电路和软件的任何特定组合。
[0130]
本文使用的术语“计算机可读介质”(例如,数据存储器、数据存储等)或“计算机可读存储介质”是指参与向处理器1554提供指令以供执行的任何介质。这种介质可以采用多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质的示例可以包括但不限于动态存储器,例如存储器1206。传输介质的示例可以包括但不限于同轴电缆、铜线和光纤,包括构成总线1502的电线。
[0131]
计算机可读介质的常见形式包括例如软盘、软盘、硬盘、磁带或任何其他磁介质、cd-rom、任何其他光学介质、穿孔卡、纸带、具有孔洞图案的任何其他物理介质、ram、prom和eprom、flash-eprom、任何其他存储芯片或盒式磁带,或任何其他计算机可以读取的有形介质。
[0132]
除了计算机可读介质之外,指令或数据可以被提供为通信装置或系统中包括的传
输介质上的信号,以将一个或多个指令的序列提供给计算机系统1500的处理器1504以供执行。例如,通信装置可以包括具有指示指令和数据的信号的收发器。指令和数据被配置为使一个或多个处理器实现本文公开中概述的功能。数据通信传输连接的代表性示例可以包括但不限于电话调制解调器连接、广域网(wan)、局域网(lan)、红外数据连接、nfc连接等。
[0133]
应当理解,可以使用作为独立设备的计算机系统1500或在诸如云计算网络的共享计算机处理资源的分布式网络上来实现这里描述的流程图、图表和所附公开的方法。
[0134]
这里描述的方法可以根据应用通过各种方式来实现。例如,这些方法可以在硬件、固件、软件或其任何组合中实现。对于硬件实现,处理单元可以在一个或多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑设备(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器、电子设备、其他旨在执行本文所述功能的电子单元,或其组合内实现。
[0135]
在各种实施例中,本教导的方法可以被实现为固件和/或以诸如c、 c 、python等常规编程语言编写的软件程序和应用程序。如果被实现为固件和/或软件,这里描述的实施例可以在非暂时性计算机可读介质上实现,其中存储了用于使计算机执行上述方法的程序。应当理解,这里描述的各种引擎可以被提供在计算机系统上,例如计算机系统1500,由此处理器1504将执行由这些引擎提供的分析和确定,受制于由存储器组件1506/1508/1510和经由输入设备1514提供的用户输入中的任何一个或其组合提供的指令。
[0136]
虽然结合各种实施例描述了本教导,但本教导并不旨在限于这些实施例。相反,如本领域技术人员将理解的,本教导包含各种替代、修改和等效物。
[0137]
在描述各种实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,就该方法或过程不依赖于本文所述的特定步骤顺序而言,该方法或过程不应限于所描述的特定步骤顺序,并且本领域技术人员可以容易地理解该顺序可以改变并且仍然保持在各种实施例的精神和范围内。实施例的列举
[0138]
实施例1:一种用于确定受孕体与精子提供者和卵母细胞提供者的遗传关系的方法,包括:接收受孕体、精子提供者和卵母细胞提供者的序列数据;将接收到的序列数据与参考基因组进行比对;识别精子提供者、卵母细胞提供者和受孕体序列数据中的单核苷酸多态性 (snp);使用填充参考来填充精子提供者序列数据和卵母细胞提供者序列数据中的缺失间隙;计算精子提供者和受孕体之间的父本一致性分数,该分数包括(a)受孕体和精子提供者之间共有的snp计数和(b)在受孕体中发现但在精子提供者中不存在的snp计数;计算卵母细胞提供者和受孕体之间的母本一致性分数,该分数包括(a) 受孕体和卵母细胞提供者之间共同的snp计数和(b)在受孕体中发现但在卵母细胞提供者中不存在的snp计数;以及如果父本一致性分数和/或母本一致性分数超过预定阈值,则将精子提供者和/或卵母细胞提供者分类为与受孕体相关。
[0139]
实施例2:根据实施例2所述的方法,其中,受孕体是植入前受孕体。
[0140]
实施例3:根据实施例1或2所述的方法,进一步包括在比对的受孕体序列数据中识别感兴趣区域,以及在精子提供者、卵母细胞提供者以及在受孕体序列数据中识别的感兴趣区域中识别snp。
[0141]
实施例4:根据实施例3所述的方法,其中,感兴趣区域是全基因组。
[0142]
实施例5:根据实施例3所述的方法,其中,感兴趣区域是拷贝数变异。
[0143]
实施例6:根据实施例1至5中任一项所述的方法,其中,通过低覆盖率测序获得至少一个受孕体、精子提供者和卵母细胞提供者的序列数据。
[0144]
实施例7:根据实施例6所述的方法,其中,低覆盖率测序在约 0.001和10x之间。
[0145]
实施例8:根据实施例6所述的方法,其中,低覆盖率测序在约 0.01和0.5x之间。
[0146]
实施例9:根据实施例6所述的方法,其中,低覆盖率测序在约 0.25和0.2x之间。
[0147]
实施例10:根据实施例1至9中任一项所述的方法,其中,填充参考包括至少1000个基因组。
[0148]
实施例11:根据实施例1至10中任一项所述的方法,进一步包括过滤受孕体、精子提供者和卵母细胞提供者测序数据中的至少一个以去除测序人为假象。
[0149]
实施例12:根据实施例11所述的方法,其中,过滤包括排除未包括在已知snp的参考列表中的snp。
[0150]
实施例13:根据实施例12所述的方法,其中,参考列表包括大约1000个已知基因组。
[0151]
实施例14:根据实施例11所述的方法,其中,过滤包括排除与孟德尔遗传不一致的snp。
[0152]
实施例15:根据实施例11所述的方法,其中,过滤包括排除在受孕体、精子和卵母细胞之间具有任何缺失等位基因的位点序列。
[0153]
实施例16:根据实施例11所述的方法,其中,过滤包括排除在受孕体、精子和卵母细胞之间具有恒定等位基因的位点序列。
[0154]
实施例17:根据实施例11所述的方法,其中,过滤包括排除在受孕体、精子和卵母细胞之一内具有新等位基因的位点序列。
[0155]
实施例18:根据实施例1至17中任一项所述的方法,进一步包括:在比对的受孕体序列数据中识别感兴趣的区域,计数在为受孕体序列数据识别的感兴趣区域和卵母细胞提供者序列数据上的对应区域中的受孕体和卵母细胞之间共有的snp的数量以确定母本贡献值;计数在为受孕体序列数据识别的感兴趣区域和精子提供者序列数据上的对应区域中的受孕体和精子之间共有的snp的数量以确定父本贡献值;以及根据卵母细胞和精子之间的相对贡献值,将受孕体的遗传模式分类为母本或父本。
[0156]
实施例19:根据实施例18所述的方法,其中,感兴趣的区域是整个基因组,该方法还包括计数整个基因组的snp以确定母本和父本的贡献值并确定受孕体是否是多倍体。
[0157]
实施例20:根据实施例19所述的方法,其中,对于多倍体的受孕体,该方法还包括基于卵母细胞和精子之间的相对贡献值将多倍体的遗传模式分类为母系或父系。
[0158]
实施例21:一种存储用于确定受孕体与精子提供者和卵母细胞提供者的遗传关系的计算机指令的非暂时性计算机可读介质,包括:接收受孕体、精子提供者和卵母细胞提供者的序列数据;将接收到的序列数据与参考基因组进行比对;识别精子提供者序列数据、卵母细胞提供者序列数据和受孕体序列数据中的单核苷酸多态性(snp);使用填充参考来填充精子提供者序列数据和卵母细胞提供者序列数据中的缺失间隙;计算精子提供者和受孕体之间的父本一致性分数,该分数包括(a)受孕体和精子提供者之间共有的snp计数和(b)在受孕体中发现但在精子提供者中不存在的snp计数;计算卵母细胞提供者和受孕体之间的母本一致性分数,该分数包括(a) 受孕体和卵母细胞提供者之间共同的snp计数和(b)在受孕体中发现但在卵母细胞提供者中不存在的snp计数;以及如果父本一致性分数和/或母本一致性分数超过预定阈值,则将精子提供者和/或卵母细胞提供者分类为与受孕体相关。
[0159]
实施例22:根据实施例21所述的方法,其中,受孕体是植入前受孕体。
[0160]
实施例23:根据实施例21和22所述的方法,进一步包括在比对的受孕体序列数据中识别感兴趣区域,以及在精子提供者、卵母细胞提供者以及在受孕体序列数据中识别感兴趣区域中识别snp。
[0161]
实施例24:根据实施例23所述的方法,其中,感兴趣区域是全基因组。
[0162]
实施例25:根据实施例23所述的方法,其中,感兴趣区域是拷贝数变异。
[0163]
实施例26:根据实施例21至25中任一项所述的方法,其中,通过低覆盖率测序获得至少一个受孕体、精子提供者和卵母细胞提供者的序列数据。
[0164]
实施例27:根据实施例26所述的方法,其中,低覆盖率测序在约0.001和10x之间。
[0165]
实施例28:根据实施例26所述的方法,其中,低覆盖率测序在约0.01和0.5x之间。
[0166]
实施例29:根据实施例26所述的方法,其中,低覆盖测序在约 0.25和0.2x之间。
[0167]
实施例30:根据实施例21至29中任一项所述的方法,其中,填充参考包括至少1000个基因组。
[0168]
实施例31:根据实施例21至30中任一项所述的方法,进一步包括过滤受孕体、精子提供者和卵母细胞提供者测序数据中的至少一个以去除测序人为假象。
[0169]
实施例32:根据实施例31所述的方法,其中,过滤包括排除未包括在已知snp的参考列表中的snp。
[0170]
实施例33:根据实施例32所述的方法,其中,参考列表包括大约1000个已知基因组。
[0171]
实施例34:根据实施例31所述的方法,其中,过滤包括排除与孟德尔遗传不一致的snp。
[0172]
实施例35:根据实施例31所述的方法,其中,过滤包括排除在受孕体、精子和卵母细胞之间具有任何缺失等位基因的位点序列。
[0173]
实施例36:根据实施例31所述的方法,其中,过滤包括排除在受孕体、精子和卵母
细胞之间具有恒定等位基因的位点序列。
[0174]
实施例37:根据实施例31所述的方法,其中,过滤包括排除在受孕体、精子和卵母细胞之一内具有新等位基因的位点序列。
[0175]
实施例38:根据实施例21至37中任一项所述的方法,进一步包括:在比对的受孕体序列数据中识别感兴趣的区域,计数在为受孕体序列数据识别的感兴趣区域和卵母细胞提供者序列数据上的对应区域中的受孕体和卵母细胞之间共有的snp的数量以确定母本贡献值;计数在为受孕体序列数据识别的感兴趣区域和精子提供者序列数据上的对应区域中的受孕体和精子之间共有的snp的数量以确定父本贡献值;以及根据卵母细胞和精子之间的相对贡献值,将受孕体的遗传模式分类为母本或父本。
[0176]
实施例39:根据实施例38所述的方法,其中,感兴趣区域是整个基因组,该方法还包括计数整个基因组的snp以确定母本和父本的贡献值并确定受孕体是否是多倍体。
[0177]
实施例40:根据实施例39所述的方法,其中,对于多倍体的受孕体,该方法还包括基于卵母细胞和精子之间的相对贡献值将多倍体的遗传模式分类为母系或父系。
[0178]
实施例41:一种用于确定受孕体与精子提供者和卵母细胞提供者的遗传关系的系统,包括:用于接收受孕体、精子提供者和卵母细胞提供者序列数据的数据存储;通信地连接到数据存储的计算设备,该计算设备包括比对引擎,被配置为将接收到的序列数据与参考基因组比对;snp识别引擎,被配置为识别精子提供者序列数据、卵母细胞提供者序列数据和受孕体序列数据中的单核苷酸多态性(snp);填充引擎,被配置为使用填充参考来填充精子提供者序列数据和卵母细胞提供者序列数据中的缺失间隙;以及相关性引擎,被配置为:计算精子供体和精子供体之间的父本一致性分数,该分数包括(a) 在受孕体和精子供体之间共有的snp计数和(b)在受孕体中发现但在精子提供者中不存在的snp计数;计算卵母细胞提供者和受孕体之间的母本一致性分数,该分数包括 (a)受孕体和卵母细胞提供者之间共同的snp计数和(b)在受孕体中发现但在卵母细胞提供者中不存在的snp计数;以及如果父本一致性分数和/或母本一致性分数超过预定阈值,则将精子提供者和/或卵母细胞提供者分类为与受孕体相关;以及显示器,其通信地连接到计算设备并被配置为显示包含与受孕体的分类相关性的报告。
[0179]
实施例42:根据实施例41所述的系统,其中,受孕体是植入前受孕体。
[0180]
实施例43:根据实施例41或42所述的系统,比对引擎进一步被配置为在比对的受孕体序列数据中识别感兴趣区域,以及在精子提供者、卵母细胞提供者中识别snp,以及在受孕体序列数据中识别感兴趣区域。
[0181]
实施例44:根据实施例43所述的系统,其中,感兴趣区域是全基因组。
[0182]
实施例45:根据实施例43所述的系统,其中,感兴趣区域是拷贝数变异。
[0183]
实施例46:根据实施例41至45中任一项所述的系统,其中,通过低覆盖率测序获得至少一个受孕体、精子提供者和卵母细胞提供者的序列数据。
[0184]
实施例47:根据实施例46所述的系统,其中,低覆盖率测序在约0.001和10x之间。
[0185]
实施例48:根据实施例46所述的系统,其中,低覆盖率测序在约0.01和0.5x之间。
[0186]
实施例49:根据实施例46所述的系统,其中,低覆盖率测序在约0.25和0.2x之间。
[0187]
实施例50:根据实施例41至49中任一项所述的系统,其中,填充参考包括至少1000个基因组。
[0188]
实施例51:根据实施例41至50中任一项所述的系统,填充引擎进一步被配置为过滤受孕体、精子提供者和卵母细胞提供者测序数据中的至少一个,以去除测序人为假象。
[0189]
实施例52:根据实施例51所述的系统,其中,过滤包括排除未包括在已知snp的参考列表中的snp。
[0190]
实施例53:根据实施例52所述的系统,其中,参考列表包括大约1000个已知基因组。
[0191]
实施例54:根据实施例51所述的系统,其中,过滤包括排除与孟德尔遗传不一致的snp。
[0192]
实施例55:根据实施例51所述的系统,其中,过滤包括排除在受孕体、精子和卵母细胞之间具有任何缺失等位基因的位点序列。
[0193]
实施例56:根据实施例51所述的系统,其中,过滤包括排除在受孕体、精子和卵母细胞之间具有恒定等位基因的位点序列。
[0194]
实施例57:根据实施例51所述的系统,其中,过滤包括排除在受孕体、精子和卵母细胞之一内具有新等位基因的位点序列。
[0195]
实施例58:根据实施例41至47中任一项所述的系统,比对引擎进一步被配置为识别比对的受孕体序列数据中的感兴趣区域,以及相关性引擎进一步被配置为计数在为受孕体序列数据识别的感兴趣区域和卵母细胞提供者序列数据上的对应区域中的受孕体和卵母细胞之间共有的snp的数量以确定母本贡献值;计数在为受孕体序列数据识别的感兴趣区域和精子提供者序列数据上的对应区域中的受孕体和精子之间共有的snp的数量以确定父本贡献值;以及根据卵母细胞和精子之间的相对贡献值,将受孕体的遗传模式分类为母系或父系。
[0196]
实施例59:根据实施例58所述的系统,其中,感兴趣区域是整个基因组,相关性引擎被配置为计数整个基因组的snp以确定母本和父本的贡献值并确定受孕体是否是多倍体。
[0197]
实施例60:根据实施例59所述的系统,其中,对于多倍体的受孕体,相关性引擎被配置为基于卵母细胞和精子之间的相对贡献值将多倍体的遗传模式分类为母系或父系。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献