一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于体外受精的多基因风险得分的制作方法

2022-07-10 20:16:53 来源:中国专利 TAG:

用于体外受精的多基因风险得分
1.对相关申请的交叉援引
2.本技术要求2019年9月30日提交的美国临时申请no.62/908,374和2020年8月6日提交的美国临时申请no.63/062,044的权益,通过援引将其每一篇完整收入本文。
发明领域
3.描述的是用于确定疾病风险的方法。
4.发明背景
5.当前,体外受精诊所测试已知在家族中持续的非整倍性和单基因病症。然而,每2对夫妻中就有1对具有受到遗传,环境和生活方式风险因素的组合影响的常见疾病的家族史。此外,当前,精子捐献者诊所测试发生由单基因病症引起的疾病子集的倾向。本领域需要改善预测个体中的和潜在未来子女中的遗传的疾病风险的能力。
6.发明概述
7.提供的是用于确定与胚胎相关的疾病风险的方法,该方法包括:对自父系受试者获得的生物学样品实施全基因组测序以鉴定与父系受试者相关的基因组;对自母系受试者获得的生物学样品实施全基因组测序以鉴定与母系受试者相关的基因组;对与父系受试者相关的基因组分相以鉴定父系单倍型;对与母系受试者相关的基因组分相以鉴定母系单倍型;对胚胎实施稀少基因分型以鉴定胚胎中的一种或多种遗传变体;基于(i)胚胎中的一种或多种遗传变体,(ii)父系单倍型,(iii)母系单倍型,(iv)父系单倍型的传递概率,和(v)母系单倍型的传递概率构建胚胎的基因组;基于胚胎的构建的基因组为胚胎指派多基因风险得分;基于多基因风险得分确定与胚胎相关的疾病风险;确定引起单基因疾病的遗传变体和/或来自父系基因组和/或母系基因组的单倍型向胚胎的传递;和基于多基因疾病风险和引起单基因疾病的遗传变体和/或来自父系基因组和/或母系基因组的单倍型向胚胎的传递确定与胚胎相关的组合疾病风险。
8.还提供的是用于输出与胚胎相关的疾病风险得分的方法,该方法包括:接收包含父系基因组数据和母系基因组数据的第一数据集;比对序列读取与参考基因组和使用父系基因组数据和母系基因组数据确定跨越基因组的基因型;接收包含父系和母系稀少基因组数据的第二数据集;对父系基因组数据和母系基因组数据分相以鉴定父系单倍型和母系单倍型;接收包含胚胎的稀少基因组数据,父系传递概率,和母系传递概率的第三数据集;将胚胎重建算法应用于(i)父系单倍型和母系单倍型,(ii)胚胎的稀少基因组数据和(iii)父系单倍型和母系单倍型每个的传递概率,以确定胚胎的构建的基因组;将多基因模型应用于胚胎的构建的基因组;输出与胚胎相关的疾病风险;确定引起疾病的遗传变体和/或来自父系基因组和/或母系基因组的单倍型向胚胎的传递;和输出胚胎中引起疾病的变体和/或单倍型的存在或缺失。一些方法进一步包括基于多基因疾病风险和引起单基因疾病的遗传变体和/或来自父系基因组和/或母系基因组的单倍型向胚胎的传递输出与胚胎相关的组合疾病风险。
9.在一些方面,该方法进一步包括使用祖父系基因组数据和/或祖母系基因组数据
来确定父系单倍型和/或母系单倍型。在一些方面,该方法进一步包括使用群体基因型数据和/或群体等位基因频率来确定胚胎的疾病风险。在一些方面,该方法进一步包括使用疾病的家族史和/或其它风险因素来预测疾病风险。
10.在一些方面,全基因组测序是使用标准,无pcr,连接读取(即合成长读取),或长读取方案实施的。在一些方面,稀少基因分型是使用微阵列技术;胚胎活检的下一代测序技术;或细胞培养基测序实施的。在一些方面,分相是使用基于群体的和/或基于分子的方法(例如连接读取)实施的。在一些方面,多基因风险得分是通过跨越疾病模型中的位点的效应求和确定的。
11.在一些方面,群体基因型数据包含英国生物库中的至少约300,000个无关个体的等位基因频率和个体基因型。在一些方面,群体表型数据包含英国生物库中的至少约300,000个无关个体的自我报告和临床报告(例如icd-10代码)表型二者。在一些方面,群体基因型数据包含群体家族史数据,其包含英国生物库中的至少约300,000个无关个体的自我报告数据和自英国生物库中的那些个体的亲属衍生的信息。在一些方面,疾病风险是通过受影响个体共享的遗传信息的分数进一步确定的。
12.还提供的是用于确定一个或多个潜在子女的疾病风险的方法,该方法包括:对(i)预期母亲和一个或多个潜在精子捐献者或(ii)预期父亲和一个或多个潜在卵子捐献者实施全基因组测序;对(i)预期母亲和一个或多个潜在精子捐献者或(ii)预期父亲和一种或多种潜在卵子捐献者的基因组分相;基于重组率估值模拟配子;组合模拟的配子以生成一个或多个潜在子女的基因组;指派多基因风险得分;和基于多基因风险得分确定疾病概率的分布。
13.还提供的是用于输出潜在子女的疾病风险的概率分布的方法,该方法包括:接收包含预期母亲的基因组数据的第一数据集;接收包含来自一个或多个预期精子捐献者的基因组数据的一个或多个数据集;使用估算重组率(例如自hapmap联盟衍生的)模拟配子;使用潜在的配子组合生成一个或多个潜在子女的基因组;估算一个或多个潜在子女每个的基因组的多基因风险得分;和基于多基因风险得分输出疾病概率的分布。
14.还提供的是用于确定(i)预期母亲和潜在精子捐献者或(ii)预期父亲和潜在卵子捐献者的潜在子女的一系列疾病风险的方法,该方法包括:(a)(i)对预期母亲和一个或多个潜在精子捐献者实施全基因组测序以获得母系基因型和一个或多个精子捐献者基因型或(ii)对预期父亲和一个或多个潜在卵子捐献者实施全基因组测序以获得父系基因型和一个或多个卵子捐献者基因型;(b)使用(i)母系基因型和潜在精子捐献者基因型或(ii)预期父亲基因型和潜在卵子捐献者基因型估算一个或多个潜在子女的可能基因型;和(c)使用潜在子女的可能基因型估算潜在子女的最低可能多基因风险得分;和(d)使用潜在子女的可能基因型估算潜在子女的最高可能多基因风险得分。
15.还提供的是用于输出(i)预期母亲和潜在精子捐献者或(ii)预期父亲和潜在卵子捐献者的潜在子女的一系列疾病风险的方法,该方法包括:(a)接收包含预期母亲的基因组数据或预期父亲的基因组数据的第一数据集;(b)接收包含来自一个或多个预期精子捐献者或一个或多个预期卵子捐献者的基因组数据的一个或多个数据集;(c)使用(i)预期母亲和潜在精子捐献者或(ii)预期父亲和潜在卵子捐献者的基因型衍生潜在子女的可能基因型;(d)通过选择模型中每个位点处使得分最小化的基因型((c)中衍生的那些的)来估算潜
在子女的最低多基因风险得分;(e)通过选择模型中每个位点处使得分最大化的基因型((c)中衍生的那些的)来估算潜在子女的最高多基因风险得分;和(f)使用(d)和(e)中计算的最低和最高得分输出一系列疾病风险。
16.在一些方面,该方法对精子捐献者使用稠密基因分型阵列,继以未直接基因分型的感兴趣位点的基因型插补。在一些方面,该方法使用疾病的家族史和其它有关风险因素来确定疾病风险。
17.在一些方面,全基因组测序是使用标准,无pcr,连接读取(即合成长读取),或长读取方案实施的。在一些方面,分相是使用基于群体的和/或基于分子的方法(例如连接读取)实施的。在一些方面,多基因风险得分是通过跨越疾病模型中的所有位点的效应求和确定的。
18.在一些方面,群体基因型数据包含英国生物库中的至少约300,000个无关个体的等位基因频率和个体基因型。在一些方面,群体表型数据包含英国生物库中的至少约300,000个无关个体的自我报告和临床报告(例如icd-10代码)表型二者。在一些方面,群体家族史包含英国生物库中的至少约300,000个无关个体的自我报告数据和自英国生物库中的那些个体的亲属衍生的信息。
19.附图简述
20.图1描绘用于预测和降低疾病风险的一种例示性方法。
21.图2描绘一种流程图,提供用于确定多基因风险得分的一种例示性方法。
22.图3描绘用于确定子女中的疾病风险的一种例示性方法。
23.图4描绘可用于确定疾病概率的例示性输入。
24.图5描绘一种流程图,显示用于基于疾病的可能性选择胚胎的一种例示性方法。
25.图6提供与特定疾病相关的风险降低曲线的图形呈现。
26.图7描绘一种流程图,提供用于选择精子捐献者的一种例示性方法。
27.图8提供对一些自身免疫病症为多个捐献者生成的风险降低曲线的图形呈现。
28.图9提供与多个精子捐献者相关的一种例示性疾病风险分布。
29.图10提供roc曲线的图形呈现,显示与确定前列腺癌的风险相关的预测能力的改善。
30.图11图示预测与胚胎相关的疾病风险的一种例示性方法。
31.图12图示用于类风湿性关节炎的与hla分型相关的一种例示性疾病风险传递预测图。
32.图13提供用于鉴定染色体长度定相块以改善疾病风险预测能力的一种例示性支架。
33.图14提供类风湿性关节炎病例和对照的prs的分布(均值定标至0,标准偏差为1)的图形呈现。
34.图15显示类风湿性关节炎的按照十分位数的or。
35.图16显示数个胚胎中的多种状况的终身风险,其中图16a显示第一胚胎(称作“胚胎2”)的风险,图16b显示第二胚胎(称作“胚胎3”)的风险,而图16c显示第三胚胎(称作“胚胎4”)的风险。
36.图17a显示与一般群体风险相比数个胚胎中的终身风险和风险比;图17b作为多基
fertilization,”semin.reprod.med.,32(4):272-82(2014),通过援引将其完整收入本文中。
52.一些方面包括评估与使用一个或多个精子捐献者形成的胚胎相关的疾病风险。一些方面包括基于疾病风险选择精子捐献者。一些方面包括用选择的精子在体外使卵子受精。
53.一些方面包括确定个体的健康报告,例如基于多基因或罕见单基因变体的存在或缺失。一些方面包括确定疾病概率的分布,例如基于多基因风险得分。
54.可筛选的疾病不受限制。在一些方面,疾病是自身免疫状况。在一些方面,疾病与特定的hla类型相关。在一些方面,疾病是癌症。例示性状况包括冠状动脉疾病,心房颤动,2型糖尿病,乳腺癌,年龄相关性黄斑变性,银屑病,结直肠癌,深静脉血栓形成,帕金森氏病,青光眼,类风湿性关节炎,腹腔疾病,白癜风,溃疡性结肠炎,克罗恩氏病,狼疮,慢性淋巴细胞性白血病,1型糖尿病,精神分裂症,多发性硬化,家族性高胆固醇血症,甲状腺机能亢进症,甲状腺功能减退症,黑色素瘤,宫颈癌,抑郁症,和偏头痛。一些例示性疾病包括单一基因病症(例如镰状细胞病,囊性纤维化),染色体拷贝数病症(例如特纳综合征,唐氏综合征),重复扩增病症(例如脆性x综合征),或更复杂的多基因病症(例如1型糖尿病,精神分裂症,帕金森氏病等)。其它例示性疾病记载于physicians’desk reference(prd network 71st ed.2016)和the merck manual of diagnosis and therapy(merck 20th ed.2018),通过援引将其每一篇完整收入本文中。根据定义,遗传复杂的疾病具有导致疾病风险的多个遗传基因座。在这些情形中,可计算多基因风险得分并用于将胚胎分层为高风险和低风险范畴。
55.胚胎基因组构建
56.提供的是涉及胚胎基因组构建的具有新颖性和创造性的方法。在一些方面,构建使用染色体长度父母单倍型和父母和胚胎的稀少基因分型(例如使用snp阵列或低覆盖率dna测序)来实现胚胎中的全基因组预测。此类杂合办法可组合来自父母和其他亲属(如果可得的话)(例如祖父母和同胞(即兄弟姐妹))的遗传信息以及使用分子方法(例如长片段读取技术,10x chromium技术,minion系统)自dna直接获得的单倍型(例如稠密单倍型块)。染色体长度单倍型可用于预测体外受精的设置中的胚胎的基因组。此类预测的基因组序列可用于预测疾病风险,既通过直接测量引起孟德尔病症的变体的传递,又通过构建多基因风险得分来预测疾病风险。
57.在一些方面,胚胎基因组是使用来自两个或更多个祖先的单倍型构建的。在一些方面,胚胎基因组是使用父系单倍型和母系单倍型二者构建的。在一些方面,单倍型是祖父系单倍型。在一些方面,单倍型是祖母系单倍型。在一些方面,胚胎基因组是使用父系单倍型,母系单倍型,和祖父系单倍型和祖母系单倍型之一或二者构建的。在一些方面,稀少胚胎基因型是通过对胚胎培养基中的无细胞dna,囊胚液或自胚胎的滋养外胚层细胞活检获得的dna测序获得的。
58.一些方面包括确定用于构建胚胎基因组的一种或多种单倍型。例如,此类单倍型可以是基于祖先受试者的基因组序列确定的。一些方面包括鉴定与祖先受试者相关的基因组。一些方面包括对自祖先受试者获得的生物学样品实施全基因组测序以鉴定祖先受试者的基因组。一些方面包括使用一个或多个同胞胚胎来确定单倍型。此类全基因组测序可以
prenatal diagnosis of foetal ultrasound abnormalities,”molceular cytogenet.,5:article 14,pages 1-4(2012);和bejjani et al.,“clinical utility of contemporary molecular cytogenetics,”annu.rev.genomics hum.genet.,9:71-86(2008),通过援引将其每一篇完整收入本文中。
65.稀少基因分型可以对胚胎的提取的部分实施。因此,一些方面包括自胚胎提取或获得一个或多个细胞(例如经由活检)。一些方面包括自胚胎或自来自胚胎的一个或多个细胞提取或获得核酸(例如dna)。一些方面包括自胚胎培养基提取胚胎材料。
66.一些方面使用稀少胚胎基因型作为支架来对祖先受试者基因组分相。一些方面使用来自一个或多个祖父母受试者(例如祖父和/或祖母受试者)的信息来对父母基因组分相。一些方面使用来自大型参考小组的信息(例如基于群体的数据)来对父母基因组分相。
67.在一些方面,胚胎是使用自一个或多个祖先受试者获得的生物学样品重建的。例示性生物学样品包括自脑,心,肺,肾,肝,肌肉,骨,胃,肠,食道,和皮肤组织选择的一种或多种组织;和/或自尿液,血液,血浆,血清,唾液,精液,痰,脑脊液,粘液,汗液,玻璃体液,和乳汁选择的一种或多种生物学流体。一些方面包括自受试者获得生物学样品。
68.一些方面包括确定一种或多种祖先单倍型的传递概率。在一些方面,来自一个或多个母系杂合位点的变体的传递可能牵涉对母系基因组测序,对来自胚胎的一个或多个活检测序或基因分型,对母系dna样品组装或分相成单倍型块,利用来自多个胚胎的信息(例如父母支持技术)来构建父母的染色体长度单倍型,和使用统计方法像hmm预测这些单倍型块的遗传或传递。在一些方面,hmm还能预测单倍型块之间的转换或纠正母系分相中的错误。
69.预测来自一个或多个父系杂合位点的变体的传递的办法可牵涉对父系基因组测序,对来自胚胎的一个或多个活检测序或基因分型,将父系dna样品组装或分相成单倍型块,利用来自多个胚胎的信息来改善单倍型块与染色体长度的连续性,和使用统计方法像hmm预测这些单倍型块的遗传或传递。在一些方面,hmm还能预测单倍型块之间的转换或纠正母系分相中的错误。
70.母亲和父亲都是杂合的情况可以以上述方式预测。在父母对于相同的等位基因或不同的等位基因都是纯合的情形中,容易预测胚胎基因型。
71.在一些方面,传递概率是使用美国申请流水号11/603,406;12/076,348;或13/110,685;或pct申请号pct/us09/52730或pct/us10/050824中记载的方法确定的,通过援引将其每一篇完整收入本文中。在一些方面,使用传递概率为95%或更高的区域来构建胚胎基因组。
72.在一些方面,胚胎基因组是使用胚胎中的一种或多种基因或遗传变体构建的。在一些方面,一种或多种基因或遗传变体是使用对胚胎的稀少基因分型鉴定的。在一些方面,稀少基因分型是使用微阵列技术实施的。
73.在一些方面,胚胎基因组是使用(i)胚胎中的一种或多种遗传变体,(ii)一种或多种祖先单倍型(例如父系单倍型和母系单倍型)和(iii)一种或多种单倍型(例如父系单倍型和母系单倍型)的传递概率构建的。在一些方面,稀少基因分型是使用下一代测序实施的。
74.一些方面包括胚胎基因组预测,其使用1)家庭每一侧的祖父母二人的全基因组序
列,2)来自每个父母的定相全基因组序列,3)通过阵列测量的父母的稀少基因型,和4)胚胎的稀少基因型。不受理论束缚,相信,对于一个研究充分的ceph家庭,使用此类方法可以跨越96.9%的胚胎基因组实现99.8%的预测准确率。
75.一些方面包括使用1)单个祖父母的wgs,2)通过阵列测量的稀少父母基因型和3)单倍型解析的参考小组对父母基因组分相。一些方面包括使用1)通过阵列测量的稀少父母基因型和2)单倍型解析的参考小组(例如1000genomes)对父母基因组分相。一些方面包括仅仅使用单倍型解析的参考小组(例如1000genomes)对父母基因组分相。
76.风险确定
77.还提供的是确定与胚胎相关的疾病风险的方法(例如基于胚胎的构建的基因组)。一些方面包括确定来自祖先基因组的引起疾病的遗传变体是否已经传递至胚胎。一些方面包括确定单倍型(例如与引起疾病的遗传变体相关的)是否已经传递至胚胎。一些方面包括确定引起疾病或提高疾病易感性的遗传变体的存在或缺失,包括(但不限于)单核苷酸变体(snv),小插入/删除,和拷贝数变体(cnv)。一些方面包括确定胚胎中疾病相关hla类型的存在或缺失。
78.在一些方面,可以使用可以基于发作年龄和疾病严重程度排名的一种或多种疾病(例如一组疾病)来确定胚胎中的表型风险。在一些方面,疾病排名可以与多基因风险预测组合,从而根据潜在疾病风险对胚胎排名。
79.一些方面包括确定胚胎具有10%,20%,30%,40%,50%,60%,70%,80%,90%,95%,99%,或更多的疾病风险。一些方面包括确定胚胎具有90%,80%,70%,60%,50%,40%,30%,20%,10%,5%,1%,或更少的疾病风险。一些方面包括基于疾病风险(例如选择具有相对较低疾病风险的胚胎)和/或基于特定基因变体(例如snv,单倍型,插入/删除,和/或cnv)的存在或缺失选择胚胎。
80.在一些方面,与胚胎相关的疾病风险是使用多基因风险得分确定的。在一些方面,多基因风险得分(也称作“prs”)是通过对跨越疾病模型中的位点的效应求和确定的。在一些方面,多基因风险得分是使用群体数据确定的。例如,群体数据可牵涉等位基因频率,个体基因型,自我报告的表型,临床报告的表型(例如icd-10代码),和/或家族史(例如自一个或多个群体数据库中的相关个体衍生的)信息。此类群体数据可以自多个数据库中的任何一个获得,包括英国(uk)生物库(其具有约300,000个无关个体的信息);作为由(美国)国家生物技术信息中心(ncbi)维护的基因型和表型数据库(dbgap)的一部分的各种基因型-表型数据集;欧洲基因组-表型组档案;omim;gwasdb;phegenl;遗传关联数据库(gad);和phenomicdb。
81.在一些方面,疾病风险是基于多基因风险得分截留值确定的。例如,此类截留可以包括prs分布中最高的约1%,prs分布中最高的约2%,prs分布中最高的约3%,prs分布中最高的约4%,或prs分布中最高的4%。优选地,截留基于prs分布中最高的3%。多基因风险得分截留也可以基于绝对风险增加确定,例如约5%,约10%,或约15%。优选地,多基因风险得分截留是基于10%的绝对风险增加确定的。
82.一些方面包括使用预测的胚胎基因组来估算表型风险。在一些方面,风险估算使用1)胚胎的预测的基因组,2)未在胚胎中进行预测的感兴趣位点(即多基因风险得分中包括的变体)处父母的基因型和3)未在胚胎中进行预测的感兴趣位点(例如多基因风险得分
中包括的变体)处参考队列(例如ukbb)中的等位基因频率。
83.一些方面包括基于一种或多种遗传变体(例如基于祖先单倍型)的传递概率确定风险。一些方面包括基于多基因疾病风险和一种或多种遗传变体的传递概率(例如引起单基因疾病的遗传变体和/或来自父系基因组和/或母系基因组的单倍型向胚胎的传递)确定与胚胎相关的组合风险。
84.用于预测和降低疾病风险的一种非限制性例示性系统在图1中显示。一种非限制性例示性多基因风险得分工作流程在图2中显示。
85.捐献者选择
86.还提供的是选择精子和/或卵子捐献者的方法。受试者将疾病传给其后代的风险的估值可以通过模拟虚拟子女的基因组并计算每个子女的疾病风险来计算。一些方面包括确定预期母亲和一个或多个潜在精子捐献者的疾病风险。一些方面包括确定预期父亲和一个或多个潜在卵子捐献者的疾病风险。
87.一些方面包括使用定相的父母基因组和模拟的单倍型重组位点(例如如使用hapmap数据库确定的)模拟来自潜在母亲和父亲的配子。一些方面考虑产生这些配子的减数分裂期间各自的重组率。在一些方面,这些模拟的配子彼此组合以产生众多组合可能性以近似潜在子女基因组的范围。此类子女基因组阵列可转化成疾病概率阵列以预测跨越每个子女的疾病风险的分布。见图3。
88.如本文中描述的风险估值(例如胚胎基因组构建部分和/或实施例部分中的)可用于ivf循环期间的胚胎选择和/或精子捐献者选择中的计划生育的语境。在一些实施方案中,潜在的父母接收一份报告,其含有跨越所有可用胚胎的多个表型的个体风险估值或每个潜在精子捐献者的一系列风险值。在一些方面,精子捐献者是基于一种状况或一组状况的疾病风险排名的。在一些方面,捐献者是使用2020年8月6日提交的美国临时申请号63/062,044中披露的python script或其改版选择的。
89.一些方面包括基于风险得分选择胚胎。一些方面包括基于风险得分选择卵子捐献者。一些方面包括基于风险得分选择精子捐献者。
90.实施系统
91.本文描述的方法可以在多种系统上实施。例如,在一些方面,系统(例如用于基因组胚胎构建,捐献者选择,风险确定,和/或实施健康报告的)包括与存储器耦合的一个或多个处理器。方法可以使用在一个或多个电子设备上存储和执行的代码和数据来实施。此类电子设备可以存储和通信(内部和/或通过网络与其它电子设备)代码和数据,这使用计算机可读介质,诸如非暂时性计算机可读存储介质(例如磁盘;光盘;随机存取存储器;只读存储器;闪存设备;相变存储器)和暂时性计算机可读传输介质(例如电,光,声或其它形式的传播信号,诸如载波,红外信号,数字信号)。
92.存储器可加载计算机指令以根据需要训练模型(例如用于鉴定疾病风险)。在一些方面,系统在计算机上实施,诸如个人计算机,便携式计算机,工作站,计算机终端,网络计算机,超级计算机,大规模并行计算平台,电视,主机,服务器场,广泛分布的松散联网计算机集,或任何其它数据处理系统或用户设备。
93.方法可以通过处理逻辑来实施,处理逻辑包含硬件(例如电路,专用逻辑,等),固件,软件(例如体现在非暂时性计算机可读介质上的),或二者的组合。描述的操作可以以任
何顺序次序或并行实施。
94.通常,处理器能自只读存储器或随机存取存储器或二者接收指令和数据。计算机通常含有能依照指令实施动作的一个处理器和用于存储指令和数据的一个或多个存储设备。通常,计算机还会包括或可操作地耦合以自或向用于存储数据的一个或多个大容量存储设备(例如磁盘,磁光盘,光盘,或固态驱动器)接收或传输数据或二者。然而,计算机不需要具有此类设备。此外,计算机可以嵌入其它设备中,例如智能手机,移动音频或媒体播放器,游戏控制台,全球定位系统(gps)接收器,或便携式存储设备(例如通用串行总线(usb)闪存驱动器),仅举几例。适于存储计算机程序指令和数据的装置包括所有形式的非易失性存储器,介质和存储设备,举例而言,包括半导体存储设备,例如eprom,eeprom,和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;和cd-rom和dvd-rom光盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
95.可以配置一台或多台计算机的系统来实施特定的操作或动作,其通过在系统上安装在操作时使系统实施动作的软件,固件,硬件,或它们的组合。可以配置一种或多种计算机程序来实施特定的操作或动作,其通过包括在由数据处理设备执行时使设备实施动作的指令。
96.一种例示性实施系统在图21中列出。此类系统可用于实施本文描述的一个或多个操作。计算设备可以连接到lan,内部网,外部网,和/或互联网中的其它计算设备。计算设备可以以客户机-服务器网络环境中的服务器机器的能力或以对等网络环境中的客户机的能力操作。
97.提供以下实施例以说明本发明,但应理解,本发明不限于这些实施例的具体条件或细节。
实施例
98.实施例1:用于父母复发风险评估的父母基因组分相和用于植入前遗传测试的胚胎中的疾病预测-体外受精(ivf)中预测胚胎基因组序列的用途
99.使用三种不同方案计算胚胎覆盖率和准确性。依照第一种方案,胚胎基因组预测使用1)家庭每一侧的祖父母二人的全基因组序列(wgs),2)来自父母每人的定相wgs,3)通过阵列测量的父母的稀少基因型,和4)胚胎的稀少基因型(图4)。对于一个研究充分的ceph家庭,该方案跨越96.9%的胚胎基因组实现99.8%的预测准确性。(还涵盖的是使用1)单一祖父母的wgs,2)通过阵列测量的稀少父母基因型和3)单倍型解析的参考小组的一种方案。)
100.依照第二种方案,胚胎预测使用1)通过阵列测量的稀少父母基因型和2)单倍型解析的参考小组(例如1000genomes)。
101.依照第三种方案,胚胎预测仅仅使用单倍型解析的参考小组(例如1000genomes)。
102.来自全部三种方案的结果在下文表1中显示。prs显示在疾病风险预测中重要的约140万个位点的结果。
103.表1:以多种分相策略实现的胚胎覆盖率和准确性
[0104][0105]
实施例2:使用预测的胚胎基因组来估算表型风险
[0106]
在胚胎基因组中未预测的位点处使用给定父母基因型(m,d)的可能基因型(aa,ab,bb)的概率(见下文方程1)。在父母基因型不可得的情形下,使用队列影响等位基因频率(af
ea
)(方程2)。
[0107]
方程1:β*p(aa|m,d) β*p(ab|m,d) β*p(bb|m,d)
[0108]
方程2:2*β*af
ea
[0109]
预测胚胎落在30个模型中的27个(90%)的真实得分的3%内的风险得分百分位数。
[0110]
另一种方法牵涉使用1)胚胎的预测的基因组,和2)在胚胎中未进行预测的感兴趣位点(即多基因风险得分中包括的变体)处参考队列(例如ukbb)中的等位基因频率。如上文方程2中描述的使用等位基因频率。使用这种方法,预测胚胎落在30个模型中的23个(77%)内的风险得分百分位数。当纳入父母基因型时,30个预测的得分均落在真实得分的5%内。
[0111]
实施例3:使用多基因风险模型估算和改善表型风险估算
[0112]
统计框架
[0113]
用于疾病模拟和经验分析的耐用模型是阈值责任模型。疾病被认为具有遗传成分g~n(0,h2)(其中h2是狭义遗传力)和误差成分∈~n(0,1-h2)。假设的责任l由下式给出:
[0114]
l=g ∈~n(0,1)
[0115]
称作潜在责任,而且假设样品在潜在责任量表上具有风险。根据疾病患病率p估算阈值t,使得这是根据标准正态随机变量的分布计算的。不受理论束缚,相信,受到疾病影响的人均具有l》t。
[0116]
模拟家庭牵涉模拟遗传责任,将其建模为三个成分之和:两个遗传成分

通过prs测量的部分,仅仅是残余遗传风险的“未测量”部分,和不可降低的非遗传错误。来自上文的潜在遗传风险g可分解成
[0117]
g=gr gu[0118]
定义为
[0119]gu
=g-gr[0120]
这最后一个成分在家庭成员之间是不相关的。另一方面,如果责任量表上由prs解释的方差为σ2,且g
r,i
和g
r,j
是两个一级亲属的责任的prs成分,那么协方差由下式给出:
[0121][0122]
如果g
u,i
和g
u,j
是两个一级亲属的责任的剩余未测量成分,且h2是性状的遗传力,那么协方差由下式给出:
[0123][0124]
如果gi是g1和g2的子女,那么
[0125][0126]
对于具有如下责任的两位一级亲属i和j,
[0127]
li=g
r,i
g
u,i
∈i[0128]
lj=g
r,j
g
u,j
∈i[0129]
我们能看到
[0130][0131]
因为错误项是不相关的。
[0132]
ivf胚胎选择模拟
[0133]
进行ivf模拟以回答以下问题:给定一组n个胚胎和感兴趣临床表型,有最小多基因风险得分的胚胎在其一生中发生疾病的可能性比随机选择的胚胎低多少?换言之,选择的相对风险降低是多少?
[0134]
为了回答这个问题,我们使用一种两步规程生成父母和随后其子女的参数。会在测试捐献者选择和ivf胚胎选择的有效性的模拟中使用这种规程或其改版。
[0135]
在胚胎选择模型中使用以下输入:σ2,责任量表上由多基因风险得分解释的方差;h2,责任量表上的性状的加性遗传力;p,性状的终身流行性。
[0136]
来自这种模拟的输出是跨越不同数目的可用胚胎的风险降低,这容许进行ivf的预期夫妻找出哪些疾病能进行有意义的筛选。
[0137]
规程
[0138]
步骤1。对于父母每人,如果自一般群体或一些其它分布(诸如均值的变化或截断的正态分布)提取以代表升高的来自家族史的风险的话,生成分布为n(0,σ2)的prsgr。分布为n(0,h
2-σ2)或上文其它情况的剩余未测量遗传风险gu。
[0139]
步骤2。通过计算l1,

,ln来模拟n个子女:
[0140]
自父母二人计算中亲均值prs:
[0141][0142]
计算中亲均值剩余遗传风险:
[0143][0144]
对于每个子女,计算分布为n(0,1-h2)的独立误差∈i。
[0145]
对于每个子女,计算独立prs重组
[0146][0147]
对于每个子女,计算来自重组的独立未测量/剩余风险
[0148][0149]
通过求和计算子女i的责任
[0150]
li=mr mu r
p,i
r
u,i
∈i[0151]
步骤3。为了确定风险降低,在n=3,4,

,10的范围上模拟数百万个家庭。对于每个家族,看有最小prs的胚胎的责任l
min
是否超过阈值t=φ-1
(1-p),其中φ是标准正态分布的累积分布函数。
[0152]
统计说明
[0153]
作为补遗,可以证明r
p,i
和r
u,i
的形式是正确的。为了显示同胞之间的和子女与父母之间的协方差是正确的,注意
[0154][0155]
因为后两项是0。同样的计算适用于未测量遗传风险,即
[0156][0157]
所以对于gi=g
r,i
g
u,i
,
[0158]
一组类似的计算显示父母-子女协方差也满足正确的方程。
[0159]
这种规程可在图5中示意性地查看。带有输入的风险降低曲线的一个例子在图6中显示。由多基因风险得分解释的方差在下文表2中显示,其中“h2_lee”是方差。
[0160]
表2:多种病症的由多基因风险得分解释的方差
[0161]
表型h2_lee患病率疾病类型遗传力amd0.0170640.0655其它0.50乳腺癌0.0267470.1240癌症0.31前列腺癌0.0517170.1160癌症0.58cll0.0455750.0057癌症0.60银屑病0.0790810.0400自身免疫0.75类风湿性关节炎0.0174220.0140自身免疫0.60腹腔疾病0.2466430.0100自身免疫0.80克罗恩氏病0.0214750.0050自身免疫0.801型糖尿病0.0983590.0050自身免疫0.722型糖尿病0.0226170.2570其它0.50心房颤抖0.0145690.2720其它0.67双相障碍0.0301150.0250精神病0.55精神分裂症0.0358570.0050精神病0.80
白癜风0.0625670.0200自身免疫0.50炎性肠病0.0227880.0200自身免疫0.50
[0162]
有模拟的捐献者家庭
[0163]
为了鉴定风险较低的捐献者,实施以下工作:(1)计算预期母亲的多基因风险得分,(2)跨越n个捐献者计算多基因风险得分,并(3)选择多基因风险得分最低的捐献者。该规程本质上与上文相同,只是改变了两个步骤:首先,模拟多个捐献者(n=10,20,30,

,100),并将多基因风险得分在捐献者的多基因风险得分之上最小化,而不是将重组最小化。该方法的流程图在图7中显示。
[0164]
使用以下输入:σ2,责任量表上由prs解释的方差;h2,责任量表上的性状的加性遗传力;p,性状的终身流行性。来自这个模拟的输出是跨越要在其上最小化的不同数目的可用捐献者的风险降低,这容许使用精子或卵子捐献者的客户找出哪些疾病能进行有意义的筛选。凭借与上文相同的实例输入,针对一些自身免疫病症为不同数目的捐献者生成风险降低曲线,其在图8中显示。
[0165]
捐献者选择后的额外胚胎选择
[0166]
捐献者选择的另一个应用牵涉首先选择捐献者,随后选择疾病风险较低的胚胎。更具体地说,对有兴趣为子女使用捐献者精子的受试者(例如女性受试者)提供疾病风险信息。首先,使用她的遗传测试结果和家族史,模拟多个配子并与模拟的精子样品组合以获得心脏病的已知遗传起因的风险。这是她生下有这种状况的子女的“个性化风险”且是“基线风险”的细化。其次,使用来自各个捐献者的遗传信息以及关于哪些变体彼此定相的信息,计算假设来自个体捐献者的配子的一系列疾病概率。最后,假设选择了捐献者,多个胚胎(e1,e2,e3)落在疾病风险分布内。见图9。
[0167]
这些方法可用于精子捐献者选择期间计划生育的语境。潜在父母可指出他们特别感兴趣的表型,而且可以为每个捐献者生成那些表型的风险得分。那些得分用于预测每个精子捐献者的潜在子女的疾病风险。可以向父母给出含有这些风险值的报告,容许他们选择会降低感兴趣表型的风险的捐献者的选项。
[0168]
家族史
[0169]
可以纳入家族史来预测疾病风险。在英国生物库中,有一些疾病有父母和同胞自我报告的疾病状态:糖尿病,心脏病,阿尔茨海默氏病,帕金森氏病,乳腺癌,和少数其它疾病。此外,有超过10,000个同胞对和大量的半同胞或其他二级亲属对。以用于家族史的二元变量建立一种模型,这意味着:(i)在英国生物库中有自我报告家族史的一组疾病中,同胞或父母有疾病;或(ii)对于任何其它疾病,所有样品有英国生物库中的一级亲属。鉴于“家族史_有”假人的这种定义,对于适宜队列上的每种状况,使用以下公式运行逻辑回归:log(p/(1-p))=β_1*prs β_2*性别_男性 β_3*家族史_有。
[0170]
总之,输入包括:来自生物库的数据,其含有自我报告的疾病的家族史,还有有医学记录的一级亲属对。输出包括:来自逻辑回归的模型,其纳入prs和家族史以提高我们的预测的准确性。使用模型来优先排列哪些患者在其一生中有较高风险发生疾病。一种例示性输出在下文表3中列出,其中为多种状况估算β_1(prs),β_2(性别假人)和β_3(家族史假人)。
[0171]
表3:来自纳入prs的逻辑回归模型的数据
[0172][0173]
当将家族史_有假人添加至逻辑回归时,预测的改善以前列腺癌的roc曲线量化,如图10中显示的。
[0174]
提高的模型的复杂度
[0175]
通过纳入二级和三级亲属,更加复杂的家谱,和/或相关表型,模型变得更加复杂。上文显示如何模拟直系亲属。为了容许纳入二级家族史,还可以为父母每人模拟两个另外的家庭成员。如果p1是具有亲属r
1,i
的父母一,那么我们可以通过如下假设来生成二级家庭成员:
[0176][0177]
其中σ2是prs或未测量遗传风险gu的潜在责任量表方差成分。
[0178]
还可以对模拟添加另一层复杂性:基于年龄和性别的阈值。如果这种疾病的患病率因这些变量而不同的话,可以调整阈值,根据阈值判断一个家庭中的一个样品是否具有疾病。例如,假设对于2型糖尿病,80岁以上男性中的患病率为20%,而55岁女性中的患病率为4%。通过在上文模型中替代疾病的经验性终身风险,可以用终身风险替换终身患病率。此类样品的阈值分别会是1-φ(0.20)和1-φ(0.04),其中φ是标准正态随机变量的累积分布函数。当一个人对一个家庭家谱施加条件时,他们就是在对一组样品施加条件
[0179]
si=g
r,i
g
u,i
∈i>ti[0180]
超过他们的年龄和性别特异性阈值ti。
[0181]
给定有关于疾病史的信息的家谱ped,诸如:具有疾病的父亲和祖父,没有疾病的三个同胞,可以计算
[0182]
e(gu|ped)
[0183]
目标是验证对于数量的理论预测:
[0184]
p(gr gu ∈>t|gu=x)
[0185]
其容许计算优势比。
[0186]
hla表型
[0187]
风险确定可能牵涉具有强hla成分和相关hla等位基因未被snv很好标记的表型。然而,这种方法可应用于有与具有显著效应大小的hla等位基因的已知疾病关联和涉及其它基因座的任何状况。有hla参与的复杂表型的例子包括(但不限于)银屑病,多发性硬化症,1型糖尿病,炎性肠病,克罗恩氏病,溃疡性结肠炎,白癜风,腹腔疾病,和系统性红斑狼疮。
[0188]
这些方法可应用于多种情况,包括但不限于个体疾病风险预测,胚胎选择和精子捐献者选择场景二者中的风险降低,和多个遗传因素(包括hla类型)影响响应或不良药物反应可能性的某些药物的处方指南。
[0189]
hla分型结果是自基于dna的方法,诸如基于sanger测序的分型获得或自全基因组测序(wgs)衍生的。首先,确定多基因风险得分,例如使用基因组范围关联研究(gwas)效应大小。一个例子是将效应大小和效应等位基因剂量的乘积加在所有不在mhc区域中的相关变体上。其次,使用以下方法之一基于hla分型结果(并非标签snp)组合或合并相关hla等位基因。
[0190]
组合prs和hla or:计算验证队列中所有个体的多基因风险得分以获得元数据(例如均值,标准偏差,等)。获得有与感兴趣表型的已确定关联的hla等位基因的优势比(or)。如下组合与验证队列和hla分型比较的自个体的prs衍生的or:
[0191]
or=or
hla
*or
prs
*or
入口统计学
[0192]
使用上文衍生的or和疾病在验证队列中的患病率来计算风险比(rr)。然后用它来估算疾病的终身风险。
[0193]
将hla直接纳入prs:通过将效应大小和每个效应等位基因的剂量的乘积添加到基础prs上,将hla效应等位基因直接纳入多基因风险得分。这将称作prs
hla
。对验证队列中的所有个体计算prs
hla
,并获得元数据(例如均值,标准偏差,等)。使用自prs
hla
模型衍生的or和验证队列中的疾病患病率来计算rr。然后用它来估算疾病的终身风险。
[0194]
实施例4:一种应用于胚胎和精子捐献者选择的对疾病风险概况排名的方法
[0195]
提供的是对疾病风险概况排名的例示性方法,诸如图11中图示的。首先,为一组d疾病中的每种疾病计算权重wd,即发作年龄wa和疾病严重程度ws的权重之和。出生时发作的疾病(例如腹腔疾病)的wa大于一般直到成年才出现的疾病(像冠状动脉病)的wa。类似地,更严重的疾病(像乳腺癌)的ws大于具有更温和表型的疾病(像白癜风)的ws。
[0196]
接着,组合家族史和多基因风险得分,为每个胚胎的每种感兴趣状况生成预测风险。
[0197]
最后,使用以下方程组合疾病排名和风险预测,为每个胚胎生成单一得分s
t
,其中rr是自给定疾病的多基因风险得分和家族史的组合衍生的相对风险:
[0198][0199]
假设在成年,童年,或出生时发作的ws分别为0.5,1,或2。类似地,假设轻度,中度或重度疾病表型的wa分别为0.5,1,或2,有能力为具有可变表型的疾病选择中间值。下表4列出基于这些值的一小组状况的权重:
[0200]
表4:多种状况的权重
[0201]
疾病发作的年龄wa严重程度wswd乳腺癌成年0.5中度-重度1.52腹腔疾病出生2中度13银屑病童年1轻度-中度0.751.75
[0202]
假设三个胚胎具有每种上述状况的以下rr,计算每个胚胎的总体得分并相应排名。对于胚胎1,如下计算得分:
[0203]st
=(2*2.4) (3*1.4) (1.75*2.7)=24.85
[0204]
三个胚胎每个的疾病风险在表5中列出。
[0205]
表5:三个胚胎的疾病风险概况
[0206]
疾病rr胚胎1rr胚胎2rr胚胎3乳腺癌2.41.10.7腹腔疾病1.41.61.4银屑病2.77.32.7s
t
13.719.810.3排名231
[0207]
将相同的规程应用于精子捐献者选择,其中每个捐献者接受跨越所有感兴趣疾病的排名。在胚胎和捐献者选择背景二者中,为疾病子集(例如预期父母具有家族史的状况)或跨越实施多基因模型的所有疾病计算得分。
[0208]
或者,可以在不对所有感兴趣状况求和以优先考虑单个胚胎/个体的结果的情况下使用该方法。每种状况会收到得分,具有最高得分的状况会被优先考虑。使用上文胚胎1为例,生成了表6中列出的得分和排名。
[0209]
表6:胚胎得分和排名
[0210]
疾病rr胚胎1疾病得分(rr*wd)疾病排名乳腺癌2.44.81腹腔疾病1.44.23银屑病2.74.72
[0211]
实施例5:预测疾病易感性变体向胚胎的传递
[0212]
在父亲的wgs中找到结直肠癌易感性变体(apc c.3920t》a)(和/或插入,删除,和/或拷贝数变体)的一个拷贝。该等位基因在母亲中不存在。在胚胎的稀少基因分型中没有直接测量这种变体。通过上文描述的任何单一或组合方法获得父母的全染色体单倍型。胚胎基因组的重建确定含有风险等位基因的单倍型块自父亲传递至胚胎之一。风险等位基因注释为在胚胎中“存在”。
[0213]
实施例6:使用胚胎预测的常见疾病的多基因风险
[0214]
乳腺癌具有一个共同的遗传成分。遗传风险得分使用69种变体来评估乳腺癌的风险。在这些变体中,只有13%(9/69)是在胚胎中直接进行基因分型的。基于这些变体的胚胎遗传风险得分的百分位数为84.6%。胚胎重建后,98.6%(68/69)的胚胎的基因型已被插补/推断,新的胚胎遗传风险得分百分位数为77.7%。胚胎出生后,对子女的dna进行基因分型,prs百分位数为76.2%。这表明,由于额外变体的信息,来自全基因组胚胎重建的遗传风
险得分具有更高的准确性和更小的不确定性。
[0215]
实施例7:预测疾病相关hla类型向胚胎的传递
[0216]
母亲罹患类风湿性关节炎(ra)。hla分型结果(来自wgs,pcr sanger测序或任何其它适宜方法)揭示她携带与这种状况风险升高相关的hla-drb1*01:02等位基因的一个拷贝。父亲对于hla-drb1*04:02(未知与ra风险升高相关的等位基因)是纯合的。基于父母每人中6号染色体的完整分相和胚胎基因组的重建,确定母亲的单倍型2(hm2)和父亲的单倍型2(hf2)传递至胚胎。ra风险等位基因携带在母亲的单倍型1(hm1)上,因此预测胚胎不携带风险等位基因。见例如图12。
[0217]
实施例8:给家庭提供他们子女中的疾病风险谱
[0218]
两位父母向医生表示,他们对他们未来子女的多种遗传疾病的风险感兴趣。使用上文描述的方法根据两位父母的基因组具体计算中亲均值和重组以预测子女的疾病风险范围,从而为未来的ivf治疗提供指导。见图9。
[0219]
类似地,在精子捐献的情况中,可以通过重组来模拟基于母亲和潜在精子捐赠者wgs的多基因风险得分分布(见图9)。
[0220]
实施例9:纳入家族史(fhx)以改善风险估值
[0221]
基于疾病的家族史,发生银屑病的风险估算为10-30%。在父母一人罹患银屑病的胚胎中单独使用多基因模型仅仅显示跨越胚胎的较小风险差异。纳入家族史提供胚胎1和胚胎2和3之间好得多的分离,显然,胚胎2和3具有除了fhx之外的其它风险因素,如表7中显示的。
[0222]
表7:纳入家族史的胚胎风险得分
[0223][0224]
类似地,可以纳入家族史以改善预测疾病相关hla类型传递的风险估值。
[0225]
实施例10:将hla分型纳入银屑病疾病风险估值
[0226]
与发生银屑病的风险相关的两种hla类型的存在或缺失跨越胚胎对总体疾病风险有明显影响。这个实施例可以扩展至精子捐赠者选择或个人基因组报告的背景,如表8中显示的。
[0227]
表8:多个胚胎中银屑病的终身风险
[0228] hla-c*06:02hla-c*12:03or
prs
rr终身风险胚胎1缺失1个拷贝0.670.833.3%胚胎21个拷贝1个拷贝0.752.9111.6%胚胎31个拷贝缺失0.882.4910.0%
[0229]
可以纳入家族史以进一步改善预测疾病相关hla类型传递中的风险估值。这种技术可以扩展至自胚胎基因组预测血型,包括所得胎儿的rh状态。
[0230]
实施例11:改善性状预测准确性
[0231]
当多基因模型中的变体的基因型在胚胎中未知时,可以使用父母基因型来改善性
状预测准确性。使用鉴于该位点处父母基因型的可能基因型概率,而不是群体等位基因频率(af)或插补的基因型。使用下表9中的概率,将每种可能基因型的剂量添加至风险得分。在实践中,这改善通过多基因风险的预测百分位数测量的预测准确性,如下表10中显示的,其显示克罗恩氏病的多基因模型的预测的改善,其中胚胎中未预测4种变体。真正的多基因风险得分百分位数(“真值”)是使用来自wgs的直接基因分型确定的。
[0232]
表9:基于父母基因型的胚胎基因型概率
[0233]
母亲父亲p(aa|m,d)p(at|m,d)p(tt|m,d)attt00.250.75
[0234]
表10:多基因风险得分的百分位数
[0235]
真值群体af剂量73.9%62.5%71.2%
[0236]
实施例12:单倍型疾病风险
[0237]
一些疾病风险基于定相单倍型而非个体变体。胚胎重建生成定相单倍型,用于更准确地预测性状风险。下表11列出基因apoe中的单倍型及其与阿尔茨海默氏病的相关风险(corder et al.,1994)。
[0238]
表11:apoe中的单倍型和与阿尔茨海默氏病的相关风险
[0239]
单倍型rs429358等位基因rs7412等位基因阿尔茨海默氏病的风险ε2tt保护ε3tc中性ε4cc风险
[0240]
两种变体在apoe基因中相隔138bp。在胚胎中的稀少测量中既没有测量rs429358也没有测量rs7412。这排除估算胚胎中的阿尔茨海默氏病风险。然而,胚胎重建方法使用父母的基因型来预测完全定相胚胎基因组,其可用于推断胚胎为ε3/ε3。这一结果后来通过出生子女的全基因组测序得到验证。
[0241]
表12:重建胚胎中阿尔茨海默氏病的风险
[0242] apoe单倍型阿尔茨海默氏病的风险母亲ε3/ε3中性父亲ε3/ε3中性重建胚胎ε3/ε3中性无重建的胚胎不可得不可得
[0243]
因此,胚胎重建能够实现apoe单倍型和阿尔茨海默氏病风险预测,以及一般而言地基于单倍型的疾病状态。
[0244]
实施例13:稀少基因型支架
[0245]
使用稀少基因型作为整个基因组分相的支架(见例如图13)与单独的参考小组相比改善性能,如通过开关错误率(ser)测量的。将这种技术应用于充分研究的样本na12878,我们看见总体ser从单独使用1000genomes参考小组时的0.6%下降到使用一组约140k高置信度定相基因型作为支架与参考小组组合时的0.54%。这种差异在很大程度上是由于长开关错误的减少。例如,在1号染色体上,长开关错误的原始数目有》60%降低(169对60)。总
之,组合办法(支架 参考小组)导致长开关错误率从0.12%降低到0.04%。这在胚胎重建中是重要的,因为长开关错误会导致预测传递不正确的块。
[0246]
实施例14:多基因风险得分
[0247]
大规模基因组范围关联研究(gwas)已经鉴定与极其多种疾病相关的遗传变体。这些关联为疾病生物学,药物靶点发现和改善的疾病风险预测的功能研究铺平了道路。虽然个别常见遗传变体可能没有什么预测价值,但是将这些变体组合成遗传风险得分能解释疾病的更大比例的遗传风险。这些多基因座遗传风险得分,也称作多基因风险得分(prs),最通常地作为疾病相关基因型的加权和来计算。
[0248][0249]
其中prs
ind
是给定个体和具有n个相关变体的疾病的多基因风险得分,wi是第i个变体的权重,通常取自gwas效应大小,而gi是个体对于第i个变体的风险等位基因而言的基因型。最近对prs调查它们用于预测多种疾病的风险的潜力,包括心血管疾病,乳腺癌和2型糖尿病。这些办法证明根据个体对这些疾病的风险对他们进行分层的能力。
[0250]
描述的是一种验证和执行多基因模型以及在消费者报告中可视化风险估值的方法。
[0251]
选择多基因风险模型
[0252]
优先考虑已经在来自广泛群体的至少1000个个体上进行了测试的先前发表的针对每种感兴趣状况的多基因模型。这排除统计效力有限的小型研究和在孤立群体上测试的研究,这些研究可能不会转化至其他群体。使用来自ukbb研究集中的个体的数据的模型也排除在外。选择报告曲线下面积(auc)大于0.65和/或顶部分位数对底部分位数中的个体的优势比(or)大于2的模型(更多信息见下文)。一系列性状及已发表模型及其评估统计量在表13中显示。
[0253]
表13:发表的疾病模型
[0254]
[0255][0256]
当发表的模型不可得时,如先前描述地(pmid:30309464),使用来自gwas目录的符合基因组范围显著性p值阈值(p《5e-8)的snp来构建得分。
[0257]
定义英国生物库中的每种表型
[0258]
使用来自英国生物库队列的数据验证和标准化每个模型。这项资源包括500,000个个体的遗传和疾病信息。下文分析仅仅使用无关个体。如表14中显示的,使用用于定义每种感兴趣表型的icd-9和icd-10代码,自我报告疾病以及规程代码的组合。
[0259]
表14:评估的每种性状的ukbb表型定义
[0260]
[0261][0262]
疾病的一个子集在下表15中显示。
[0263]
表15:英国生物库中疾病子集的频率
[0264]
疾病频率疾病频率腹腔疾病0.62%心房颤抖4.29%冠状动脉病6.64%乳腺癌3.66%
[0265]
根据他们的多基因风险得分(pgs)对个体进行分层,并调查这个群体中疾病的患病率。
[0266]
使用ukbb数据集评估模型
[0267]
作为疾病相关基因型的加权和计算多基因风险得分。计算ukbb中每个个体的得分,并使用多种量度来评估模型的性能。
[0268]
跨越病例和对照的prs分布
[0269]
将数据集针对每种性状分解成病例和对照,并分开为病例和对照生成得分的分布。这些分布的目视检查给出每个模型在多大程度上能区分病例与对照的大致了解。例如,图14显示类风湿性关节炎病例和对照的prs的分布(均值定标至0,标准偏差为1)。
[0270]
接收者操作曲线(roc)
[0271]
通过绘制模型在不同风险阈值时的灵敏性和特异性来计算roc和曲线下面积(auc)。
[0272]
分层成prs的十分位数
[0273]
将英国生物库中的个体分层成具有疾病的不同风险概况的组。比较最高风险(prs的顶部十分位数)的个体与中位风险的个体(那些具有分布的中部40-60百分位数中的prs的)。跨越十分位数为每种疾病绘制疾病患病率,并跨越疾病计算高风险对中风险的比。图15显示类风湿性关节炎按照十分位数的or。
[0274]
纳入年龄和性别的回归分析
[0275]
在跨越英国生物库数据集中所有无关个体计算prs之后,对每个模型应用逻辑回归。
[0276]
β
pgs
是prs的回归系数,对应于当prs标准化至均值0和标准偏差1时的优势比。在可得和适用的情况下,纳入年龄和性别。
[0277]
lor|gs=β0 β
prs
prs β
年龄
均值(年龄)
[0278]
然后使用优势比来确定用于报告目的的高风险对中间结果的阈值。
[0279]
按照疾病的or/sd(集中的对z转换的均值)
[0280]
根据上文呈现的逻辑模型,通过标准化prs变量(均值为0,标准偏差为1)获得prs的or/sd,之后计算效应大小。这个过程有助于实现两个目标。首先,能跨越疾病直接比较prs的风险分层能力。不同疾病的prs在snp的数目和它们各自的效应大小上有所不同,因此在非常不同的尺度上也有所不同。如果不标准化,它们相应的效应大小也将无法直接比较。通过标准化所有prs,可以基于模型的or/sd直接对模型进行排名,从而得出反映它们基于疾病风险划分群体的能力的排名。其次,它允许在统计上准确地将ukbb效应估值应用于美国群体。使用ukbb来估计效应大小,然后将其转换为优势比。在根据这些优势比估算相对风险时(见下文),使用美国的群体疾病患病率来准确地捕捉美国具有给定prs的个体的相对风险。ukbb prs的标准化(使用ukbb均值和标准偏差)容许在模型中使用美国个体的prs(在用美国prs均值和标准偏差进行调整之后)。由于遗传学上的随机分类,至少对于具有欧洲血统的个体,可以预期跨越群体的prs的相似均值和标准偏差。来自该分析的结果在表16中显示。
[0281]
表16:模型验证统计量
[0282][0283][0284]
疾病对年龄的prs分层
[0285]
在将个体分层成不同风险组之后,使用ukbb数据来估算这些不同组内诊断有疾病的群体的百分比。将这些信息跨越不同层可视化绘制,包括高风险(按照prs的前5%个体)和平均风险(跨越群体)组。显示为一组与我们的给定感兴趣个体具有相似遗传风险的个体诊断的预测百分比,假设感兴趣个体具有第75百分位处的prs。
[0286]
这些图有助于说明prs在基于疾病风险对个体分层中的效用。看见在不同prs层内诊断的群体的比例的明显区分确认模型基于个体的风险区分他们的能力。
[0287]
为个体计算调整后的终身风险
[0288]
可以以美国人的性别的平均终身风险开始。接着,评估基因组中的风险标志物,并基于标志物计算多基因得分。使用来自上文描述的ukbb的数据将这种信息转换成“优势比”。最后,使用公式囊括此优势比和平均终身风险以估算具有这种变化的个体的终身风险:
[0289][0290]
调整后的终身风险=c0*rr
[0291]
其中p0是状况在ukbb中的患病率,c0是状况在美国的平均终身风险,而or是上文计算的优势比。结果是与群体平均值相比个体自身终身风险的估值。对于一些状况,平均终身风险不可得。在这些情况中,指出所分析的遗传学是否指示风险升高。
[0292]
定义“高风险”的阈值
[0293]
在一些情况中,高遗传风险的阈值是基于已知风险因素设定的。例如,有一级亲属患病的个体发生1型糖尿病的相对风险为6.6。因此,1型糖尿病的prs的高风险阈值设定为与该相对风险对应。对于这不可得或模型无法实现阈值的表型,我们将相对风险升高2倍或绝对风险升高10%的个体指派为高风险。在生活方式或临床因素告知高风险阈值的表型子集的评估量度在表17中显示。
[0294]
表17:在无关ukbb个体子集中模型的评估
[0295][0296][0297]
实施例15:多因素状况(多基因风险得分)
[0298]
使用illumina或bgi技术对自提交的样品获得的基因组dna进行测序。比对读取与参考序列(hg19)并鉴定序列变化。对于一些基因,仅仅分析特定的变化。除非上文另有说明,不检查删除和复制。在一些情形中,可能已经由外部实验室实施hla类型的独立验证。依照acmg(美国医学遗传学学会)指南对选定的变体进行注释和解读。仅仅报告致病性或可能致病性变体。实施胚胎和父母基因分型及随后的“父母支持”分析。使用基因组重建算法使用胚胎基因型和父母全基因组序列重建胚胎基因组。在重建的胚胎基因组中仅仅检查在父母基因组中观察到的预测对胚胎有影响的变体。对于一个状况子集,计算多基因风险得分。在英国生物库群体上评估每种状况的模型。可以使用hla类型细化一些多基因风险得分。通过根据其人口统计学信息和多基因风险得分调整基线风险(在美国群体中)来计算个体的终身风险。报告中包括从头一个至末一个十分位数导致10%终身风险差异或终身风险升高1.9倍的模型。基于模型和基因组重建性能的可得证据由调查人员斟酌将某些状况(例如双相疾病)保留在实验部分中。特定胚胎的各种状况的终身风险在图16a-c中列出。
[0299]
使用银屑病作为特定例子,图17a-b显示三个例示性胚胎中与银屑病的易感性相关的风险得分。
[0300]
实施例16:使用单倍型解析基因组序列的胚胎全基因组预测
[0301]
将单倍型解析的基因组测序与来自胚胎的单个或少数细胞胚胎活检的一组稀少基因型组合以预测胚胎的全基因组序列。具体而言,将stlfr技术用于父亲的单倍型解析的基因组测序。在罕见杂合位置(定义为等位基因频率为1%或更低)处评估性能。以89.5%准确率在胚胎中预测230,117个位点的遗传。
[0302]
这项研究中使用的材料是从有植入前基因诊断的先前经历一轮成功的ivf的参与者回顾性获得的(表16)。对总共10个胚胎(第5天)的滋养外胚层活检使用加快24小时微阵列方案跨越一组300,000个常见snp对每个活检进行基因分型。另外,每个父母和全部四个祖父母跨越相同小组进行基因分型。
[0303]
表16:用作概念证明的组织样品
[0304][0305]
自全血或唾液样品提取基因组dna。在bgi平台上使用30x wgs加工新生儿和母系dna。使用stlfr加工父系样品。对来自10个第5天胚胎之一的滋养外胚层活检进行dna提取,扩增和与父母和祖父母一起进行基因分型,这使用快速微阵列方案,跨越所有样品使用illumina cytosnp-12芯片。使用“父母支持”(ps)方法组合同胞胚胎和父母snp阵列测量(图18,19),如kumar et al.,2015中详述的。通过将ps胚胎基因型与父母单倍型块组合来预测胚胎的全基因组序列(见图18)。
[0306]
实施例17:自单倍型块和父母信息构建全染色体单倍型
[0307]
为了在ivf设置中构建染色体长度单倍型,将父母二人的单倍型解析的基因组测序与来自同胞胚胎的稀少基因型的信息组合。作为“父母支持”(ps)方法的一部分,通过将来自hapmap数据库的重组频率与来自父母的snp阵列测量和来自同胞胚胎的snp阵列测量组合来创建父母每人中杂合snv的最大可能性估值(mle)相。这种稀少,染色体长度单倍型不足以预测胚胎的基因组,但是可以与来自父母样品的分子获得的稠密单倍型(例如使用长片段读取技术,10x genomics,cpt-seq,pacific biosciences,hi-c)组合以预测遗传基因组序列。
[0308]
这种信息是使用数个数据流获得的。为了生成稠密单倍型块,首先对母亲和父亲分别实施34倍和30倍中值倍数覆盖率的鸟枪测序。接着,通过对经由体外稀释池扩增获得的基因组dna的单倍体子集进行测序,将母亲中的194万杂合snv中的94.2%和父亲中的189万杂合snv中的92.4%直接定相为长单倍型块。将这些分子获得的“稠密单倍型块”与稀少,但染色体长度单倍型组合以构建父母的染色体长度单倍型解析的基因组序列。随后使用这
种序列信息来预测胚胎的遗传基因组序列,但是也可用于预测父母二人的潜在后代(例如通过模拟会产生未来子女的潜在卵子和精子)。
[0309]
用于胚胎的全基因组预测的潜在工作流程在图19中显示。在初始拜访时,患者给出血液,其用于生成父母每人的全基因组序列并用于预测该夫妻有风险的可能病症。咨询后,父母经历ivf,并使用常规ivf pgd技术对胚胎进行基因分型,将此信息与父母的全基因组序列信息(单倍型解析的)组合以预测胚胎的遗传基因组并评估疾病风险。
[0310]
使用同胞胚胎和父母基因型来构建染色体长度父母单倍型。使用统计方法(例如最大可能性估算)根据自每个同胞胚胎和减数分裂重组频率数据库获得的噪声信息确定父母的相。
[0311]
全染色体单倍型构建
[0312]
通过对个体的亲属(包括但不限于父母,祖父母或子女)的基因组测序来构建全染色体单倍型。如果个体与同一个人具有两个或更多个子女,那么可以通过对该个体,其伴侣和两个或更多个子女实施全基因组测序并确定每个子女遗传的基因座来获得该个体的全染色体相(图20)。这会在不修改dna测序过程的情况下提供基于全染色体的单倍型信息。这会是重要的,例如在一对夫妻已经有两个子女且希望再有一个子女,并且在没有任何祖父母dna样品的情况下进行的情形中。
[0313]
来自个体精子的染色体单倍型
[0314]
用通过对自个体精子获得的dna测序获得的全染色体单倍型进行实施例17的方法。
[0315]
实施例18:使用胚胎基因组预测来计算遗传复杂疾病的多基因风险得分
[0316]
基因组范围关联研究能够为诸如1型糖尿病,精神分裂症,克罗恩氏病,腹腔疾病,阿尔茨海默氏病等状况构建多基因风险得分模型。这些办法牵涉获取有疾病相关snp的观察优势比的基因组范围重要snp的列表并根据在个体中看到的一系列snp计算每个个体的“风险得分”。使用这种办法来计算同胞的多基因风险得分以模拟在ivf周期中比较同胞胚胎时看到的多基因风险得分。使用来自一个公众可得的家族的基因组序列,有12个同胞,两个父母和四个祖父母。将每个基因组变体文件(vcf文件)转换成plink文件,并对变体表使用plink

score命令以计算家庭中每个个体的多基因风险得分。计算每个同胞以及父母二人的多基因风险得分。还计算1000genomes队列中每个个体(约2500个个体)以及高加索个体子集(约200-300个个体)的多基因风险得分。对每个家庭成员的多基因风险得分比较它们的多基因风险得分与群体匹配(欧洲)个体组的多基因风险得分以确定该个体是高风险还是低风险。
[0317]
已经在纳入多个snp的高加索群体中建立了腹腔疾病的多基因风险得分(abraham et al.,2014;pmc pmc3923679)。该模型对腹腔疾病具有较高灵敏性,能计算该办法在某个prs阈值时的阴性预测值。假设有腹腔疾病的家族史,我们估算特定prs(小于-1)时的阴性预测值为99.4%。在计算每个个体的prs之后,两个个体具有小于此阈值的prs。在ivf背景中,我们估算可以选择这两个胚胎进行植入,疾病风险降低大约10倍。
[0318]
先前已经建立了阿尔茨海默氏病的多基因风险得分,并发现该得分与阿尔茨海默氏病的早期发作相关(desikan et al.,2017;pmc5360219;表2)。父母prs以深蓝色虚线显示。每个胚胎prs以灰色虚线显示。在计算每个个体的prs之后,预测多基因风险得分最低的
个体具有与多基因风险得分最高的胚胎相比降低的阿尔茨海默氏病风险(发作年龄中值87岁,而不是80岁)。
[0319]
表17:用于构建阿尔茨海默氏病的多基因风险得分的单核苷酸多态性
[0320][0321][0322]
实施例19:相关性计算
[0323]
使用胚胎基因型计算个体与不良遗传性状的相关性指数。例如,考虑母系祖父母有精神分裂症。步骤1:在推断来自实施例1和2的胚胎基因组之后,计算每个胚胎和受影响
个体的基因组之间的相关性。步骤2:选择与受影响个体的相关性最低的胚胎。
[0324]
实施例20:经由ibd(identity by descent,按血统分是身份)使用计算遗传相关性预测疾病风险
[0325]
实施例3的一种扩展,其中使用ibd代替疾病预测中受影响个体的遗传相关性。由于各种同胞胚胎会具有与受影响家族亲属不同的ibd,可以在prs得分以外还使用这种信息以进一步细化胚胎的疾病风险的概率。下面的例子假设疾病的风险在受影响个体的整个基因组中均匀传播,因此风险对于受影响个体的ibd程度是线性的。
[0326]
log(p/(1-p))=β_1*prs β_2*性别_男性 β_3*家族史_有 β_4*ibd_受影响个体。
[0327]
实施例21:共享基因组信息的区域
[0328]
鉴定两个个体之间的共享遗传信息的区域并选择不含有可提高孟德尔条件几率的纯合区域的胚胎。在血亲夫妻或具有共享遗传背景的夫妻中,后代有可能对于引起疾病的区域会是纯合的。由于具有已知疾病关联的基因在整个基因组中异质传播,因此可以通过避免基因组的已知引起疾病的区域内的纯合区域来最小化疾病。步骤1:确定父母二人之间共享遗传信息的区域。步骤2:计算每个胚胎中纯合区域的分数。步骤3:选择总体而言或跨越已知引起疾病的区域纯合区域最低的胚胎。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献