一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

使用基因组区域建模进行癌症分类的制作方法

2022-11-14 16:15:50 来源:中国专利 TAG:



背景技术:

1.脱氧核糖核酸(dna)甲基化在调节基因表达中起重要作用。异常的dna甲基化与许多疾病过程有关,包括癌症。使用甲基化定序(例如,全基因组亚硫酸盐定序(whole genome bisulfite sequencing,wgbs))进行dna甲基化分析逐渐被认为是检测、诊断及/或监测癌症的有价值的诊断工具。例如,差异甲基化区域的特定模式及/或等位基因特异性甲基化模式可用作使用循环游离(cell-free,cf)dna进行非侵入性诊断的分子标记。然而,本领域仍然需要用于分析来自游离dna的甲基化定序数据的改进方法,以用于检测、诊断及/或监测疾病,例如癌症。
2.本公开旨在解决上述这些挑战中的一个或多个。本文提供的背景描述是为了一般地呈现本公开的上下文。除非本文另有说明,否则本节中描述的材料不是本技术中权利要求的现有技术,也不允许通过包含在本节中而成为现有技术或现有技术的建议。


技术实现要素:

3.早期检测对象的疾病状态(例如:癌症)是重要的,因为它允许早期治疗,并且因此有更大的存活机会。游离(cell-free,cf)dna样品中dna片段的定序可用于识别可用于疾病分类的特征。例如,在癌症评估中,来自血液样品的基于游离dna的特征(例如存在或不存在体细胞变异、甲基化状态或是其他遗传异常)可以提供洞察对象是否可能患有癌症,以及进一步了解对象可能患有哪种类型的癌症以及癌症可能已经发展到什么阶段。为此,本说明书包括用于分析游离dna定序数据以确定对象患病似然(likelihood)的系统及方法。此描述可以通过提供获得用于确定对象的癌症状态的特征的系统及方法来解决背景中确定的缺点。
4.分析系统可以处理来自多个样品(例如,多个癌症及非癌症样品)的大量定序数据,以识别随后用于癌症分类的特征。借助定序数据,分析系统可以训练及配置癌症分类器,以生成测试样品的癌症预测。癌症分类器可以是使用机器学习算法训练的机器学习模型。
5.分析系统可以在样品的特征化中实现每个基因组区域的建模。通常,癌症分类过程可以实现多个区域模型、特征化模块及癌症分类器。也可以实施甲基化嵌入模型并将其应用于cfdna片段,以产生甲基化嵌入。每个区域模型可以应用于cfdna片段,以产生癌症分数,指示cfdna片段源自一癌症生物样品的一似然。选择性地或附加地,每个区域模型可以应用于cfdna片段(或其甲基化嵌入),以产生区域嵌入。可以将特征化模块应用于区域模型的输出,并且为样品生成一特征向量。在区域模型输出是癌症分数的实施方案中,特征化模块可以通过计算每个基因组区域中超过针对基因组区域确定的一阈值分数的片段来产生特征。在区域模型输出是区域嵌入的实施方案中,特征化模块可以池化(pool)区域嵌入,以生成特征向量。池化可以包括两个池化步骤:第一池化步骤,池化区域嵌入,以生成每个基
因组区域的一聚合区域向量,以及第二池化步骤,将基因组区域的聚合区域向量池化为特征向量。
6.甲基化嵌入模型、区域模型、特征化模块及癌症分类器可以是机器学习模型。因此,分析系统可以在训练癌症分类过程的每个组件时实施机器学习算法。例如,甲基化嵌入模型、区域模型、特征化模块及癌症分类器可以是神经网络、决策树、随机森林、回归、其他机器学习算法等。
7.分析系统可以使用训练样品训练癌症分类方法的组件。训练样品可以具有已知的癌症或是非癌症标记。此外,具有癌症的训练样品可以具有特定癌症类型的标记。分析系统可以独立或同时训练组件。
8.在配置期间,分析系统可以为测试样品生成特征向量。然后,分析系统将测试样品的特征向量输入到癌症分类器中,并且返回一癌症预测。癌症预测可以是癌症与非癌症之间的二元预测,例如患有癌症的似然。癌症预测可以是多种癌症类型之间的多类预测,例如,分类的每个癌症类型的一预测值。
附图说明
9.图1a是描述根据一个或多个实施方案对游离(cell-free,cf)dna的片段进行定序以获得甲基化状态向量的方法的示例性流程图;
10.图1b是图1a的根据一个或多个实施方案对游离dna的片段进行定序以获得甲基化状态向量的方法的图示;
11.图2a及图2b是描述根据一个或多个实施方案从样品中确定异常甲基化片段的方法的示例性流程图。
12.图3是根据一个或多个实施方案的癌症分类方法的示例性流程图;
13.图4a是描述根据一个或多个实施方案的独立训练基因组区域模型的方法的示例性流程图;
14.图4b是描述根据一个或多个实施方案的配置基因组区域模型的方法的示例性流程图;
15.图5是说明根据一个或多个实施方案的根据第一架构的测试样品的癌症分类的示例性流程图;
16.图6是描述根据一个或多个实施方案的图5中所示的癌症分类的方法的示例性流程图;
17.图7是说明根据一个或多个实施方案的根据第二架构的测试样品的癌症分类的示例性流程图;
18.图8是描述根据一个或多个实施方案的图7中所示的癌症分类的方法的示例性流程图;
19.图9a是根据一个或多个实施方案的用于对核酸样品进行定序的装置的示例性流程图;
20.图9b是根据一个或多个实施方案的分析系统的示例性框图;
21.图10是在示例实现中,在区域模型的训练期间使用的每个基因组区域中的核酸片段的数量的图示;
22.图11是根据示例实现的不同大小以及不同特异性阈值的神经网络的表现,每个神经网络使用超过30,000个dna片段来进行训练的图示;
23.图12是根据示例实现的不同大小以及不同特异性阈值的神经网络的表现,每个神经网络使用超过10,000个dna片段来进行训练的图示;
24.图13是根据示例实现的实现池化的端到端(pooled-end-to-end)训练的癌症分类方法的表现的图示;以及
25.图14a及图14b是根据示例实现的在癌症的各个分期实施池化的端到端(pooled-end-to-end)训练的癌症分类的表现的图示。
26.附图仅出于说明的目的而描绘了各种实施方案。本领域技术人员将从以下讨论中容易地认识到,在不偏离本文描述的原理的情况下,可以采用本文所示的结构及方法的替代实施方案。
具体实施方式
27.概述:
28.甲基化概述:
29.根据本说明书,来自个体的cfdna片段被处理,例如通过将未甲基化的胞嘧啶转化为尿嘧啶,进行定序并且将序列读取与参考基因组进行比较,以鉴定dna片段内特定cpg位点的甲基化状态。每个cpg位点可以被甲基化或未甲基化。与健康个体相比,异常甲基化片段的鉴定可以洞察对象的癌症状态。dna甲基化异常(与健康对照相比)会导致不同的影响,这可能会导致癌症。在异常甲基化cfdna片段的鉴定中出现了各种挑战。首先,与一组对照个体相比,确定异常甲基化的dna片段可以保持体重,因此如果对照组人数较少,则由于在较小规模的对照组内的统计变异性,此分析会失去信心。此外,在一组对照个体中,甲基化状态可能会有所不同,其在确定对象的dna片段是否异常甲基化时可能难以解释。另一方面,在cpg位点处胞嘧啶的甲基化可能会影响后续cpg位点的甲基化。封装这种依赖关系本身可能是另一个挑战。
30.当胞嘧啶碱基的嘧啶环上的氢原子转化为甲基时,甲基化通常可以发生在脱氧核糖核酸(dna)中,形成5-甲基胞嘧啶。特别地,甲基化可以发生在胞嘧啶及鸟嘌呤的二核苷酸处,在本文中称为“cpg位点”。在其他情况下,甲基化可以发生在不是cpg位点一部分的胞嘧啶或是另一不是胞嘧啶的核苷酸处;但是,这些情况很少见。在本公开内容中,为了清楚起见,参考cpg位点讨论甲基化。异常dna甲基化可被鉴定为高甲基化或低甲基化,这两者均可能指示癌症状态。在整个本公开中,如果dna片段包含多于阈值数量的cpg位点,并且超过阈值百分比的那些cpg位点被甲基化或未甲基化,则可以表征dna片段的高甲基化及低甲基化。
31.本文所述的原理同样适用于检测非cpg环境中的甲基化,包括非胞嘧啶甲基化。在这样的实施方案中,用于检测甲基化的湿实验室分析(wet laboratory assay)可以不同于本文所述的那些。此外,本文讨论的甲基化状态向量可以包含通常是发生或未发生甲基化的位点的元素(即使这些位点不是具体的cpg位点)。通过此替换,本文描述的其余过程可以相同,因此本文描述的发明概念可以适用于那些其他形式的甲基化。
32.定义:
33.术语“游离核酸(cell free nucleic acid)”或“cfna”是指在个体体内(例如:血液)循环,并且源自一种或多种健康细胞及/或源自一种或多种不健康细胞(例如:癌细胞)的核酸片段。术语“游离dna(cell free dna)”或“cfdna”是指在个体体内(例如:血液)循环的脱氧核糖核酸片段。此外,个体体内的cfna或是cfdna可以来自其他非人类来源。
34.术语“基因组核酸(genomic nucleic acid)”、“基因组dna”或是“gdna”是指从一个或多个细胞获得的核酸分子或是脱氧核糖核酸分子。在各种实施方案中,gdna可以从健康细胞(例如,非肿瘤细胞)或是肿瘤细胞(例如,活检样品(biopsy sample))取得。在一些实施方案中,gdna可以从源自血细胞群系(lineage)的细胞提取,例如白细胞。术语“循环肿瘤dna(circulating tumor dna)”或是“ctdna”是指源自肿瘤细胞或是其他类型癌细胞的核酸片段,并且可能由于生物过程释放到个体的体液(例如,血液、汗液、尿液或是唾液)中,例如,死亡细胞的凋亡或是坏死,或是通过活的肿瘤细胞主动释放。术语“dna片段”、“片段”或是“dna分子”通常可以指任何脱氧核糖核酸片段,即cfdna、gdna、ctdna等。
35.术语“异常片段(anomalous fragment)”、“异常甲基化片段(anomalously methylated fragment)”或是“具有异常甲基化模式的片段(fragment with an anomalous methylation pattern)”是指具有cpg位点的异常甲基化的片段。可以使用概率模型(probabilistic model)确定片段的异常甲基化,以识别在对照组中观察到片段的甲基化模式的意外情况。
36.术语“具有极端甲基化的异常片段(unusual fragment with extreme methylation)”或是“ufxm”是指低甲基化片段或是高甲基化片段。低甲基化片段以及高甲基化片段是指具有至少一些cpg位点(例如:5个)的片段,这些位点分别具有超过某个阈值百分比(例如:90%)的甲基化或是非甲基化。
37.如本文所用,术语“约(about)”或“约(approximately)”可以指在本领域普通技术人员确定的特定值的可接受误差范围内,其取决于如何测量或是确定值,例如,测量系统的限制。例如,根据本领域的实现,“约”可以表示在1个或1以上的标准差之内。“约”可以指给定值的
±
20%、
±
10%、
±
5%或
±
1%的范围。术语“约(about)”或“约(approximately)”可以表示在一数量级内、一值的5倍内或2倍内。若本技术及权利要求中描述了特定值,除非另有说明,否则可以假设术语“约”的含义在特定值的一可接受误差范围内。术语“约”可以具有本领域普通技术人员通常理解的含义。术语“约”可以指
±
10%。术语“约”可以指
±
5%。
38.如本文所用,术语“生物样品(biological sample)”、“患者样品(patient sample)”或“样品(sample)”是指从一对象采集的任何样品,其可以反映与对象相关的生物状态,并且包括游离dna。生物样品的示例包括但不限于对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。生物样品可以包括源自活的或死的对象身上的任何组织或材料。生物样品可以是游离(cell-free)样品。生物样品可以包含核酸(例如,dna或是rna)或其片段。术语“核酸”可指脱氧核糖核酸(dna)、核糖核酸(rna)或其任何杂交或是片段。样品中的核酸可以是游离核酸。样品可以是液体样品或固体样品(例如,细胞或组织样品)。生物样品可以是体液,如血液、血浆、血清、尿液、阴道液、来自鞘膜积液(例如睾丸的)的液体、阴道冲洗液、胸膜液、腹水、脑脊液、唾液、汗液、眼泪、痰、支气管肺泡灌洗液、乳头排出液、身体不同部位(例如甲状腺、乳腺)的抽吸液等。生物样品可以是粪便样品。在各种实施方案中,已富集游离dna的生物样品(例如,通过离心程序获得
的血浆样品)中的大部分dna可以是游离的(例如,大于50%、60%、70%、80%、90%、95%或99%的dna可以是游离的)。可对生物样品进行处理以物理破坏组织或细胞结构(例如,离心及/或细胞裂解),从而将细胞内的成分释放到溶液中,溶液可进一步包含可用于制备样品以供分析的酶、缓冲液、盐、洗涤剂等。
39.如本文所用,术语“癌症”或“肿瘤”是指异常的组织的肿块,其中肿块的生长超过正常组织的生长,并且与正常组织的生长不协调。根据以下特征,可以将癌症或肿瘤定义为“良性”或“恶性”:细胞分化程度,包括形态及功能、生长速度、局部侵犯(local invasion)及转移。良性肿瘤可以很好地分化,比恶性肿瘤生长缓慢,并且仍然局限于原发部位。此外,在某些情况下,良性肿瘤不具备浸润、侵犯或转移至远处部位的能力。恶性肿瘤可以是低分化(间变性(anaplasia)),特征为快速生长,并且伴随着周围组织的进行性浸润、侵犯及破坏。此外,恶性肿瘤可以具有转移到远处部位的能力。
40.如本文所用,术语“癌症状况(cancer condition)”是指样品关于癌症的状况,其中所述状况的每个潜在特征及/或测量是指癌症状况的“状态”。例如,样品可能具有“癌症”或是“非癌症”的癌症状况。选择性地,癌症状况可以是原发部位或起源组织,例如乳癌、肺癌、前列腺癌、结直肠癌、肾癌(renal cancer)、子宫癌、胰脏癌、食道癌、淋巴瘤、头/颈癌、卵巢癌、肝胆癌、黑色素瘤、子宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌及胃癌。癌症状况可以是癌症类型或某种癌症类型的肿瘤,或其一部分。癌症状况也可以是生存指标(survival metric),其可以是预定时间段内的预定的生存似然(likelihood)。来自单个对象的多个样品可以具有不同的癌症状况或是相同的癌症状况。多个对象可以具有不同的癌症状况或是相同的癌症状况。
41.如本文所用,术语“循环游离基因组图谱(circulating cell-free genome atlas)”或“ccga”被定义为观察性临床研究,其前瞻性地从新诊断出的癌症患者以及未诊断出癌症的对象收集血液及组织。此研究的目的是开发一种pan-cancer分类器,用于区分癌症以及非癌症,并且识别起源组织。实施例1提供了ccga研究的进一步详细信息。
42.如本文所用,术语“假阳性(false-positive,fp)”是指没有病症的对象。假阳性可以指没有肿瘤、癌症、癌前病症(例如:癌前病变((pre-cancerous lesion)))、局部或转移的癌症、非恶性疾病或是其他方面健康的对象。术语假阳性可以指没有病症,但是通过本公开的分析或方法被鉴定为具有病症的对象。如本文所用,术语“假阴性(false-negative,fn)”是指患有病症的对象。假阴性可以指患有肿瘤、癌症、癌前病症(例如:癌前病变)、局部或转移的癌症或是非恶性疾病的对象。术语“假阴性”可以指具有病症,但是通过本公开的分析或方法被鉴定为不具有病症的对象。
43.如本文所用,短语“健康的(healthy)”是指具有良好健康的对象。健康对象可以证明不存在任何恶性或非恶性疾病。“健康个体”可能患有与所检测的疾病无关的其他疾病或病症,所述疾病或是病症通常不被认为是“健康的”。
44.如本文所用,术语“甲基化(methylation)”是指脱氧核糖核酸(dna)的修饰,其中胞嘧啶碱基的嘧啶环上的氢原子被转化为甲基,形成5-甲基胞嘧啶。特别地,甲基化倾向发生在胞嘧啶及鸟嘌呤的二核苷酸(dinucleotides)处,本文称为“cpg位点”。在其他情况下,甲基化可能发生在不是cpg位点一部分的胞嘧啶或是另一个不是胞嘧啶的核苷酸上;但是,这些情况很少见。异常cfdna甲基化可被识别为高甲基化或低甲基化,这两者都可能表明癌
症状态。dna甲基化异常(与健康对照组相比)会导致不同的影响,其可能导致癌症。本文所述的原理同样适用于检测cpg环境及非cpg环境中的甲基化,包括非胞嘧啶甲基化。此外,甲基化状态向量可以包含通常是已经发生或未发生甲基化的位点的向量的元件(即使这些位点不是特定的cpg位点)。
45.如本文可互换使用的,术语“甲基化片段(methylation fragment)”或“核酸甲基化片段(nucleic acid methylation fragment)”是指通过核酸(例如,核酸分子及/或核酸片段)的甲基化定序来确定的多个cpg位点中的每个cpg位点的甲基化状态的序列。在甲基化片段中,核酸片段中每个cpg位点的位置及甲基化状态是基于序列读取(例如,从核酸的定序获得)与参考基因组的比对来确定。核酸甲基化片段包含多个cpg位点(例如:甲基化状态向量)中每个cpg位点的甲基化状态,其指定核酸片段在参考基因组中的位置(例如,通过使用cpg索引或其他类似度量的核酸片段中第一个cpg位点的位置来指定)以及核酸片段中cpg位点的数量。基于核酸分子的甲基化定序,序列读取与参考基因组的比对可以通过cpg索引进行。如本文所用,术语“cpg索引(cpg index)”是指参考基因组(例如:人类参考基因组)中多个cpg位点(例如:cpg 1、cpg 2、cpg 3等)中每个cpg位点的列表,其可以是电子格式。cpg索引还包括针对cpg索引中的每个相应cpg位点,对应参考基因组中对应的基因组位置。因此,每个相应核酸甲基化片段中的每个cpg位点均被索引到相应参考基因组中的特定位置,其可以通过cpg索引来确定。
46.如本文所用,术语“真阳性”(true positive,tp)是指患有病症的对象。“真阳性”可以指患有肿瘤、癌症、癌前病症(例如,癌前病变(pre-cancerous lesion))、局部或是转移的癌症或是非恶性疾病的对象。“真阳性”可以指对象患有病症,并且通过本公开的分析或方法被鉴定为患有此病症。如本文所用,术语“真阴性”(true negative,tn)是指不具有病症或不具有可检测到病症的对象。真阴性可以指没有疾病或是未检测到疾病的对象,疾病例如肿瘤、癌症、癌前病症(例如,癌前病变)、局部或是转移的癌症、非恶性疾病或是其他方面健康的对象。真阴性可以指不具有病症或未检测到病症,或是通过本公开的分析或方法被鉴定为不具有病症的对象。
47.如本文所用,术语“参考基因组(reference genome)”是指可用于参考来自对象的识别的序列的任何生物体或是病毒的任何特定已知、定序或是表征的基因组,并且无论是部分的或是完整的。用于人类对象以及许多其他生物的示例性参考基因组在由国家生物技术信息中心(national center for biotechnology information,ncbi)或是加利福尼亚大学圣克鲁兹分校(university of california,santa cruz,ucsc)托管的在线基因组浏览器中提供。“基因组(genome)”是指以核酸序列表达的生物体或是病毒的完整遗传信息。如本文所用,参考序列或是参考基因组可以是来自个体或是多个个体的组装或是部分组装的基因组序列。在一些实施方案中,参考基因组是来自一个或多个人类个体的组装或部分组装的基因组序列。参考基因组可以被视为一物种基因组的代表性例子。在一些实施方案中,参考基因组包含分配给染色体的序列。示例性人类参考基因组包括但不限于ncbi build 34(ucsc等效物(equivalent):hg16)、ncbi build 35(ucsc等效物:hg17)、ncbi build36.1(ucsc等效物:hg18)、grch37(ucsc等效物:hg19)和grch38(ucsc等效物:hg38)。
48.如本文所用,术语“序列读取(sequence read)”或“读取”是指通过本文所述或本领域已知的任何定序过程产生的核苷酸序列。读取可以从核酸片段的一端生成(单端读取
(single-end read)),并且有时可以从核酸的两端生成(例如,双端读取(paired-end read)、双端读取(double-end read)。在一些实施方案中,序列读取(例如,单端或双端读取)可以从靶向核酸片段的一条或两条链产生。序列读取的长度可以与特定的定序技术相关联。例如,高通量方法可以提供大小从几十个到几百个碱基对(bp)不等的序列读取。在一些实施方案中,序列读取的平均数、中值或平均长度为约15bp至900bp长(例如,约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp)。在一些实施方案中,序列读取的平均数、中值或平均长度为约1000bp、2000bp、5000bp、10,000bp或50,000bp或更多。例如,纳米孔定序(nanopore sequencing)可以提供大小从几十到几百到几千个碱基对不等的序列读取。illumina并行定序(illumina parallel sequencing)可以提供变化不大的序列读取,例如,大多数序列读取可以小于200bp。序列读取(或定序读取)可以指对应于核酸分子(例如,一串核苷酸)的序列信息。例如,序列读取可以对应于来自部分核酸片段的一串核苷酸(例如,约20至约150个),可以对应于核酸片段一端或两端的一串核苷酸,或是可以对应于整个核酸片段的核苷酸。序列读取可以通过多种方式来获得,例如,通过定序技术或使用探针,例如杂交阵列或捕获探针(capture probes),或是扩增技术,例如聚合酶链式反应(polymerase chain reaction,pcr),或是使用单一引子的线性扩增或等温扩增。
49.如本文所用,如本文所用的术语“定序(sequencing)”等通常是指可用于确定例如核酸或蛋白质之类的生物大分子的顺序的任何及所有生化过程。例如,定序数据可以包括核酸分子,例如dna片段中的全部或部分核苷酸碱基。
50.如本文所用,术语“定序深度(sequencing depth)”可与术语“覆盖(coverage)”互换使用,是指基因座被对应于与所述基因座比对的独特核酸靶(nucleic acid target)分子的共有序列读取覆盖的次数;例如,定序深度等于覆盖基因座的独特核酸靶分子的数量。基因组位置可以小到一个核苷酸,大到一个染色体臂,或是大到整个基因组。定序深度可以表示为“yx”,例如,50x、100x等,其中“y”是指基因组被对应于一核酸靶的一序列覆盖的次数;例如,获得覆盖特定基因组的独立序列信息的次数。在一些实施方案中,定序深度对应于已定序的基因组数量。定序深度也可以应用于多个基因座或整个基因组,在这种情况下,y可以分别指基因座、单倍体基因组或是整个基因组进行定序的平均数(mean)或是平均次数。当引用平均深度时,数据集中包含的不同基因座的实际深度可以跨越一系列值。超深度定序可以指在一基因座处的定序深度至少为100x。
51.如本文所用,术语“灵敏度(sensitivity)”或是“真阳性率(true positive rate,tpr)”是指真阳性的数量除以真阳性与假阴性的数量之和。灵敏度可以表征分析或方法正确识别真正患有某种疾病的族群的比例的能力。例如,灵敏度可以表征一种方法正确识别族群中患有癌症的对象的数量的能力。在另一个例子中,灵敏度可以表征一种方法正确识别一种或多种指示癌症的标志物(marker)的能力。
52.如本文所用,术语“特异性(specificity)”或“真阴性率(true negative rate,tnr)”是指真阴性的数量除以真阴性与假阳性的数量之和。特异性可以表征分析或方法正确识别真正未患有疾病的族群的比例的能力。例如,特异性可以表征一种方法正确识别族群中未患有癌症的对象的数量的能力。在另一个例子中,特异性表征一种方法正确识别一
种或多种指示癌症的标志物的能力。
53.如本文所用,术语“对象(subject)”是指任何活的或非活的有机体,包括但不限于人类(例如,男性人类、女性人类、胎儿、怀孕的女性、儿童等)、非人类动物、植物、细菌、真菌或原生生物。任何人类或非人类动物都可以作为对象,包括但不限于哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄类动物、反刍动物、牛(bovine)(例如:牛(cattle))、马(equine)(例如:马(horse))、山羊(caprine)及绵羊(ovine)(例如:绵羊(sheep)、山羊(goat))、猪(swine)(例如:猪(pig))、骆驼(camelid)(例如:骆驼(camel)、美洲驼(llama)、羊驼(alpaca))、猴子、猿(例如:大猩猩、黑猩猩)、熊(ursid)(例如:熊(bear))、家禽、狗、猫、老鼠、老鼠、鱼、海豚、鲸鱼及鲨鱼。在一些实施方案中,对象是任何阶段的男性或女性(例如,男性、女性或儿童)。从中获取样品或通过本文所述的任何方法或组合物治疗的对象可以是任何年龄并且可以是成人、婴儿或儿童。
54.如本文所用,术语“组织”可以对应于作为功能单元组合在一起的一组细胞。在单个组织中可以发现不止一种类型的细胞。不同类型的组织可能包括不同类型的细胞(例如,肝细胞、肺泡细胞或血细胞),但也可以对应于来自不同生物体的组织(母亲与胎儿)或健康细胞与肿瘤细胞。术语“组织”通常可以指在人体中发现的任何细胞组(例如,心脏组织、肺组织、肾组织、鼻咽组织、口咽组织)。在一些方面,术语“组织”或“组织类型”可用于指代游离核酸来源的组织。在一个例子中,病毒核酸片段可以来源于血液组织。在另一个例子中,病毒核酸片段可以来源于肿瘤组织。
55.如本文所用,术语“基因组(genomic)”是指一生物体的基因组的特征。基因组特征的例子包括与以下各项相关的基因组特征:全部或部分基因组的一级核酸序列(primary nucleic acid sequence)(例如,是否存在核苷酸多态性(nucleotide polymorphism)、插入缺失(indel)、序列重排、突变频率等)、基因组内一个或多个特定核苷酸序列的拷贝数(例如,拷贝数、等位基因频率分数、单染色体或整个基因组倍性等)、全部或部分基因组的表观遗传状态(例如,共价核酸修饰,例如甲基化、组蛋白修饰、核小体定位等)、生物体基因组的表达谱(例如,基因表达水平、同种型表达水平、基因表达比率等)。
56.本文使用的术语仅出于描述特定情况的目的,并不旨在进行限制。如本文所用,除非上下文另有明确指示,单数形式“一(a)”、“一(an)”及“所述(the)”旨在也包括复数形式。此外,在详细描述及/或权利要求中使用的术语“包括(including)”、“包括(includes)”、“具有(having)”、“具有(has)”、“具有(with)”或其变体的范围内,这些术语旨在以类似于“包含”一词的方式包含在内。
57.样品处理:
58.为dna片段生成甲基化状态向量:
59.图1a是描述根据一个或多个实施方案的一种对游离(cell-free,cf)dna片段进行定序,以获得甲基化状态向量的方法100的示例性流程图。为了分析dna甲基化,分析系统首先从个体获得110包含多个cfdna分子的样品。一般而言,样品可以来自健康个体、已知患有或怀疑患有癌症的对象,或是未知先验信息的对象。测试样品可以是选自于由血液、血浆、血清、尿液、粪便及唾液样品所组成的群组的样品。或者,测试样品可以包括选自于由全血、血液组分(例如,白细胞)、组织活检、胸膜液、心包液、脑脊髓液及腹膜液所组成的群组的样品。在其它实施方案中,方法100可以应用于对其他类型的dna分子进行定序。
60.从样品中,分析系统可以分离每个cfdna分子。cfdna分子可以被处理,以将未甲基化的胞嘧啶转化为尿嘧啶。在一个实施方案中,此方法使用亚硫酸盐处理dna,将未甲基化的胞嘧啶转化为尿嘧啶,而不转化甲基化的胞嘧啶。例如,商业试剂盒可用于亚硫酸盐转化,例如ez dna methylation
tm-gold、ez dna methylationtm-direct及ez dna methylationtm-lightning kit(可从zymo research corp(加利福尼亚州尔湾市(irvine,ca))获得)。在另一实施方案中,未甲基化胞嘧啶向尿嘧啶的转化是通过酶促反应完成的。例如,转化可以使用商业试剂盒来将未甲基化胞嘧啶转化为尿嘧啶,例如apobec seq(可从马萨诸塞州伊普斯威奇(ipswich,ma)nebiolabs获得)。
61.从转化的cfdna分子,可以制备定序文库130。在文库制备期间,通过接头连接(adapter ligation)将唯一分子标识符(unique molecular identifiers,umi)添加到核酸分子(例如:dna分子)。唯一分子标识符是短核酸序列(例如,4至10个碱基对),在接头连接过程中添加到dna片段的末端(例如,通过物理剪切、酶消化及/或化学片段化的dna分子)。唯一分子标识符可以是简并碱基对,用作唯一的标记,可用于识别源自特定dna片段的序列读取。在接头连接后的pcr扩增过程中,唯一分子标识符可以与连接的dna片段一起复制。这可以提供一种在下游分析中识别来自相同原始片段的序列读取的方法。
62.可选地,定序文库可以使用多个杂交探针富集135个cfdna分子或基因组区域,这些分子或基因组区域可提供癌症状态的信息。杂交探针可以是能够与特别指定的cfdna分子或靶向区域杂交并且富集那些片段或区域以用于后续定序及分析的短寡核苷酸。杂交探针可以用于对一组研究人员感兴趣的特定cpg位点进行有针对性的高深度分析。杂交探针可以以1x、2x、3x、4x、5x、6x、7x、8x、9x、10x或超过10x的覆盖率平铺(tiled across)在一个或多个靶序列上。例如,以2x的覆盖率平铺的杂交探针包含重叠探针,使得靶序列的每个部分与2个独立的探针杂交。杂交探针可以覆盖一个或多个靶序列,且覆盖率小于1x。
63.在一个实施方案中,杂交探针被设计为富集已被处理(例如,使用亚硫酸盐)的dna分子,以将未甲基化的胞嘧啶转化为尿嘧啶。在富集过程中,杂交探针(在本文中也称为“探针”)可用于靶向及提取核酸片段,以了解癌症(或疾病)的存在与否、癌症状态或癌症分类(例如,癌症类型或起源组织)。探针可以设计为与靶向(互补)dna链退火(anneal)(或杂交)。靶向链可以是“正”链(例如,转录成mrna并随后转译成蛋白质的链)或互补的“负”链。探针的长度范围可以从10s、100s或1000s碱基对不等。可以基于甲基化位点组(panel)设计探针。可以基于一组靶向基因设计探针,以分析怀疑对应于某些癌症或其他类型疾病的基因组(例如,人类或其他生物体)的特定突变或是靶向区域。此外,探针可以覆盖靶向区域的重叠部分。
64.一旦制备好,定序文库或其一部分可以被定序,以获得多个序列读取。序列读取可以是用于计算机软件处理以及解释的计算机可读数字格式。可以将序列读取与参考基因组比对,以确定比对位置信息。比对位置信息可以指示参考基因组中对应于给定序列读取的开始核苷酸碱基以及终止核苷酸碱基的区域的起始位置以及终止位置。比对位置信息还可以包括序列读取长度,其可以从起始位置以及终止位置确定。参考基因组中的一区域可以与一基因或一基因片段相关联。序列读取可以由表示为r1及r2的一读取对组成。例如,第一读取r1可以从核酸片段的第一端被定序,而第二读取r2可以从核酸片段的第二端被定序。因此,第一读取r1以及第二读取r2的核苷酸碱基对可以与参考基因组的核苷酸碱基一致地(例
如,以相反的方向)进行比对。源自读取对r1及r2的比对位置信息可以包括参考基因组中对应于第一读取(例如,r1)的末端的起始位置,以及参考基因组中对应于第二读取的末端的终止位置(例如,r2)。换言之,参考基因组中的起始位置以及终止位置可以代表参考基因组中核酸片段对应的可能位置。可以生成并输出具有sam(序列比对图)格式或bam(二元)格式的输出文件,用于进一步分析,例如甲基化状态确定。
65.从序列读取,分析系统基于与参考基因组的比对来确定150每个cpg位点的位置以及甲基化状态。分析系统为每个片段生成160甲基化状态向量,其指明片段在参考基因组中的位置(例如,由每个片段中的第一个cpg位点的位置或另一个类似度量来指明),片段中cpg位点的数量,以及片段中的每个cpg位点的甲基化状态是否甲基化(例如,表示为m)、未甲基化(例如,表示为u)或是不确定(例如,表示为i)。观察到的状态可以是甲基化以及未甲基化的状态;而未观察到的状态是不确定的。不确定的甲基化状态可能源于定序错误及/或dna片段互补链的甲基化状态之间的分歧。甲基化状态向量可以存储在临时或持久的计算机存储器中,以供以后使用及处理。此外,分析系统可以从单个样品中去除重复读取或重复甲基化状态向量。分析系统可以确定具有1个或多个cpg位点的特定片段具有超过阈值数量或百分比的不确定甲基化状态,并且可以排除此类片段或是选择性地包括此类片段但构建说明此类不确定甲基化状态的模型。
66.图1b是图1a的根据一个或多个实施方案对cfdna分子进行定序以获得甲基化状态向量的方法100的图示。作为实施例,分析系统接收包含三个cpg位点的cfdna分子112。如图所示,cfdna分子112的第1个以及第三个cpg位点被甲基化114。在处理步骤120期间,cfdna分子112被转化以产生转化的cfdna分子122。在处理120期间,未甲基化的第二个cpg位点将其胞嘧啶转化为尿嘧啶。但是,第一个以及第三个cpg位点可以不被转换。
67.在转换之后,定序文库130被制备并定序140,以产生序列读取142。分析系统将序列读取142与参考基因组144比对150。参考基因组144提供关于cfdna片段源自人类基因组中的哪个位置的背景。在此简化的实施例中,分析系统比对150序列读取142,使得三个cpg位点与cpg位点23、24及25相关(为了描述方便,使用任意附图标记)。分析系统因而可以生成关于cfdna分子上所有cpg位点的甲基化状态112以及cpg位点映射到的人类基因组中的位置的信息。如图所示,序列读取142上被甲基化的cpg位点被读取为胞嘧啶。在此实施例中,胞嘧啶出现在第一个及第三个cpg位点的序列读取142中,其允许推断出原始cfdna分子中的第一个及第三个cpg位点被甲基化。然而,第二个cpg位点可以被解读为胸腺嘧啶(在定序过程中u被转换为t),因此,可以推断出第二个cpg位点在原始cfdna分子中是未甲基化的。利用这两条信息,甲基化状态及位置,分析系统针对片段cfdna112生成160甲基化状态向量152。在此实施例中,得到的甲基化状态向量152是《m
23
、u
24
、m
25
》,其中m对应于甲基化的cpg位点,u对应于未甲基化的cpg位点,并且下标符号对应于参考基因组中每个cpg位点的位置。
68.一个或多个替代定序方法可以用于从生物样品中的核酸获得序列读取。一个或多个定序方法可以包括可用于获得从核酸(例如:游离核酸)测量的序列读取的数量的任何形式的定序,包括但不限于高通量定序系统,例如,roche 454平台、applied biosystems solid平台、helicos true single molecule dna定序技术、affymetrix股份有限公司的杂交定序平台(sequencing-by-hybridization platform)、pacific biosciences的单分子
实时定序(single molecule real time sequencing,smrt)技术、454life sciences、illumina/solexa及helicos biosciences的合成定序平台(sequencing-by-synthesis platform),以及applied biosystems的连接定序平台(sequencing-by-ligation platform)。life科技(life technologies)的ion torrent技术以及nanopore定序也可用于从生物样品中的核酸(例如,游离核酸)中获取序列读取。合成定序(sequencing-by-synthesis)以及可逆终止子基础的定序(reversible terminator-based sequencing)(例如,illumina's genome analyzer;genome analyzer ii;hiseq 2000;hiseq 2500(illumina,圣迭戈,加利福尼亚州)可用于从获自训练对象的生物样品的游离核酸获得序列读取,以形成基因型数据集。数百万个游离核酸(例如:dna)片段可以并行定序。在此类定序技术的一个实施例中,使用了流动池(flow cell),所述流动池包含光学透明的载玻片,在其表面上具有8个单独的通道(lane),这些通道是结合的寡核苷酸锚(oligonucleotide anchor)(例如:接头引子(adaptor primer))。游离核酸样品可以包括促进检测的信号或是标记。从获自生物样品的游离核酸获取的序列读取可以包括通过多种技术获得信号或是标记的量化信息,所述技术例如流式细胞术、定量聚合酶链式反应(quantitative polymerase chain reaction,qpcr)、凝胶电泳、基因芯片分析、微阵列、质谱、细胞荧光分析、荧光显微镜、共聚焦显微成像技术、激光扫描细胞仪、亲和色谱法、手动分批模式分离(manual batch mode separation)、电场悬浮、定序及其组合。
69.一个或多个定序方法可以包括全基因组定序分析(whole-genome sequencing assay)。全基因组定序分析可以包括为整个基因组或整个基因组的大部分生成序列读取的物理分析,其可用于确定大的变异,例如拷贝数变异(variation)或拷贝数畸变(aberration)。这种物理分析可以采用全基因组定序技术或全外显子组定序技术。全基因组定序分析在测试对象的基因组中可以具有至少1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、至少20x、至少30x或是至少40x的平均定序深度。在一些实施方案中,定序深度为约30,000x。一个或多个定序方法可以包括靶向组定序分析(targeted panel sequencing assay)。靶向组定序分析对于靶向组基因可以具有至少50,000x、至少55,000x、至少60,000x或至少70,000x定序深度的平均定序深度。靶向基因组可以包含450至500个基因。靶向基因组可以包含500
±
5个基因、500
±
10个基因或是500
±
25个基因。
70.一个或多个定序方法可以包括双端定序(paired-end sequencing)。一个或多个定序方法可以产生多个序列读取。多个序列读取可以具有10至600、50至400或是100至300的平均长度。一个或多个定序方法可以包括甲基化定序分析。甲基化定序可以是:(i)全基因组甲基化定序;或是(ii)使用多个核酸探针的靶向dna甲基化定序。例如,甲基化定序是全基因组亚硫酸盐定序(例如:wgbs)。甲基化定序可以是使用多个核酸探针靶向甲基化组的信息量最大的区域的靶向dna甲基化定序、独特的甲基化数据库以及先前的原型全基因组及靶向定序分析(prior prototype whole-genome and targeted sequencing assay)。
71.甲基化定序可以检测一个或多个5-甲基胞嘧啶(5mc)及/或5-羟甲基胞嘧啶(5hmc)。甲基化定序可以包括将一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶转化为相应的一个或多个尿嘧啶。可以在甲基化定序期间将一个或多个尿嘧啶检测为一个或多个相应的胸腺嘧啶。一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶的转化可以包括化学转化、酶促转化或其组合。
72.例如,亚硫酸盐转化涉及将胞嘧啶转化为尿嘧啶,同时保持甲基化胞嘧啶(例如,5-甲基胞嘧啶或5-mc)完整。在一些dna中,约95%的胞嘧啶在dna中可以没有甲基化,因此产生的dna片段可以包括许多以胸腺嘧啶为代表的尿嘧啶。酶促转化过程可用于在定序之前处理核酸,其可以以各种方式进行。无亚硫酸盐转化的一个实施例包括无亚硫酸盐与碱基分辨定序方法,tet辅助吡啶硼烷定序(tet-assisted pyridine borane sequencing,taps),用于无损并且直接检测5-甲基胞嘧啶及5-羟甲基胞嘧啶而不影响未修饰的胞嘧啶。当通过甲基化定序确定cpg位点被甲基化时,相应核酸甲基化片段中的对应的多个cpg位点中的一cpg位点的甲基化状态可以被甲基化,并且当通过甲基化定序确定cpg位点未被非甲基化时,相应核酸甲基化片段中的对应的多个cpg位点中的一cpg位点的甲基化状态可以不被甲基化。
73.甲基化定序分析(例如,wgbs及/或靶向甲基化定序)可以具有一平均定序深度,包括但不限于高达约1,000x、2,000x、3,000x、5,000x、10,000x、15,000x、20,000x或是30,000x。甲基化定序可以具有大于30,000x,例如至少40,000x或是50,000x的定序深度。全基因组亚硫酸盐定序方法的平均定序深度可以在20x至50x之间,而靶向甲基化定序方法的平均有效深度可以在100x至1000x之间,其中有效深度可以是等效的全基因组亚硫酸盐定序覆盖度,以获得通过靶向甲基化定序获得的相同数量的序列读取。
74.关于甲基化定序(例如,wgbs及/或靶向甲基化定序)的更多细节,参见例如,2019年3月13日提交的标题为“异常片段检测及分类(anomalous fragment detection and classification)”的美国专利申请第16/352,602号,以及2019年12月18日提交的标题为“使用甲基化信息估计细胞源分数的系统和方法(systems and methods for estimating cell source fractions using methylation information)”的美国专利申请第16/719,902号,其均通过引用并入本文。用于甲基化定序的其他方法,包括本文公开的那些及/或其任何修饰、取代或组合,可用于获得片段甲基化模式。甲基化定序可以用于鉴定一个或多个甲基化状态向量,例如在2019年3月13日提交的标题为“异常片段检测及分类(anomalous fragment detection and classification)”的美国专利申请第16/352,602号中或是根据2019年5月13日提交的标题为“基于模型的特征化及分类(model-based featurization and classification)”的美国临时专利申请第62/847,223号、现于2020年5月13日提交的标题为“基于模型特征化及分类(model-based featurization and classification)”的美国临时专利申请第15/931,022号,其均通过引用并入本文。
75.核酸的甲基化定序和所得的一个或多个甲基化状态向量可用于获得多个核酸甲基化片段。每个对应的多个核酸甲基化片段(例如,对于每个相应基因型数据集)可以包含超过100个核酸甲基化片段。每个对应的多个核酸甲基化片段的核酸甲基化片段的平均数量可以包含1000个或更多核酸甲基化片段、5000个或更多核酸甲基化片段、10,000个或更多核酸甲基化片段、20,000个或更多核酸甲基化片段,或是30,000个或更多核酸甲基化片段。每个对应的多个核酸甲基化片段的核酸甲基化片段的平均数量可以在10,000个核酸甲基化片段至50,000个核酸甲基化片段之间。对应的多个核酸甲基化片段可以包含一千或更多、一万或更多、十万或更多、一百万或更多、一千万或更多、一亿或更多、五亿或更多、十亿或更多,二十亿或更多、三十亿或更多、四十亿或更多、五十亿或更多、六十亿或更多、七十亿或更多、八十亿或更多、九十亿或更多、或一百亿或更多核酸甲基化片段。对应的多个核
酸甲基化片段的平均长度可以在140至280个核苷酸之间。
76.2020年3月4日提交的标题为“使用自动编码器确定癌症状况的系统及方法(systems and methods for cancer condition determination using autoencoders)”的美国专利申请第62/985,258号中公开了关于对核酸及甲基化定序数据进行定序的方法的更多细节,其在此整体通过引用并入本文。
77.识别异常片段:
78.分析系统可以使用样品的甲基化状态向量来确定样品的异常片段。对于样品中的每个片段,分析系统可以使用对应于片段的甲基化状态向量来确定片段是否为异常片段。在一些实施方案中,分析系统计算每个甲基化状态向量的p值分数,其描述在健康对照组中观察到甲基化状态向量或是其他甲基化状态向量的概率甚至更小。计算p值分数的方法将在以下的p值过滤中进一步讨论。分析系统可以将具有低于阈值p值分数的甲基化状态向量的片段确定为异常片段。在一些实施方案中,分析系统进一步将具有至少有一些cpg位点的甲基化或非甲基化超过某个阈值百分比的片段分别标记为高甲基化片段及低甲基化片段。高甲基化片段或低甲基化片段也可称为具有极端甲基化(ufxm)的异常片段。在一些实施方案中,分析系统可以实施用于确定异常片段的各种其他概率模型。其他概率模型的示例包括混合模型、深度概率模型等。在一些实施方案中,分析系统可以使用下文描述的方法的任何组合来识别异常片段。利用所识别的异常片段,分析系统可以过滤样品的甲基化状态向量集,以用于其他方法,例如,用于训练及配置癌症分类器。
79.p值过滤:
80.在一些实施方案中,分析系统计算每个甲基化状态向量与来自健康对照组中的片段的甲基化状态向量相比的p值分数。p值分数可以描述在健康对照组中观察到与甲基化状态向量或其他甲基化状态向量匹配的甲基化状态的概率甚至更小。为了确定异常甲基化的dna片段,分析系统可以使用具有大部分正常甲基化片段的健康对照组。当进行此用于确定异常片段的概率分析时,与构成健康对照组的对照组相比,确定可以保持权重。为了确保健康对照组的稳健性,分析系统可以选择健康个体的一些阈值数量来获取包括dna片段在内的样品。图2a描述了为健康对照组生成数据结构的方法,分析系统可以利用此数据结构计算p值分数。图2b描述了使用生成的数据结构计算p值分数的方法。
81.图2a是描述根据实施方案的为健康对照组生成数据结构的方法200的流程图。为了创建健康对照组数据结构,分析系统可以接收来自多个健康个体的多个dna片段(例如:cfdna)。可以为每个片段鉴定甲基化状态向量,例如通过方法100。
82.利用每个片段的甲基化状态向量,分析系统可以将甲基化状态向量细分205成cpg位点串(string)。在一些实施方案中,分析系统细分205甲基化状态向量,使得结果串都小于给定长度。例如,长度为11的甲基化状态向量可以细分为长度小于或等于3的串,其会产生9个长度为3的串、10个长度为2的串以及11个长度为1的串。在另一实施例中,将长度为7的甲基化状态向量细分为长度小于或等于4的串会产生长度为4的4串、5个长度为3的串、6个长度为2的串以及7个长度为1的串。如果甲基化状态向量的长度小于或等于特定的串长度,则甲基化状态向量可以转换为包含此向量的所有cpg位点的单个串。
83.对于向量中每个可能的cpg位点以及甲基化状态的可能性,分析系统通过对具有指定cpg位点作为串中的第一cpg位点并且具有甲基化状态的可能性的对照组中所存在的
probability)),给定观察到的甲基化状态序列(例如:甲基化模式)的初始训练数据集。hmm可以使用监督训练(例如,使用基础序列及观察状态已知的样品)及/或无监督训练(例如,viterbi学习、最大似然(likelihood)估计、期望最大化训练(expectation-maximization training)及/或baum-welch训练)。在其他实施方案中,使用除markov链概率之外的计算方法来确定观察到甲基化状态向量的每个可能性的概率。例如,这种计算方法可以包括学习表示。p值阈值可以介于0.01至0.1之间,或是介于0.03至0.06之间。p值阈值可以是0.05。p值阈值可以小于0.01、小于0.001或是小于0.0001。
88.分析系统使用每个可能性的计算的概率来计算250甲基化状态向量的p值分数。在一些实施方案中,这包括识别与匹配所讨论的甲基化状态向量的可能性相对应的计算的概率。具体而言,这可以是具有与甲基化状态向量相同的一组cpg位点或是类似的起始cpg位点及长度的可能性。分析系统可以对具有小于或等于所识别的概率的概率的任何可能性的计算的概率求和,以生成p值分数。
89.此p值可以表示在健康对照组中观察到片段的甲基化状态向量或其他甲基化状态向量的概率,甚至更小。因此,低p值分数通常可以对应于甲基化状态向量,其在健康个体中是罕见的,并且相对于健康对照组,这会导致片段被标记为异常甲基化。高p值分数通常与甲基化状态向量相关,在相对意义上,预期存在于健康个体中。例如,如果健康对照组是非癌性组,则低p值可以表明此片段相对于非癌性组是异常甲基化的,因此可能表明测试对象中存在癌症。
90.如上所述,分析系统可以计算多个甲基化状态向量中的每一个的p值分数,每个甲基化状态向量代表测试样品中的cfdna片段。为了识别哪些片段被异常甲基化,分析系统可以基于它们的p值分数过滤260甲基化状态向量集。在一些实施方案中,通过将p值得分与阈值进行比较,并且仅将那些片段保持在阈值以下来执行过滤。此阈值p值分数可以是0.1、0.01、0.001、0.0001或是类似的数量级。
91.根据来自方法220的实施例结果,分析系统可以针对在训练中没有癌症的参与者产生一中值(范围)为2,800(1,500至12,000)个具有异常甲基化模式的片段,以及在训练中患有癌症的参与者产生一中值(范围)为3,000(1,200-220,000)个具有异常甲基化模式的片段。这些过滤后的具有异常甲基化模式的片段集可用于下游分析,如下文所述。
92.在一些实施方案中,分析系统使用255滑动窗口来确定甲基化状态向量的可能性并且计算p值。分析系统不是枚举可能性及计算整个甲基化状态向量的p值,而是仅枚举连续cpg位点窗口的可能性并且计算p值,其中窗口的长度(cpg位点)比至少一些片段短(否则,窗口将无用)。窗口长度可以是静态的、用户确定的、动态的或是以其他方式选择的。
93.在计算大于窗口的甲基化状态向量的p值时,窗口可以从窗口内的向量识别出从向量中的第一个cpg位点开始的连续的一组cpg位点。分析系统可以计算包括第一个cpg位点的窗口的p值分数。然后,分析系统可以将窗口“滑动(slide)”到向量中的第二个cpg位点,并且计算第二个窗口的另一个p值分数。因此,对于窗口大小l以及甲基化向量长度m,每个甲基化状态向量可以生成m-l 1p值分数。在完成向量每个部分的p值计算后,所有滑动窗口中的最低p值分数可以作为甲基化状态向量的总体p值分数。在一些实施方案中,分析系统聚合甲基化状态向量的p值分数,以生成总体p值分数。
94.使用滑动窗口可以帮助减少甲基化状态向量的枚举可能性及其对应的概率计算,
否则这些计算会需要被执行。举一个现实的例子,片段可能有超过54个cpg位点。代替计算2^54(~1.8
×
10^16)可能性的概率来生成单个p分数,分析系统可以改为使用大小为5的窗口(例如),其导致片段的甲基化状态向量的50个窗口中的每个窗口都有50个p值计算。50个计算中的每一个都可以枚举2^5(32)种甲基化状态向量的可能性,总共产生50
×
2^5(1.6
×
10^3)个概率计算。这可以使得要执行的计算大幅减少,而对异常片段的准确识别没有任何意义。
95.在具有不确定状态的实施方案中,分析系统可以计算p值分数,将片段的甲基化状态向量中具有不确定状态的cpg位点相加。分析系统可以识别与甲基化状态向量的所有甲基化状态一致的所有可能性,不包括不确定状态。分析系统可以将概率分配给甲基化状态向量,作为识别的可能性的概率之和。作为示例,分析系统可以计算《m1,i2,u3》的甲基化状态向量的概率,作为《m1,m2,u3》及《m1,u2,u3》的甲基化状态向量的可能性的概率之和,因为观察到cpg位点1至3的甲基化状态,并且与cpg位点1至3的片段的甲基化状态一致。这种对具有不确定状态的cpg位点求和的方法可以使用高达2^i的可能性的概率的计算,其中i表示甲基化状态向量中的不确定状态的数量。在另外的实施方案中,可以实施动态规划(dynamic programming)算法来计算具有一个或多个不确定状态的甲基化状态向量的概率。有利地,动态规划算法可以在线性计算时间内运行。
96.在一些实施方案中,可以通过缓存(caching)至少一些计算来进一步减少计算概率及/或p值分数的计算负担。例如,分析系统可以将甲基化状态向量(或其窗口)的可能性的概率计算缓存在暂时或持久内存中。如果其他片段具有相同的cpg位点,则缓存可能性概率可以允许有效计算p分数值,而无需重新计算潜在的可能性概率。等效地,分析系统可以计算与来自向量(或其窗口)的一组cpg位点相关联的甲基化状态向量的每个可能性的p值分数。分析系统可以缓存p值分数,以用于确定包括相同cpg位点的其他片段的p值分数。通常,具有相同cpg位点的甲基化状态向量的可能性的p值分数可以用于确定来自同一组cpg位点的不同可能性的p值分数。
97.可以在训练区域模型或癌症分类器之前过滤一个或多个核酸甲基化片段。过滤核酸甲基化片段可以包括从对应的多个核酸甲基化片段中去除不满足一个或多个选择标准(例如,低于或高于一个选择标准)的每个相应核酸甲基化片段。一个或多个选择标准可以包括一p值阈值。可以至少部分地基于相应核酸甲基化片段的对应的甲基化模式与具有相应核酸甲基化片段的对应的多个cpg位点的健康非癌症群组数据集中的那些核酸甲基化片段的甲基化模式的对应分布的一比较,来确定相应核酸甲基化片段的输出p值。
98.过滤多个核酸甲基化片段可以包括去除不满足p值阈值的每个相应核酸甲基化片段。可以使用在第一多个核酸甲基化片段中观察到的甲基化模式来将过滤应用于每个相应核酸甲基化片段的甲基化模式。每个相应核酸甲基化片段(例如,片段1、

、片段n)的每个相应甲基化模式可以包含使用甲基化位点标识符以及对应的甲基化模式标识的对应的一个或多个甲基化位点(例如,cpg位点),表示作为1’s及0’s的序列,其中每个“1”代表一个或多个cpg位点中的甲基化cpg位点,并且每个“0”代表一个或多个cpg位点中的未甲基化cpg位点。在第一多个核酸甲基化片段中观察到的甲基化模式可以用于构建由第一多个核酸甲基化片段共同代表的cpg位点状态的甲基化状态分布(例如,cpg位点a、cpg位点b、

,cpg位点zzz)。关于核酸甲基化片段的处理的更多细节公开在于2020年3月4日提交的标题为“使
用自动编码器确定癌症状况的系统及方法(systems and methods for cancer condition determination using autoencoders)”的美国专利申请第62/985,258号中,其通过引用整体并入本文。
99.当对应的核酸甲基化片段具有小于异常甲基化分数阈值的异常甲基化分数时,相应核酸甲基化片段可以不满足一个或多个选择标准中的选择标准。在这种情况下,异常甲基化评分可以通过一混合模型来确定。例如,基于相同长度以及相同对应基因组位置的可能甲基化状态向量的数量,通过确定相应核酸甲基化片段的甲基化状态向量(例如:甲基化模式)的可能性,混合模型可以检测核酸甲基化片段中的异常甲基化模式。这可以通过在参考基因组中的每个基因组位置为指定长度的向量生成多个可能的甲基化状态来执行。使用多个可能的甲基化状态,可以确定总的可能甲基化状态的数量以及随后在基因组位置处每个预测的甲基化状态的概率。然后可以通过将样品核酸甲基化片段与一预测的(例如,可能的)甲基化状态匹配并取得预测的甲基化状态的计算概率来确定样品核酸甲基化片段对应于参考基因组内的基因组位置的似然。然后,可以基于样品核酸甲基化片段的概率计算异常甲基化分数。
100.当相应核酸甲基化片段具有小于阈值数量的残基时,相应核酸甲基化片段可以无法满足一个或多个选择标准中的选择标准。残基的阈值数量可以在10至50之间、50至100之间、100至150之间或是超过150个。残基的阈值数目可以是20至90之间的一固定值。当相应核酸甲基化片段具有小于阈值数量的cpg时,相应核酸甲基化片段可以不满足一个或多个选择标准中的选择标准。cpg位点的阈值数量可以是4、5、6、7、8、9或10。当相应核酸甲基化片段的基因组起始位置以及基因组终止位置表明相应核酸甲基化片段代表人类基因组参考序列中少于阈值数量的核苷酸时,相应核酸甲基化片段可以不满足一个或多个选择标准中的选择标准。
101.过滤可以去除对应的多个核酸甲基化片段中与对应的多个核酸甲基化片段中的另一个核酸甲基化片段具有相同的对应的甲基化模式以及相同的对应的基因组起始位置及基因组终止位置的核酸甲基化片段。此过滤步骤可以去除完全重复的冗余片段,在某些情况下包括pcr重复。过滤可以去除与对应的多个核酸甲基化片段中的另一个核酸甲基化片段具有相同的对应的基因组起始位置以及基因组终止位置并且不同甲基化状态的阈值数量少于阈值数量的核酸甲基化片段。用于保留核酸甲基化片段的不同甲基化状态的阈值数量可以是1、2、3、4、5或大于5。例如,第一核酸甲基化片段,具有与第二核酸甲基化片段相同的对应的基因组起始以及终止位置,但是在对应的cpg位点具有至少1个、至少2个、至少3个、至少4个或是至少5个不同的甲基化状态(例如,与参考基因组相比),被保留。作为另一个实施例,第一核酸甲基化片段,具有与第二核酸甲基化片段相同的甲基化状态向量(例如,甲基化模式)但是不同的对应的基因组起始以及终止位置也被保留。
102.过滤可以去除多个核酸甲基化片段中的测定伪影(artifact)。去除测定伪影可以包括去除从定序杂交探针获得的序列读取及/或从在亚硫酸氢转化期间未能经历转化的序列获得的序列读取。过滤可以去除污染物(例如,由于定序、核酸分离及/或样品制备)。
103.基于针对多个训练对象的癌症状态的相应甲基化片段的互信息过滤,过滤可以从多个甲基化片段中移除甲基化片段的一子集。例如,互信息可以提供同时采样的两个感兴趣条件之间的相互依赖性的度量。可以通过从一个或多个数据集中选择一组独立的cpg位
点(例如,在核酸甲基化片段的全部或一部分内)并且比较两个样品组(例如,基因型数据集、生物样品及/或对象的子集及/或组)之间的一组cpg位点的甲基化状态的概率,来确定互信息。互信息分数可以表示在滑动窗口的相应帧中的相应区域处第一条件相对于第二条件的甲基化模式的概率,从而指示相应区域的辨别能力。当滑动窗口在选定的一组cpg位点组及/或选定的基因组区域中进行时,可以类似地计算滑动窗口的每个帧中的每个区域的互信息分数。关于互信息过滤的更多细节公开在2019年12月13日提交的美国临时专利申请第62/948129号,标题为“使用面片卷积神经网络的癌症分类(cancer classification using patch convolutional neural networks)”),其全文通过引用并入本文。
104.高甲基化片段以及低甲基化片段:
105.在一些实施方案中,分析系统将异常片段确定为具有超过阈值数量的cpg位点的片段,并且具有超过阈值百分比的甲基化的cpg位点或是具有超过阈值百分比的未甲基化的cpg位点;分析系统将这些片段识别为高甲基化片段或低甲基化片段。片段长度(或cpg位点)的示例阈值包括大于3、4、5、6、7、8、9、10等。甲基化或非甲基化的示例百分比阈值包括大于80%、85%、90%、95%,或50%至100%的任何其他百分比。
106.示例分析系统:
107.图9a是根据一个实施方案的核酸样品定序的装置的流程图。此说明性流程图包括例如一定序器920及一分析系统900的装置。定序器910和分析系统700可以前后(tandem)工作,以执行本公开中描述的任何方法中的一个或多个步骤。
108.在各种实施方案中,定序器920接收一富集的核酸样品910。如图9a所示,定序器920可以包括一图形用户界面925,其使得用户能够与特定任务(例如,启动定序或终止定序)交互作用;以及一个或多个加载站930,用于加载包括富集的片段样品的定序盒及/或加载用于执行定序分析的必要缓冲液。因此,一旦定序器920的用户已经将必要的试剂及定序盒提供给定序器930的加载站930,用户就可以通过与定序器910的图形用户界面925交互作用来启动定序。一旦启动,定序器920执行定序,并且输出来自核酸样品910的富集片段的序列读取。
109.在一些实施方案中,定序器920与分析系统900通信耦合。分析系统900包括一些用于处理各种应用的序列读取的计算装置,例如评估一个或多个cpg位点的甲基化状态、变体调用(calling)或质量控制。定序器920可以将bam文件格式的序列读取提供给分析系统900。分析系统900可以通过无线、有线或无线与有线通信技术的组合通信地耦合到定序器910。通常,分析系统900配置有一处理器及存储计算机指令的非暂时性计算机可读存储介质,当处理器执行计算机指令时,使得处理器处理序列读取或是执行本文公开的任何方法或过程的一个或多个步骤。
110.在一些实施方案中,序列读取可以与参考基因组比对,以确定比对位置信息,例如,通过图1a中的方法100的步骤140。比对位置通常可以描述参考基因组中对应于给定的序列读取的起始核苷酸碱基及末端核苷酸碱基的区域的起始位置及终止位置。对应于甲基化定序,比对位置信息可以被概括为指示根据与参考基因组的比对的序列读取中所包括的一第一cpg位点及一最后cpg位点。对准位置信息可以进一步指示给定的序列读取中所有cpg位点的甲基化状态及位置。参考基因组中的区域可以与基因或基因片段相关联;因此,分析系统900可以标记一序列读取,所述序列读取具有与序列读取比对的一个或多个基因。
在一个实施方案中,从起始位置及终止位置来确定片段长度(或大小)。
111.在各种实施方案中,例如,当使用成对末端(paired-end)定序方法时,序列读取由表示为r_1及r_2的读取对组成。例如,第一读取r_1可以从双链dna(dsdna)分子的第一末端定序,而第二读取r_2可以从双链dna的第二末端定序。因此,第一读取r_1及第二读取r_2的核苷酸碱基对可以与参考基因组的核苷酸碱基一致地(例如,在相反的方向上)比对。源自读取对r_1及r_2的比对位置信息可以包括参考基因组中对应于第一读取(例如:r_1)终端的起始位置以及参考基因组中对应于第二读取(例如:r_2)终止的终止位置。换句话说,参考基因组中的起始位置及终止位置可以代表核酸片段对应的参考基因组内的可能位置。可以生成具有sam(序列比对图(sequence alignment map))格式或是bam(二元)格式的输出档案,并且输出以供进一步分析。
112.现在参考图9b,图9b是根据一个实施方案的用于处理dna样品的分析系统900的框图。分析系统实现用于分析dna样品的一个或多个计算装置。分析系统900包括一序列处理器940、序列数据库945、模型数据库955、模型950、参数数据库965及评分引擎960。在一些实施方案中,分析系统900执行图1a的方法100以及图2的方法200中的一些或全部。
113.序列处理器940为来自样品的片段生成甲基化状态向量。通过图1a的方法100,在片段上的每个cpg位点处,序列处理器940生成每个片段的甲基化状态向量,所述甲基化状态向量指明片段在参考基因组中的位置、片段中的cpg位置的数量,以及片段中每个cpg位点的甲基化状态,无论是甲基化的、非甲基化的或是不确定的。序列处理器940可以将片段的甲基化状态向量存储在序列数据库945中。序列数据库944中的数据可以被组织成使得来自样品的甲基化态向量彼此关联。
114.此外,多个不同的模型950可存储在模型数据库955中,或是被取得以用于测试样品。在一个实施例中,模型是训练的癌症分类器,用于使用从异常片段导出的特征向量来确定测试样品的癌症预测。癌症分类器的训练及使用会结合以下“用于确定癌症的癌症分类器”的内容进一步讨论。分析系统900可以训练一个或多个模型950,并将各种训练参数存储在参数数据库965中。分析系统900将模型950连同函数一起存储在模型数据库955中。
115.在推论期间,评分引擎960使用一个或多个模型950来返回输出。评分引擎960访问模型数据库955中的模型950以及来自参数数据库965的训练参数。根据每个模型,评分引擎接收模型的适当输入,并且基于接收到的输入、参数以及与输入及输出相关的每个模型的函数来计算输出。在一些用例中,评分引擎960进一步计算与来自模型的计算输出的置信度(confidence)相关的度量。在其他用例中,评分引擎960计算用于模型中的其他中间值。
116.基于基因组区域建模的癌症分类:
117.概述:
118.癌症分类可以是一种基于测试样品中的dna片段确定特定测试样品的癌症预测的方法。癌症预测可以是癌症与非癌症之间的二元预测及/或多种癌症类型之间的多类预测。例如,二元预测可以是癌症或非癌症的标记或癌症的似然。作为示例,多类预测可以为多个癌症类型中的每一个提供似然,或是可以提供与高于阈值或最大似然相关联的一个或多个癌症类型。
119.图3说明了癌症分类方法。测试样品305包括多个dna片段(例如甲基化片段)。dna片段可以通过图2b中的方法220来确定为异常片段,或是更具体地,通过方法220的步骤270
来确定为高甲基化及低甲基化片段。dna片段可以被输入到甲基化嵌入模型310中,所述甲基化嵌入模型310输出每个dna片段的甲基化嵌入。可以将dna片段(或是每个dna片段的甲基化嵌入)提供给多个区域模型320,所述区域模型320包括针对测定所针对的每个基因组区域训练的区域模型。每个区域模型可以配置为输入基因组区域中的dna片段或是这些片段的甲基化嵌入。例如,基因组区域1中的dna片段输入到基因组区域1模型322,基因组区域2中的dna片段输入到基因组区域2模型324,...,基因组区域n中的dna片段输入到基因区域n模型326。每个基因组区域模型可以输出一输入dna片段的癌症分数或区域嵌入。特征化模块330基于区域模型320的输出生成测试样品305的测试特征向量。可以调整每个基因组区域的大小及基因组区域的总数,以优化分类性能。在一些实施方案中,存在至少1000个、至少2000个、至少3000个、至少4000个、至少5000个、至少6000个、至少7000个、至少8000个、至少9000个、至少10000个基因组区域、至少20000个基因组区域、至少30000个基因组区域、至少40,000个基因组区域、至少50,000个基因组区域、至少60,000个基因组区域、至少70000个基因组区域、至少80000个基因组区或是至少100000个基因组区域。在一些实施方案中,每个基因组区域不大于50、不大于60、不大于70、不大于80、不大于90或不大于100个cpg位点。在一些这样的实施方案中,多个区域中的每个基因组区域包括至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少20、至少30或是多于30个cpg位点。在一些实施方案中,每个基因组区域包括一个或多个连续的cpg位点。可以基于基因组区域内cpg位点的相近性(proximity)来选择基因组区域。例如,基于预定长度的基因组区域内cpg位点的阈值密度来选择基因组区域。
120.在多个基因组区域中,可以存在超过10000个cpg位点、超过25000个cpg位点、超过50000个cpg位点、超过100000个cpg位点、超过250000个cpg位点、超过500000个cpg位点、超过1000000个cpg位点、超过2000000个cpg位点及超过3000000个cpg位点,或是超过5,000,000个cpg位点。第一基因组区域及第二基因组区域可以包括相同数量的cpg位点。在一些替代实施方案中,第一基因组区域可包括第一数量的cpg位点,第二基因组区域可包含不同于第一数量的cpg位点的第二数量的cpg位点。
121.每个基因组区域可选自参考基因组的一部分(例如,人类参考基因组)。每个基因组区域可以代表人类基因组参考序列的500个碱基对至10000个碱基。多个基因组区域中的每个基因组区域可以代表人类基因组参考序列的500个碱基对至2000个碱基。多个基因组区域中的每个基因组区域可以包括1000个碱基对。第一基因组区域可以是碱基对中的一第一长度,第二基因组区域可以为不同于碱基对中的所述第一长度的碱基对中的一第二长度。在一些实施方案中,多个基因组区域中的每个基因组区域在碱基对中可以具有相同的长度。多个基因组区域中的每个基因组区域可以代表人类基因组参考序列的不同部分。多个基因组区域中的每个基因组可以对应于靶向甲基化定序组(sequencing panel)中的目标的全部或一部分。多个基因组区域中的每个基因组区域可以对应于靶向甲基化定序组(sequencing panel)中的一个目标。此外,靶向甲基化定序定序组(sequencing panel)中的目标可以包括一个或多个基因组区域。
122.一个或多个核酸甲基化片段可以与基因组区域比对(例如,映射到基因组区域)。与基因组区域比对的核酸甲基化片段的数量为至少5、至少10、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少500、至少1000、至
少2000、至少5000、至少10000、至少100000、至少一百万或更多。每个多个核酸甲基化片段可以包括跨越参考基因组的全部或一部分的核酸甲基化片段,使得每个多个核苷酸甲基化片段的子集可以组合(bin)成代表参考基因组的对应的一个或多个部分的一个或更多个基因组区域。同样,核酸甲基化片段的一个或多个子集可以组合到单个基因组区域中,其中核酸甲基化片段的每个子集对应于对应于相应训练对象的相应基因型数据集。如果核酸甲基化片段的序列完全包含在基因组区域所跨越的序列内,则可以将核酸甲基化片段组合到基因组区域中。在一些替代实施方案中,如果核酸甲基化片段的序列的至少一阈值比例包含在基因组区域所跨越的序列内,则将核酸甲基化片段组合到基因组区域中。在一些实施方案中,如果基因组区域所跨越的序列大于核酸甲基化片段的长度,则将核酸甲基化片段组合到基因组区域中。
123.癌症分类器340配置为输入测试特征向量并且返回癌症预测345。癌症预测可以是癌症存在与否之间的二元预测或是多种癌症类型之间的多类预测。癌症分类器340包括多个分类参数以及表示作为输入的特征向量与作为输出的癌症预测之间的关系的函数,其由操作在具有分类参数的输入特征向量的函数确定。
124.在配置之前,可以训练甲基化嵌入模型310、区域模型320、特征化模块330、癌症分类器340或其任何组合。
125.训练:
126.分析系统可以使用多个训练样品训练甲基化嵌入模型310、区域模型320、特征化模块330、癌症分类器340或其任何组合,每个训练样品具有一组异常片段以及癌症类型的标记。多个训练样品可以包括来自具有“非癌症”一般标记的健康个体的样品、来自具有“癌症”或特定标记(例如,“乳癌”、“肺癌”等)的一般标记的对象的样品的任意组合。来自一个癌症类型的对象的训练样品可以被称为所述癌症类型的群组(cohort)或是癌症类型群组(cohort)。
127.甲基化嵌入模型310、区域模型320、特征化模块330及癌症分类器340可以独立地或是与其他组件同时训练。癌症分类方法的组件包括图3中描述的任何模型,包括甲基化嵌入模型310、区域模型320、特征化模块330及癌症分类器340。独立训练癌症分类方法的组件可以指在通过第一组件馈送训练数据的同时,调整第一组件的权重而不调整第二组件的权重。训练组件独立地允许同步地或同时独立于其他组件地训练组件。同时训练两个组件是指在通过两个组件馈送训练数据的同时,调整两个组件的权重。例如,当同时训练所有不同组件时,分析系统通过每个组件(即,从开始到结束)馈送训练样品,并且调整每个组件的权重,以最小化训练样品的已知标记及训练样品的预测标记之间的损失函数。分析系统可以实现迭代批训练,此迭代批训练将训练样品细分为批(batch)以通过组件。训练中使用的epoch的数量可以是每个训练样品通过组件的次数。
128.甲基化嵌入模块:
129.甲基化嵌入模型310被训练以生成用于输入dna片段的甲基化嵌入。甲基化嵌入可以是捕捉dna片段甲基化特征的数学向量。dna片段或是其甲基化状态向量至少可以描述被dna片段覆盖的每个cpg位点的甲基化状态。通常,甲基化嵌入模型310可以将片段空间的维数降低为嵌入空间。例如,片段空间可以跨越一百万个cpg位点,而嵌入空间可以跨越多达100个维度。甲基化嵌入模型310能够将片段空间中的所有片段投影到嵌入空间中。一些方
法可以包括主成分分析(principal component analysis,pca)、t分布随机邻居嵌入(t-distributed stochastic neighbor)、自动编码器、线性判别分析(linear discriminant analysis)、其他降维技术或是其他嵌入技术。甲基化嵌入模型可以实现机器学习算法,例如神经网络算法、支持向量机算法、决策树算法、多分类逻辑回归算法、线性回归算法或是一些其他机器学习算法。甲基化嵌入模型310可以独立地训练或与其他组件同时训练。
130.在自动编码的实施方案中,甲基化嵌入模型310具有配置为将输入dna片段(或其甲基化状态向量)投射到甲基化嵌入中的一编码器以及配置为从甲基化嵌入中解码dna片段(或其甲基化状态向量)的一解码器。通过编码器及解码器输入dna片段(或其甲基化状态向量)并且调整权重,可以同时训练编码器及解码器,以最小化解码片段与原始输入片段(或是解码甲基化状态向量与原始输入甲基化状态向量)之间的损失函数。一旦经过充分训练,例如确保损失低于阈值,编码器就可以用作甲基化嵌入模型310,所述甲基化嵌入模型310配置为生成一输入dna片段(或其甲基化状态向量)的一甲基化嵌入。
131.甲基化嵌入模型310的优点包括在基因组区域上共享权重。由于甲基化嵌入模型310可以投射来自跨越整个片段空间的所有基因组区域的片段,甲基化嵌入模型310的权重及参数在基因组区域上共享。例如,一个基因组区域中的片段以及另一个基因组区域中的片段被馈送通过相同的甲基化嵌入模型310,所述甲基化嵌入模型310为每个片段生成甲基化嵌入,并且具有与甲基化嵌入模型310相同的权重及参数。考虑到跨基因组区域共享的权重,甲基化嵌入模型310可以保留跨基因组区域的信息。当独立训练甲基化嵌入模型310时,考虑到同时训练组件的能力,可以节省训练时间的额外好处。
132.区域模型:
133.可以针对每个基因组区域训练基因组区域模型。基因组区域模型可以输入dna片段或其甲基化嵌入,并输出用于生成用于分类的特征向量的癌症分数或区域嵌入。每个基因组区域模型可以实现神经网络算法、支持向量机算法、决策树算法、多分类逻辑回归算法、线性回归算法或是一些其他机器学习算法。
134.在每个基因组区域模型实施神经网络算法的一些实施方案中,每个基因组区域包括不超过一个隐藏层、不超过两个隐藏层,或是不超过三个隐藏层。每个隐藏层可以具有不超过8个节点(或单元、神经元)、不超过9个节点、不超过10个节点、不超过11个节点、不超过12个节点、不超过16个节点、不超过20个节点、不超过24个节点、不超过28个节点,或是不超过32个节点。基因组区域的架构可以不同。例如,第一基因组区域模型可以具有与第二基因组区域不同数量的隐藏层。在另一个实施例中,第三基因组区域模型在其隐藏层中可能具有与第四基因组区域模型不同数量的节点。区域模型可以相互独立或同时进行训练。
135.图4a是描述根据一个或多个实施方案的独立训练基因组区域模型的方法的示例性流程图。分析系统可以识别来自训练样品中的基因组区域a中的片段。基因组区域a中的癌症片段410取自癌症训练样品,并且分配了癌症的标记。基因组区域a中的非癌症片段420取自非癌症训练样品,并且分配了非癌症标记。分析系统通过基因组区域a模型430提供癌症片段410及非癌症片段,并且调整权重,以最小化已知标记425与基因组区域a模型430预测的标记之间的损失函数。
136.在另一个实施方案中,基因组区域模型可以使用片段分类器训练。在这种实施方案中,基因组区域模型配置为输出一区域嵌入。片段或其甲基化嵌入通过基因组区域模型
馈送,所述基因组区域模型输出一区域嵌入,所述区域嵌入馈送到输出癌症的一标记的一片段分类器中。分析系统通过调整基因组区域模型以及片段分类器的权重来训练基因组区域模型及片段分类器,以最小化片段的已知标记与片段的预测标记之间的损失函数。在配置期间,训练的基因组区域模型配置为输入一片段或其甲基化嵌入,并且输出一区域嵌入。
137.独立地训练基因组区域模型可以是有利的,因为每个基因组区域模型尺寸相对较小,可以快速地训练及同时训练,因为每个基因区域模型独立于其他模型。这些优势可以转化为计算资源的成本降低以及更快的训练时间。
138.图4b是描述根据实施方案的配置基因组区域模型的方法的示例性流程图。基因组区域a中的样品片段440被输入到基因组区域a模型430中,基因组区域a模式430输出癌症分数445。癌症分数445可以是癌症与非癌症之间的二元预测,即样品片段4400源自患有癌症的个体的似然。选择性地,癌症分数445可以是多个癌症类型之间的多类预测,即样品片段440源自每种癌症类型的个体的似然(例如,来自乳癌个体的70%似然、来自结直肠癌个体的20%似然、来自无癌症个体的10%似然)。基因组区域模型可以输出任何预测,例如感兴趣条件的概率。如果基因组区域模型是单一类别分类模型,则输出可以是输入数据集(例如,生物样品及/或对象)具有条件(例如,标记或类别)的似然。如果基因组区域模型是多类分类模型,则可以生成多个预测值,并且每个预测值指示每个感兴趣条件的输入数据集的似然。
139.基因组区域模型(例如,神经网络)可以包括对应的多个权重。基因组区域模型可以对映射到相应基因组区域的核酸甲基化片段进行评分,从而获得对应的多个训练分数。训练可以基于对应的多个训练分数与源自核酸甲基化片段的训练对象的癌症状态的对应标记的一比较,来更新基因组区域模型中对应的多个权重中的每个权重的一对应值。
140.每个基因组区域模型可以包括对应的多个输入,其中每个输入用于基因组区域中的甲基化状态。每个基因组区域模型还可以包括一对应的第一隐藏层,所述第一隐藏层包括对应的多个隐藏神经元,其中对应的多个子隐藏神经元中的每个隐藏神经元:(i)是完全连接到多个输入中的每个输入;(ii)与第一激活函数类型相关联;以及(iii)与基因组区域模型的一权重相关联。每个基因组区域模型还可以包括一个或多个对应的输出,其中每个相应输出:(i)直接或间接地接收对应的多个隐藏神经元中每个隐藏神经元的一输出来作为输入;以及(ii)与第二激活函数类型相关联。
141.每个隐藏单元可以与对输入数据执行功能的激活函数相关联(例如,线性或非线性函数)。激活函数可以将非线性引入到数据中,使得神经网络根据原始数据的表示进行训练,并且可以随后“拟合(fit)”或是生成新(例如,以前未看到的)数据的附加表示。每个隐藏单元还可以与上述权重中的一个相关联,所述权重有助于基于激活函数确定的神经网络的输出。隐藏单元可以使用任意权重(例如:随机权重)初始化。可以使用预定的权重集来初始化隐藏单元。
142.每个基因组区域模型可以是完全连接的神经网络。例如,完全连接的神经网络包括一第一隐藏层,所述第一隐藏层包括对应的多个隐藏神经元,其中每个隐藏神经元连接到前一层中的每个神经元。每个基因组区域模型可以是部分连接的神经网络。例如,部分连接的神经网络包括第一隐藏层,所述第一隐藏层包括对应的多个隐藏神经元,其中一个或多个隐藏的神经元不连接到前一层中的每个神经元。每个隐藏神经元可以与对应基因组区
域模型的对应的多个权重中的一对应的权重相关联。一个或多个隐藏神经元可以不与对应的基因组区域模型的一对应的权重相关联。对应的多个权重可以进一步包括多个偏置(bias)值。
143.第一激活函数类型可以包括tanh、sigmoid、softmax、高斯(gaussian)、boltzmann加权平均、绝对值、线性、校线性整流函数(rectified linear unit,relu)、有界整流线性(bounded rectified linear)、软整流线性(soft rectified linear)、参数化整流线性(parameterized rectified linear)、平均、最大、最小、符号、平方、平方根、多二次(multiquadric)、逆二次(inverse quadratic)、逆多二次(inverse multiquadric)、多重调和样条(polyharmonic spline)或是薄板样条(thin-plate spline)。第二激活函数类型可以与第一激活函数类型相同。在一些实施方案中,第二激活函数类型可以不同于第一激活函数类型。
144.与第二基因组区域模型相比,第一基因组区域模型在第一隐藏层中可以具有不同数量的神经元(例如,不同区域的不同神经网络可以具有不同的大小)。可以针对基因组区域独立地确定基因组区域模型中隐藏神经元的数量。可以基于基因组区域模型的性能通过实验确定及/或优化隐藏神经元的数量。例如,每个基因组区域模型的性能取决于基因组区域模型相对于每个基因组区域的可用数据量的大小(例如,隐藏单元及/或层的数量)。第一基因组区域模型可以具有与第二基因组区域模型不同的层的数量(例如,不同区域的不同神经网络可以具有不同的层体数量)。对应的多个隐藏神经元可以包括2个神经元至48个神经元之间,或是4个神经元至24个神经元之间。在一些实施方案中,多个训练的神经网络中的每个对应的训练的神经网络的隐藏层的数量可以包括2至5个隐藏层。
145.基因组区域模型可以是浅层神经网络。浅层神经网络可以是具有很少隐藏层的神经网络。由于训练中涉及的层数减少,这种神经网络架构可以提高神经网络训练的效率,并且节省计算能力。每个基因组区域模型中的隐藏层的数量可以在2至5个隐藏层之间,或是超过5个。多个基因组区域中的每个基因组区域可以由单个基因组区域模型表示。在一些替代实施方案中,多个基因组区域中的每个基因组区域可以由多个基因组区模型表示。每个基因组区域可以由2至5个基因组区域模型表示,并且在2至5个基因组区域模型中的每个中,对应的第一隐藏层中的第一对应的权重的值可以不同。在一些实施方案中,每个基因组区域模型可以由2至5个基因组区域模型表示,并且第一隐藏层中的每个对应的权重的值可以在2至5个基因组区域模型中的每个中独立。可以针对每个对应的基因组区域独立地确定基因组区域模型的数量。基因组区域模型的数量可以基于对应的训练的神经网络的性能通过实验确定及/或优化。
146.基因组区域模型(例如,浅层神经网络)可以包括接受输入的输入层以及生成输出(例如,预测值)的输出层。输出可以包括输入(例如,片段及/或数据集)属于一个或多个预定类别(例如,标记)的分数(例如,概率或似然)。可以使用softmax或逻辑回归算法通过基因组区域模型来确定输出。可以为每个核酸甲基化片段生成输出。基因组区域模型的训练可以在如本公开所述的数据集的任何处理及/或过滤之后,使用包括多个核酸甲基化片段及/或甲基化状态向量的数据集作为输入。基因组区域模型(例如,训练及/或未训练的)可以使用作为多个核酸甲基化片段的子集的数据集作为输入。例如,基因组区域模型使用核酸甲基化片段的子集作为输入,其中对于核酸甲基化片段的子集中的每个核酸甲基化片
段,相应核酸甲基化区段的序列的全部或一部分包含在相应基因组区域跨越的序列内。因此,每个基因组区域模型的输入可以是核酸甲基化片段的不同子集。
147.用于训练基因组区域模型的输入可以是基因组数据集的转换(例如,通过独热编码(one-hot encoding))。例如,相应核酸甲基化片段的多个cpg位点中的每个cpg位置的甲基化状态是在应用于对应于相应基因组区域的基因组区域模型的二维向量中的独热编码。独热编码可以编码每个核酸甲基化片段的甲基化状态向量中每个cpg位点的甲基化态。第一维度(例如:向量)可以编码甲基化cpg位点,其中甲基化ccg位点的存在被编码为“1”,而甲基化cgg位点的缺失被编码为”0“。第二维度(例如:向量)可以编码非甲基化cpg位点,其中非甲基化的cpg位置的存在被编码为“1”,而非甲基化cpg位点的缺失被编码为“0”。既不甲基化也不非甲基化的cpg位点(例如,甲基化状态是替代或未知状态)可以被独热热编码为“0”,并且在第一维度及第二维度中均为“0”。缺失的cpg位点可以未分配值。独热编码在大的基因组区域中可以是稀疏的。因此,基因组区域模型可以使用通过多个核酸甲基化片段的独热编码生成的多维数据集作为输入。
148.基因组区域模型可以使用核酸甲基化片段的不完全或部分甲基化状态向量作为输入(例如,其中相应核酸甲基化片段的核酸序列的一部分包含在基因组区域跨越的基因组序列内)。例如,核酸甲基化片段包括相应基因组区域中的cpg位点的一部分,核酸甲基化片段不跨越基因组区域的整个长度,及/或核酸甲基化片段的核酸序列不完全包含在基因组区域跨越的序列内。在一些这样的情况下,映射到相应基因组区域的相应核酸甲基化片段的甲基化状态载体的任何部分仍然可以作为基因组区域模型的输入提供,并且出于生成基因组区域模型的输入数据集的目的,可以截断延伸超出相应基因组区域所跨越的序列的相应核酸甲基化片段的甲基化状态向量的任何部分。
149.一个或多个基因组区域模型可以输出训练对象具有癌症状态的概率,或是训练对象具有对应的癌症类型的概率。癌症状态可以包括癌症的存在,并且训练对象具有癌症状态的概率是训练对象患有癌症的概率(例如,癌症的存在或不存在)。多个基因组区域模型可以输出1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或超过20类。由一个或多个基因组区域模型确定的一个或更多个类(例如,癌症状态及/或类型)可以是多个基因组区域中的每个基因组区域的相同的一个或者更多个类。本文别处描述了癌症类型的细节。
150.训练基因组区域模型(例如,神经网络)可以包括通过反向传播(backpropagation)(例如,梯度下降)更新权重。针对反向传播,可以使用一组任意选择的初始权重,来生成未训练模型的输出(例如,由神经网络生成的预测值)。然后,可以通过评估误差函数来计算误差(例如,使用损失函数),将输出与原始输入(例如,从中获得核酸甲基化片段的训练对象的癌症状态的对应标记)进行比较。然后可以更新权重,使得误差最小化(例如,根据损失函数)。可以使用误差函数(例如:损失函数)来计算误差。损失函数可以是均方误差(square error)、平方损失(quadratic loss)、平均绝对误差、平均偏差误差、铰链(hinge)、多类支持向量机及/或交叉熵(cross-entropy)。训练基因组区域模型可以包括根据梯度下降(gradient descent)算法及/或最小化函数(minimization function)计算误差。通过按与计算的损失成比例的量调整一个或多个权重的值,误差函数可以用于更新基因组区域模型中的一个或更多个权重,从而训练基因组区域模型。权重的调整的量可
gradient descent)、多层感知器(multilayer perceptron)、张量流(tensorflow)、浅层神经网络初始化中的变化(例如,截断正态)、每个基因组区域的片段拟合中的修改(例如,片段大小、片段数量及/或片段概率校准的优化)、尾部特征的特异性阈值(例如,100%特异性, /-1标准偏差等)、聚类计算(例如,bigslice)、聚类缩小、替代特征选择(例如,基因组区域级二元分类及/或样品级多类分类)、替代生物样品类型(例如,组织及/或液体活检样品)、数据增强、样品加权、批量归一化、替代损失函数(例如:huber)及/或基因组区域水平模型的校准(例如,片段数量、覆盖率等)。
155.在一些实施方案中,从相应训练对象获得的生物样品中核酸的甲基化定序是生物样品中游离核酸的甲基化定序,并且方法还包括使用从代表癌症状态的一个或多个肿瘤样品获得的核酸甲基化片段的甲基化数据,来至少部分地训练基因组区域。例如,在一些实施方案中,使用获自肿瘤样品的甲基化数据训练的对应的神经网络生成的输出可用于比较使用从游离核酸(例如,液体活检样品)获得的甲基数据训练的多个神经网络的性能。在一些这样的实施方案中,由使用从肿瘤样品获得的甲基化数据训练的对应的神经网络产生的输出以及使用从游离核酸获得的甲基化数据训练的多个神经网络产生的输出可以用于肿瘤匹配分类分析。
156.特征化模块:
157.特征化模块330被训练以根据区域模型320的输出来生成样品(测试或训练)的特征向量。如上所述,基因组区域模型的输出可以是每个dna片段的癌症分数或是每个dna片段嵌入的区域。特征化模块可以实现机器学习算法,例如神经网络算法、支持向量机算法、决策树算法、多分类逻辑回归算法、线性回归算法或一些其他机器学习算法。
158.在区域模型输出输入dna片段的癌症分数的实施方案中,特征化模块330被训练为在一阈值分数以上对来自每个基因组区域的片段进行计数。使用来自给定基因组区域中的癌症样品的癌症片段及来自非癌症样品的非癌症片段,分析系统可以通过将癌症片段及非癌症片段输入到给定基因组区域的基因组区域模型中,来生成癌症分数的分布。分析系统可以基于假阳性预算或根据一些其他统计计算预算(例如,假阴性预算、真阳性预算等)从分布中选择阈值分数。假阳性预算可以是基于阈值分数预测为癌症的非癌症片段的百分比。例如,分析系统为落在70%的假阳性预算下的特定区域模型选择0.1的阈值分数,即,在阈值分数为0.1时,70%的非癌症片段可以包括在计数中。分析系统可以确定用于计数每个基因组区域特异性片段的阈值分数。在对基因组区域的癌症分数高于阈值分数的片段进行计数之后,结果可以是特征向量,其中每个特征是每个基因组区域的片段计数。在为片段确定多类癌症分数的情况下,分析系统可以通过计算具有高于阈值的成对分数之间的比率的片段来生成特征,例如,确定第一癌症类型与第二癌症类型之间的对数似然比率是否超过所述对的癌症类型的阈值。满足条件(例如:阈值分数)的相应核酸甲基化片段的计数可以在0与映射到相应基因组区域的核酸甲基化片段的总数之间。
159.特征化模块330还可以基于片段的定序深度来归一化计数。例如,特征是满足条件(例如,患有癌症)的核酸甲基化片段的计数与不满足条件的核酸甲基化片段的计数之比率。在一些替代实施方案中,特征是满足条件的核酸甲基化片段的计数与映射到相应基因组区域的核酸甲基化片段的总数的比率。在一些实施方案中,特征是满足第一癌症状态的条件的核酸甲基化片段的计数与满足第二癌症状态的核酸甲基化片段的计数的比率。
160.对于输入dna片段的输出癌症分数的区域模型,生成特征向量(或特征)可以包括通过使用相应基因组区域模型对对应于映射到癌症状态的相应基因组区域的相应训练对象的多个核酸甲基化片段中的相应核酸甲基化片段进行评分,来获得相应训练对象的基因组区域的相应特征,从而获得用于特征生成的多个分数。
161.相应的基因组区域模型可以提供一元输出(例如,癌症状态的概率)。由区域模型及/或特征化模块提供的基因组区域的相应特征可以是对应于映射到满足条件的癌症状态的相应基因组区域的相应训练对象的多个核酸甲基化片段中相应核酸甲基化片段的计数:
[0162][0163]
其中p(癌症状态)是在将相应核酸甲基化片段输入到基因组区域模型中时,相应核酸甲基化片段与对应于相应基因组区域的基因组区域模型提供的癌症状态相关的概率。此外,p(非癌症状态)=1-p(癌症状态)。在此,阈值可以是一应用依赖(application-dependent)的固定值。在一些实施方案中,对应的基因组区域模型计算p(癌症状态),并且p(非癌症状态)计算为1-p(癌症状况)。
[0164]
例如,对于对应于映射到相应基因组区域的相应训练对象的多个核酸甲基化片段中的每个相应核酸甲基化片段,相应基因组区域模型计算一预测值,所述预测值是片段具有癌症状态(例如:癌症)的概率。因此,可以使用基因组区域模型对相应核酸甲基化片段进行评分,其中基因组区域模型输出的评分包括片段具有癌症状态的概率及/或基于片段具有癌症状况的概率的计算,例如:
[0165][0166]
在特征化模块中,如果所得分数满足上述条件(例如,固定值阈值),则随后可以计算相应核酸甲基化片段。然后,对于多个基因组区域中的每个相应基因组区域,基因组区域的相应特征可以是映射到满足条件的相应基因组区域的所有核酸甲基化片段的计数。
[0167]
多个特征中的每个特征(例如,映射到相应基因组区域并且满足条件的核酸甲基化片段的计数)可以指示特定癌症状态的信号程度。例如,基于映射到基因组区域的核酸甲基化片段的甲基化模式,特征表示基因组区域与感兴趣的癌症条件相关的程度。从另一个角度来看,在一些情况下,多个特征代表与癌症状态相关的核酸甲基化片段在人类参考基因组中的多个基因组区域中的空间分布。对应多个基因组区域的多个特征可以是特征向量(例如:计数的向量)的形式。特征向量可用于确定对象的癌症状态(例如,作为下游监督模型的输入)。
[0168]
阈值可以为正或负。阈值可以介于0.1至1之间,介于1至5之间,介于5至10之间,介于10至50之间,介于50至100之间,或是大于100。在一些实施方案中,阈值介于-0.1至-1之间,介于-1至-5之间,介于-5至-10之间,介于-10至-50之间,介于50至-100之间,或是小于-100。在某些实施方案中,阈值为0。
[0169]
在一些替代实施方案中,对应的基因组区域模型可以提供二进位及/或多类输出(例如,第一癌症状态及第二癌症状态的概率)。例如,相应训练对象的基因组区域的相应特征是对应于映射到满足以下条件的癌症状态的相应基因组区域的相应训练对象的多个核酸甲基化片段中的相应核酸甲基化片段的计数:
[0170][0171]
在此,p(第一癌症状态)是相应核酸甲基化片段与第一癌症状态相关联的第一概率,其中第一概率由对应的基因组区域模型提供,在将相应核酸甲基化片段输入到对应的基因组区域模型时,所述对应的基因组区域对应于相应基因组区域。此外,p(第二癌症状态)是相应核酸甲基化片段与第二癌症状况相关联的第二概率,其中第二概率由对应的基因组区域模型提供,在将相应核酸甲基化片段输入到对应的基因组区域模型时,所述对应的基因组区域对应于相应基因组区域。“阈值”值可以是固定的应用依赖(application-dependent)值。
[0172]
当将相应核酸甲基化片段输入对应的训练的神经网络时,对应的基因组区域模型可以计算多个癌症状态以及非癌症状态中每个癌症状态的一单独概率。癌症状态可以是如本文所公开的癌症的存在或不存在、癌症类型、癌症分期及/或起源组织中的任何一个。非癌症状态可以与癌症状态不同的本文公开的癌症的存在或不存在、癌症类型、癌症分期及/或起源组织中的任何一个。可以为多个可能的癌症状态及/或非癌症状态(例如,癌症的存在或不存在、癌症类型、癌症分期及/或起源组织)中的任何一个计算单独的概率。可以为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或超过20个可能的癌症状态计算单独的概率。
[0173]
执行特征识别(例如,生成特征)可以使用这些相应核酸甲基化片段进行特征识别,当通过区域模型及/或特征化模块评估时,在多个训练对象上具有超过一特异性阈值的一集合特异性(collective specificity)(例如:特征识别包括特异性要求)。特异性阈值可以是介于0.9500至0.99999的值。在一些实施方案中,特异性阈值为0.999、0.9999或0.999999。
[0174]
可以使用多基因组区域来进行特征识别。多基因组区域可以包括多个基因组区域的子集,并且执行特征识别可以利用多基因组区域模型,所述多基因组区域模型接受与多个基因组区域的子集中的一基因组区域相对应的每个基因组区域模型的一输出来作为输入,以获得相应训练对象的多个基因组区域的子集中的每个基因组区域的相应特征或是获得多个基因组区域的子集中的单个特征。
[0175]
多基因组区域模型可以是独立于多个对应的单区域模型的训练而训练的独立模型(例如,单区域模型可以为一个基因组区域模型)。在一些这样的实施方案中,多基因组区域模型接受使用相应多个基因组区域的多个对应的单区域模型识别的一个或多个特征以及相应训练对象的癌症状态的一个或多个对应标记作为输入。
[0176]
多基因组区域模型可以与相应多个基因组区域的多个对应的单区域模型的训练同时进行训练。在一些这样的实施方案中,多基因组区域模型不接受来自多个对应的单区域模型的输出作为输入,而是使用来自多个训练对象中的每个训练对象的多个基因组数据集以及相应训练对象的癌症状态的一个或多个对应标记来训练“端到端(end-to-end)”。通常,这种“端到端”训练可以不依赖于单个区域模型的中间输出来训练多基因组模型,而是基于相应多个基因组区域,作为整体,依赖每个患者样品的标记来确定患者的分类,作为一个整体,基于相应的多个基因组区域。本文其他地方描述了“端到端”训练的一个实施例的细节。使用本文公开的任何方法识别的特征可用于目标组优化(例如,选择具有高癌症信号
的基因组区域),以训练下游癌症分类器。
[0177]
在区域模型输出输入dna片段的区域嵌入的实施方案中,特征化模块330被训练为通过池化(pooling)dna片段的区域嵌入来生成特征向量。dna片段的区域嵌入的整体池化以生成特征向量可以包括一个或多个池化步骤。在一个实施例中,可以有两个池化步骤。第一池化步骤可以通过池化每个基因组区域中的dna片段的区域嵌入来确定每个基因组区域的一聚合(aggregate)区域向量。可以理解的是,如果样品在给定区域中没有dna片段,则聚合区域向量可以是零向量。第二池化步骤可以通过聚合基因组区域中的聚合区域向量来确定特征向量。每个池化步骤可以包括执行平均池化操作、最大池化操作、其他加权几何池化操作、其他池化操作或其组合。每个池化步骤可以由卷积(kernel)大小(即,参考输入张量(tensor)的每个维度的池化窗口的大小)以及挪动(stride)(即,参照输入张量(tensor)的每个维度的滑动窗口大小)来定义。在一个实施例中,第二池化步骤中的全局池化操作具有等于基因组区域的数量(或基因组区域中的片段数量)的卷积(kernel)大小及挪动(stride)。在其他实现中,卷积(kernel)大小可以是以下任意一个:1、2、3、4、5、6、7、8、9、10、12、14、16、18及20;而挪动(stride)可以是以下任何一个:1、2、3、4、5、6、7、8、9、10、12、14、16、18及20。例如,确定每个基因组区域的聚合区域向量的第一池化步骤包括执行dna片段的区域嵌入的平均池化,有效地平均区域嵌入。使用最大池化,聚合区域向量中的每个entry可以是基因组区域中dna片段的区域嵌入的此entry位置处的对应最大值。例如,当同时训练特征化模块330、区域模型320及/或癌症分类器340时,分析系统还可以调整池化操作中的权重。
[0178]
癌症分类器:
[0179]
利用训练样品的特征向量,分析系统可以训练癌症分类器340。
[0180]
分析系统可以训练癌症分类器340进行二元分类,以基于训练样品的特征向量来区分癌症及非癌症。以此方式,分析系统可以使用包括来自健康个体的非癌症样品以及来自对象的癌症样品的训练样品。每个训练样品可以具有两个标记“癌症”或“非癌症”中的一个。在此实施方案中,类别分类器340输出指示癌症存在或不存在的似然的癌症预测。
[0181]
分析系统可以训练癌症分类器340进行多类别分类,以区分许多癌症类型(也称为起源组织(tissue of origin,too)标记)。癌症类型可以包括一个或多个癌症,并且可以包括非癌症类型(还可以包括任何其他疾病或是遗传疾病等)。为此,分析系统可以使用癌症类型群组(cohort),并且还可以包括或不包括非癌症类型群组(cohort)。在此多癌症实施方案中,癌症分类器340被训练以确定癌症预测(或是更具体地,一too预测),其包括被分类的每个癌症类型的预测值。预测值可以对应于一给定的训练样品(并且在推断期间,测试样品)具有每个癌症类型的似然。在一个实现中,预测值的得分在0至100之间,其中预测值的累积等于100。例如,癌症分类器返回癌症预测,包括乳癌、肺癌及非癌症的预测值。例如,分类器可以返回癌症预测,即测试样品的乳癌的似然为65%,肺癌的似然为25%,以及非癌症的似然为10%。分析系统可以进一步评估预测值,以生成样品中存在一个或多个癌症的预测,并且也可以称为指示一个或多个too标记的too预测,例如,具有最高预测值的第一too标记、具有第二高预测值的第二too标记等。继续上述的实施例并给出百分比,在此实施例中,系统可以确定样品具有乳癌,因为乳癌具有最高的似然。
[0182]
一般来说,分析系统可以通过将训练样本集及其特征向量输入癌症分类器340,并
且调整分类参数来训练癌症分类器340,从而使分类器的功能将训练特征向量精确地与其对应的标记相关联。分析系统可以将训练样品分组为一个或多个训练样品的集合,用于癌症分类器的迭代批量训练。在输入包括其训练特征向量的所有训练样品集并且调整分类参数之后,癌症分类器340可以被充分训练,以在一定误差范围内根据其特征向量来标记测试样品。分析系统可以根据多个方法中的任何一个来训练癌症分类器340。例如,二元癌症分类器可以是使用对数损失函数(log-loss function)训练的l2正则化逻辑回归分类器。作为另一示例,多癌症分类器可以是多分类逻辑回归(multinomial logistic regression)。在实践中,任何一种类型的癌症分类器340都可以使用其他技术来训练。这些技术可以是多种多样的,包括kernel方法、决策树、随机森林分类器、混合模型、自动编码器模型、机器学习算法(例如:多层神经网络)等。
[0183]
癌症分类器340还可以包括第一阶段二元分类器以及第二阶段多类别分类器。第一二元分类器可以返回测试样品的二元预测。二元预测可以是测试对象是否可能患有癌症。在其他实施方式中,癌症预测包括描述癌症的似然以及非癌症的似然的预测值。例如,癌症预测具有85%的癌症预测值以及15%的非癌症预测值。分析系统可以确定测试对象可能患有癌症。响应于确定高于阈值的癌症的似然,第二阶段多类别分类器可以返回测试样品的多类癌症预测。多类别分类器可以接收测试特征向量并且返回多个癌症类型中的癌症类型的癌症预测。例如,多类别癌症分类器提供指定测试对象最有可能患有卵巢癌的一癌症预测。在另一实施方式中,多类别癌症分类器为多个癌症类型中的每个癌症类型提供一预测值。例如,癌症预测可以包括40%的乳癌类型预测值、15%的结直肠癌类型预测值以及45%的肝癌预测值。
[0184]
癌症分类器可以包括逻辑回归、神经网络算法、支持向量机算法、朴素贝叶斯算法、最邻近搜索算法、提升树算法、随机森林算法、决策树算法、多分类逻辑回归算法、线性模型、线性回归算法、2阶段随机梯度下降(2-stage stochastic gradient descen)模型,或是深度神经网络(例如,深度及广泛的样本级分类器)。可以训练癌症分类器以基于相应基因组区域的对应特征来预测癌症状态。可以训练癌症分类器以基于相应多个基因组区域的多个对应特征来预测癌症状态。
[0185]
癌症分类器可以接受向量(或是特征向量)作为输入,其中向量与多个训练对象中的相应训练对象相关联,并且向量的每个元素是使用对应于映射到不同的基因组区域的相应训练对象的多个核酸甲基化片段中的相应核酸甲基化片段,通过区域模型及/或特征化模块所计算的多个基因组区域中的不同基因组区域的相应特征。例如,输入可以是使用一个或多个对应的基因组区域模型及/或相应一个或更多个基因组区域的特征化模块获得的特征向量。特征向量可以是计数、比率及/或独热编码(one-hot encoded)基因组区域的向量,指示与癌症相关的基因组区域。
[0186]
癌症分类器的训练可以基于作为特征化模块的输入提供的特征向量以及多个训练对象中每个相应训练对象的癌症状态的对应标记来执行。癌症分类器的训练可以独立于区域模型及/或特征化模块的训练来执行。在一些这样的实施方案中,每个相应基因组区域的每个对应的基因组区域模型的多个权重是固定的,使得癌症分类器的训练不会导致对应的基因组区域模型的多个权重的更新。
[0187]
在一些实施方案中,区域模型训练、特征化模块训练以及癌症分类器训练在联合
训练多个基因组区域模型、特征化模型及癌症分类器的组合训练中执行。在一些这样的实施方案中,每个对应的基因组区域模型的多个权重中的一个或多个权重不是固定的,使得组合训练更新对应的基因组区域的多个权重中的一个或多个权重。在一些这样的实施方案中,针对多基因组区域模型“端到端”执行组合训练。
[0188]
区域模型、多基因组区域模型以及下游癌症分类器的组合可用于生成更复杂的输出。例如,区域模型、多基因组区域模型及/或下游监督模型可用于基于使用多个基因组区域中的区域级模型识别的多个特征,来预测高阶(例如,样品级及/或对象级)多类分类。因此,区域级二元分类可以执行例如映射到相应基因组区域的异常核酸甲基化片段的比例的初始识别及选择。通过识别包括感兴趣条件的高信号的基因组区域(例如,通过提供具有高关联概率的异常核酸甲基化片段的计数),可以提高这种高阶分类的灵敏度及准确性。第一多个训练对象可用于训练多个基因组区域模型及/或多区域模型,并且与第一多个训练对象不同的第二多个训练对象可用于训练下游癌症分类器。
[0189]
癌症分类的配置:
[0190]
图5是示出根据实施方案的根据第一架构的测试样品的癌症分类的流程图。分析系统可以获得包括多个dna片段的未知癌症状态的测试样品505。分析系统可以例如利用方法100及220的任何组合来处理测试样品505,以确定一组异常甲基化片段。分析系统可以按基因组区域对片段进行分组,从而在基因组区域1中产生片段512,在基因组区域2中产生片段514,并继续直至在基因组区域n中产生片段516,其中n表示基因组区域的总数。
[0191]
分析系统可以将测试样品505的片段输入区域模型320,以确定每个片段的癌症分数。例如,将基因组区域1中的片段512输入基因组区域1模型322;将基因组区域2中的片段514输入基因组区域2模型324;继续直到将基因组区域n中的片段516输入到基因组区域n模型326中。每个区域模型可以是,例如,独立于其他区域进行训练的神经网络。区域模型可以输出每个片段的癌症分数。癌症分数可以是癌症和非癌症之间的二元分数,例如癌症的似然,或是多个癌症类型之间的多类分数,例如每个癌症类型的似然。例如,基因组区域1模型322输出基因组区域1中片段512的每个片段的癌症分数;基因组区域2模型324输出基因组区域2中片段514的每个片段的癌症分数;直至基因组区域n模型326输出基因组区域n中片段516的每个片段的癌症分数。
[0192]
分析系统可以基于测试样品505的片段的癌症分数,使用特征化模块330生成测试特征向量535。分析系统可以计算基因组区域1中的片段512的癌症分数高于基因组区域1的阈值分数的数量。分析系统可以类似地计算基因组区2中的片段514的癌症分数高于基因组区2的阈值分数的片段的数量。分析系统可以继续对剩余的基因组区域进行这样的操作,直到计算到基因组区域n中的片段516的癌症分数高于基因组区域n的阈值分数的数量。计数可以对应于测试特征向量535中的特征,例如,f1是基于基因组区域1的计数,f2是基于基因组区域2的计数,并且类似地,剩余的基因组区域同理,直到fn是基于基因组区域n的计数。可以进一步归一化计数,例如,根据测试样品505的定序深度,其中特征是归一化计数。
[0193]
分析系统可以将测试特征向量535输入癌症分类器340,以返回癌症预测345。如上所述,癌症预测3455可以是二元预测及/或多类预测。
[0194]
图6是描述根据实施方案的图5中描述的癌症分类的方法600的流程图。尽管以下描述是从分析系统的角度进行的,但以下描述可以通过本公开中描述的组件(例如,甲基化
嵌入模型310、区域模型320、特征化模块330及癌症分类器340)的任何组合来执行。
[0195]
分析系统接收610包含多个cfdna片段的生物样品的定序数据。每个cfdna片段与多个基因组区域中的至少一基因组区域重叠。在一些情况下,cfdna片段可以跨越两个或更多个基因组区域,其中分析系统可以将cfdna片段放置到每个基因组区域中,或是可以将cfdna片段放置在其主要重叠的基因组区域中。
[0196]
对于生物样品的每个cfdna片段,分析系统确定620cfdna片段重叠的基因组区域的第一分数。基因组区域的第一分数可以通过将cfdna片段输入到针对基因组区域训练的神经网络中来确定,例如,如上文在图4a中所述。神经网络可以被配置为生成第一分数,作为二元预测,表示cfdna片段源自癌症生物样品的似然。神经网络还可以配置为生成与cfdna片段源自第一癌症类型的癌症生物样品的似然相对应的第一分数以及与cfdna源自第二癌症类型的肿瘤生物样品的似然相对应的第二分数。第一基因组区域的第一神经网络可以可变地尺寸适配于第二基因组区域的第二神经网络。例如,第一神经网络可以具有与第二神经网络不同数量的隐藏层。在另一个实施例中,两个神经网络都具有一个隐藏层,但第一神经网络在其隐藏层中的节点数与第二个神经网络不同。
[0197]
分析系统生成630生物样品的特征向量。特征向量的每个特征可以对应于基因组区域,并且根据基因组区域的分数高于阈值分数的cfdna片段的计数来生成。可以根据假阳性预算(或另一统计度量)为每个基因组区域确定每个阈值分数。分析系统可以根据生物样品的定序深度来归一化计数。
[0198]
分析系统将特征向量输入640到训练模型中,以生成生物样品的癌症预测。训练模型可以是上面在图3中描述的癌症分类器340。癌症预测可以是癌症与非癌症之间的二元预测及/或多种癌症类型之间的多类预测。
[0199]
图7是示出根据实施方案的根据第二架构的测试样品的癌症分类的流程图。分析系统可以获得包括多个dna片段的未知癌症状态的测试样品705。分析系统可以例如利用方法100及220的任何组合来处理测试样品705,以确定一组异常甲基化片段。分析系统可以通过将cfdna片段输入甲基化嵌入模型310来确定每个片段的甲基化嵌入。分析系统可以按基因组区域对片段进行分组,从而产生基因组区域1中的片段的甲基化嵌入712、基因组区域2中的片段的甲基化嵌入714,并且继续直到产生基因组区域n中的片段的甲基化嵌入716,其中n表示基因组区域的总数。
[0200]
分析系统可以将甲基化嵌入输入区域模型320,以确定每个甲基化嵌入的区域嵌入。例如,将甲基化嵌入712输入到基因组区域1模型322中,产生甲基化嵌入712的区域嵌入;将甲基化嵌入714输入基因组区域2模型324,产生甲基化嵌入714的区域嵌入;并且继续直到将甲基化嵌入716输入到基因组区域n模型326中,产生甲基化嵌入716的区域嵌入。每个区域模型可以独立于其他组件或是与其他组件同时训练。
[0201]
分析系统可以将区域模型320输出的区域嵌入馈送到特征化模块330,以生成测试样品705的测试特征向量。特征化模块320可以池化区域模型320输出的区域嵌入,以生成测试特征向量。特征化模块330可以在两个池化步骤中池化区域嵌入。在第一池化步骤中,特征化模块330可以将每个基因组区域的区域嵌入池化到一聚合区域嵌入中。例如,特征化模块330将为甲基化嵌入712确定的区域嵌入池化到基因组区域1的聚合区域嵌入732中;同样地,将基因组区域2的区域嵌入池化到基因组区域2中的聚合区域嵌入734中;并且继续直到
将基因组区域n的区域嵌入池化到基因组区域n中的聚合区域嵌入736中。在第二池化步骤中,特征化模块330将聚合区域嵌入(例如,聚合区域嵌入732、734,直到736)池化到测试特征向量735中。在图中,测试特征向量735包括特征f1、f2、
…fm
,其中m是测试特征向量中特征的总数。变量m(特征的数量)可以等于或是不等于变量n(基因组区域的数量)。
[0202]
分析系统可以将测试特征向量735输入癌症分类器340,以返回癌症预测345。如上所述,癌症预测3455可以是二元预测及/或多类预测。
[0203]
图8是描述根据实施方案的图7中描述的癌症分类的方法800的流程图。尽管以下描述是从分析系统的角度进行的,但以下描述可以通过本公开中描述的组件(例如,甲基化嵌入模型310、区域模型320、特征化模块330及癌症分类器340)的任何组合来执行。
[0204]
分析系统接收810包含多个cfdna片段的生物样品的定序数据。每个cfdna片段可以与多个基因组区域中的至少一个基因组区域重叠。在一些情况下,cfdna片段可以跨越两个或更多个基因组区域,其中分析系统可以将cfdna片段放置到每个基因组区域中,或是可以将cfdna片段放置在其主要重叠的基因组区域中。
[0205]
对于生物样品的每个cfdna片段,分析系统通过将cfdna片段输入到训练的嵌入模型中,来生成820甲基化嵌入,例如,如图3中所述。嵌入模型可以配置为基于输入的cfdna片段生成甲基化嵌入。
[0206]
对于生物样品的每个cfdna片段,分析系统为cfdna重叠的基因组区域生成830个区域嵌入。基因组区域的区域嵌入可以通过将cfdna片段的甲基化嵌入输入针对cfdna片段重叠的基因组区域训练的区域模型来确定。因此,每个区域模型可以配置为基于与基因组区域重叠的cfdna片段的输入甲基化嵌入来生成区域嵌入。区域模型可以与癌症分类方法的其他组件同时训练。
[0207]
对于每个基因组区域,分析系统通过池化与基因组区域重叠的一个或多个cfdna片段的一个或者多个区域嵌入来确定840聚合区域向量。区域嵌入的池化可以包括执行最大池化操作、平均池化操作、一些其他几何池化操作或其一些组合。聚合区域向量可以具有或可以不具有与池化在一起的区域嵌入相同的长度。
[0208]
对于每个基因组区域,分析系统通过池化基因组区域的聚合区域向量来确定850特征向量。聚合区域向量的池化可以包括执行最大池化操作、平均池化操作、一些其他几何池化操作或其一些组合。生物样品的特征向量可以具有或可以不具有与池化在一起的聚合区域向量相同的长度。在一个实施例中,特征向量的长度等于所考虑的基因组区域的数量。
[0209]
分析系统将特征向量输入840到训练模型中,以生成生物样品的癌症预测。训练模型可以是上面在图3中描述的癌症分类器340。癌症预测可以是癌症与非癌症之间的二元预测及/或多种癌症类型之间的多类预测。
[0210]
在一些实施方案中,对测试对象进行分类可以包括获得多个测试核酸甲基化片段。对应的多个测试核酸甲基化片段中的相应测试核酸甲基化片段可以包括对应的甲基化模式,所述对应的甲基化模式包括相应测试核苷酸甲基化片段的对应的多个cpg位点中的每个cpg位置的甲基化状态。多个测试核酸甲基化片段可以通过对获自测试对象的生物样品中的核酸进行甲基化定序来确定。对测试对象进行分类还可以包括通过区域模型以及特征化模块对多个基因组区域中的每个相应基因组区域执行测试特征识别。测试特征识别可以通过使用区域模型以及特征化模块获得测试对象的基因组区域的相应测试特征来执行,
以对癌症状态的相应测试核酸甲基化片段进行评分,并且基于癌症状态生成特征向量,从而获得包括多个基因组区域中的每个基因组区域的测试特征的多个测试特征。对测试对象进行分类还可以包括将多个测试特征应用于癌症分类器,以确定测试对象是否具有癌症状态。多个基因组区域模型以及特征化模块可用于从训练数据集识别多个基因组区级特征,用于训练癌症分类器,并且通过将来自测试数据集的多个特征应用于癌症分类器,来执行使用癌症分类器对测试对象进行分类。
[0211]
本文公开的任何系统及方法可用于获得及/或处理从对象获得的生物样品及/或核酸甲基化片段。本文公开的任何系统及方法可用于训练区域模型(例如,浅层神经网络),经由特征化模块获得特征,及/或训练用于确定测试对象是否具有癌症状态的癌症分类器。
[0212]
应用:
[0213]
在一些实施方案中,本发明的方法、分析系统及/或分类器可用于检测癌症的存在,监测癌症进展或复发,监测治疗反应或有效性,确定存在或监测微小残留病变(minimum residual disease,mrd),或其任何组合。例如,如本文所述,分类器可用于生成描述测试特征向量来自癌症对象的似然的概率分数(例如,从0到100)。在一些实施方案中,将概率分数与阈值概率进行比较,以确定对象是否患有癌症。在其他实施方案中,可以在多个不同的时间点(例如,治疗之前或之后)评估似然或是概率分数,以监测疾病进展或监测治疗效果(例如,疗效)。在其他实施方案中,似然或是概率分数可用于做出或影响临床决策(例如,癌症诊断、治疗选择、治疗效果评估等)。例如,在一个实施方案中,如果概率分数超过阈值,则医生可以开出适当的治疗。
[0214]
癌症的早期检测:
[0215]
在一些实施方案中,本发明的方法及/或分类器用于检测怀疑患有癌症的对象中是否存在癌症。例如,分类器(例如,如前所示例的)可用于确定描述测试特征向量来自患有癌症的对象的似然的癌症预测。
[0216]
在一个实施方案中,癌症预测是测试样品是否具有癌症(即:二元分类)的似然(例如,得分在0至100之间)。因此,分析系统可以确定用于确定测试对象是否患有癌症的阈值。例如,大于或等于60的癌症预测可以指示对象患有癌症。在其他实施方案中,癌症预测大于或等于65、大于或等于70、大于或大于75、大于或小于80、大于或等同85、大于或相等90,或是大于或等于95指示对象患有癌症。在其他实施方案中,癌症预测可以指示疾病的严重性。例如,与低于80的癌症预测(例如,概率分数70)相比,80的癌症预计可能指示更严重的癌症形式或是更晚期。类似地,癌症预测随时间的增加(例如,通过对来自在两个或多个时间点采集的同一对象的多个样品的测试特征向量进行分类来确定)可以指示疾病进展,或是癌症预测随随时间的减少可以指示治疗成功。
[0217]
在另一个实施方案中,癌症预测包括许多预测值,其中被分类(即多类分类)的多个癌症类型中的每一个都具有预测值(例如,得分在0至100之间)。预测值可以对应于给定训练样品(并且在推断期间,训练样品)具有每个癌症类型的似然。分析系统可以识别具有最高预测值的癌症类型,并且指示测试对象可能具有此癌症类型。在其他实施方案中,分析系统进一步将最高预测值与阈值(例如,50、55、60、65、70、75、80、85等)进行比较,以确定测试对象可能具有此癌症类型。在其他实施方案中,预测值还可以指示疾病的严重程度。例如,与60的预测值相比,大于80的预测值可能指示更严重的癌症形式或晚期。类似地,预测
值随时间的增加(例如,通过对来自在两个或多个时间点采集的同一对象的多个样品的测试特征向量进行分类来确定)可以指示疾病进展,或是预测值随随时间的减少可以指示治疗成功。
[0218]
根据本发明的各个方面,本发明的方法及系统可以被训练以检测或分类多种癌症适应症。例如,本发明的方法、系统和分类器可用于检测1个或更多、2个或更多、3个或更多、5个或更多、10个或更多、15个或更多,或是20个或更多不同类型癌症的存在。
[0219]
可以使用本发明的方法、系统及分类器检测的癌症的例子包括上皮癌(carcinoma)、淋巴瘤、母细胞瘤、肉瘤及白血病或淋巴恶性肿瘤。此类癌症的更具体实施例包括但不限于鳞状细胞癌(例如,上皮鳞状细胞癌)、皮肤癌、黑色素瘤、肺癌,包括:小细胞肺癌、非小细胞肺癌(non-small cell lung cancer,nsclc)、肺腺癌、肺鳞癌、腹膜癌、胃癌或胃癌,包括:胃肠道癌、胰脏癌,(例如:胰腺导管腺癌)、宫颈癌、卵巢癌(例如:高级别浆液性卵巢癌)、肝癌(例如:肝细胞癌(hepatocellular carcinoma,hcc)、肝癌(hepatoma)、肝癌(hepatic carcinoma)、膀胱癌(例如:膀胱尿路上皮癌(urothelial bladder cancer))、睾丸(生殖细胞癌)癌、乳癌(例如:her2阳性、her2阴性及三重阴性乳癌)、脑癌(例如:星形细胞瘤、神经胶质瘤(例如:胶质母细胞瘤))、结肠癌、直肠癌、结直肠癌、子宫内膜癌或子宫癌、唾液腺癌、肾(kidney)癌或肾(renal)癌(例如:肾细胞癌、肾母细胞瘤或威尔姆氏肿瘤(wilms’tumor))、前列腺癌、外阴癌、甲状腺癌、肛门癌、阴茎癌、头颈癌、食道癌、及鼻咽癌(npc)。癌症的其他例子包括但不限于视网膜母细胞瘤、卵泡膜细胞瘤(thecoma)、男性细胞瘤(arrhenoblastoma)、血液系统恶性肿瘤(hematological malignancies),包括但不局限于非霍奇金淋巴瘤(non-hodgkin's lymphoma,nhl)、多发性骨髓瘤及急性血液系统恶性肿瘤、子宫内膜异位症、纤维肉瘤、绒毛膜癌、喉癌、卡波西肉瘤(kaposi's sarcoma)、许旺细胞瘤(schwannoma)、寡突胶质细胞瘤(oligodendroglioma)、神经母细胞瘤、横纹肌肉瘤(rhabdomyosarcoma)、骨肉瘤、平滑肌肉瘤及泌尿道癌(urinary tract carcinomas)。
[0220]
在一些实施方案中,癌症是肛肠癌(anorectal cancer)、膀胱癌、乳癌、宫颈癌、结直肠癌、食道癌、胃癌、头颈癌、肝胆癌、白血病、肺癌、淋巴瘤、黑素瘤、多发性骨髓瘤、卵巢癌、胰脏癌、前列腺癌、肾癌、甲状腺癌、子宫癌、子宫癌,或其任意组合。
[0221]
在一些实施方案中,一个或多个癌症可以是“高信号”癌症(定义为5年癌症特异性死亡率大于50%的癌症),例如肛肠癌、结肠直肠癌、食道癌、头颈癌、肝胆癌、肺癌、卵巢癌及胰脏癌,以及淋巴瘤及多发性骨髓瘤。高信号癌症倾向于更具侵袭性,并且在从患者获得的测试样品中通常具有高于平均水平的游离核酸浓度。
[0222]
癌症及治疗监测:
[0223]
在一些实施方案中,可以在多个不同的时间点(例如,治疗之前或之后)评估癌症预测,以监测疾病进展或监测治疗效果(例如,疗效)。例如,本发明包括多种方法,涉及:在第一时间点从癌症患者获得第一样品(例如,第一血浆cfdna样品),由此确定第一癌症预测(如本文所述);在第二时间点从癌症患者获得第二测试样品(例如,第二血浆cfdna样品),并且由此确定第二癌症预测(如本文所述)。
[0224]
在某些实施方案中,第一时间点是在癌症治疗之前(例如,在切除手术或治疗干预之前),第二时间点是癌症治疗之后(例如,切除手术或治疗干预之后),并且分类器用于监测治疗的有效性。例如,如果第二癌症预测与第一癌症预测相比降低,则认为治疗已经成
功。然而,如果第二癌症预测与第一癌症预测相比增加,则认为治疗不成功。在其他实施方案中,第一以及第二时间点都是在癌症治疗之前(例如,在切除手术或治疗干预之前)。在其他实施方案中,第一及第二时间点都是在癌症治疗之后(例如,在切除手术或治疗干预之后)。在其他实施方案中,可以在第一及第二时间点从癌症患者获得cfdna样品并且进行分析。例如,监测癌症进展,以确定癌症是否处于缓解(例如:治疗后),以监测或检测残余疾病或疾病复发,或是监测治疗(treatment)(例如:治疗(therapeutic))效果。
[0225]
测试样品可以在任何一组时间点从癌症患者获得,并根据本发明的方法进行分析,以监测患者的癌症状态。在一些实施方案中,第一时间点及第二时间点被分离的时间量从约15分钟到约30年,例如约30分钟,例如约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23,或是约24小时,例如约1、2、3、4、5、10、15、20、25,或约30天,或例如约1、2、3,4、5,6、7、8、9、10、11,或12个月,或例如约1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5或约30年。在其他实施方案中,可以至少每3个月、至少每6个月、每年、至少每2年、至少每3年、至少每4年,或至少每5年从患者获得一次测试样品。
[0226]
治疗:
[0227]
在另一个实施方案中,癌症预测可用于做出或影响临床决策(例如,癌症诊断、治疗选择、治疗效果评估等)。例如,在一个实施方案中,如果癌症预测(例如,针对癌症或针对特定癌症类型)超过阈值,则医生可以开出适当的治疗(例如,切除手术、放射治疗、化疗及/或免疫治疗)。
[0228]
分类器(如本文所述)可用于确定样品特征向量来自患有癌症的对象的癌症预测。在一个实施方案中,当癌症预测超过阈值时,会开立适当的治疗(例如,切除手术或治疗(therapeutic))。例如,在一个实施方案中,如果癌症预测大于或等于60,则开立一个或多个适当的治疗。在另一个实施方案中,如果癌症预测大于或等于65、大于或等于70、大于或大于75、大于或小于80、大于或等于85、大于或等于90、或大于或等于95,则开立一个或多个适当的治疗。在其他实施方案中,癌症预测可以指示疾病的严重性。然后可以开立与疾病严重程度相匹配的适当治疗。
[0229]
在一些实施方案中,治疗是选自于由化疗剂、靶向癌症治疗剂、分化治疗剂、激素治疗剂及免疫治疗剂所组成的群组中的一个或多个癌症治疗剂。例如,所述治疗可以是选自于由烷基化剂(alkylating agent)、抗代谢剂、蒽环类、抗肿瘤抗生素、细胞骨架干扰物(taxans)、拓扑异构酶抑制剂(topoisomerase inhibitor)、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物、铂类药物及其任何组合所组成的群组中的一个或多个化疗剂。在一些实施方案中,治疗是选自于由信号转导抑制剂(例如:酪氨酸激酶及生长因子受体抑制剂)、组蛋白脱乙酰酶(histone deacetylase,hdac)抑制剂、视黄酸受体激动剂、蛋白体抑制剂、血管生成抑制剂及单克隆抗体偶联物所组成的群组中的的一个或多个靶向癌症治疗剂。在一些实施方案中,治疗是一个或多个分化治疗剂,包括维生素a酸(retinoid),如维甲酸(tretinoin)、alitretinoin及蓓萨罗丁(bexarotene)。在一些实施方案中,治疗是选自于由抗雌激素、芳香化酶抑制剂、孕酮、雌激素、抗雄激素及gnrh激动剂或类似物所组成的群组中的一个或多个激素治疗剂。在一个实施方案中,治疗是一个或多个免疫治疗剂,所
述免疫治疗剂选自于由单克隆抗体治疗(例如:利妥昔单抗(rituximab)(rituxan)及alemtuzumab(campath))、非特异性免疫治疗及佐剂(例如:卡介苗、白细胞介素-2(il-2)及干扰素α)及免疫调节药物(例如:沙利度胺(thalidomide)及来那度胺(lenalidomide)(revlimid)所组成的群组。根据诸如肿瘤类型、癌症分期、先前暴露于癌症治疗或治疗剂以及癌症的其他特征的特征来选择适当的癌症治疗剂是在熟练的医生或是肿瘤学家的能力范围内的。
[0230]
癌症分类器的示例结果:
[0231]
样品收集及处理:
[0232]
研究设计及样品:ccga(nct02889978)是一项具有纵向随访的前瞻性、多中心、病例对照、观察性研究。从142个地点的约15000名参与者中收集了未鉴定的生物样品。样品分为训练集(1785)及测试集(1015);样品被选择以确保每个群组中各个位置的癌症类型及非癌症的预先指定分布,并且癌症及非癌症样品按性别进行频率年龄匹配。
[0233]
全基因组亚硫酸盐定序:从血浆中分离cfdna,并使用全基因组亚硫酸盐定序(wgbs;30x深度)分析cfdna。使用改良的qiaamp循环核酸试剂盒(qiagen;germantown,md),从每位患者的两管血浆(合并体积最多10ml)中提取cfdna。使用ez-96dna甲基化试剂盒(zymo research,d5003)对高达75ng的血浆cfdna进行亚硫酸盐转化。转化的cdna用于通过accel-ngs甲基序列dna文库制备试剂盒(swift biosciences;密歇根州安娜堡)制备双索引定序文库,并使用illumina平台的kapa文库定量试剂盒(kapa biosystems;马萨诸塞州威尔明顿)对构建的文库进行定量。将4个文库以及10%phix v3文库(illumina,fc-110-3001)池化并且聚集在illumino novaseq 6000s2流动细胞上,随后进行150bp双端定序(paired-end sequencing)(30x)。
[0234]
对于每个样品,wgbs片段集被减少为具有异常甲基化模式的片段的一小部分。此外,选择高甲基化或低甲基化的cfdna片段。选择具有异常甲基化模式并高度或高度甲基化的cfdna片段,即ufxm。在没有癌症的个体中或甲基化不稳定的个体中出现的频率较高的片段不太可能产生用于癌症状态分类的高度歧视性特征。因此,我们使用来自ccga研究的108名非吸烟无癌症参与者(年龄:58
±
14岁,79(73%)女性)(即参考基因组)的独立参考集,产生了典型片段的统计模型及数据结构。这些样品用于训练马尔可夫链(markov-chain)模型(3阶),以估计上文所述片段内给定cpg甲基化状态序列的似然。此模型被证明在正常片段范围内(p值》0.001)进行校准,并且被用于拒绝马尔可夫模型中p值》=0.001的片段,因为其不够异常。
[0235]
如上所述,进一步的数据缩减步骤仅选择覆盖至少5个cpg的片段,并且平均甲基化大于0.9(高甲基化)或小于0.1(低甲基化)。此程序在训练中产生了无癌症的参与者中位数(范围)为2800(1500-12000)的ufxm片段,以及在训练中患有癌症的参与者中位数(范围)为3000(1200-220000)的ufxmm片段。由于此数据缩减程序仅使用参考集数据,因此此阶段仅需对每个样品应用一次。
[0236]
具有浅层神经网络的基因组区域建模:
[0237]
图10示出了在示例实现中,在区域模型的训练期间使用的每个基因组区域中的核酸片段的数量。在cfdna片段的训练数据集上训练具有单个隐藏层的多个浅层神经网络,并且训练模型的性能由测试数据集中每个核酸甲基化片段产生的损失度量来指示(例如,每
个片段的测试损失)。每个基因组区域由图中的一个数据点表示,此数据点说明了映射到训练数据集中每个相应基因组区域的甲基化片段数量的广泛变化(例如,“#训练片段”)。此图表明,模型拟合在非常小的区域(例如,包含少于10个映射甲基化片段的区域)中具有挑战性,表明这些区域可以被排除在考虑之外,或是需要进一步优化(例如,较小的模型及/或每个隐藏层的不同数量的隐藏节点)。在各种浅层神经网络的隐藏层中使用的各种数量的隐藏节点在所附图例中指示(例如,1、2、3、4、8、16、24、32)。
[0238]
图11示出了根据示例实现的不同大小及不同特异性阈值的神经网络的性能,每个神经网络使用超过30000个dna片段进行训练。神经网络被训练用于片段的二元分类(例如,在癌症与非癌症之间),每个区域重叠超过30000个dna片段,评估了约200个基因组区域。左边的板1110示出了训练到特异性阈值0.999的神经网络的性能,中间的板1120示出了当训练到特异度阈值0.9999时的性能,而右边的板1130示出了训练到特异阈值0.9999时的性能。
[0239]
特异性阈值的严格性指示所示输出概率(例如,片段概率拟合)在概率分布中的位置;因此,高特异性阈值用于检查尾部概率特征。有趣的是,参考板1120及1130,具有更多隐藏节点的模型在建模尾部概率(例如,满足高特异性阈值的特征)方面提供了改进的性能。相反,如左边的板1110所示,神经网络性能不明显地依赖于模型的大小。因此,与隐藏节点较少的神经网络相比,具有更多隐藏节点的神经网络不会为模型拟合提供明显优势。
[0240]
对于具有大量核酸甲基化片段的数据集,片段概率分布的尾端数据点的分辨率提高更为显着。这可能是由于激活函数(例如tanh及/或sigmoid函数)的一个或多个非线性变换导致的尾部特征饱和。在一些这样的情况下,更多数量的节点为其他饱和特征提供了更大的学习能力。在一些替代情况下,可以根据在神经网络中使用的激活函数的选择来减少这种饱和。
[0241]
与片段数量较少的区域(例如,约10000)相比,使用片段数量较多的区域(如,至少30000个)时,通过较大模型在二元分类任务中进行片段概率拟合的质量提高更为明显。
[0242]
图12示出了根据示例实现的不同大小及不同特异性阈值的神经网络的性能,每个神经网络用超过10000个dna片段训练。如图11所示,神经网络具有单个隐藏层,并且被训练以生成关于片段是否来自癌症生物样品的二元预测。板1210示出了当训练到0.999的特异性阈值时的性能;板1220示出了当训练到0.9999的特异性阈值时的性能;并且板图1230示出了当训练到0.99999的特异性阈值时的性能。与图11相反,图显示,当使用具有10000个重叠dna片段的基因组区域进行训练时,无论特异性阈值如何,神经网络隐藏层中隐藏节点的数量增加都不会提高性能。图11及图12说明了浅层神经网络模型的最佳大小及参数可以根据待拟合数据的特定条件而变化,并且在某些情况下需要通过实验确定。
[0243]
与snn比较的混合模型:
[0244]
表1列出了在灵敏度阈值为95%、98%或99%时,与混合模型相比,具有固定或随机权重初始化的浅层神经网络模型的特异性性能。所有运行均使用评估器配置asco_2019_1_tm(无组织)进行。在99931个区域中,总共333个任意区域被排除在离线超参数调校(offline hyperparameter tuning)之外。
[0245]
表1:混合模型与浅层神经网络的性能比较:
[0246][0247]
混合模型以及浅层神经网络使用k折交叉验证进行训练。例如,使用6折交叉验证,从训练数据创建了6个箱。对于6次训练运行中的每一次,移除一个箱作为验证箱,其余k-1个箱用于训练。重复此过程,直到每个箱被用作验证箱(例如:6x1)。通过随机shuffling数据并且再重复此过程2次,总共3次交叉验证训练运行(例如:6x3),来进一步训练混合物模型。
[0248]
浅层神经网络的架构包括隐藏层(例如1/8)中的1或8个隐藏单元(例如,节点)。在输入浅层神经网络模型进行训练之前,使用0.001的p值阈值从数据集中选择异常核酸甲基化片段。
[0249]
使用固定种子权重初始化来进行初始snn运行,作为与使用随机权重初始化的后续运行进行统计比较的基线。
[0250]
固定种子描述了如何初始化权重。例如,对于固定种子初始化,使用从使用截断正态分布的特定随机分布中选择的预定值集来初始化权重。因此,使用固定种子初始化初始化的权重会是随机的,但对于最优反向传播,具有接近零的小幅度。
[0251]
使用随机权重初始化来进行后续(例如,非固定种子)snn运行。表1列出了多次运行以及多次运行后性能的估计范围,其中范围显示了运行之间的变化。表1中的结果表明,浅层神经网络的性能与混合模型的性能相当。
[0252]
使用池化的端到端训练(pooled-end-to-end training)的基因组区域建模:
[0253]
图13示出了根据示例实现的实现池化的端到端训练的癌症分类方法的性能。根据此实现,癌症分类器与特征化模块、区域模型及甲基化嵌入模型同时训练。每个区域模型配置为生成与基因组区域重叠的dna片段的输入甲基化嵌入的区域嵌入,区域模型对此被训练。特征化模块配置为执行两个池化步骤:第一池化步骤,为池化区域嵌入,以生成每个基因组区域的聚合区域向量;以及第二池化步骤,为将基因组区域的聚合区域向量池化到特征向量中(例如,如图7和8所述)。针对保持集对癌症分类器进行评估,并且在曲线下总面积(也称为“auc”)为0.821669的情况下进行,这比领先的癌症分类器稍有改进。一般而言,auc为0.5表示模型无法有效区分阳性标记与阴性标记,而auc为1表示模型在区分阳性标记与阴性标记间具有完美的准确性。
[0254]
图14a及图14b示出了根据图13中的示例实现,在癌症的各个分期实施池化的端到端训练的癌症分类的性能。每个癌症分期的保持集用于评估癌症各个分期的性能。池化的端到端癌症分类器在下图中标记为“pe2e”。图1410显示1期癌症预测的auc为0.657478。图1420显示2期癌症预测的auc为0.797125。图1430显示3期癌症预测的auc为0.931150。图1440显示4期癌症预测的auc为0.967584。总体而言,实现池化的端到端训练的癌症分类器与领先的癌症分类器表现相当。值得注意的是,癌症分类器的预测在癌症的晚期及晚期阶段稳定提高。与领先的分类器相比,癌症分类器在分期1及2的表现稍好,但在分期3及4的表
现稍差。
[0255]
要求的标的:
[0256]
在一个方面,一种用于检测癌症的方法包括接收生物样品的定序数据,包括多个cfdna片段,每个cfdna片段与多个基因组区域中的至少一基因组区域重叠;对于所述生物样品的每个cdna片段,确定cdna片段重叠的基因组区域的第一分数,通过将cfdna片段输入为基因组区域训练的神经网络来确定基因组区域的第一分数,神经网络配置为生成表示cfdna片段源自癌症生物样品的似然的第一分数;生成生物样品的特征向量,特征向量的每个特征对应于多个基因组区域中的基因组区域,并且根据具有基因组区域的分数高于阈值分数的cfdna片段的计数生成;以及将特征向量输入到训练模型中,以生成生物样品的癌症预测。
[0257]
在另一方面,一种检测癌症的方法包括接收生物样品的定序数据,包括多个cfdna片段,每个cfdna片段与多个基因组区域中的至少一基因组区域重叠;对于生物样品的每个cfdna片段,通过将cfdna片段输入到训练的嵌入模型中来生成甲基化嵌入,训练的嵌入模型配置为基于输入的cfdna片段生成甲基化嵌入;对于生物样品的每个cfdna片段,生成cfdna片段重叠的基因组区域的区域嵌入,通过将cfdna片段的甲基化嵌入输入到针对基因组区域训练的区域模型中来确定基因组区域嵌入,区域模型配置为基于输入甲基化嵌入生成区域嵌入;对于每个基因组区域,通过池化与基因组区域重叠的一个或多个cfdna片段的一个或是多个区域嵌入来确定聚合区域向量;通过池化基因组区域的聚合区域向量来确定特征向量;以及将特征向量输入到分类模型中,以生成生物样品的癌症预测。
[0258]
在另一方面,可以为多个训练对象获得基因组数据集,每个数据集具有癌症状态标记(例如,癌症及/或非癌症)及核酸甲基化片段。每个核酸甲基化片段可以具有cpg甲基化状态的甲基化模式,并且通过生物样品中核酸的甲基化定序确定。可以使用基因组数据集针对多个基因组区域训练未训练的神经网络(例如:基因组区域模型及/或特征化模块提供的模型)。每个未训练的神经网络可以独立地对应于一相应基因组区域,并且可以包括多个权重,并且对映射到基因组区域的核酸甲基化片段进行评分。训练可以基于分数与源自核酸甲基化片段的训练对象的癌症状态标记的比较(例如,使用损失函数确定)来更新权重(例如,利用反向传播)。通过使用训练的神经网络对映射到基因组区域的核酸甲基化片段进行评分,可以识别每个基因组区域的特征(或特征向量)。例如,由训练的神经网络获得的分数包括相应核酸甲基化片段源自具有特定癌症状态标记的训练对象的概率。特征可以包括满足相应癌症状态标记的概率阈值的一个或多个核酸甲基化片段计数(例如,满足癌症概率阈值的核酸甲基化片段计数与满足非癌症概率阈值核酸甲基化片段计数的比率)。
[0259]
使用本文公开的系统及方法获得的特征可以用作下游监督模型(例如,癌症分类器)的输入,用于癌症状态的进一步分类,包括癌症类型、分期或起源组织。这种特征可以通过选择高度异常的核酸甲基化片段作为输入(例如,对一个或多个癌症状态以高概率评分的片段),同时去除不能满足一个或更多个相应癌症状态的一个或一个以上概率阈值的信息较少的片段,来提高下游分类器(例如,监督模型)的辨别能力。因此,本文公开的方法可以改进从多个基因组数据集中选择核酸甲基化片段以输入下游分类器,并且进一步提高训练以及使用监督模型来确定对象的癌症状态的效率及性能。
[0260]
本公开的另一方面提供了一种用于获得多个特征以确定对象癌症状态的方法。此
方法可以在包括至少一处理器以及存储至少一程序的存储器的计算机系统处执行,所述至少一程序包括用于由所述至少一处理器执行的指令。此方法可以包括获得多个基因组数据集。多个基因组数据集中的每个相应基因组数据集可以用于多个训练对象中的相应训练对象。每个相应基因组数据集可以包括(例如:以电子形式)相应训练对象的癌症状态的对应标记以及对应的多个核酸甲基化片段。对应的多个核酸甲基化片段中的每个相应核酸甲基化片段可以包括对应的甲基化模式,所述甲基化模式包括相应核酸甲基化片段的对应的多个cpg位点中的每个cpg位置的甲基化状态。对应的多个核酸甲基化片段可以通过对从相应训练对象获得的生物样品中的核酸进行甲基化定序来确定。
[0261]
方法还可以包括针对多个基因组区域中的每个相应基因组区域,并基于来自多个训练对象中的每个训练对象的多个基因组数据集,训练多个未训练的神经网络中的对应的未训练的神经网络,从而在多个训练的神经网络中获得对应的训练的神经网络。对应的未训练的神经网络(以及得到的对应的训练的神经网络)可以独立地对应于相应基因组区域。对应的未训练的神经网络可以包括对应的多个权重。对应的未训练的神经网络可以对映射到由对应的未训练的神经网络表示的相应基因组区域,每个对应的多个核酸甲基化片段中的相应核酸甲基化片段进行评分,从而获得对应的多个训练分数。训练可以基于对应的多个训练分数与源自相应核酸甲基化片段的相应训练对象的癌症状态的对应标记的比较,来更新对应的未训练的神经网络中的对应的多个权重中的每个权重的对应值(例如:通过反向传播技术),从而获得对应的训练的神经网络。
[0262]
方法还可以包括针对多个基因组区域中的每个相应基因组区域执行特征识别(例如,生成特征向量)。对于多个训练对象中的每个训练对象,可以通过使用对应于相应基因组区域的训练的神经网络来获得相应训练对象的基因组区域的相应特征,以对对应于映射到癌症状态的相应基因组区域的相应训练对象的多个核酸甲基化片段中的相应核酸甲基化片段进行评分,从而获得多个特征。
[0263]
在一些实施方案中,当将相应核酸甲基化片段输入到对应的训练的神经网络中时,对应的训练的神经网络计算多个癌症状态中的每个癌症状态以及非癌症状态的单独概率。在一些实施方案中,多个癌症状态包括肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳癌、宫颈癌、结直肠癌、食道癌、胃癌(gastric cancer)、头/颈癌、肝胆癌、肾癌(kidney cancer)、肝癌、肺癌、卵巢癌、胰脏癌、骨盆癌、胸膜癌,前列腺癌、肾癌(renal cancer)、皮肤癌、胃癌(stomach cancer)、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤及/或白血病。
[0264]
在一些实施方案中,通过k折交叉验证执行训练。在一些实施方案中,癌症状态是不存在或存在癌症,并且多个训练对象的第一子集具有癌症,并且多个训练对象的第二子集未患有癌症。在一些实施方案中,所述至少一程序还包括使用针对多个基因组区域中的每个相应基因组区域,由特征识别(或特征模块)计算的相应基因组区域的每个相应特征以及与相应特征相关联的相应训练对象的癌症状态的对应标记来训练下游监督模型的指令。
[0265]
在一些这样的实施方案中,在联合训练多个神经网络以及下游监督模型的一组合训练中,执行训练、特征识别及训练下游监督模型。在一些这样的实施方案中,下游模型接受向量作为输入,其中向量与多个训练对象中的相应训练对象相关联,并且向量的每个元素是使用对应于映射到不同的基因组区域的相应训练对象的多个核酸甲基化片段中的相
应核酸甲基化片段,通过特征识别来计算的多个基因组区域中不同基因组区域的相应特征。
[0266]
在一些这样的实施方案中,至少一程序还包括用于获得多个测试核酸甲基化片段的指令。对应的多个测试核酸甲基化片段中的每个相应测试核酸甲基化片段包括对应的甲基化模式,所述甲基化模式包括相应测试核苷酸甲基化片段的对应的多个cpg位点中的每个cpg位点的甲基化状态,其中多个测试核酸甲基化片段通过从测试对象获得的生物样品中的核酸的甲基化定序来确定。至少一程序还包括针对多个基因组区域中的每个相应基因组区域,执行测试特征识别的指令。通过使用对应于相应基因组区域的训练的神经网络对对应于映射到癌症状态的相应基因组区域的测试对象的多个测试核酸甲基化片段中的相应测试核酸甲基化片段进行评分,来获得测试对象的基因组区域的相应测试特征,从而获得包括所述多个基因组区域中的每个基因组区域的测试特征的多个测试特征。至少一程序还包括用于将多个测试特征应用于下游监督模型以确定测试对象是否具有癌症状态的指令。
[0267]
在一些实施方案中,多个基因组区域包含100至100,000个基因组区域。在一些实施方案中,多个基因组区域包含500至2,000个基因组区域。在一些实施方案中,一对应的多个核酸甲基化片段的一平均长度在140至280个核苷酸之间。
[0268]
在一些实施方案中,当响应于核酸甲基化片段的甲基化模式的输入,由训练的markov模型提供的一输出p值未能满足p值阈值时,相应核酸甲基化片段不满足一个或多个选择标准中的一选择标准。至少部分基于在具有对应的多个cpg位点的健康非癌症群组数据集中的那些核酸甲基化片段中的相应核酸甲基化片段的对应的多个cpg位点中的每个cpg位点的甲基化状态的评估,训练的markov模型可以被训练。在一些实施方案中,p值阈值在0.01至0.1。在一些实施方案中,p值阈值在0.03至0.06。在一些实施方案中,当相应核酸甲基化片段具有小于阈值数量的cpg位点时,相应核酸甲基化片段不满足一个或多个选择标准中的选择标准。在一些实施方案中,cpg位点的阈值数量是4、5、6、7、8、9或10。
[0269]
在一些实施方案中,当相应核酸甲基化片段的基因组起始位置及基因组终止位置表明相应核酸甲基化片段代表人类基因组参考序列中少于阈值数量的核苷酸时,相应核酸甲基化片段不满足一个或多个选择标准中的选择标准。在一些实施方案中,残基的阈值数量是20到90之间的固定值。在一些实施方案中,过滤去除对应的多个核酸甲基化片段中的一核酸甲基化片段,其中所述核酸甲基化片段具有相同的对应的甲基化模式以及相同的对应的基因组起始位置及基因组终止位置,作为对应的多个核酸甲基化片段中的另一个核酸甲基化片段。
[0270]
在一些实施方案中,方法进一步包括,在训练神经网络之前,基于针对多个训练对象的癌症状态的相应甲基化片段的互信息过滤,从多个甲基化片段中去除甲基化片段的一子集。
[0271]
在一些实施方案中,相应核酸甲基化片段中对应的多个cpg位点中的一cpg位点的甲基化状态为:甲基化时,cpg位点被甲基化定序确定为甲基化,而未甲基化时,cpg位点由甲基化定序确定为未被甲基化。在一些实施方案中,相应核酸甲基化片段的对应的多个cpg位点中的每个cpg位点的甲基化状态在对应的二维向量中被独热编码(one-hot encoded),其应用于对应于相应基因组区域的对应的未训练的神经网络,并且在训练中,相应核酸甲
基化片段映射到相应基因组区域。
[0272]
在一些实施方案中,癌症状态是不存在或存在癌症。在一些实施方案中,癌症状态是不存在或存在某种癌症。在一些实施方案中,癌症类型(或癌症类型、特定癌症)包括肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳癌、子宫颈癌、结直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰脏癌、骨盆腔癌、胸膜癌、前列腺癌、肾癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤或白血病或其组合。在一些实施方案中,癌症状态是特定癌症的分期。
[0273]
在一些实施方案中,从相应训练对象获得的生物样品中核酸的甲基化定序是生物样品中游离核酸的甲基化定序。在一些实施方案中,生物样品是血液样品。在一些实施方案中,多个训练对象中的一训练对象的相应生物样品对于癌症状态是同质的。在一些实施方案中,多个训练对象中的一训练对象的相应生物样品是对于癌症状态同质的肿瘤样品。
[0274]
在一些实施方案中,多个训练的神经网络中的对应的训练的神经网络的一个或多个对应的神经网络输出是提供训练对象具有癌症状态的一概率的一单个神经网络输出。在一些实施方案中,多个训练的神经网络中的对应的训练的神经网络的一个或多个对应的神经网络输出是多个神经网络输出,其中多个神经网络输出中的每个神经网络输出提供训练对象在多个癌症类型中具有一对应的癌症类型的一概率。
[0275]
在一些实施方案中,多基因组区域由多个基因组区域的一子集组成,并且执行特征识别利用多基因组区域神经网络,所述神经网络接受对应于多个基因组区域的子集中的一基因组区域的每个训练的神经网络的一输出作为输入,以便获得相应的训练对象的多个基因组区域的子集中的每个基因组区域的一相应特征,或是多个基因组区域的子集的一单个特征。
[0276]
在一些实施方案中,从相应训练对象获得的生物样品中核酸的甲基化定序是生物样品中游离核酸的甲基化定序。在一些这样的实施方案中,方法还包括至少部分地使用从代表癌症状态的一个或多个肿瘤样品获得的核酸甲基化片段的甲基化数据来训练多个训练的神经网络中的一对应的未训练的神经网络。
[0277]
本公开的另一方面提供了一种用于确定对象的癌症状态的方法。方法可以在包括至少一处理器及存储至少一个程序的存储器的一计算机系统执行,所述至少一程序包括由所述至少一个处理器执行的指令。方法可以包括以电子形式获得多个核酸甲基化片段。多个核酸甲基化片段中的每个相应核酸甲基化片段可以包含对应的甲基化模式,所述对应的甲基化模式包括相应核酸甲基化片段的对应的多个cpg位点中的每个cpg位点的甲基化状态。多个核酸甲基化片段可以通过对获自对象的生物样品中的核酸进行甲基化定序来确定。
[0278]
方法可以进一步包括针对多个基因组区域中的每个相应基因组区域进行特征识别。可以通过使用对应于相应基因组区域的多个训练的神经网络中的一训练的神经网络,以对映射到癌症状态的相应基因组区域的多个核酸甲基化片段中的多个相应核酸甲基化片段进行评分,来获得对象的基因组区域的相应特征,从而获得多个特征。多个特征中的每个相应特征可以用于多个基因组区域中的一对应的基因组区域。方法还可以包括,响应于将多个特征输入到下游监督模型,获得关于测试对象是否具有癌症状态的确定,作为下游监督模型的输出。
[0279]
本公开的另一方面提供了一种用于获得用于确定对象的癌症状态的多个特征的方法,方法包括:在计算机系统,所述计算机系统包括至少一处理器及一存储器,所述存储器存储由所述至少一处理器执行的至少一程序,所述至少一程序包括以下各项的指令:(a)获得多个基因型数据集,所述多个基因型数据集中的每个相应基因型数据集用于多个训练对象中的相应训练对象,其中所述相应基因型数据集以电子形式包括:(i)相应训练对象的癌症状态的对应的标记;以及(ii)对应的多个核酸甲基化片段,其中对应的多个核酸甲基化片段中的每个相应核酸甲基化片段包含对应的甲基化模式,所述对应的甲基化模式包含相应核酸甲基化片段的对应的多个cpg位点中每个cpg位点的甲基化状态,并且对应的多个核酸甲基化片段通过对获自相应训练对象的生物样品中的核酸进行甲基化定序来确定;(b)针对多个基因组区域中的每个相应基因组区域,并且基于来自多个训练对象中的每个训练对象的多个基因型数据集,训练多个未训练的神经网络中对应的未训练的神经网络,从而获得多个训练的神经网络中对应的训练的神经网络,其中:对应的未训练的神经网络独立地对应于相应基因组区域,对应的未训练的神经网络包括一对应的多个权重,对应的未训练的神经网络对映射到相应基因组区域的每个对应的多个核酸甲基化片段中的相应核酸甲基化片段进行评分,从而获得一对应的多个训练分数,训练基于对应的多个训练分数与源自于多个相应核酸甲基化片段的多个相应训练对象的癌症状态的对应标记的一比较,更新对应的未训练的神经网络中对应的多个权重中的每个权重的一对应值,从而获得对应的训练的神经网络;以及(c)针对多个基因组区域中的每个相应基因组区域,针对多个训练对象中的每个相应训练对象进行特征识别:通过使用对应于相应基因组区域的训练的神经网络以对对应于映射到癌症状态的相应基因组区域的相应的训练对象的多个核酸甲基化片段中的多个相应核酸甲基化片段进行评分,来获得相应训练对象的基因组区域的一相应特征,从而获得多个特征。
[0280]
在一些实施方案中,相应训练对象的基因组区域的相应特征是对应于映射到癌症状态的相应基因组区域的相应训练对象的多个核酸甲基化片段中的相应核酸甲基化片段的计数,并且满足条件:log((p(癌症状态))/(p(非癌症状态)))》阈值,其中:p(癌症状态)是相应核酸甲基化片段与癌症状态相关联的概率,其中概率由对应的训练的神经网络提供,其对应于在将相应核酸甲基化片段输入到对应的训练的神经网络时相应基因组区域,p(非癌症状态)=1-p(癌症状态),阈值是固定值,并且对应的训练的神经网络仅计算p(癌症状态)。
[0281]
在一些实施方案中,相应训练对象的基因组区域的相应特征是对应于映射到癌症状态的相应基因组区域的相应训练对象的多个核酸甲基化片段中的相应核酸甲基化片段的计数,并且满足条件:log((p(癌症状态))/(p(非癌症状态)))》阈值,其中:p(癌症状态)是相应核酸甲基化片段与癌症状态相关的第一概率,其中第一概率由对应的训练的神经网络提供,其对应于在将相应核酸甲基化片段输入到对应的训练的神经网络时相应基因组区域,p(非癌症状态)是相应核酸甲基化片段与非癌症状态相关联的第二概率,其中第二概率由对应的训练的神经网络提供,其对应于在将相应核酸甲基化片段输入到对应的训练的神经网络时相应基因组区域,并且阈值为固定值。
[0282]
在一些实施方案中,在将相应核酸甲基化片段输入到对应的训练的神经网络中时,对应的训练的神经网络计算多个癌症状态中的每个癌症状态以及非癌症状态的一单独
概率。
[0283]
在一些实施方案中,多种癌症状态包括肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳癌、子宫颈癌、结直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰脏癌、骨盆腔癌、胸膜癌、前列腺癌、肾癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤及/或白血病。
[0284]
在一些实施方案中,(b)训练通过k折交叉验证来执行。
[0285]
在一些实施方案中,癌症状态是不存在或存在癌症,并且多个训练对象的第一子集患有癌症,并且多个训练对象的第二子集没有癌症。
[0286]
在一些实施方案中,至少一程序还包括以下各项的指令:(d)针对多个基因组区域中的每个相应基因组区域,使用由(c)计算的相应基因组区域的每个相应特征以及与相应特征相关联的相应训练对象的癌症状态的对应的标记,来训练下游监督模型。
[0287]
在一些实施方案中,(b)训练、(c)执行及(d)训练在联合训练多个神经网络及下游监督模型的组合训练中执行。
[0288]
在一些实施方案中,下游模型接受向量作为输入,其中向量与多个训练对象中的相应训练对象相关联,向量的每个元素是多个基因组区域中不同基因组区域的相应特征,并且是通过(c)执行使用对应于映射到不同基因组区域的相应训练对象的多个核酸甲基化片段中的相应核酸甲基化片段来进行计算。
[0289]
在一些实施方案中,下游监督模型是逻辑回归。
[0290]
在一些实施方案中,下游监督模型是神经网络算法、支持向量机算法、朴素贝叶斯算法、最邻近搜索算法、提升树算法、随机森林算法、决策树算法、多分类逻辑回归算法、线性模型或线性回归算法。
[0291]
在一些实施方案中,至少一个程序还包括以下各项的指令:(e)获得多个测试核酸甲基化片段,其中对应的多个测试核酸甲基化片段中的每个相应测试核酸甲基化片段包含对应的甲基化模式,所述对应的甲基化模式包括相应测试核酸甲基化片段的对应多个cpg位点中的每个cpg位点的甲基化状态,并且多个测试核酸甲基化片段通过对获自测试对象的生物样品中的核酸进行甲基化定序来确定;(f)针对多个基因组区域中的每个基因组区域,通过使用对应于相应基因组区域的训练的神经网络,以对对应于映射到癌症状态的相应基因组区域的测试对象的多个测试核酸甲基化片段中的多个相应测试核酸甲基化片段进行评分,来获得测试对象的基因组区域的相应测试特征,来执行测试特征识别,从而获得多个测试特征,其包括多个基因组区域中每个基因组区域的测试特征;以及(g)将多个测试特征应用于下游监督模型,以确定测试对象是否具有癌症状态。
[0292]
在一些实施方案中,对应的多个核酸甲基化片段包含一千或更多、一万或更多、十万或更多、一百万或更多、一千万或更多、一亿或更多、五亿或更多、十亿或更多、二十亿或更多、三十亿或更多、四十亿或更多、五十亿或更多、六十亿或更多、七十亿或更多、八十亿或更多、九十亿或更多、或一百亿或更多的核酸甲基化片段。
[0293]
在一些实施方案中,多个基因组区域中具有超过10,000个cpg位点、超过25,000个cpg位点、超过50,000个cpg位点或超过80,000个cpg位点。
[0294]
在一些实施方案中,一第一基因组区域由一第一数量的cpg位点组成,并且多个基因组区域中的一第二基因组区域由与第一数量的cpg位点不同的一第二数量的cpg位点组
成。
[0295]
在一些实施方案中,多个基因组区域包含100至100,000个基因组区域。
[0296]
在一些实施方案中,多个基因组区域包含500至2,000个基因组区域。
[0297]
在一些实施方案中,对应的多个核酸甲基化片段的一平均长度在140至280个核苷酸之间。
[0298]
在一些实施方案中,多个基因组区域中的每个基因组区域代表人类基因组参考序列的500个碱基对至10,000个碱基对。
[0299]
在一些实施方案中,多个基因组区域中的每个基因组区域代表人类基因组参考序列的500个碱基对至2,000个碱基对之间。
[0300]
在一些实施方案中,多个基因组区域中的每个基因组区域代表人类基因组参考序列的不同部分。
[0301]
在一些实施方案3中,(a)获得进一步包括通过从对应的多个核酸甲基化片段中去除不满足一个或多个选择标准的每个相应核酸甲基化片段,来过滤对应的多个核酸甲基化片段。
[0302]
在一些实施方案中,当相应核酸甲基化片段的对应的甲基化模式具有不满足p值阈值的输出p值时,相应核酸甲基化片段不满足一个或多个选择标准中的选择标准,并且至少部分地基于相应核酸甲基化片段的对应的甲基化模式与在具有相应核酸甲基化片段的对应的多个cpg位点的健康非癌症群组数据集中的那些核酸甲基化片段的甲基化模式的一对应的分布的一比较,来确定相应核酸甲基化片段的输出p值。
[0303]
在一些实施方案中,当响应于核酸甲基化片段的甲基化模式的输入,由训练的markov模型提供的一输出p值未能满足p值阈值时,相应核酸甲基化片段不满足一个或多个选择标准中的一选择标准,并且至少部分基于在具有对应的多个cpg位点的健康非癌症群组数据集中的那些核酸甲基化片段中的相应核酸甲基化片段的对应的多个cpg位点中的每个cpg位点的甲基化状态的评估,训练的markov模型被训练。
[0304]
在一些实施方案中,p值阈值在0.01至0.1。
[0305]
在一些实施方案中,p值阈值在0.03至0.06。
[0306]
在一些实施方案中,当相应核酸甲基化片段具有小于阈值数量的cpg位点时,相应核酸甲基化片段不满足一个或多个选择标准中的选择标准。
[0307]
在一些实施方案中,cpg位点的阈值数量是4、5、6、7、8、9或10。
[0308]
在一些实施方案中,当相应核酸甲基化片段的基因组起始位置及基因组终止位置表明相应核酸甲基化片段代表人类基因组参考序列中少于阈值数量的核苷酸时,相应核酸甲基化片段不满足一个或多个选择标准中的选择标准。
[0309]
在一些实施方案中,残基的阈值数量是20到90之间的固定值。
[0310]
在一些实施方案中,过滤去除对应的多个核酸甲基化片段中的一核酸甲基化片段,其中所述核酸甲基化片段具有相同的对应的甲基化模式以及相同的对应的基因组起始位置及基因组终止位置,作为对应的多个核酸甲基化片段中的另一个核酸甲基化片段。
[0311]
在一些实施方案中,方法进一步包括,在训练(b)之前,基于针对在多个训练对象的癌症状态的相应甲基化片段的互信息过滤,从多个甲基化片段中去除甲基化片段的子集。
[0312]
在一些实施方案中,相应核酸甲基化片段中对应的多个cpg位点中的一cpg位点的甲基化状态为:甲基化时,cpg位点被甲基化定序确定为甲基化,而未甲基化时,cpg位点由甲基化定序确定为未被甲基化。
[0313]
在一些实施方案中,相应核酸甲基化片段的对应的多个cpg位点中的每个cpg位点的甲基化状态在对应的二维向量中被独热编码(one-hot encoded),其应用于对应于相应基因组区域的对应的未训练的神经网络,并且在训练(b)中,相应核酸甲基化片段映射到相应基因组区域。
[0314]
在一些实施方案中,甲基化定序是(i)全基因组甲基化定序或是(ii)使用多个核酸探针的靶向dna甲基化定序。
[0315]
在一些实施方案中,甲基化定序检测相应核酸甲基化片段中的一个或多个5-甲基胞嘧啶(5mc)及/或5-羟甲基胞嘧啶(5hmc)。
[0316]
在一些实施方案中,甲基化定序包括将相应核酸甲基化片段中的一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶。
[0317]
在一些实施方案中,在甲基化定序期间将一个或多个尿嘧啶检测为一个或多个相应的胸腺嘧啶。
[0318]
在一些实施方案中,一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶的转化包括化学转化、酶促转化或其组合。
[0319]
在一些实施方案中,癌症状态是不存在或存在癌症。
[0320]
在一些实施方案中,癌症状态是不存在或存在某种癌症。
[0321]
在一些实施方案中,癌症的类型是肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳癌、子宫颈癌、结直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰脏癌、骨盆腔癌、胸膜癌、前列腺癌、肾癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤或白血病或其组合。
[0322]
在一些实施方案中,癌症状态是特定癌症的分期。
[0323]
在一些实施方案中,特定癌症是肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳癌、子宫颈癌、结直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰脏癌、骨盆腔癌、胸膜癌、前列腺癌、肾癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤或白血病或其组合。
[0324]
在一些实施方案中,从相应训练对象获得的生物样品中核酸的甲基化定序是生物样品中游离核酸的甲基化定序。
[0325]
在一些实施方案中,生物样品是血液样品。
[0326]
在一些实施方案中,生物样品包括相应的训练对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。
[0327]
在一些实施方案中,多个训练对象中的训练对象的相应生物样品对于癌症状态是同质的(homogenous)。
[0328]
在一些实施方案中,多个训练对象中的训练对象的相应生物样品是对于癌症状态同质的肿瘤样品。
[0329]
在一些实施方案中,多个训练的神经网络中的每个对应的训练的神经网络包括:一对应的多个输入,其中对应的多个输入中的每个输入用于由对应的神经网络表示的相应
基因组区域中的甲基化状态,一对应的第一隐藏层包括一对应的多个隐藏神经元,其中对应的多个隐藏神经元中的每个隐藏神经元:(i)完全连接到多个输入中的每个输入;(ii)与一第一激活函数类型相关联;以及(iii)与对应的训练的神经网络的对应的多个权重中的一对应权重以及一个或多个对应的神经网络输出相关联,其中在对应的一个或多个神经网络输出中的每个相应神经网络输出输出:(i)直接或间接接收对应的多个隐藏神经元中每个隐藏神经元的输出作为输入;以及(ii)与第二激活函数类型相关联。
[0330]
在一些实施方案中,多个训练的神经网络中的每个对应的训练的神经网络是完全连接的神经网络。
[0331]
在一些实施方案中,第一激活函数类型是tanh、sigmoid、softmax、高斯(gaussian)、玻尔兹曼加权平均(boltzmann-weighted averaging)、绝对值、线性、线性整流函数(rectified linear unit,relu)、有界整流线性(bounded rectified linear)、软整流线性(soft rectified linear)、参数化整流线性(parameterized rectified linear)、平均值、最大值、最小值、符号、平方、平方根、多二次(multiquadric)、反二次(inverse quadratic)、反多二次(inverse multiquadric)、多重调和样条(polyharmonic spline)或是薄板样条插值(thin-plate spline)。
[0332]
在一些实施方案中,第二激活函数类型是softmax。
[0333]
在一些实施方案中,对应的多个隐藏神经元由2至48个神经元组成。
[0334]
在一些实施方案中,对应的多个隐藏神经元由4至24个神经元组成。
[0335]
在一些实施方案中,一第一对应的训练的神经网络在对应的第一隐藏层中具有与多个训练的神经网络中的一第二对应的训练的神经网络不同数量的神经元。
[0336]
在一些实施方案中,多个训练的神经网络中的每个对应的训练的神经网络中的隐藏层的数量被限制为对应的第一隐藏层。
[0337]
在一些实施方案中,多个训练的神经网络中的每个对应的训练的神经网络中的隐藏层的数量由2至5个隐藏层组成。
[0338]
在一些实施方案中,多个训练的神经网络中的对应的训练的神经网络的一个或多个对应的神经网络输出是提供训练对象具有癌症状态的一概率的一单个神经网络输出。
[0339]
在一些实施方案中,多个训练的神经网络中的一对应的训练的神经网络的一个或多个对应的神经网络输出是多个神经网络输出,其中多个神经网络输出中的每个神经网络输出提供训练对象在多个癌症类型中具有一对应的癌症类型的一概率。
[0340]
在一些实施方案中,多种癌症类型包括肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳癌、子宫颈癌、结直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰脏癌、骨盆腔癌、胸膜癌、前列腺癌、肾癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤或白血病。
[0341]
在一些实施方案中,多个基因组区域中的每个基因组区域由多个训练的神经网络中的单个对应的神经网络表示。
[0342]
在一些实施方案中,多个基因组区域中的每个基因组区域由多个训练的神经网络中的2至5个对应的训练的神经网络表示,并且对应的第一隐藏层中的一第一对应权重的值在2至5个对应的训练的神经网络中的每一个是不同的。
[0343]
在一些实施方案中,多个基因组区域中的每个基因组区域由多个训练的神经网络
中的2至5个对应的神经网络表示,并且第一隐藏层中的每个对应的权重的值在2至5个对应的训练的神经网络中的每一个中都是独立的。
[0344]
在一些实施方案中,(b)训练对对应的多个隐藏神经元中的每个隐藏神经元的对应的权重使用正则化。
[0345]
在一些实施方案中,正则化包括l1或l2惩罚。
[0346]
在一些实施方案中,每个对应的多个核酸甲基化片段包含超过100个核酸甲基化片段。
[0347]
在一些实施方案中,每个对应的多个核酸甲基化片段的核酸甲基化片段的一平均数量包括1000个或更多核酸甲基化片段、5000个或更多核酸甲基化片段、10,000个或更多核酸甲基化片段、20,000个或更多核酸甲基化片段,或30,000或更多核酸甲基化片段。
[0348]
在一些实施方案中,每个对应的多个核酸甲基化片段的核酸甲基化片段的一平均数量在10,000个核酸甲基化片段至50,000个核酸甲基化片段之间。
[0349]
在一些实施方案中,多基因组区域由多个基因组区域的一子集组成,并且(c)执行利用多基因组区域神经网络,所述神经网络接受对应于多个基因组区域的子集中的一基因组区域的每个训练的神经网络的一输出作为输入,以便获得相应的训练对象的多个基因组区域的子集中的每个基因组区域的一相应特征或是多个基因组区域的子集中的一单个特征。
[0350]
在一些实施方案中,当通过对应的训练的神经网络进行评估时,(c)执行仅使用那些相应核酸甲基化片段进行特征识别,其在多个训练对象中具有超过特异性阈值的集中特异性(collective specificity)。
[0351]
在一些实施方案中,特异性阈值是0.9500至0.99999之间的值。
[0352]
在一些实施方案中,特异性阈值为0.999、0.9999或0.99999。
[0353]
在一些实施方案中,从相应的训练对象获得的生物样品中核酸的甲基化定序是生物样品中游离核酸的甲基化定序,并且此方法进一步包括使用从一个或多个代表癌症状态的肿瘤样品中获得的核酸甲基化片段的甲基化数据,至少部分地在多个训练的神经网络中训练对应的未训练的神经网络。
[0354]
在一些实施方案中,(b)训练使用k折交叉验证来调整对应的训练的神经网络的对应多个权重的学习率。
[0355]
在一些实施方案中,(b)训练对对应的多个隐藏神经元中的每个隐藏神经元的对应的权重使用正则化,并且(b)训练使用k折交叉验证来调整与正则化相关联的惩罚。
[0356]
在一些实施方案中,对应的未训练的神经网络包括多个隐藏层的数量,并且(b)训练使用k折交叉验证来调整对应的未训练的神经网络中的隐藏层的数量。
[0357]
在一些实施方案中,(b)训练使用k折交叉验证来调整对应的多个权重中的权重的数量。
[0358]
在一些实施方案中,(b)训练使用k折交叉验证来调整多个未训练的神经网络中未训练的神经网络的数量。
[0359]
在一些实施方案中,(b)训练使用k折交叉验证来调整多个训练的神经网络中训练的神经网络的数量。
[0360]
在一些实施方案中,(b)训练使用k折交叉验证来调整对应的训练的神经网络的初
始化。
[0361]
本公开的另一方面提供了一种计算机系统,用于确定一对象的一癌症状态的多个特征,所述计算机系统包括:至少一处理器以及一存储器,所述存储器存储用于由至少一处理器执行的至少一程序,至少一程序包括以下各项的指令:(a)获得多个基因型数据集,多个基因型数据集中的每个相应基因型数据集用于多个训练对象中的一相应训练对象,其中相应基因型数据集以电子形式包括:(i)相应训练对象的癌症状态的一对应标记;以及(ii)一对应的多个核酸甲基化片段,其中对应的多个核酸甲基化片段中的每个相应的核酸甲基化片段包含一对应的甲基化模式,甲基化模式包含相应的核酸甲基化片段的一对应的多个cpg位点中的每个cpg位点的一甲基化状态,并且对应的多个核酸甲基化片段通过对从相应的训练对象获得的一生物样品中的多个核酸进行甲基化定序来确定;(b)针对多个基因组区域中的每个相应基因组区域,训练多个未训练的神经网络中的一未训练的对应的未训练的神经网络,从而得到多个训练的神经网络中的一对应的训练的神经网络,其中:对应的未训练的神经网络独立地对应于相应基因组区域,对应的未训练的神经网络包括一对应的多个权重,对应的未训练的神经网络对映射到相应基因组区域的每个对应的多个核酸甲基化片段中的相应核酸甲基化片段进行评分,从而获得一对应的多个训练分数,训练基于对应的多个训练分数与源自于多个相应核酸甲基化片段的多个相应训练对象的癌症状态的对应标记的一比较,更新对应的未训练的神经网络中对应的多个权重中的每个权重的一对应值,从而获得对应的训练的神经网络;以及(c)针对多个基因组区域中的每个相应基因组区域,针对多个训练对象中的每个相应训练对象进行特征识别:通过使用对应于相应基因组区域的训练的神经网络以对对应于映射到癌症状态的相应基因组区域的相应的训练对象的多个核酸甲基化片段中的多个相应核酸甲基化片段进行评分,来获得相应训练对象的基因组区域的一相应特征,从而获得多个基因组区域中每个基因组区域的多个特征。
[0362]
本公开的另一方面提供了一种其上存储有程序代码指令的非暂时性计算机可读存储介质,当处理器执行程序代码指令时,使处理器执行获得用于确定一对象的一癌症状态的多个特征的方法,所述方法包括:在包括至少一处理器及一存储器的计算机系统,其中存储器存储用于由至少一处理器执行的至少一程序,至少一程序包括以下各项的指令:(a)获得多个基因型数据集,多个基因型数据集中的每个相应基因型数据集用于多个训练对象中的一相应训练对象,其中相应基因型数据集以电子形式包括:(i)相应训练对象的癌症状态的一对应标记;以及(ii)一对应的多个核酸甲基化片段,其中对应的多个核酸甲基化片段中的每个相应的核酸甲基化片段包含一对应的甲基化模式,甲基化模式包含相应的核酸甲基化片段的一对应的多个cpg位点中的每个cpg位点的一甲基化状态,并且对应的多个核酸甲基化片段通过对从相应的训练对象获得的一生物样品中的多个核酸进行甲基化定序来确定;(b)针对多个基因组区域中的每个相应基因组区域,训练多个未训练的神经网络中的一未训练的对应的未训练的神经网络,从而得到多个训练的神经网络中的一对应的训练的神经网络,其中:对应的未训练的神经网络独立地对应于相应基因组区域,对应的未训练的神经网络包括一对应的多个权重,对应的未训练的神经网络对映射到相应基因组区域的每个对应的多个核酸甲基化片段中的相应核酸甲基化片段进行评分,从而获得一对应的多个训练分数,训练基于对应的多个训练分数与源自于多个相应核酸甲基化片段的多个相应训练对象的癌症状态的对应标记的一比较,更新对应的未训练的神经网络中对应的多个权
重中的每个权重的一对应值,从而获得对应的训练的神经网络;以及(c)针对多个基因组区域中的每个相应基因组区域,针对多个训练对象中的每个相应训练对象进行特征识别:通过使用对应于相应基因组区域的训练的神经网络以对对应于映射到癌症状态的相应基因组区域的相应的训练对象的多个核酸甲基化片段中的多个相应核酸甲基化片段进行评分,来获得相应训练对象的基因组区域的一相应特征,从而获得多个基因组区域中每个基因组区域的多个特征。
[0363]
本公开的另一方面提供了一种用于确定一对象的一癌症状态的方法,所述方法包括:在包含至少一处理器以及一存储器的一计算机系统中,其中所述存储器存储由所述至少一处理器执行的至少一程序,所述至少一程序包括以下各项的指令:(a)以电子形式获得多个核酸甲基化片段,其中所述多个核酸甲基化片段中的每个相应核酸甲基化片段包含一对应的甲基化模式,所述甲基化模式包含所述相应核酸甲基化片段的一对应的多个cpg位点中的每个cpg位点的一甲基化状态,并且所述多个核酸甲基化片段通过对从所述对象获得的一生物样品中的多个核酸进行甲基化定序来确定;(b)针对多个基因组区域中的每个相应基因组区域,通过使用对应于相应基因组区域的多个训练的神经网络中的一训练的神经网络以对映射到癌症状态的所述相应基因组区域的所述多个核酸甲基化片段中的多个相应核酸甲基化片段进行评分,来获得所述对象的基因组区域的一相应特征,来执行特征识别,从而获得多个特征,其中所述多个特征中的每个相应特征是针对所述多个基因组区域中的一对应的基因组区域;以及(c)响应于将所述多个特征输入到一下游监督模型,获得关于测试对象是否具有癌症状态的一确定,作为所述下游监督模型的输出。
[0364]
本公开的另一方面提供了一种用于确定一对象的一癌症状态的计算机系统,所述计算机系统包括:至少一处理器;以及一存储器,存储由所述至少一处理器执行的至少一程序,所述至少一程序包括以下各项的指令:(a)以电子形式获得多个核酸甲基化片段,其中所述多个核酸甲基化片段中的每个相应核酸甲基化片段包含一对应的甲基化模式,所述甲基化模式包含所述相应核酸甲基化片段的一对应的多个cpg位点中的每个cpg位点的一甲基化状态,并且所述多个核酸甲基化片段通过对从所述对象获得的一生物样品中的多个核酸进行甲基化定序来确定;(b)针对多个基因组区域中的每个相应基因组区域,通过使用对应于相应基因组区域的多个训练的神经网络中的一训练的神经网络以对映射到癌症状态的所述相应基因组区域的所述多个核酸甲基化片段中的多个相应核酸甲基化片段进行评分,来获得所述对象的基因组区域的一相应特征,来执行特征识别,从而获得多个特征,其中所述多个特征中的每个相应特征是针对所述多个基因组区域中的一对应的基因组区域;以及(c)响应于将所述多个特征输入到一下游监督模型,获得关于测试对象是否具有癌症状态的一确定,作为所述下游监督模型的输出。
[0365]
本公开的另一方面提供一种非暂时性计算机可读存储介质,其上存储有程序代码指令,当处理器执行所述程序代码指令时,使处理器执行确定对象的癌症状态的方法,所述方法包括:在包括至少一处理器及一存储器的计算机系统中,且其中所述存储器存储至少一由所述至少一处理器执行的程序,所述至少一程序包括以下各项的指令:(a)以电子形式获得多个核酸甲基化片段,其中所述多个核酸甲基化片段中的每个相应核酸甲基化片段包含一对应的甲基化模式,所述甲基化模式包含所述相应核酸甲基化片段的一对应的多个cpg位点中的每个cpg位点的一甲基化状态,并且所述多个核酸甲基化片段通过对从所述对
象获得的一生物样品中的多个核酸进行甲基化定序来确定;(b)针对多个基因组区域中的每个相应基因组区域,通过使用对应于相应基因组区域的多个训练的神经网络中的一训练的神经网络以对映射到癌症状态的所述相应基因组区域的所述多个核酸甲基化片段中的多个相应核酸甲基化片段进行评分,来获得所述对象的基因组区域的一相应特征,来执行特征识别,从而获得多个特征,其中所述多个特征中的每个相应特征是针对所述多个基因组区域中的一对应的基因组区域;以及(c)响应于将所述多个特征输入到一下游监督模型,获得关于测试对象是否具有癌症状态的一确定,作为所述下游监督模型的输出。
[0366]
本公开的另一方面提供了用于执行本公开中描述的任何方法的计算机系统。例如,计算机系统执行获得用于确定对象的癌症状态的多个特征的方法及/或用于确定对象的癌症状态的计算机系统。这种计算机系统可以包括至少一处理器及存储至少一程序的一存储器,所述程序包括用于由至少一处理器执行的指令。在一些实施方案中,至少一程序包括用于执行本文公开的任何方法及实施方案及/或其任何组合的指令。在一些实施方案中,至少一程序配置为由计算机执行。
[0367]
本公开的另一方面提供一种非暂时性计算机可读存储介质,其上存储有程序代码指令,当处理器执行程序代码指令时,使处理器执行本公开中描述的任何方法。例如,存储介质使处理器执行获得用于确定对象的癌症状态的多个特征的方法及/或确定对象的癌症状态的方法。在一些实施方案中,程序代码指令包括用于执行本文公开的任何方法及实施方案及/或其任何组合的指令。在一些实施方案中,程序代码指令配置为由计算机执行。
[0368]
其他注意事项:
[0369]
上述实施方案的详细描述参考了附图,其说明了本公开的具体的实施方案。具有不同结构及操作的其他实施方案不脱离本公开的范围。“本发明”等术语用于参考本说明书中阐述的申请人发明的许多替代方面或实施方案的某些具体实施例,其使用或不存在均不旨在限制申请人的发明范围或权利要求的范围。
[0370]
本发明的实施方案还可以涉及一种用于执行本文的操作的装置。此装置可以为所需目的专门构造,及/或其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算装置。这种计算机程序可以存储在非瞬态的、有形的计算机可读存储介质或适合存储电子指令的任何类型的介质中,其可以耦合到计算机系统总线。此外,本说明书中提及的任何计算系统可以包括单个处理器或是可以是采用多个处理器设计以增加计算能力的架构。
[0371]
本文描述为由分析系统执行的任何步骤、操作或方法可以单独或与其他计算装置结合使用设备的一个或多个硬件或软件模块来执行或实现。在一个实施方案中,软件模块使用计算机程序产品实现,所述计算机程序产品包括包含计算机程序代码的计算机可读介质,所述计算机程序代码可以通过计算机处理器执行以执行所描述的任何或所有步骤、操作或方法。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献