使用自动编码器确定癌症状态的系统和方法与流程

2023-04-01 10:04:05 来源：中国专利 TAG：

使用自动编码器确定癌症状态的系统和方法
1.相关申请的交叉引用
2.本技术主张于2020年03月04日提交的美国专利临时申请案申请号为62/985,258，发明名称为“使用自动编码器确定癌症状况的系统和方法”的优先权，其公开内容均通过引用并入本文作为参考。
3.序列表
4.本技术包含以电子方式和ascii格式提交的序列表，并通过引用将其全部并入本文。该ascii副本创建于2020年03月04日，档案命名为121059-5018-pr_st25.txt，大小为4千字节。
技术领域
5.本发明是有关于一种使用生物样本中的甲基化图谱来区分及/或检测癌症状态。

背景技术：

6.早期发现癌症是改善癌症预后的最人道的方法之一。目前的治疗方法，如实体肿瘤的手术、化疗和放疗相结合，或液体肿瘤的化疗和骨髓移植，都有缺点，包括生存率不令人满意。治疗通常会让患者感到痛苦，同时只能提供有限的生存时间。新的免疫疗法还有其他缺点，例如要求患者在重症监护室接受治疗，并且常常产生致命的副作用。当早期发现癌症时，所有这些治疗都更有效。
7.虽然筛查试验可用于早期癌症检测，但常规筛查方法往往不能令人满意。监测方法，如乳房x光检查、结肠镜检查、巴氏涂片和前列腺特异性抗原(psa)检测已经使用了几十年，但并非所有方法都取得了一致的成功。一些病变进展如此缓慢，以至于患者更有可能死于继发性疾病，而一些危险的肿瘤直到治疗为时已晚才被发现。此外，迄今为止，除其他外，还没有令人满意的肺癌筛查试验。
8.为了开发此类筛查测试，需要定义癌细胞的“生物标记物”。这些物质几乎可以是癌细胞释放的任何物质，例如遗传物质链。美国国家癌症研究所正在支持大型计划，希望此类生物标记物不仅能提供癌症的最早足迹，还能帮助将侵袭性肿瘤与非危及生命的肿瘤区分开来。生物分子测序的进展，特别是核酸样本方面的进展，使细胞和分子生物学领域发生了革命性的变化，并为发现此类生物标记物提供了一种有希望的技术。由于自动化测序系统的发展，现在可以对整个基因组进行测序。
9.寻找生物标记物的一种特殊方法是使用这种测序来识别异常的dna甲基化图谱。虽然dna甲基化在调节基因表达方面起着重要作用，但异常的dna甲基化与许多疾病过程有关，包括癌症。此外，甲基化的特定图谱已被确定与特定癌症条件相关。例如，参见jones，2002年，癌基因21:5358-5360；paska和hudler，2015年，《生物化学与医学》25(2)：161-176；du等人，2010年，bmc生物信息学11:587，doi:10.1186/1471-2105-11-587。使用甲基化测序(如全基因组亚硫酸氢钠测序)进行dna甲基化分析越来越被认为是检测、诊断或监测癌症的一种有价值的诊断工具。例如，差异区域或等位基因特异性甲基化图谱可用作使用循环
游离dna进行非侵入性诊断的分子标记。例如，参见warton和samimi，2015，front mol biosci，2(13)doi:10.3389/fmolb.2015.0013。
10.虽然新的测序技术使大规模测序(包括甲基化测序)成为可能，但使用这些新测序技术测序的基因组的数量和复杂性也相应增加。尽管现在可以获得大量高保真核酸序列，但在将这些序列组装和组织成完整的基因组及/或从这些大型和高度复杂的数据集中识别有用或信息丰富的生物标记方面仍存在许多问题。
11.鉴于上述背景，本领域需要改进方法，以使用日益复杂和大规模的核酸测序数据识别生物标记。此外，本领域需要改进现有方法，以使用此类生物标记物对基因组中的复杂生物模式和非线性进行建模和推断，从而开发用于检测、诊断及/或监测疾病(如癌症)的测试。

技术实现要素：

12.本发明所述的实施例通过提供用于区分癌症状态的各种技术解决方案来解决背景技术中确定的缺点。为具有第一癌症状态的多个受试者获取第一数据集。与第一数据集相关联的多个受试者中的每个受试者都有多个核酸甲基化片段，这些片段是通过从受试者获得的生物样本中的核酸甲基化序列确定的。每个这样的核酸甲基化片段包括核酸序列和包括具有cpg位点甲基化状态的甲基化图谱。通过对第一数据集中每个核酸甲基化片段的甲基化图谱和核酸序列的自动编码器重建中的误差来评估误差函数，训练包括编码器和解码器的自动编码器。为具有第二癌症状态的多个受试者获取第二数据集。与第二数据集相关联的多个受试者中的每个受试者都有多个核酸甲基化片段，这些片段是通过从受试者获得的生物样本中的核酸甲基化序列确定的。每个这样的核酸甲基化片段包括核酸序列和包括具有cpg位点甲基化状态的甲基化图谱。通过将第二个数据集中每个核酸甲基化片段的甲基化图谱和核酸序列输入到经过训练的自动编码器中，并计算由自动编码器重建甲基化图谱的确定的分数，可以识别多个特征。多个特征用于训练判别癌症状态的监督模型。
13.本发明的一个目的提供了一种在计算机系统中区分癌症状态的方法，例如第一和第二癌症状态，其中第一癌症状态不同于第二癌症状态，所述计算机系统包括至少一个处理器和存储至少一个程序的存储器，以供至少一个处理器执行。所述至少一个程序包括用于以电子形式获得第一训练数据集的指令。对于多个第一训练受试者中的每个相应训练受试者，所述第一训练数据集包括在通过对从相应受试者获得的一生物样本中进行一核酸甲基化测序所确定的一对应的多个核酸甲基化片段中，每个相应核酸甲基化片段的一对应的甲基化图谱和一对应的核酸序列，其中所述对应的甲基化图谱包括所述相应核酸甲基化片段中对应的多个cpg位点中每个相应cpg位点的一甲基化状态，其中所述多个第一训练受试者中的每个训练受试者具有所述第一癌症状态。
14.所述方法还包括训练未经训练的自动编码器，其中未经训练的自动编码器包括编码器和译码器，使用所述第一训练数据集中的每个对应的多个核酸甲基化片段中的每个相应核酸甲基化片段中的所述对应的甲基化图谱和对应的核酸序列作为输入，训练由第一训练数据集中每个对应的多个核酸甲基化片段中每个对应的核酸甲基化片段的每个相应核酸序列执行，通过所述对应的核酸甲基化片段中所述对应的甲基化图谱和所述对应的核酸序列来评估所述自动编码器的重建的一误差的一第一误差函数，从而形成一经训练的自动
编码器。
15.所述方法还包括以电子形式获取第二训练数据集。对于多个第二训练受试者中的每个相应训练受试者，所述第二训练数据集包括通过从各自受试者获得的一生物样本中进行一核酸甲基化测序所确定的一对应的多个核酸甲基化片段中每个相应核酸甲基化片段的一对应的甲基化图谱和一对应的核酸序列，所述对应的甲基化图谱包括相应核酸甲基化片段中对应的多个cpg位点中每个相应cpg位点的一甲基化状态，其中所述多个第二训练受试者中的每个训练受试者具有所述第二癌症状态。
16.所述方法还包括使用第二训练数据集和经训练的自动编码器从第二训练数据集表示的多个序列或多个甲基化图谱中识别多个特征。对于所述第二训练数据集中的每个对应的多个核酸甲基化片段中的每个相应核酸甲基化片段，在将相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列输入到所述经训练的自动编码器中时，由所述自动编码器至少部分地对所述相应核酸甲基化片段的对应的甲基化图谱进行一重建来确定一对应分数。
17.所述方法还包括使用所述多个特征来训练区分所述第一癌症状态和所述第二癌症状态的一监督模型。
18.在一些实施例中，由所述第二训练数据集表示的对应于所述第二训练数据集中的一个或多个核酸甲基化片段的每个核酸序列接收满足一误差阈值的一对应分数被识别为所述多个特征中的一个特征。
19.在一些实施例中，一相应核酸甲基化片段的所述对应分数：由所述自动编码器对所述相应核酸甲基化片段的对应的甲基化图谱的所述重建的一正确性确定；并且与通过所述自动编码器对所述相应核酸甲基化片段的对应的核酸序列的所述重建的一正确性无关。
20.在一些实施例中，一相应核酸甲基化片段的所述对应分数：由所述自动编码器对所述相应核酸甲基化片段的对应的甲基化图谱的所述重建的一正确性确定；并且进一步由所述自动编码器对所述相应核酸甲基化片段的对应的核酸序列的所述重建的一正确性确定。
21.在一些实施例中，所述相应核酸甲基化片段的对应的甲基化图谱的所述重建的所述正确性至少部分地由所述相应核酸甲基化片段的的对应的甲基化图谱的所述重建与所述相应核酸甲基化片段的实际甲基化图谱之间的一汉明距离确定。
22.在一些实施例中，通过对从所述第一训练数据集或所述第二训练数据集中的各个受试者获得的生物样本中的核酸进行一甲基化测序确定的对应的多个核酸甲基化片段包括一千或更多、一万或更多、十万或更多、一百万或更多、一千万或更多、一亿或更多、五亿或更多、十亿或更多、二十亿或更多、三十亿或更多，四十亿或更多、五十亿或更多、六十亿或更多、七十亿或更多、八十亿或更多、九十亿或更多、或一百亿或更多的核酸甲基化片段。在一些实施例中，所述多个第一训练受试者包括10个或更多、20个或更多、30个或更多、50个或更多、100个或更多、1000个或更多、2000个或更多、3000个或更多、或5000个或更多个训练受试者。在一些实施例中，所述多个第二训练受试者包括30个或更少、50个或更少、100个或更少、或1000个或更少的训练受试者。
23.在一些实施例中，所述至少一个程序还包括在获得数据集之后，在训练自编码器之前：通过从对应的多个核酸甲基化片段中去除不满足一个或多个选择标准的每个相应的
核酸甲基化片段来对每个对应的多个核酸甲基化片段进行过滤。
24.在一些实施例中，当相应核酸甲基化片段的甲基化图谱具有不满足一p值阈值的一输出p值时，相应核酸甲基化片段不满足一个或多个选择标准中的一选择标准；以及至少部分地基于在所述相应核酸甲基化片段的多个cpg位点上(例如，两个或多个位点、三个或更多个位点、四个或更多位点、五个或更多的位点、六个或更多个位点、七个或更多个位点、八个或更多个位点、九个或更多个位点、十个或更多个位点、十一个或更多个位点、十二个或更多个位点、十三个或更多个位点、十四个或更多个位点、十五个或更多个位点)的所述相应核酸甲基化片段的甲基化图谱与所述第一训练数据集中具有相应多个cpg位点的所述核酸甲基化片段的甲基化图谱的对应分布的一比较来确定相应核酸甲基化片段的所述输出p值。
25.在一些实施例中，当由一训练的马尔可夫模型提供的一输出p值响应于所述相应核酸甲基化片段的甲基化图谱的输入而未通过一选择标准时，来自所述第一训练数据集的所述相应核酸甲基化片段未能满足一个或多个选择标准中的一选择标准；以及所述训练的马尔可夫模型至少部分地基于在所述第一训练数据集中具有对应的多个cpg位点(例如，两个或多个位点、三个或更多个位点、四个或更多位点、五个或更多的位点、六个或更多个位点、七个或更多个位点、八个或更多个位点、九个或更多个位点、十个或更多个位点、十一个或更多个位点、十二个或更多个位点、十三个或更多个位点、十四个或更多个位点、十五个或更多个位点)的所述核酸甲基化片段之间的相应核酸甲基化片段的多个cpg位点中的每个cpg位置的一甲基化状态的评估来训练。
26.在一些实施例中，当一训练的马尔可夫模型的一输出p值响应于所述相应核酸甲基化片段的甲基化图谱的输入而未达到一选择标准时，来自所述第二训练数据集的所述相应核酸甲基化片段未能满足一个或多个选择标准中的一选择标准；以及所述训练的马尔可夫模型至少部分地基于在所述第一训练数据集中具有对应的多个cpg位点(例如，两个或多个位点、三个或更多个位点、四个或更多位点、五个或更多的位点、六个或更多个位点、七个或更多个位点、八个或更多个位点、九个或更多个位点、十个或更多个位点、十一个或更多个位点、十二个或更多个位点、十三个或更多个位点、十四个或更多个位点、十五个或更多个位点)的所述核酸甲基化片段之间的相应核酸甲基化片段的多个cpg位点中的每个cpg位置的一甲基化状态的评估来训练。
27.在一些这样的实施例中，输出p值在0.00001和0.20之间。在一些实施例中，输出p值为0.05。在一些这样的实施例中，输出p值在0.0001和0.10之间。
28.在一些实施例中，当所述相应核酸甲基化片段具有小于一阈值数量的cpg位点时，相应核酸甲基化片段不满足一个或多个选择标准中的一选择标准。在一些这样的实施例中，cpg位点的阈值数量为4、5、6、7、8、9、10、11、12、13、14或15。
29.在一些实施例中，当所述相应核酸甲基化片段具有小于一阈值数量的残基时，所述相应核酸甲基化片段不满足一个或多个选择标准中的一选择标准。在一些实施例中，残基的阈值数量为32或64。在一些实施例中，残基的阈值数量是20到90之间的一固定值。
30.在一些实施例中，所述过滤移除所述多个核酸甲基化片段中的一核酸甲基化碎片，所述核酸甲基化碎片与所述多个核酸甲基化片段中的另一核酸甲基化片段具有相同的对应的甲基化图谱和相同的对应的核酸序列。在一些实施例中，所述过滤保留所述多个核
酸甲基化片段中的一核酸甲基化碎片，所述核酸甲基化碎片与所述多个核酸甲基化片段中的另一核酸甲基化片段具有相同的对应的甲基化图谱和不同的对应的核酸序列。在一些实施例中，所述过滤保留所述多个核酸甲基化片段中的一核酸甲基化碎片，所述核酸甲基化碎片与所述多个核酸甲基化片段中的另一核酸甲基化片段具有不同的对应的甲基化图谱和相同的对应的核酸序列。
31.在一些实施例中，当所述相应核酸甲基化片段的cpg位点的数量小于一阈值时，所述核酸甲基化片段不能满足一个或多个选择标准中的一选择标准；获得数据集的步骤在训练自动编码器之前将对应的多个核酸甲基化片段中小于预定长度的每个核酸甲基化片段填充为预定长度，并且通过以一预定步幅跨相应核酸甲基化片段开窗，截断对应的多个核酸甲基化片段中大于预定长度的每个相应核酸甲基化片段，从而将相应核酸甲基化片段截断为两个或多个序列段，其中两个或多个核酸甲基化片段各自具有所述预定长度，并且各自具有至少为所述阈值的数量的cpg位点，并共同替换对应的多个核酸甲基化片段中的相应核酸甲基化片段作为训练所述自动编码器的所述输入。
32.在一些实施例中，所述片段长度在90个核苷酸到300个核苷酸之间。在一些实施例中，所述片段长度为100个核苷酸、128个核苷酸或256个核苷酸。
33.在一些实施例中，截断多个核酸甲基化片段中的第一核酸甲基化片段，所述第一核酸甲基化片段长于预定长度，位于所述第一核酸甲基化片段内的变异的位点、冲突甲基化调用的位点或不明确调用的位点被截断，从而缩短所述第一核酸甲基化片段以终止于所述位点。
34.在一些实施例中，所述自动编码器是一变分自动编码器、一叠层去噪深度自动编码器、一深度循环自动编码器、一卷积式自动编码器或一变压器网络。
35.在一些实施例中，所述自动编码器是一深度循环自动编码器，并且在所述训练中，对于第一训练数据集中对应的多个序列中的相应序列：向所述深度循环自动编码器的一第一轨道提供被分解成多个k聚体的各个核酸甲基化片段的对应的核酸序列；以及向所述深度循环自动编码器的一第二轨道提供相应核酸甲基化片段的对应的甲基化图谱。
36.在一些实施例中，所述自动编码器是一深度循环自动编码器，并且在所述训练中，对于第一训练数据集中对应的多个核酸甲基化片段中的相应核酸甲基化片段：以残基为基础向所述深度循环自动编码器的第一轨道提供相应核酸甲基化片段的对应的核酸序列；以及向所述深度循环自动编码器的一第二轨道提供提供相应核酸甲基化片段的对应的甲基化图谱。
37.在一些实施例中，所述训练更包括根据梯度下降算法评估所述自动编码器的重建中的误差的第一误差函数。
38.在一些实施例中，所述编码器对第一训练数据集中每个对应的多个核酸甲基化片段中的对应的甲基化图谱和对应的多个核酸甲基化片段的对应的核酸序列进行编码，从而形成多个潜在特征；以及所述解码器将多个潜在特征解码为对应的核酸甲基化片段的对应的甲基化图谱和对应的核酸序列的重建。
39.在一些实施例中，所述监督模型是逻辑回归模型。
40.在一些实施例中，所述监督模型是神经网络算法、支持向量机算法、朴素贝叶斯算法、最近邻算法、提升树算法、随机森林算法、决策树算法、多项式逻辑回归算法、线性模型
或线性回归算法。
41.在一些实施例中，所述监督模型使用(i)所述多个第一训练受试者和所述多个第二训练受试者的多个特征中每个相应核酸甲基化片段的甲基化图谱；以及(ii)每个相应核酸甲基化片段的指示，所述指示有关于所述核酸甲基化片段是来自具有第一癌症状态的一训练受试者或是具有第二癌症状态的一训练受试者。
42.在一些实施例中，使用多个特征包括使用包括利用多个特征中的每个特征的对应分数来计算在多个特征中找到的多个第二cpg位点中每个cpg位点的一对应的cpg平均重建分数，从而计算多个对应的cpg平均重建分数。在一些实施例中，使用多个特征包括使用多个对应的cpg平均重建分数来选择一参考基因组中的多个低噪声区域、用于定向测序的参考基因组的多个区域或用于区分多个癌症状态(例如，第一癌症状态和第二癌症状态)的多个参考基因组区域。
43.在一些实施例中，使用第二训练数据集和经训练的自动编码器选择与对应分数相关联的甲基化图谱，其基础是所述甲基化图谱位于通过将用作多个特征中的特征而获得的前n个对应分数中。在一些此类实施例中，n介于100和2000之间。在一些实施例中，n为1000。
44.在一些实施例中，相应核酸甲基化片段的对应分数被限制在第一数字和第二数字之间的一实际值。在一些实施例中，第一数字为0，第二个数字为1。
45.在一些实施例中，所述监督模型是第一分布和第二分布之间的kullback
–
leibler距离；其中所述第一分布包括跨所述第一训练数据集或所述第二训练数据集的核酸甲基化片段的多个特征的多个第一对应分数；以及所述第二分布包括从一受试者的生物样本中获得的多个核酸甲基化片段的多个第二对应分数。
46.在一些实施例中，相应核酸甲基化片段中对应的多个cpg位点中相应cpg位点的甲基化状态为：当相应的cpg位点通过甲基化测序确定为甲基化时被甲基化；当相应的cpg位点通过甲基化测序确定为未甲基化时未被甲基化；以及当甲基化测序无法将相应cpg位点的甲基化状态称为甲基化或未甲基化时标记为“其他”。
47.在一些实施例中，甲基化测序是i)全基因组甲基化测序或ii)使用多个核酸探针的靶向dna甲基化测序。在一些实施例中，甲基化测序检测相应核酸甲基化片段中的一个或多个5-甲基胞嘧啶(5mc)及/或5-羟甲基胞嘧啶(5hmc)。在一些实施例中，核酸的甲基化测序包括将相应核酸甲基化片段中的一种或多种未甲基化胞嘧啶或一种或多种甲基化胞嘧啶转化为对应的一种或多种尿嘧啶。在一些实施例中，一种或多种尿嘧啶在甲基化测序期间被检测为一种或多种对应的胸腺嘧啶。在一些实施例中，一种或多种未甲基化胞嘧啶或一种或多种甲基化胞嘧啶的转化包括化学转化、酶促转化或其组合。
48.在一些实施例中，所述第一癌症状态是没有癌症。在一些实施例中，所述第二癌症状态是肾上腺癌、胆道癌、膀胱癌、骨髓癌、脑癌、乳腺癌、宫颈癌、结直肠癌、食道癌、胃癌、头颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌、骨盆癌、胸膜癌、前列腺癌、肾恶性肿瘤、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病或其组合。在一些实施例中，所述第一癌症状态是特定癌症的第一阶段；以及所述第二癌症状态是特定癌症的第二阶段。在一些实施例中，所述特定癌症是肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌、骨盆癌、胸膜癌、前列腺癌、肾恶性肿瘤、皮肤癌、胃癌、睾丸癌、胸腺
癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病或其组合。在一些实施例中，所述第二癌症状态是肾上腺癌阶段、胆道癌阶段、膀胱癌阶段、骨/骨髓癌阶段、脑癌阶段、乳腺癌阶段、宫颈癌阶段、结直肠癌阶段、食道癌阶段、胃癌阶段、头颈癌阶段、肝胆癌阶段、肾癌阶段、肝癌阶段、肝癌阶段、卵巢癌阶段、胰腺癌阶段、盆腔癌阶段、胸膜癌阶段、前列腺癌阶段、肾恶性肿瘤阶段、皮肤癌阶段、胃癌阶段、睾丸癌阶段、胸腺癌阶段、甲状腺癌阶段、子宫癌阶段、淋巴瘤阶段、黑色素瘤阶段、多发性骨髓瘤阶段或白血病阶段。
49.在一些实施例中，从各个受试者获得的生物样本中核酸的甲基化测序是生物样本中无细胞核酸的甲基化测序。在一些实施例中，所述生物样本是血液样本。在一些实施例中，所述生物样本包括测试受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。在一些实施例中，对于所述第一癌症状态，相应的生物样本是同质的。在一些实施例中，相应的生物样本是对于第一癌症状态同质的肿瘤样本。
50.在一些实施例中，所述方法更包括：获得电子形式的一测试数据集，其中：对于一测试受试者，所述测试数据集包括通过对从所述测试受试者获得的生物样本中的核酸进行甲基化测序确定的多个测试核酸甲基化片段中的每个相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列；所述对应的甲基化图谱包括相应测试核酸甲基化片段中对应的多个cpg位点(例如，两个或更多个位点、三个或更多个位点、四个或更多个位点、五个或更多个位点、六个或更多个位点、七个或更多个位点、八个或更多个位点、九个或更多个位点、10个或更多个位点、11个或更多个位点、12个或更多个位点、13个或更多个位点、14个或更多个位点或15个或更多个位点)中每个相应cpg位点的一甲基化状态；以及将所述测试数据集的全部或部分应用于所述监督模型，从而从所述监督模型获得关于所述测试受试者是否具有所述第一癌症状态或所述第二癌症状态的确定。
51.在一些实施例中，使用第一误差函数计算对应分数。在一些实施例中，使用不同于第一误差函数的一第二误差函数来计算相应核酸甲基化片段的对应分数。
52.在一些实施例中，相应核酸甲基化片段的对应分数计算如下：a(f)＝loss(f,f’)；其中，f是相应核酸甲基化片段的对应的甲基化图谱；f’是在将对应的甲基化图谱和相应核酸甲基化片段的对应的核酸序列输入到自动编码器后，自动编码器对相应核酸甲酯化片段的对应的甲基化图谱的重建；以及loss是f和f'之间的损失。在一些此类实施例中，所述loss是f和f'之间的一重建误差、f和f'之间的一汉明距离、f和f'之间的一交叉熵损失、f和f'之间的均方误差或f和f'之间的平均绝对误差。
53.在一些实施例中，相应核酸甲基化片段的对应分数计算如下：a(f)＝w1*loss(f,f') w2*距离[e(f),e(f_nc)]；其中，w1是第一权重；f是相应核酸甲基化片段的对应的甲基化图谱；f’是在将对应的甲基化图谱和相应核酸甲基化片段的对应的核酸序列输入到自动编码器后，自动编码器对相应核酸甲酯化片段的对应的甲基化图谱的重建；以及w2是第二权重；loss是f和f'之间的损失；e(f)是在将相应核酸甲基化片段的对应的甲基化图谱输入自动编码器时由自动编码器产生的编码；f_nc是核酸甲基化片段的甲基化图谱和核酸序列，其定位于与相应核酸甲基化片段相同的基因组位置并且具有与相应核酸甲基化片段相同的序列；e(f_nc)是自动编码器在将f_nc输入到自动编码器时产生的编码；以及距离是e(f)和e(f_nc)之间的距离度量或相似性度量(所述距离是余弦距离、欧几里得距离、曼哈顿距离、雅卡距离、相关距离、卡方距离或马氏距离)。在一些实施例中，w1和w2的数值均为1。
在一些替代实施例中，w1和w2各有不同的数值。
[0054]
在一些实施例中，在所述第一训练数据集上为所述经训练的自动编码器所计算的误差满足一误差阈值。在一些实施例中，当误差小于15％、小于10％、小于5％、小于4％或小于3％时，通过第一训练数据集的第一误差函数计算的误差满足误差阈值。在一些实施例中，所述第一训练数据集或第二训练数据集包括：通过对从相应的训练受试者获得的生物样本中的核酸进行甲基化测序确定的对应的多个核酸甲基化片段中的第一核酸甲基化片段的第一对应核酸序列。在一些实施例中，所述第一对应核酸序列来自所述第一核酸甲基化片段的正向链或反向链。在一些实施例中，所述第一对应核酸序列是所述第一核酸甲基化片段的反向链并且是反向互补形式，或被标记为所述第一核酸甲基化片段的反向链。
[0055]
本揭示的另一目的提供了一种形成用于检测癌症状态的分类器的方法。所述方法在计算机系统上执行，所述计算机系统包括至少一个处理器和存储至少一个程序的存储器，以供至少一个处理器执行。所述至少一个程序包括用于以下操作的指令：获得电子形式的一训练数据集，其中：对于多个训练受试者中的每个相应训练受试者，所述第一训练数据集包括多个对应的多个核酸甲基化片段中的每个相应核酸甲基化片段的一对应的甲基化图谱和一对应的核酸序列，所述对应多个核酸甲基化片段是由从各个训练受试者获得的一生物样本的核酸进行一甲基化测序确定的。所述对应的甲基化图谱包括所述相应核酸甲基化片段中对应的多个cpg位点中每个相应cpg位点的一甲基化状态。所述多个多个训练受试者中的每个训练受试者具有所述第一癌症状态。
[0056]
所述至少一个程序还包括用于训练未经训练的自动编码器的指令，其中，自动编码器包括编码器和译码器，使用训练数据集中每个对应的多个核酸甲基化片段中的每个相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列作为输入。对于所述训练数据集中的每个对应的多个核酸甲基化片段中的每个相应核酸甲基化片段的每个对应的核酸序列，所述训练包括通过所述对应的核酸甲基化片段中所述对应的甲基化图谱和所述对应的核酸序列来评估所述自动编码器的重建的一误差的一第一误差函数，从而形成一经训练的自动编码器。
[0057]
在一些实施例中，所述至少一个程序还包括用于以电子形式获得测试数据集的指令。对于一测试受试者，所述测试数据集包括通过从所述测试受试者获得的一生物样本中的核酸进行一甲基化测序所确定的多个测试核酸甲基化片段中每个相应测试核酸甲基化片段的一对应的甲基化图谱和一对应的核酸序列；以及所述对应的甲基化图谱包括相应测试核酸甲基化片段中对应的多个cpg位点中每个相应cpg位点的一甲基化状态。将所述测试数据集的全部或部分应用到所述经训练的自动编码器，以确定所述测试受试者是否患有所述癌症状态，其中，对于所述测试数据集中的多个测试核酸甲基化片段中的每个相应测试核酸甲基化片段，在将相应测试核酸甲基化片段的对应的甲基化图谱和对应的核酸序列输入到所述自动编码器中时，通过所述经训练的自动编码器重建相应核酸甲基化片段的对应的甲基化图谱，计算至少部分确定的一对应分数。
[0058]
本揭示的另一目的提供一种检测癌症状态的方法。所述方法在计算器系统处执行，所述计算器系统包括至少一个处理器和存储至少一个程序以供该至少一个处理器执行的存储器。所述至少一个程序包括用于获得电子形式的测试数据集的指令。对于一测试受试者，所述测试数据集包括通过从所述测试受试者获得的一生物样本中的核酸进行一甲基
化测序所确定的多个核酸甲基化片段中每个相应核酸甲基化片段的一对应的甲基化图谱和一对应的核酸序列；以及所述对应的甲基化图谱包括相应核酸甲基化片段中对应的多个cpg位点中每个相应cpg位点的一甲基化状态。
[0059]
所述方法还包括将全部或部分多个核酸甲基化片段中每个相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列应用到经训练的自动编码器，以确定受试者是否处于癌症状态。这样做时，对于多个核酸甲基化片段的全部或部分中的每个相应核酸甲基化片段，在将相应的核酸甲基化片段的对应的甲基化图谱和的对应的核酸序列输入到经训练的自动编码器中时，由经训练的自动编码程序重建相应核酸甲基化片段的相应甲基化图谱，从而至少部分地确定一对应分数。
[0060]
本发明的另一目的提供了一种用于识别癌症状态的计算机系统。所述计算器系统包括至少一个处理器和存储至少一个由至少一个处理器执行的程序的存储器。所述至少一个程序包括用于区分癌症状态的指令。在一些实施例中，所述至少一个程序包括用于执行本揭示公开的任何方法和实施例及/或其任何组合的指令，这对于本领域技术人员来说是显而易见的。在一些实施例中，至少一个程序被配置为由计算器执行。
[0061]
本发明的另一目的提供了一种非暂时性计算机可读存储介质，所述存储介质上存储有程序代码指令，当由处理器执行时，所述程序代码指令会使处理器执行识别癌症状态的方法。在一些实施例中，程序代码指令包括用于执行本揭示所公开的任何方法和实施例的指令，及/或其任何组合。在一些实施例中，程序代码指令被配置为由计算机或计算机系统执行。
[0062]
通过引用合并
[0063]
本发明的所有出版物、专利和专利申请均通过引用整体并入。如果本发明中的术语与并入参考文献中的术语发生冲突，则以本发明中的术语为准。
附图说明
[0064]
图1是根据本揭示的一些实施例的一计算系统示例性的方框示意图。
[0065]
图2是根据本揭示的一些实施例中用于获取和预处理数据集的方法的示例的方框示意图。
[0066]
图3是根据本揭示的一些实施例中用于获取和预处理数据集的方法的示例性的方框示意图。
[0067]
图4是根据本揭示的一些实施例中将第一阈值过滤器应用于多个片段中的每个相应片段的甲基化图谱的方法示意图。
[0068]
图5a、图5b、图5c、图5d、图5e共同示出了根据本揭示的一些实施例的用于区分两种癌症状态的方法的示例性流程示意图。
[0069]
图6是根据本揭示的一些实施例，使用自动编码器检测甲基化图谱异常的示例性示意图。
[0070]
图7是根据本揭示的一些实施例中用于制备用于测序的核酸样本的方法的流程示意图。
[0071]
图8是根据本揭示的一些实施例中获得核酸甲基化片段的流程示意图。
[0072]
图9是根据本揭示的一些实施例中用于获得甲基化信息以筛查测试受试者的癌症
状况的方法的示例性流程示意图。
[0073]
图10是根据本揭示的一些实施例中使用自动编码器计算甲基化片段的重建的分数的方法的示例性流程示意图。
[0074]
图11说明了根据本发明的一些实施例，核酸甲基化片段的输入和输出核酸序列示例，其中“i”表示编码器编码前的输入核酸序列，“o”表示解码器重建后的输出核酸序列。
具体实施方式
[0075]
当使用大规模核酸测序(例如，甲基化测序用于检测癌症等疾病)时，处理生物标记物搜索复杂性的一种方法是深度学习。深度学习有望利用这些生物标记物来建模和推断基因组中的复杂生物模式和非线性，从而开发癌症诊断测试。
[0076]
可以针对与癌症相关的各种目标执行使用核酸序列数据(例如，核酸甲基化片段)的深度学习策略，包括分类、回归、推理和聚类。特别地，一种用于癌症分类的方法是使用监督或半监督模型执行的，其中使用标记有一种或多种感兴趣条件的训练样本来训练模型。然后可以使用经过训练的模型来区分给定测试样本的许多学习条件，从而对测试样本进行分类。例如，参见2020年12月11日提交的美国专利申请us 17/119,606，其整体内容通过引用并入本文。
[0077]
除了将深度学习应用于核酸序列数据的前景和可能性之外，还有许多需要避免的警告和危险，包括由于普通人群中癌症发病率低而导致的大类不平衡，相对于所学习的参数的数量而言，培训样本的数量不足，以及对生物或过程相关噪声的过度拟合的敏感性等。例如，由于包含混合样本类型，训练数据集中的样本质量及/或纯度可能会有所不同，从而导致分类器性能不佳(例如，当使用来自液体活检的无细胞dna时，其可以来自多个细胞及/或组织来源)。因此，获取足够数量的高质量训练样本，并且将这些样本可以用于感兴趣的条件(例如，癌症、非癌症及/或癌症亚型)并正确地注释，以准确训练分类器，这是一个挑战。
[0078]
识别这种高质量训练样本的一种方法是无监督异常检测，其中一个或多个来自测试数据集的未知样本根据参考数据集的学习表示进行评估(例如，来自参考数据集的数据点分布)。可以通过在来自感兴趣的参考条件的训练样本数据集上训练人工神经网络(例如自动编码器)来获得学习的表示。
[0079]
本发明提供了用于癌症状况确定的系统和方法，所述系统和方法使用自动编码器来执行无监督异常检测并因此进行特征检测。
[0080]
本发明提供了用于识别训练数据集中异常训练样本的改进系统和方法，从而消除代表具有第一感兴趣条件(例如，健康及/或正常)的参考数据集的无信息训练样本，并生成包含特定于第二感兴趣条件的区别特征(例如，癌症)的精选训练数据集。例如，可以使用甲基化片段重建分数(mfrs)来识别异常甲基化图谱。
[0081]
在一些实施例，本发明公开的系统和方法与特定特征选择过滤器(例如甲基化水平的百分比)同时或独立地识别异常训练样本，这些过滤器可以忽略非线性或其他复杂模式，这些模式在不同来源的核酸序列之间具有细微的区别特征。这样的区分或鉴别特征随后被用于训练分类器来区分癌症状况。
[0082]
在一些替代实施例，本发明所公开的系统和方法提供了第一感兴趣条件(例如健
康及/或正常)的学习表示，可以用作一类分类器(例如一元分类器)来识别第一感兴趣的条件的存在或不存在(例如正常或异常)。
[0083]
现在将详细参考实施例，其示例如附图所示。在下面的详细描述中，列出了许多具体细节，以提供对本发明的透彻理解。然而，本领域普通技术人员显然可以在没有这些具体细节的情况下实施本发明。在其他情况下，没有详细描述众所周知的方法、过程、组件、电路和网络，以免不必要地混淆实施例的目的。
[0084]
定义
[0085]
如本文所用术语“大约”或“大概”可以表示如本领域普通技术人员确定的特定值的可接受误差范围内，这可以部分取决于如何测量或确定该值，例如测量系统的局限性。例如，根据本领域的实践，“约”可以表示在1个或大于1个标准偏差内。“大约”可以表示给定值的
±
20％、
±
10％、
±
5％或
±
1％的范围。本文所用术语“大约”或“大概”可以表示在一个数量级内，在一个值的5倍以内，或在2倍以内。在申请和权利要求中描述了特定值的情况下，除非另有说明，否则术语“大约”的含义应假定在特定值的可接受误差范围内。本文所用术语“约”可以具有本领域普通技术人员通常理解的含义。本文所用术语“约”可以指
±
10％。本文所用术语“约”可以指
±
5％。
[0086]
如本文所用术语“生物样本”、“患者样本”或“样本”是指取自受试者的任何样本，其可以反映与受试者相关的生物学状态，并且包括无细胞dna。生物样本的实例包括但不限于受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。生物样本可以包括源自活体或死体的任何组织或材料。生物样本可以是无细胞样本。生物样本可以包含核酸(例如，dna或rna)或其片段。本文所用术语“核酸”可以指脱氧核糖核酸(dna)、核糖核酸(rna)或其任何杂合体或片段。样本中的核酸可以是无细胞核酸。样本可以是液体样本或固体样本(例如，细胞或组织样本)。生物样本可以是体液，例如血液、血浆、血清、尿液、阴道液、鞘膜积液(例如睾丸的积液)、阴道冲洗液、胸膜液、腹水、脑脊液、唾液、汗液、眼泪、痰液、支气管肺泡灌洗液、乳头排出液、身体不同部位(例如甲状腺、乳房)的吸入液等。生物样本可以是粪便样本。在各种实施例中，已富集用于无细胞dna的生物样本(例如，通过离心协议获得的血浆样本)中的大多数dna可以是无细胞的(例如，大于50％、60％、70％、80％、90％、95％或99％的dna可以是无细胞的)。可对生物样本进行处理，以物理方式破坏组织或细胞结构(例如，离心及/或细胞裂解)，从而将细胞内成分释放到溶液中，所述溶液可进一步含有酶、缓冲液、盐、洗涤剂等，用于制备供分析的样本。
[0087]
如本文所用术语“癌症”或“肿瘤”是指组织的异常肿块，其中肿块的生长超过正常组织的生长，并且与正常组织的增长不协调。根据以下特征，可以将癌症或肿瘤定义为“良性”或“恶性”：细胞分化程度，包括形态和功能、生长速度、局部侵袭和转移。“良性”肿瘤可以分化良好，比恶性肿瘤生长缓慢，并且仍然局限于原发部位。此外，在某些情况下，良性肿瘤不具备浸润、侵入或转移至远处部位的能力。“恶性”肿瘤可以是低分化(间变性)，具有特征性的快速生长，伴随着周围组织的进行性浸润、侵袭和破坏。此外，恶性肿瘤可能具有转移到远处部位的能力。
[0088]
如本文所用术语“癌症状况”是指与癌症相关的样本的状况，其中所述状况的每个潜在特征及/或度量是指癌症状况的“状态”。例如，样本可能具有“癌症”或“非癌症”的癌症状态。或者，癌症状况可以是原发部位或起源组织，例如乳腺癌、肺癌、前列腺癌、结肠直肠
癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌和胃癌。癌症状况可以是癌症类型或某种癌症类型的肿瘤，或其一部分，例如肾上腺皮质癌、儿童肾上腺皮质癌、aids相关癌症的肿瘤、卡波西肉瘤、与肛门癌相关的肿瘤、与阑尾癌相关的癌症、星形细胞瘤、儿童期(脑癌)肿瘤、非典型畸胎瘤/横纹肌样肿瘤、中枢神经系统(脑瘤)肿瘤、皮肤基底细胞癌、胆管癌相关的瘤、膀胱癌、儿童期膀胱癌肿瘤、骨癌(例如，尤文肉瘤和骨肉瘤和恶性纤维组织细胞瘤)组织、脑肿瘤、乳腺癌组织、儿童乳腺癌组织，儿童支气管肿瘤、伯基特淋巴瘤组织、类癌肿瘤(胃肠道)、儿童类癌、原发性不明癌、原发病不明的儿童癌、儿童心脏肿瘤、中枢神经系统肿瘤(例如脑癌，如儿童非典型畸胎瘤/横纹肌样瘤)、儿童胚胎肿瘤、儿童生殖细胞肿瘤、子宫颈癌组织、儿童宫颈癌组织、胆管癌组织、小儿脊索瘤组织、慢性骨髓增生性肿瘤、结肠癌肿瘤、儿童结直肠癌肿瘤、儿童颅咽管瘤组织、导管原位癌(dcis)、儿童胚胎肿瘤、子宫内膜癌(子宫癌)组织、儿童室管膜瘤组织、食管癌组织、儿童食道癌组织、嗅神经母细胞瘤(头颈癌)组织、儿童颅外生殖细胞瘤、性腺外生殖细胞肿瘤、眼癌组织、眼内黑色素瘤、视网膜母细胞瘤、输卵管癌组织、组织胆囊癌、组织胃癌、儿童组织胃癌、胃肠道类癌瘤、胃肠道间质瘤(gist)、儿童胃肠道间质瘤、生殖细胞瘤(例如，儿童中枢神经系统生殖细胞肿瘤、儿童颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、卵巢生殖细胞肿瘤或睾丸癌组织)、头颈癌组织、儿童心脏肿瘤、肝细胞癌(hcc)组织、胰岛细胞肿瘤(胰腺神经内分泌肿瘤)、肾或肾细胞癌(rcc)组织、喉癌组织、白血病、肝癌组织、肺癌(非小细胞和小细胞)组织、儿童肺癌组织、男性乳腺癌组织、骨和骨肉瘤的恶性纤维组织细胞瘤、黑色素瘤、儿童黑色素瘤、眼内黑色素瘤、儿童眼内黑色素瘤、默克尔细胞癌、恶性间皮瘤、儿童间皮瘤、转移性癌组织、具有隐匿性原发组织的转移性鳞状颈癌、具有nut基因变化的中线束癌、口腔癌(头颈癌)组织、多发性内分泌肿瘤综合征组织、多发性骨髓瘤/浆细胞肿瘤、骨髓增生异常综合征组织、骨髓增生异常/骨髓增生性肿瘤、慢性骨髓增生性肿瘤、鼻腔和鼻窦癌组织、鼻咽癌(npc)组织、神经母细胞瘤组织、非小细胞肺癌组织、口腔癌组织、唇口腔癌和口咽癌组织、骨组织骨肉瘤和恶性纤维组织细胞瘤、卵巢癌组织、儿童卵巢癌组织、胰腺癌组织、儿童胰腺癌组织、乳头状瘤(儿童喉)组织、副神经节瘤组织、儿童副神经节瘤组织、鼻窦及鼻腔癌组织、甲状旁腺癌组织、阴茎癌组织、咽癌组织、嗜铬细胞瘤组织、儿童嗜铬细胞瘤组织、垂体瘤、浆细胞肿瘤/多发性骨髓瘤、胸膜肺母细胞瘤、原发性中枢神经系统(cns)淋巴瘤、原发性腹膜癌组织、前列腺癌组织、直肠癌组织、视网膜母细胞瘤、儿童横纹肌肉瘤、唾液腺癌组织、肉瘤(如儿童血管瘤、骨肉瘤、子宫肉瘤等)、s
é
zary综合征(淋巴瘤)组织、皮肤癌组织、儿童皮肤癌组织、小细胞肺癌组织、小肠癌组织、皮肤鳞状细胞癌、具有隐匿性原发性的鳞状颈部癌、皮肤t细胞淋巴瘤、睾丸癌组织、儿童睾丸癌组织、喉癌(例如鼻咽癌、口咽癌、下咽癌)组织、胸腺瘤或胸腺癌、甲状腺癌组织、肾盂和输尿管组织的移行细胞癌、未知原发癌组织、输尿管或肾盂组织、移行细胞癌(肾(肾细胞)癌组织、尿道癌组织、子宫内膜癌组织、子宫肉瘤组织、阴道癌组织、儿童阴道癌组织、血管肿瘤、外阴癌组织、肾母细胞瘤或其他儿童肾肿瘤。癌症状态可以是癌症的一个阶段，例如乳腺癌的预定阶段、肺癌预定阶段、前列腺癌预定阶段、结直肠癌预定阶段、肾癌预定阶段和子宫癌预定阶段、胰腺癌的预定阶段、食管癌的预定时期、淋巴瘤的预定阶段、头颈癌的预定阶段、卵巢癌的预定阶段、肝胆癌的预定阶段、黑色素瘤的预定阶段、子宫颈癌的预定阶段、多发性骨髓瘤的预定阶段、白血病的预定阶段、甲状腺癌
的预定阶段、膀胱癌的预定阶段或胃癌的预定阶段。癌症状况也可以是一个生存指标，它可以是预定时间段内生存的预定可能性。来自单个受试者的多个样本可能具有不同的癌症状况或相同的癌症状况。多个受试者可以具有不同的癌症状况或相同的癌症状况。
[0089]
如本文所述，循环无细胞基因组图谱或“ccga”被定义为一项观察性临床研究，所述研究前瞻性地收集来自新诊断的癌症患者的血液和组织以及仅来自没有诊断出癌症的受试者的血液。所述研究的目的是开发一种泛癌分类器，用于区分癌症和非癌症，并识别起源组织。实施例1提供了ccga数据集的更多详细信息。
[0090]
如本文所用术语“分类”是指与样本的特定性质相关联的任何数字或其他特征。例如，“ ”符号(或“阳性”一词)可以表示样本被归类为具有缺失或扩增。在另一个例子中，本文所用术语“分类”可以指受试者及/或样本中肿瘤组织的量、受试者及/或样本中肿瘤的大小、受试者中肿瘤的阶段、受试者及/或样本中的肿瘤负荷以及受试者中是否存在肿瘤转移。分类可以是二元的(例如，正面或负面)或具有更多级别的分类(例如，从1到10或0到1的等级)。如本文所用术语“截断”和“阈值”可以指在操作中使用的预定数字。例如，截断大小可以指可以是指大于此值的片段被排除在外的大小。阈值可以是高于或低于特定分类适用的值。这两个术语中的任何一个都可以在这些上下文中使用。
[0091]
如本文所用术语“无细胞核酸”、“无细胞dna”和“cfdna”可互换地指在细胞外、在身体体液(例如血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、汗、眼泪、胸膜液、心包液或腹膜液)中发现的核酸分子。无细胞核酸可互换地用作循环核酸。无细胞核酸的实例包括但不限于rna、粒线体dna或基因组dna。无细胞核酸来源于一种或多种健康细胞及/或一种或多种癌细胞。
[0092]
如本文所用术语“无细胞核酸”是指可在细胞外的体液中发现的核酸分子，例如受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、汗液，眼泪、胸膜液、心包液或腹膜液。无细胞核酸来源于一个或多个健康细胞及/或一个或一个以上癌细胞。无细胞核酸可互换地用作循环核酸。无细胞核酸的例子包括但不限于rna、粒线体dna或基因组dna。
[0093]
如本文所用术语“对照”、“对照样本”、“参考”、“参考样本”、“正常”和“正常样本”描述来自不具有特定病症或健康的受试者的样本。在一个实施例中，本文所公开的方法可以在具有肿瘤的受试者上执行，其中参考样本是取自受试者健康组织的样本。参考样本可以从受试者或数据库中获得。例如，参考基因可以是例如参考基因组，其用于绘制通过对来自受试者的样本进行测序而获得的序列读数。参考基因组可以指单倍体或二倍体基因组，从生物样本和组成样本中读取的序列可以与其进行比对和比较。组成样本的一个例子可以是从受试者获得的白细胞的dna。对于单倍体基因组，每个位点只能有一个核苷酸。对于二倍体基因组，可以确定杂合子位点；每个杂合子位点可以有两个等位基因，其中任一等位基因都可以与所述位点对齐。
[0094]
如本文所用术语“健康的”是指具有良好健康的受试者。健康受试者可以证明不存在任何恶性或非恶性疾病。“健康个体”可能患有与所检测的疾病无关的其他疾病或病症，这些疾病或病症通常不能被认为是“健康的”。
[0095]
如本文所用术语“甲基化”是指脱氧核糖核酸(dna)的修饰，其中胞嘧啶碱基的嘧啶环上的氢原子转化为甲基，形成5-甲基胞嘧啶。特别地，甲基化倾向于发生在本文称为“cpg位点”的胞嘧啶和鸟嘌呤的二核苷酸处。在其他情况下，甲基化可能发生在不是cpg位
点一部分的胞嘧啶或另一个不是胞嘧啶的核苷酸上，但是，这些情况很少见。在本发明中，为了清楚起见，参考cpg位点讨论甲基化。异常cfdna甲基化可被识别为高甲基化或低甲基化，这两者都可能表明癌症状态。正如本领域众所周知的那样，dna甲基化异常(与健康对照组相比)可以导致不同的影响，这可能会导致癌症。
[0096]
在识别异常甲基化的cfdna片段方面出现了各种挑战。首先，确定受试者的cfdna异常甲基化仅与一组对照受试者相比具有重要意义，因此，如果对照组人数较少，则确定结果会对较少的对照组失去信心。此外，在一组对照受试者中，甲基化状态可能不同，这在确定受试者的cfdna异常甲基化时很难解释。另一方面，cpg位点胞嘧啶的甲基化会影响后续cpg位点的甲基化。
[0097]
本文所述的原理同样适用于检测非cpg环境中的甲基化，包括非胞嘧啶甲基化。此外，甲基化状态向量可能包含通常是甲基化已经发生或尚未发生的位点向量的元素(即使这些位点不是特定的cpg位点)。通过那些替换，本文描述的其余过程是相同的，因此，本文描述的发明概念适用于那些其他形式的甲基化。
[0098]
如本文所用术语“甲基化图谱”是指一个或多个cpg位点的甲基化状态序列(例如，甲基化状态向量)。甲基化状态包括但不限于甲基化(例如，表示为“m”)和未甲基化(例如，表示为“u”)。例如，跨越5个cpg位点的甲基化图谱可以表示为“mmmmm”或“uuuuu”，其中每个离散符号代表单个cpg位点的甲基化状态。甲基化图谱可能对应也可能不对应于参考基因组中的特定基因组位置及/或特定一个或多个cpg位点。
[0099]
如本文所用术语“甲基化组”可以是基因组中多个位点或基因座处dna甲基化量的量度。甲基组可以对应于一个基因组的所有部分、基因组的实质部分或相对较小的基因组部分。“肿瘤甲基化组”可以是受试者(例如人)的肿瘤的甲基化组。可以使用血浆中的肿瘤组织或无细胞肿瘤dna来确定肿瘤甲基化组。肿瘤甲基化组可以是感兴趣的甲基化组的一个例子。感兴趣的甲基化组可以是可以将核酸(例如dna)贡献到体液中的器官的甲基化组(例如，脑细胞、骨骼、肺、心脏、肌肉、肾脏等的甲基化组)。器官可以是移植器官。
[0100]
如本文所用术语“核酸”和“核酸分子”可互换使用。这些术语是指任何组成形式的核酸，例如脱氧核糖核酸(dna，例如互补dna(cdna)、基因组dna(gdna)等)及/或dna类似物(例如，含有碱基类似物、糖类似物及/或非天然骨架等)，所有这些都可以是单链或双链形式。除非另有限制，否则核酸可以包含已知的天然核苷酸类似物，其中一些类似物的功能与天然核苷酸类似。核酸分子可以是可用于进行本文过程的任何形式(例如，线性、环状、超螺旋、单链、双链等)。在一些实施例中，核酸可以来自单个染色体或其片段(例如，核酸样本可以来自从二倍体生物体获得的样本的一条染色体)。在某些实施例中，核酸包含核小体、核小体片段或部分或核小体样结构。核酸有时包含蛋白质(例如组蛋白、dna结合蛋白等)。通过本文所述方法分析的核酸有时基本上是分离的，并且基本上与蛋白质或其他分子无关。核酸还包括从单链(“有义”或“反义”、“正”链或“负”链、“正向”阅读框或“反向”阅读框)合成、复制或扩增的dna衍生物、变体和类似物以及双链多核苷酸。脱氧核糖核苷酸包括脱氧腺苷、脱氧胞嘧啶、脱氧鸟苷和脱氧胞苷。可以使用从受试者获得的核酸作为模板来制备核酸。
[0101]
如本文所用术语“参考基因组”是指任何生物体或病毒的任何特定已知、测序或特征基因组，无论是部分还是完整的，其可用于参考来自受试者的已识别序列。美国国家生物
技术信息中心(“ncbi”)或加州大学圣克鲁斯分校(ucsc)主办的在线基因组浏览器提供了用于人类受试者以及许多其他生物体的示例参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。如本文所用，参考序列或参考基因组通常是来自单个或多个个体的组装或部分组装的基因组序列。在一些实施例中，参考基因组是来自一个或多个人类个体的组装或部分组装的基因组序列。参考基因组可以被视为一个物种基因组的代表性例子。在一些实施例中，参考基因组包含分配给染色体的序列。示例性人类参考基因组包括但不限于ncbi build 34(ucsc等效物：hg16)、ncbi build 35(ucsc等效物：hg17)、ncbi build 36.1(ucsc等效物：hg18)、grch37(ucsc等效物：hg19)和grch38(ucsc等效物：hg38)。
[0102]
如本文所用术语“序列读数”或“读数”是指由本文所述或本领域已知的任何测序过程产生的核苷酸序列。读数可以从核酸片段的一端生成(“单端读数”)，有时也可以从核酸的两端生成(例如，成对端读数、双端读数)。在一些实施例中，序列读数(例如，单端或成对端读数)可以从目标核酸片段的一条或两条链生成。序列读数的长度通常与特定的测序技术相关。例如，高通量方法可提供大小从数十个碱基对(bp)到数百个碱基对(bp)不等的序列读数。在一些实施例中，序列读数具有约15个碱基对至约900个碱基对长的平均、中值或平均长度(例如，约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp约80bp约85bp约90bp约95bp约100bp约110bp约120bp约130约140bp约150bp约200bp约250bp约300bp、约350bp、约400bp、约450bp或约500bp)。在一些实施例中，序列读数的平均、中位数或平均长度约为1000bp、2000bp、5000bp、10000bp或50000bp或更多。例如，纳米孔测序可以提供大小从数十到数百到数千个碱基对的序列读数。illumina并行测序可以提供变化不大的序列读数，例如，大多数序列读数可以小于200bp。序列读数(或测序读数)可以指与核酸分子(例如，一串核苷酸)相对应的序列信息。例如，序列读数可以对应于核酸片段的一部分的一串核苷酸(例如，约20个到约150个)，可以对应于核苷酸片段一端或两端的一串核苷酸，或者可以对应于整个核酸片段的核苷酸。序列读数可以通过多种方式获得，例如使用测序技术或探针，例如杂交阵列或捕获探针，或扩增技术，例如聚合酶链反应(pcr)或使用单个引物或等温扩增的线性扩增。
[0103]
如本文所用的术语“测序”、“序列测定”等一般是指可用于确定生物大分子例如核酸或蛋白质的顺序的任何和所有生化过程。例如，测序数据可以包括核酸分子(如dna片段)中的全部或部分核苷酸碱基。
[0104]
如本文所用术语“测序广度”是指特定参考基因组(例如，人类参考基因组)或基因组的一部分已被分析的部分。分数的分母可以是重复屏蔽基因组，因此100％可以对应于所有参考基因组减去屏蔽部分。重复屏蔽基因组可以指序列重复被屏蔽的基因组(例如，序列读数与基因组的未屏蔽部分对齐)。基因组的任何部分都可以被屏蔽，因此人们可以专注于参考基因组的任何特定部分。广泛测序可以指对至少0.1％的基因组进行测序和分析。
[0105]
如本文所用术语“测序深度”可与术语“覆盖率”互换使用，是指一个基因座被与所述基因座对齐的独特核酸靶分子对应的共有序列读数所覆盖的次数；例如，测序深度等于覆盖所述基因座的唯一核酸靶分子的数量。所述基因座可以小到核苷酸，也可以大到染色体臂，或者大到整个基因组。测序深度可以表示为“yx”，例如50x、100x等，其中“y”是指一个位点被对应于核酸靶点的序列覆盖的次数，例如，获得覆盖特定位点的独立序列信息的次数。在一些实施例中，测序深度对应于已测序的基因组数量。测序深度也可以应用于多个基
因座或整个基因组，在这种情况下，y可以分别指一个基因座、单倍体基因组或整个基因组测序的平均或平均次数。当引用平均深度时，数据集中包含的不同位点的实际深度可以跨越一系列值。超深度测序可以指在一个位点的测序深度至少达到100倍。
[0106]
如本文所用术语“受试者”指任何活的或非活的生物体，包括但不限于人类(例如，男性、女性、胎儿、怀孕女性、儿童等)、非人类动物、植物、细菌、真菌或原生生物。任何人类或非人类动物都可以作为研究对象，包括但不限于哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄类、反刍动物、牛(例如牛)、马(例如马)、山羊和山羊(例如绵羊、山羊)、猪(例如猪)、骆驼(例如骆驼、美洲驼、羊驼)、猴子、猿(例如大猩猩、黑猩猩)、熊(例如熊)、家禽、狗、猫、老鼠、老鼠、鱼、海豚、鲸鱼、还有鲨鱼。在一些实施例中，受试者是任何阶段的男性或女性(例如，男性、女性或儿童)。从中获取样本或通过本文所述的任何方法或组合物治疗的受试者可以是任何年龄并且可以是成人、婴儿或儿童。在一些实施例中，例如，受试者是0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70 71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、，95、96、97、98或99岁或在其范围内的患者(例如，大约2岁到20岁之间，大约20岁到40岁之间，或者大约40岁到90岁之间)。特定类别的受试者，例如可以从本公开的方法中受益的患者是受试者，例如，40岁以上的受试者、45岁以上的受试者、50岁以上的受试者、50岁以上的受试者50岁，55岁以上的科目，或60岁以上的受试者。
[0107]
如本文所用术语“组织”可以对应于作为功能单元组合在一起的一组细胞。在单个组织中可以发现不止一种类型的细胞。不同类型的组织可能由不同类型的细胞组成(例如，肝细胞、肺泡细胞或血细胞)，但也可以对应于来自不同生物体的组织(母亲与胎儿)或健康细胞与肿瘤细胞。术语“组织”通常可以指在人体中发现的任何细胞组(例如，心脏组织、肺组织、肾组织、鼻咽组织、口咽组织)。在一些方面，术语“组织”或“组织类型”可用于指代无细胞核酸来源的组织。在一个例子中，病毒核酸片段可以来源于血液组织。在另一个例子中，病毒核酸片段可以来源于肿瘤组织。
[0108]
如本文所用术语“未经训练的模型”(例如，“未经训练的分类器”及/或“未经训练的自动编码器”)是指机器学习模型或算法，例如尚未针对目标数据集进行训练的分类器或自动编码器。在一些实施例中，“训练模型”指训练未训练或部分未训练模型的过程。例如，考虑下面讨论的甲基化状态向量的第一规范集(例如甲基化图谱)和甲基化状态向量的第二规范集的情况。将甲基化状态向量的相应规范集作为未经训练分类器的集体输入，与甲基化状态向量的第一规范集(以下简称“主要训练数据集”)所代表的每个相关参考受试者的细胞源一起应用，以在细胞源上训练未经训练的分类器，从而获得经过训练的分类器。此外，术语“未经训练的模型”并不排除在未经训练模型的此类训练中使用迁移学习技术的可能性。例如，美国专利公开号us 2020-0372296 a1，名称为“使用迁移学习确定受试者是否患有癌症的系统和方法”；以及fernandes等人，2017年，“将部分可观察性应用于宫颈癌筛查的迁移学习”，模式识别和图像分析：第八届伊比利亚会议论文集，页243-250，其中每一个都通过引用被纳入本文，提供了这种迁移学习的非限制性实施例。在使用迁移学习的情况下，上述未经训练的分类器将获得超出主要训练数据集的额外数据。也就是说，在迁移学
习实施例的非限制性示例中，未经训练的分类器接收(i)甲基化状态向量的规范集和由甲基化状态向量规范集(“主要训练数据集”)表示的每个参考受试者的细胞源标签，以及(ii)附加数据。通常，这些附加数据采用从另一个辅助训练数据集中学习的系数(例如回归系数)的形式。此外，虽然已经公开了单个辅助训练数据集的描述，但是在本公开中在训练未训练模型时可以用于补充主要训练数据集的辅助训练数据集的数量没有限制。例如，在一些实施例中，使用两个或更多辅助训练数据集、三个或更多辅助训练数据集、四个或更多辅助训练数据集或五个或更多辅助训练数据集，通过迁移学习来补充主要训练数据集，其中每个这样的辅助数据集不同于主要训练数据集。在这样的实施例中可以使用任何方式的迁移学习。例如，考虑除了主要训练数据集之外还有第一辅助训练数据集和第二辅助训练数据集的情况。可以使用迁移学习技术(例如，上述二维矩阵乘法)将从第一辅助训练数据集学习的系数(通过对第一辅助训练数据集应用诸如回归的分类器)应用于第二辅助训练数据集，这反过来可能会导致经过训练的中间分类器，然后将其系数应用于主要训练数据集，并且与主要训练数据集本身一起，将其应用于未经训练的分类器。可替代地，可以分别将从第一辅助训练数据集学习的第一组系数(通过应用分类器，例如回归到第一辅助训练数据库)和从第二辅助训练数据集中学习的第二组系数(使用分类器，例如，回归到第二辅助训练数据集)应用到单独的主要训练数据集的实例(例如，通过单独的独立矩阵乘法)，以及系数与主要训练数据集中的单独实例的这两种应用(或一些简化形式的初级训练数据集，例如从主要训练数据集学习的主成分或回归系数)然后可以应用于未经训练的分类器，以便训练未经训练的分类器。在任一示例中，从第一和第二辅助训练数据集获得的有关细胞来源(例如癌症类型等)的知识与标记为主要训练数据集的细胞来源一起用于训练未经训练的模型。
[0109]
此处使用的术语仅用于描述特定情况，并不具有限制性。此处使用的单数形式“一”、“一个”和“所述”也包括复数形式，除非上下文另有明确说明。此外，如果在详细描述及/或权利要求中使用术语“包括”、“包含”、“拥有”、“具有”、“与”或其变体，则此类术语旨在以类似于术语“包括”的方式具有涵盖性。
[0110]
下面参考示例应用来描述几个方面以用于说明。应当理解，阐述了许多具体细节、关系和方法以提供对本文描述的特征的全面理解。然而，相关领域的普通技术人员将容易地认识到，这里描述的特征可以在没有一个或多个具体细节的情况下或用其他方法来实施。此处描述的特征不受所示出的步骤或事件顺序的限制，因为一些步骤可以以不同的顺序发生及/或与其他步骤或事件同时发生。此外，并非所有图示的步骤或事件都需要实施根据本文描述的特征的方法。
[0111]
示例性系统实施例
[0112]
现在结合图1描述示例性系统的细节。图1是示出根据一些实施方式的系统100的方框图。在一些实施例中，设备100包括至少一个或多个处理单元cpu 102(也称为处理器)、一个或更多网络接口104、具有用户接口108的显示器106、输入设备110、存储器和用于互连这些组件的一条或多条通信总线114。一个或多个通信总线114可选地包括互连和控制系统组件之间的通信的电路(有时称为芯片组)。存储器可以是非永久性存储器111、永久性存储器112或它们的任何组合。非永久性存储器111通常包括高速随机存取存储器，例如dram、sram、ddr ram、rom、eeprom、闪存，而永久性存储器通常包括cd-rom、数字多功能盘(dvd)或
其他光存储设备、磁带、磁带、磁盘存储设备或其他磁性存储设备、磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。无论其具体实现如何，非永久性存储器111及/或永久性存储器112包括至少一种非暂时性计算机可读存储介质，并且它在其上存储计算机可执行可执行指令，这些指令可以是程序、模块和数据结构的形式。
[0113]
在一些实施例中，如图1所示，非永久存储器111存储以下内容：
[0114]
·
与可选操作系统116相关的可选指令、程序、数据或信息，包括处理各种基本系统服务和执行硬件相关任务的过程；
[0115]
·
与可选网络通信模块(或指令)118相关的可选指令、程序、数据或信息，用于将系统100与其他设备及/或通信网络连接；
[0116]
·
以电子形式获得的与训练数据集120相关的指令、程序、数据或信息(例如，第一训练数据集120-1和第二训练数据集120-2)；
[0117]
·
与每个相应训练数据集的相应多个训练受试者122相关联的指令、程序、数据或信息(例如，相应多个第一训练受试者122-1-1、
…
、122-1-j，其中j为正整数，用于相应第一个训练数据集)，其中，多个第一训练受试者中的每个训练受试者具有第一癌症状态，并且多个第二训练受试者中的每个训练受试者具有第二癌症状态；
[0118]
·
与每个相应训练受试者122的多个核酸甲基化片段124相关联的指令、程序、数据或信息122(例如，124-1-1-1，
…
，124-1-1-k，其中k是正整数)，包含对应的核酸序列126(例如，126-1-1-1)和对应的甲基化图谱128(例如，128-1-1-1)，通过对从各个受试者获得的生物样本中的核酸进行甲基化测序确定，其中对应的甲基化图谱包括相应核酸甲基化片段中对应的多个cpg位点中每个相应cpg位点的甲基化状态130(例如，130-1-1-1-1、
…
、130-1-1-1-l，其中l为正整数)；
[0119]
·
与自动编码器132相关的指令、程序、数据或信息，包括对输入(例如，对应的核酸甲基化片段的对应的甲基化图谱和对应的核酸序列)进行编码的编码器134和至少对输入(例如，对应的甲基化图谱及/或对应的核酸甲基化片段的对应的核酸序列)的一部分进行一重建的解码器136，其中自动编码器可以是未经训练的或经训练的；
[0120]
·
与训练自动编码器132及/或监督模型148的训练模块138相关的指令、程序、数据或信息；
[0121]
·
与评估模块140相关联的指令、程序、数据或信息，包括：
[0122]
至少一个误差函数142，其评估通过自动编码器132重建的对应的核酸甲基化片段124的对应的甲基化图谱128和对应的核酸序列126的误差(例如，对于第一训练数据集120-1中每个对应的多个核酸甲基化片段中每个相应核酸甲基化片段的每个对应的核酸序列)，以及；
[0123]
一重建分数函数144，其计算重建分数，在将相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列126输入到经训练的自动编码器中时，由经训练的自动编码程序132至少部分地通过重建相应核苷酸甲基化片段124的对应的甲基化图谱128来确定的重建分数(例如，对于第二训练数据集120-2中每个对应的多个核酸甲基化片段中的每个相应核酸甲基化片段)；
[0124]
·
与使用第二训练数据集120-2和经训练的自动编码器132识别的多个特征146相关联的指令、程序、数据或信息；以及
[0125]
·
与区分第一癌症状态和第二癌症状态的监督模型148相关的指令、程序、数据或信息。
[0126]
在不同实施例中，上述识别组件中的一个或多个存储在一个或一个以上上述存储设备中，并且对应于用于执行本文描述的各种方法的一组指令。上述的模块、数据或程序(例如，指令集)可能不会作为单独的软件程序、程序、数据集或模块实现，因此，这些模块和数据的各种子集可以在各种实现中组合或重新安排。在一些实施例中，非永久性存储器111可选地存储上述模块和数据结构的子集。此外，在一些实施例中，存储器存储上文未描述的额外模块和数据结构。在一些实施例中，在一些实施例中，上述组件中的一个或多个被存储在系统100之外的计算机系统中，其可由系统100寻址，使得系统100可以检索所有或部分这样的数据。
[0127]
尽管图1描绘了“系统100”，但所述附图更多地用于在作为对可能存在于计算机系统中的各种特征的功能描述，而不是作为本文描述的实施例的结构示意图。实际上，并且如本领域普通技术人员所认识到的，单独显示的项目可以组合并且一些项目可以是分开的。此外，尽管图1描述了存储器中的某些数据和模块(可以是非永久性存储器111或永久性存储器112)，但应该认识到，这些数据和模块或其部分可以存储在多个存储器中。
[0128]
虽然参考图1揭示了符合本揭示的系统，但现在详细介绍了符合本揭示的方法。根据本揭示实施例的任何方法都可以使用美国专利公开号us2018-0237863a1(发明名称为“肿瘤检测的方法和系统”)及/或专利合作条约wo 2018/081130，发明名称为“肿瘤检测方法和系统”中得到支持，其中每种方法和系统的内容在此通过引用全部并入本文，以确定受试者的癌症状况或受试者患有癌症状况的可能性。
[0129]
图5a至图5e说明了根据本发明一些实施例的方法示例。
[0130]
用于识别区分第一和第二癌症状态的特征的方法
[0131]
参考方框502，本公开的一个目的提供了一种区分第一癌症状态(例如，健康及/或非癌症)和第二癌症状态(例如，癌症)的方法，在第一癌症状态不同于第二癌症状态的情况下，在计算机系统100处，计算机系统100包括至少一个处理器102和存储器111/112，存储器111/112存储用于由所述至少一个处理器执行的至少一个程序。所述至少一个程序包括用于执行所述方法的指令。
[0132]
参考方框504，所述方法包括以电子形式获得第一训练数据集120。所述第一训练数据集包括，对于多个第一训练受试者中的每个相应训练受试者122，通过对从各个训练受试者122获得的生物样本中的核酸进行甲基化测序确定的对应的多个核酸甲基化片段中的每个相应核酸甲基化片段124的对应的甲基化图谱128和对应的核酸序列126。对应的甲基化图谱128包括相应核酸甲基化片段124中对应的多个cpg位点(例如，两个或多个位点、三个或更多个位点、四个或更多位点、五个或更多的位点、六个或更多位点、七个或更多位点、八个或更多位点、九个或更多位点、十个或更多位点、十一个或更多位点、十二个或更多位点、十三个或更多位点、十四个或更多位点、十五个或更多位点)中每个相应cpg位点的甲基化状态130，并且多个第一个训练受试者中的每个训练受试者122具有第一癌症状态。
[0133]
多个训练受试者
[0134]
在一些实施例中，多个第一训练受试者中的每个训练受试者122是如上定义的受试者的任何示例(参见定义)。在一些实施例中，多个第一训练受试者中的每个训练受试者
是人。在一些实施例中，多个第一训练受试者是研究组。例如，在一些实施例中，多个第一受试者是来自ccga研究的多个参与者(参见例如下面的实施例1)。
[0135]
生物样本
[0136]
在一些实施例中，生物样本是以上定义的生物样本的任何例子(参见定义)。在一些实施例中，生物样本是液体生物样本或组织样本。参考方框506-508，在一些实施例中，生物样本是血液样本(方框506)。在一些实施例中，生物样本包括测试受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液(方框508)。在一些实施例中，生物样本包括受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。在一些实施例中，生物样本包含无细胞dna(cfdna)。在一些实施例中，生物样本来自细胞源。在一些实施例中，生物样本从患有癌症的受试者或健康(例如，非癌症)受试者获得。在一些实施例中，生物样本从肿瘤组织(例如癌症)或健康组织(例如非癌症)获得。
[0137]
参考方框510-512，在一些实施例中，相应生物样本对于第一癌症状态是同质的(例如，组织样本)(方框510)。在一些实施例中，相应生物样本是对于第一癌症状态同质的肿瘤样本(方框512)。在一些实施例中，相应生物样本对于第一癌症状态是非均质的(例如，对于第一癌症状态是非均质的液体生物样本)。
[0138]
在一些实施例中，生物样本取自存档样本(例如，冷冻、干燥或替代存储的组织活检或血液样本)。可以优化获取生物样本和执行检测(例如测序检测)之间的时间，以提高检测或方法的灵敏度及/或特异性。在一些实施例中，可以在进行测定之前立即获得生物样本。在一些实施例中，可以获得生物样本，并在执行分析之前存储一段时间(例如，小时、天或周)。在一些实施例中，可以在从测试受试者获得样本后的1天、2天、3天、4天、5天、6天、1周、2周、3周、4周、5周、6周、7周、8周、3个月、4个月、5个月、6个月、1年或超过1年内对样本执行分析。
[0139]
在一些实施例中，生物样本是多个生物样本(例如，包含多个样本的混合样本)。在获得第一数据集之前，可以在任何时候汇集多个生物样本。例如，在一些实施例中，汇集多个生物样本发生在核酸提取之前(例如汇集多个组织及/或液体生物样本)，在核酸提取之后但在甲基化测序之前(例如汇集多个核酸样本)，或在甲基化测序之后(例如，汇集来自多个测序测定的测序数据)。图7、图8和图9说明了根据本揭示的一些实施例的用于制备用于测序的核酸样本以及用于从生物样本获得测序和甲基化测序数据的方法的示例流程图(参见例如下面的实施例2和实施例3)。
[0140]
获得核酸甲基化片段
[0141]
在一些实施例中，从各个受试者获得的各个生物样本中的核酸是任何形式的核酸或其组合。例如，在一些实施例中，生物样本中的核酸是rna和dna的混合物。在一些实施例中，核酸是dna。在一些实施例中，核酸是无细胞核酸。
[0142]
如本文所用，核酸甲基化片段是指包含对应的甲基化图谱(参见“定义”)和对应的核酸序列的核酸片段，其中对应的甲基化图谱和对应的核酸顺序通过测序确定。在一些实施例中，每个相应核酸甲基化片段的对应的甲基化图谱及/或对应的核酸序列通过同时或分别进行的一种或多种测序方法获得。
[0143]
一种或多种测序方法可包括可用于获得从核酸(例如，无细胞核酸)测量的许多序
列读数的任何形式的测序，包括但不限于高通量测序系统，例如如roche 454平台、applied biosystems solid平台、helicos true single molecule dna测序技术、affymetrix inc.的杂交测序平台、pacific biosciences的单分子实时(smrt)技术、454life sciences、illumina/solexa和helicos biosciences的合成测序平台，以及applied biosystems的连接测序平台。来自生命技术和纳米孔测序的ion torrent技术也可用于从生物样本中的核酸(例如，无细胞核酸)获取序列读数。
[0144]
例如，在一些实施例中，一种或多种测序方法包括全基因组测序分析。全基因组测序分析是指为整个基因组或整个基因组的大部分产生序列读数的物理分析，可用于确定大的变异，如复制数变异或复制次数变异。这种物理测定可以采用全基因组测序技术或全外显子组测序技术。
[0145]
]在一些实施例中，全基因组测序分析在受试者的基因组中具有至少1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、至少20x、至少30x或至少40x的平均测序深度。在一些实施例中，测序深度约为30000x。
[0146]
在一些实施例中，一种或多种测序方法包括靶向组测序测定。在一些此类实施例中，靶向组测序测定对于靶向组基因具有至少50,000x、至少55,000x、至少60,000x或至少70,000x测序深度的平均测序深度。在一些此类实施例中，靶向基因组包含450至500个基因。在一些实施例中，靶向基因组包含500
±
5个基因范围、500
±
10个基因范围或500
±
25个基因范围。在一些实施例中，一种或多种测序方法包括甲基化测序测定(参见，定义)。在一些实施例中，甲基化测序测定是全基因组或靶向测定。在一些这样的实施例中，甲基化测序是使用组织(例如，肿瘤活检)或液体生物样本(例如，血液、血浆及/或白细胞)进行的。例如，参考方框514，在一些实施例中，从各个受试者获得的生物样本中的核酸甲基化序列是生物样本中无细胞核酸的甲基化序列。参考方框516，在一些实施例中，甲基化测序是i)全基因组甲基化测速或ii)使用多个核酸探针的靶向dna甲基化测测序。在一些实施例中，多个核酸探针包括100个或更多探针。在一些实施例中，多个核酸探针包括100或更多、200或更多、300或更多、400或更多、500或更多、600或更多、700或更多、800或更多、900或更多、1000或更多、2000或更多、3000或更多、4000或更多5000或更多、6000或更多、7000或更多、8000或更多、9000或更多、10000或更多、25000或更多或50000或更多探针。在一些实施例中，部分或全部探针唯一地公开于专利合作条约wo2020154682a3中描述的基因组区域，名称为“检测癌症、癌症组织或起源或癌症类型”，其通过引用在此并入本文，包括其中引用的序列列表。在一些实施例中，部分或全部探针唯一地公开于专利合作条约wo2020/069350a1中描述的基因组区域，名称为“甲基化标记和靶向甲基化探针面板”，其通过通过引用在此并入本文，包括其中引用的序列列表。在一些实施例中，一些或所有探针唯一地公开于专利合作条约wo2019/195268a2中描述的基因组区域，名称为“甲基化标记和靶向甲基化探针面板”，其通过引用在此并入本文，包括其中引用的序列列表。
[0147]
在一些实施例中，一种或多种测序方法包括全基因组亚硫酸氢盐测序(例如，wgbs)。在一些此类实施例中，wgbs识别一个或多个甲基化状态载体，例如，美国专利公开号us 2019-0287652 a1，名称为“异常片段检测和分类”，或根据美国专利公开号us 2020-0365229 a1中公开的任何技术，名称为“基于模型的特征化和分类”，特此通过引用将其并入本文。
[0148]
在一些实施例中，甲基化测序分析(例如，wgbs及/或靶向甲基化测序)具有平均测序深度，包括但不限于约1000x、2000x、3000x、5000x、10000x、15000x、20000x或30000x。在一些实施例中，甲基化测序具有大于30000x的测序深度，例如，至少4000x或50000x。参见，ziller等人，2015年，“通过全基因组亚硫酸氢钠测序进行甲基化分析的覆盖率建议”，《自然方法》，12(3)：230-232，doi:10.1038/nmeth。3152，和masser等人，2015年，“下一代测序的靶向dna甲基化分析”，j.vis。exp.(96)，e52488，doi:10.3791/52488在此通过引用全部并入本文。
[0149]
参考方框518-520，在一些实施例中，甲基化测序检测相应核酸甲基化片段中的一种或多种5-甲基胞嘧啶(5mc)及/或5-羟甲基胞嘧啶(5hmc)(方框518)。在一些实施例中，核酸的甲基化测序包括将相应核酸甲基化片段中的一个或多个非甲基化胞嘧啶或一个或更多甲基化胞苷转化为对应的一种或多种尿嘧啶(方框520)。在一些此类实施例中，在甲基化测序期间检测到一种或多种尿嘧啶作为一种或一种以上对应的胸腺嘧啶。在一些此类实施例中，一个或多个非甲基化胞嘧啶或一个或更多甲基化胞苷的转化包括化学转化、酶转化或其组合。
[0150]
例如，亚硫酸氢盐转化涉及将胞嘧啶转化为尿嘧啶，同时保持甲基化胞嘧啶(例如，5-甲基胞嘧啶或5-mc)完整。在一些dna中，大约95％的胞嘧啶在dna中没有甲基化，因此产生的dna片段将包括许多尿嘧啶，在最终的序列读数中，这些尿嘧啶由胸腺嘧啶代表。为了解决这个问题，在一些实施例中，酶促转化过程可用于在测序之前处理核酸，这可以以各种方式进行。无亚硫酸氢盐转化的一个例子包括无亚硫酸盐和碱基分辨测序方法，tet辅助吡啶硼烷测序(taps)，用于无损和直接检测5-甲基胞嘧啶和5-羟甲基胞嘧啶而不影响未修饰的胞嘧啶。参见，liu等人，“5-甲基胞嘧啶和5-羟甲基胞嘧啶在碱性分辨率下的无亚硫酸氢盐直接检测”，自然－生物技术期刊，doi:10.1038/s41587-019-0041-2。无论具体的酶转化方法如何，只有甲基化胞嘧啶被转化。
[0151]
有关甲基化测序(例如wgbs及/或靶向甲基化测速)的更多详细信息，请参见美国专利公开号us 2019-0287652 a1，标题为“甲基化片段异常检测”，以及美国专利公开号2020-0385813a1，标题为“利用甲基化信息估算细胞源组分的系统和方法”，其中每一个均通过引用并入本文。用于甲基化测序的其他方法，包括本文公开的那些及/或其任何修饰、替换或组合，可用于获得片段甲基化图谱。
[0152]
在一些实施例中，相应核酸甲基化片段中对应的多个cpg位点中相应cpg位点的甲基化状态为：当相应的cpg位点通过甲基化测序确定为甲基化时被甲基化；当相应的cpg位点通过甲基化测序确定为未甲基化时未被甲基化；以及当甲基化测序无法将相应cpg位点的甲基化状态称为甲基化或未甲基化时标记为“其他”。
[0153]
在一些实施例中，甲基化状态表示为“m”，未甲基化状态表示为“u”。在一些实施例中，甲基化状态还包括但不限于未甲基化、甲基化、二义性(例如意味着潜在的cpg未被序列读数对中的任何读数覆盖)、变体(例如，表示读数与基于参考序列发生在其预期位置的cpg不一致，并且可能由位点的实际变体或序列错误引起)，或冲突(例如，当两个读数都与cpg重叠但不一致时)。例如参见2020年12月11日提交的名称为“使用补丁卷积神经网络的癌症分类”的美国专利申请号17/119,606，其通过引用整体并入本文。
[0154]
第一训练数据集的处理
[0155]
第一训练数据集120可以是任何大小并且在对应的多个核酸甲基化片段中包含任何数量的核酸甲基化片段，这取决于所用测序方法的数量、类型和覆盖范围，以及从各个受试者获得的生物样本的数量，及/或多个第一训练受试者中的训练受试者数量。例如，在一些实施例中，通过在第一训练数据集或第二训练数据集中从单个相应受试者获得的生物样本中的核酸甲基化序列确定的对应的多个核酸甲基化片段包括一千或更多、一万或更多、十万或更多、一百万或更多，一千万或更多、一千万或更多，1亿以上、5亿以上、10亿以上、20亿以上、30亿以上、40亿以上、50亿以上、60亿以上、70亿以上、80亿以上、90亿以上、100亿以上核酸甲基化片段。在一些实施例中，多个第一训练受试者包括10个或更多、20个或更多、30个或更多、50个或更多、100个或更多、1000个或更多、2000个或更多、3000个或更多、或5000个或更多个训练受试者。
[0156]
在一些实施例中，第一训练数据集120以电子格式(例如，bam文件及/或recordio prio文件)获得。在一些实施例中，第一训练数据集120以用于生成第二电子格式(例如prio文件及/或bed文件)的第一电子格式(如bam文件)获得。在一些实施例中，第一训练数据集120包括片段文件，所述片段文件包含多个核酸甲基化片段中每个相应核酸甲基化片段的甲基化状态(例如，甲基化图谱)。
[0157]
在一些实施例中，每个相应核酸甲基化片段的甲基化图谱可以映射回参考基因组(参见定义)。在一些优选的实施例中，每个相应的核酸甲基化片段映射到参考基因组中的单个位置。
[0158]
在一些实施例中，将每个相应核酸甲基化片段的甲基化图谱映射到参考基因组包括使用一cpg索引。例如，在一些这样的实施例中，cpg索引包括参考基因组(例如，人类基因组)中的多个cpg位点(例如，cpg 1、cpg 2、cpg 3等)中的每个cpg位点的列表。cpg索引还包括对应参考基因组中对应的基因组位置，用于cpg索引中的每个相应cpg位点。因此，每个相应核酸甲基化片段中的每个cpg位点都被索引到相应参考基因组中的特定位置，这可以使用cpg索引来确定。例如，在一些实施例中，cpg索引从methhc、methhc2.0、methdb、pubmeth、imethyl、实验结果及/或出版物获得。例如，参见huang等人，2021，“methc 2.0：人类癌症中dna甲基化和基因表达的信息库”，核酸研究49(d1)，d1268-d1275；grunau等人，2001年，“methdb——dna甲基化数据的公共数据库”，《核酸研究》29(1)，270-274；ongenaert等人，“pubmeth:一个结合文本挖掘和专家注释的癌症甲基化数据库”，核酸研究：doi:10.1093/nar/gkm788；和hachiya等人，2017，“个体间可变dna甲基化位点的全基因组鉴定提高了表观遗传关联研究的效率”，npj genom med.2017.2:11，其中每一个都通过引用并入本文。在一些实施例中，以电子格式获得参考基因组。
[0159]
在一些实施例中，通过将核酸甲基化片段的对应的甲基化图谱映射到参考基因组(例如，使用cpg索引)，获得相应核酸甲基化片段的对应的核酸序列，其中相应核酸甲基化片段映射到参考基因中的单个位置。
[0160]
在一些实施例中，所述至少一个程序还包括在获得(例如，第一训练数据集)之后和训练之前(例如，未经训练的自动编码器)，通过从对应的多个核酸甲基化片段中去除不满足一个或多个选择标准的每个相应的核酸甲基化片段，过滤每个训练受试者122的每个对应的多个核酸甲基化片段124。
[0161]
在一些此类实施例中，当相应核酸甲基化片段的甲基化图谱具有不满足p值阈值
的一输出p值时，各个核酸甲基化片段不满足一个或多个选择标准中的选择标准。在一些实施例中，至少部分地确定了相应核酸甲基化片段的输出p值，基于对相应核酸甲基化片段的多个cpg位点上的相应核酸甲基化片的甲基化图谱与具有相同的对应的多个cpg位点的第一训练数据集中的这些核酸甲基化片段的甲基化图谱的对应分布的比较。例如，考虑这样的情况，一个相应核酸甲基化片段对于一组特定的10个cpg位点具有对应的mmumummum图谱。在一些实施例中，为了计算这个片段的p值，使用第一数据集中每个片段的这组特定的10个cpg位点的各自甲基化图谱来构建一对应的状态向量，而不管它们是从哪个受试者测量的。这些片段针对特定的一组10个cpg位点展示的每个甲基化图谱的频率用于计算每个此类图谱的概率。例如，计算图谱(状态向量)mmmmmmmmmm的概率、图谱mummmmmmmm的概率、图谱mmummmmmmm的概率等等，例如，如美国专利公开号us 2019-0287652 a1所述，其内容通过引用并入本文中。具体而言，结合美国专利公开号us2019-0287652a1中图4的步骤420描述了此类计算的一个实施例。接下来，图谱(状态向量)mmumuummum的p值分数是根据在第一训练数据集中具有相同的对应的多个cpg位点的核酸甲基化片段中观察到的10个cpg-位点的所有图谱(状态向量)的计算概率来计算的。结合美国专利公开号us2019-0287652a1中图4的步骤430描述了这种计算的一个实施例。在一些实施例中，图谱mmumummum的p值是所有观察到的图谱(状态向量)的计算概率的总和，这些图谱(状态向量)小于或等于图谱mmummum在第一训练数据集中的核酸甲基化片段中观察到的10个cpg位点的所有图谱中的计算概率，这些序列具有相同的对应的多个cpg位点。
[0162]
在一些实施例中，从对应的多个核酸甲基化片段中去除不满足p值阈值的每个相应核酸甲基化片段包括去除超过5％、超过10％、超过20％、超过30％、超过超过40％、超过50％、超过60％、超过70％、超过80％、超过90％、超过95％、超过98％或超过99％的对应的核酸甲基化片段。在一些实施例中，p值介于0.0005和0.01之间(例如，仅保留p值为0.0005或更小的片段，仅保留p值为0.01的片段等)。在一些此类实施例中，p-值在0.00001和0.20之间。在一些实施例中p值介于0.0010和0.00020之间。在某些实施例中，p值介于.0010和0.01之间。在有些实施例中，p值介于0.01和0.05之间。在部分实施例中，p值介于0.05和0.2之间。
[0163]
在一些实施例中，从对应的多个核酸甲基化片段中移除未能满足p值阈值的每个相应核酸甲基化片段，移除第一训练数据集中常见的(例如，具有高观察概率的)核酸甲基化片段，从而保留第一个训练数据集中罕见的核酸甲基化片段(例如，观察概率低)。
[0164]
例如，不受任何特定操作理论的限制，在一些实施例中，罕见的核酸甲基化片段(例如，满足p值阈值的)可以为相应训练数据集的相应感兴趣条件提供更大的辨别力。具体而言，在一些此类实施例中，罕见的核酸甲基化片段提供特征性特点，因此更能代表感兴趣的条件。此外，在一些实施例中，从第一训练数据集中移除常见核酸甲基化片段(例如，未能满足p值阈值的片段)会移除在例如第二训练数据集中(例如，未知样本或测试样本)观察到的高概率核酸甲基化片段片段。在一些此类实施例中，常见的核酸甲基化片段对于感兴趣的条件之间(例如，癌症和非癌症之间)的区分可能是无信息的。
[0165]
因此，从多个核酸甲基化片段中去除不满足p值阈值(例如，不能具有小于p值阈值的p值)的核酸甲基化片段提供优于常规方法的优点，通过增加剩余核酸甲基化片段的区分能力，从而提高无监督模型(例如，自动编码器)以及下游监督模型(例如，分类器)的性能。
此外，在一些实施例中，从相应的多个核酸甲基化片段中移除这种无信息的核酸甲基化碎片(例如，超过5％、超过10％、超过20％、超过30％、超过40％、超过50％、超过60％、超过70％、超过80％、超过90％、超过95％、超过98％、或超过99％)，降低了训练自动编码器所需的计算能力，同时保持了训练的有效性。
[0166]
在一些实施例中，当由一训练的马尔可夫模型提供的一输出p值响应于所述相应核酸甲基化片段的甲基化图谱的输入而未通过一选择标准时，来自所述第一训练数据集的所述相应核酸甲基化片段未能满足一个或多个选择标准中的一选择标准；以及所述训练的马尔可夫模型至少部分地基于在所述第一训练数据集中具有对应的多个cpg位点的所述核酸甲基化片段之间的相应核酸甲基化片段的多个cpg位点中的每个cpg位置的一甲基化状态的评估来训练。
[0167]
例如，在一些实施例中，马尔可夫模型(例如，隐马尔可夫模式或hmm)用于确定多个核酸甲基化片段中的核酸甲基化片段的甲基化状态序列(包括，例如，“m”或“u”)被观察到的概率，给定一组概率来确定序列中每个状态的概率，观察序列中下一个状态的可能性。
[0168]
在一些实施例中，概率集是通过训练hmm获得的。这种训练涉及计算统计参数(例如，第一状态转变为第二状态的概率(转变概率)及/或在相应的cpg位点观察到给定甲基化状态的可能性(发射概率))，给定观察到的甲基化状态序列的主要训练数据集(例如甲基化图谱)。在一些实施例中，hmm使用监督训练进行训练(例如，使用基础序列和观察到的状态已知的样本)。在一些替代实施例中，使用无监督训练(例如，维特比学习、最大似然估计、期望最大化训练及/或baum-welch训练)来训练hmm。例如，期望最大化算法(例如baum-welch算法)估计来自观察到的样本序列的转换和发射概率，并生成一个参数化概率模型，这个模型最好地解释观察到的序列。这种算法迭代似然函数的计算，直到正确预测状态的预期数量达到最大。参见，例如，yoon，2009，“隐马尔可夫模型及其在生物序列分析中的应用”，curr。基因组学。九月10(6):402-415，网址：10.2174/138920209789177575。
[0169]
例如，图4说明了根据本发明的一些实施例，通过移除未能满足p值阈值的每个相应核酸甲基化片段来过滤多个核酸甲基化片段的方法214。使用跨多个第一核酸甲基化片段观察到的甲基化图谱，将过滤器应用于相应第一训练数据集中的多个第一核酸甲基化片段中的每个相应核酸甲基化片段的甲基化图谱。每个相应核酸甲基化片段(例如，片段1，
…
，片段n)的每个相应甲基化图谱包括用甲基化位点标识符标识的对应的一个或多个甲基化位点(例如，cpg位点)和对应的甲基化图谱，表示为1和0的序列，其中，每个“1”表示一个或多个cpg位点中的甲基化cpg位置，每个“0”表示一种或多种cpg位点中的非甲基化cpg位置。在多个第一核酸甲基化片段中观察到的甲基化图谱用于构建由多个第一核酸甲基化片段共同代表的cpg位点状态的甲基化状态分布(例如，cpg位点a、cpg位点b，
……
，cpg位点zzz)。
[0170]
如图4所示，隐马尔可夫模型(hmm)状态之间的转移概率由图中的箭头表示，可以使用cpg位点状态的甲基化状态分布(例如，使用期望最大化算法，如baum-welch算法)来确定，从而训练hmm。例如，schliep等人，2003，《生物信息学》19(1)：i255-i263中描述了隐马尔可夫模型。对于多个第一核酸甲基化片段中的每个相应核酸甲基化片段，训练的hmm用于确定相应片段的甲基化图谱出现的可能性(例如，使用前向算法)。如果核酸甲基化片段的发生概率未能满足第一阈值过滤器的第一阈值(例如，它们的甲基化图谱在多个第一核酸
甲基化片段中太常见)，则将其丢弃。
[0171]
在一些实施例中，当相应核酸甲基化片段的甲基化图谱具有未能满足(例如大于)p值阈值的输出p值时，相应核酸甲基化片段未能满足一个或多个选择标准中的选择标准，并且各个核酸甲基化片段的输出p值通过隐马尔可夫模型以外的方法确定。在一些实施例中，使用混合模型确定各个核酸甲基化片段的输出p值(例如，参见mclachlan等人，《生物信息学》18(3)：413-422，2002)。在一些实施例中，使用学习的表示来确定各个核酸甲基化片段的输出p值。
[0172]
在一些实施例中，输出p值在0.00001和0.20之间。在一些实施例中，输出p值为0.05(例如，其中在第一训练数据集中观察到多个核酸甲基化图谱中各个核酸甲基化图谱的甲基化图谱的可能性小于5％)。在一些实施例中，输出p值是根据经验确定的(例如，作为超参数)，至少部分基于一个或多个精度要求(例如，增加的稀有度)及/或灵敏度要求(例如更多训练样本)。
[0173]
在一些实施例中，p值阈值过滤器不适用于相应的多个核酸甲基化片段。
[0174]
在一些实施例中，当相应核酸甲基化片段具有小于阈值测序深度时，相应核酸甲基化片段不满足一个或多个选择标准中的选择标准。也就是说，对于给定的训练受试者，相应核酸甲基化片段在对给定的训练受试者进行的测序中具有小于阈值测序深度。在一些此类实施例中，阈值测序深度为5x、6x、7x、8x、9x、10x、15x、20x、25x或30x，或者更大，特别是当测序是全基因组测序时。在一些这样的实施例中，阈值测序深度是50x、100x、200x、400x、800x、1000x、2000x、5000x、10000x或25000x，特别是当测序是靶向测序时。
[0175]
在一些实施例中，当相应核酸甲基化片段具有小于阈值数量的cpg位点时，相应核酸甲基化片段不满足一个或多个选择标准中的选择标准。在一些实施例中，cpg位点的阈值数量为4、5、6、7、8、9、10、11、12、13、14或15。在一些实施例中，cpg位点的阈值数量至少部分地基于每个相应核酸甲基化片段的每个可能甲基化图谱具有发生阈值可能性的要求(例如，3个cpg位序列的可能性为1/8，5个cpg-位序列的可能为1/32，等等)来确定(例如，作为超参数)。
[0176]
在一些实施例中，当相应核酸甲基化片段具有小于阈值数量的残基时，相应核酸甲基化片段不满足一个或多个选择标准中的选择标准。例如，在一些实施例中，每个相应核酸甲基化片段具有与相应核酸甲基化片段中cpg位点的数量无关的残基长度(例如，碱基对及/或k聚体)。因此，在一些实施例中，选择标准在异常检测之前将最小长度要求应用于多个核酸甲基化片段。在一些实施例中，残基的阈值数量是32或64。在一些实施例中，残基的阈值数量是20和90之间的固定值。在一些实施例中，残基的阈值数量大于90、大于100、大于150或大于200。
[0177]
在一些实施例中，残基的阈值数量是至少部分基于每个相应核酸甲基化片段的核酸序列映射到参考基因组中的位置的阈值数量以下的要求来确定的(例如，作为超参数)。在一些优选的实施例中，残基的阈值数量基于每个相应核酸甲基化片段的核酸序列映射到参考基因组中的单个位置的要求来确定。
[0178]
在一些实施例中，过滤去除多个核酸甲基化片段中的核酸甲基化片段，这个片段与多个核酸甲基化片段中的另一个核酸甲基化片段具有相同的对应的甲基化图谱和相同的对应的核酸序列(例如，丢弃精确的重复片段)。然而，在一些实验中，重复片段的计数被
保留并用于计算每个片段的权重，所述权重随后用于评估自动编码器的损失函数中。
[0179]
在一些实施例中，所述过滤保留所述多个核酸甲基化片段中的一核酸甲基化碎片，所述核酸甲基化碎片与所述多个核酸甲基化片段中的另一核酸甲基化片段具有相同的对应的甲基化图谱和不同的对应的核酸序列。
[0180]
在一些实施例中，所述过滤保留了多个核酸甲基化片段中的核酸甲基化碎片，所述核酸甲基化碎片具有不同的对应的甲基化图谱，但与多个核酸甲酯化片段中的另一核酸甲基化片段具有相同的对应的核酸序列。
[0181]
与传统方法相比，精确的重复片段的去除方法具有优势，因为它可以折叠数据集，使得每个独特的核酸甲基化片段(例如，至少具有独特的甲基化图谱及/或独特的核酸序列)只在处理过的训练数据集中表示一次，从而减少计算负担并提高效率。精确的重复片段的去除进一步不妨碍异常片段的检测(例如，在第二训练数据集中与第一训练数据集相比)，这在一些实施例中与拷贝数或变体频率无关。
[0182]
在一些实施例中，附加选择标准可应用于多个核酸甲基化片段，包括但不限于与转录因子编码、转录因子数据集、感兴趣的生物和功能路径、感兴趣注释、已知的癌症标志物及/或其任何组合或修改。
[0183]
在一些实施例中，过滤去除了映射到已知噪声基因组位置黑名单上的核酸片段。在一些实施例中，黑名单是编码黑名单的全部或一部分。见ameniya等人，2019，“编码黑名单：基因组有问题区域的识别”，科学报告，文章编号9354。
[0184]
在一些实施例中，通过移除核酸甲基化片段的一部分来截断大于预定长度(例如，在cpg位点尺寸及/或在残基尺寸)的每个相应核酸甲基化片段，从而得到的序列片段(例如，如本文所用，“序列片段”是指截断的核酸甲基化片段)具有预定长度尺寸(例如，cpg位点尺寸及/或残基尺寸)
[0185]
在一些实施例中，预定长度为100个碱基对以上、128个碱基对以上、200个碱基对以上、256个碱基对以上、或400个碱基对以上。
[0186]
在一些实施例中，每个大于预定长度的相应核酸甲基化片段(例如，在cpg位点尺寸及/或在残基尺寸)通过以一预定步幅在相应核酸甲基化片段上已开窗口方式来截断，从而将相应核酸甲基化片段截断为两个或多个序列段，其中，窗口大小等于或小于预定长度，使得两个或两个以上序列片段各自具有预定长度，每个序列片段至少具有cpg位点的阈值数量，并共同替换相应多个核酸甲基化片段中的相应核酸甲基化片段作为输入。
[0187]
在一些实施例中，步幅的长度与窗口大小相同。在一些实施例中，步幅的长度不同于窗口大小。在一些这样的实施例中，步幅的长度小于窗口大小。在一些此类实施例中，两个或更多序列段按顺序重叠。在一些实施例中，两个或多个序列段包括2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或20个以上序列段。
[0188]
在一些实施例中，当相应的一个或多个序列段具有小于阈值残基数及/或小于阈值cpg位点数量时，两个或更多序列段中的一个或者更多序列段不能满足一个或更多选择标准中的选择标准。在一些实施例中，丢弃不满足选择标准的一个或多个序列段。
[0189]
在一些实施例中，在训练自动编码器之前，将小于预定长度(例如，cpg位点尺寸及/或残基尺寸)的每个相应核酸甲基化片段填充为预定长度。在一些实施例中，填充包括向相应核酸甲基化片段添加一个或多个虚拟残基及/或一个或多个虚拟甲基化位点。在一
些实施例中，填充包括使用映射到参考基因组的核酸甲基化片段以基于参考基因组中的相应序列将核酸甲基化片段延伸至预定长度。
[0190]
在一些实施例中，当相应的一个或多个序列片段具有小于阈值的残基数及/或小于阈值的cpg位点数时，通过开窗口方式和设置步辐获得的一个或者多个序列段不能满足一个或者更多选择标准中的选择标准，被填充为预定长度。
[0191]
在一些实施例中，当相应核酸甲基化片段具有小于阈值数量的cpg位点(例如，小于4、5、6、7、8、9、10、11、12、13、14或15个cpg位点)时，所述核酸甲基化片段不能满足一个或多个选择标准中的选择标准，在训练未经训练的自动编码器之前，获取第一训练数据集将相应多个小于预定长度的核酸甲基化片段中的每个核酸甲基化片段填充为预定长度，并且获得第一训练数据集通过以一预定步幅长度在相应核酸甲基化片段上以开窗口方式来截断大于预定长度的相应多个核酸甲基化片段中的每个相应核酸甲基化片段，从而将各自的核酸甲基化片段分解成两个或多个序列片段。在一些此类实施例中，两个或多个序列段各自具有预定长度，每个序列段至少具有cpg位点的阈值数量(例如，至少3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个或15个cpg位点)，并共同替换相应多个核酸甲基化片段中的相应核酸甲基化片段，作为未经训练的自动编码器的训练输入。
[0192]
在一些实施例中，所述步幅长度在90到300个核苷酸之间。在一些实施例中，所述步幅长度为100、128或256核苷酸。
[0193]
在一些实施例中，获得第一训练数据集在第一核酸甲基化片段内的变异、冲突甲基化调用或不明确调用的位点处截断对应的多个核酸甲基化片段中的第一核酸甲基化片段，所述片段长于预定长度，从而缩短第一核酸甲基化片段终止于所述位点。例如，在一个实施例中，具有核酸序列“tactggcga
…
cggcctcg
…
tttcaac”和甲基化图谱“111000x0010”的核酸甲基化片段将在“x”(例如，冲突处)位置被截断，“x”cpg位点将从产生的序列段中移除。使用5个cpg位点的最小阈值，从“111000”拆分得到的第一序列片段将被保留，第二序列片段“0010”将被丢弃。
[0194]
在一些实施例中，包含变异、冲突或不明确甲基化状态的cpg位点不会从核酸甲基化片段中终止或去除。
[0195]
在一些实施例中，一个或多个序列片段具有不同的长度(例如，在cpg位点尺寸及/或残基尺寸中)。在一些替代实施例中，多个序列片段中用作训练未经训练的自动编码器的输入的每个相应序列片段具有相同的长度(例如，在cpg位点尺寸及/或残基尺寸中)。
[0196]
在一些实施例中，p值过滤在核酸甲基化片段的初始预处理之后执行(例如，按大小过滤、分裂、截断及/或填充)。例如，在一些实施例中，p值的确定取决于产生的序列片段的参数(例如，序列段及/或核酸甲基化片段的长度，其中较长的核酸甲基化碎片比较短的片段包含较低的p值)。在一些此类实施例中，在p值过滤之前，将多个核酸甲基化片段中的每个核酸甲基化片段处理为预定长度。
[0197]
在一些实施例中，p值过滤在核酸甲基化片段的预处理之前执行。在一些实施例中，p值过滤在删除重复片段之前执行。在一些实施例中，第一训练数据集的过滤及/或预处理是按照本领域技术人员显而易见的任何顺序、组合及/或进行任何修改来执行的。
[0198]
例如，图2示出了根据一些优选实施例获取和处理第一训练数据集的示例方法的流程图。参阅方框202，所述方法包括从具有第一标签的第一训练群组获得多个第一生物样
本。参阅方框204，使用全基因组或靶向甲基化测序获得来自第一训练群组中相应受试者的无细胞核酸的多个第一序列读数。参阅方框206，多个第一片段中每个片段的核酸序列和甲基化图谱由多个第一序列读数确定。参阅方框210，多个第一片段中的片段任选地在已知的变体位置、配对末端读数冲突的位置及/或不明确的位置处分裂。例如，可以仅使用片段的一部分，或者可以将片段的多个部分视为单独的片段。参阅方框212，丢弃具有少于阈值数量的cpg位点的片段。参阅方框214，使用在多个第一片段中观察到的甲基化图谱，第一阈值过滤器可选地应用于多个第一片段中每个相应片段的甲基化图谱，从而从多个第一片段中过滤出未能满足第一阈值过滤器的第一阈值的所有片段。例如，见图4。参考方框216，从前多个片段中去除具有相同核酸序列和相同cpg甲基化图谱的冗余片段。参阅方框218，多个第一片段用于训练编码器-解码器模型，从而形成基于第一标签的经训练的编码器-解码器模型。
[0199]
在具体实施例中，图2中所示的方法可以使用处理步骤来执行，以去除不明确/变异/冲突的cpg位点、最小长度要求(例如可变长度、最小32个残基、最小5个cpg位点)和p值过滤。
[0200]
在一些实施例中，未经训练的自动编码器的训练使用包含多个核酸甲基化片段124及/或序列片段的数据集(例如，训练数据集120-1)作为输入，如本揭示所述，在对第一训练数据集进行任何期望的预处理及/或过滤之后。在一些实施例中，用于训练未经训练的自动编码器的输入数据集与最初获得的第一训练数据集不同，这是由来自各个受试者的生物样本中的核酸甲基化序列确定的。
[0201]
自动编码器结构
[0202]
参考图5b的方框522，本揭示的系统和方法包括训练未经训练的自动编码器，其中未经训练的自动编码器包括编码器134和解码器136，使用第一训练数据集120-1中每个对应的多个核酸甲基化片段中的每个相应核酸甲基化片段124的对应的甲基化图谱和对应的核酸序列作为输入，对于第一训练数据集中每个对应的多个核酸甲基化片段中每个相应核酸甲基化片段的每个对应的核酸序列，通过所述对应的核酸甲基化片段124中所述对应的甲基化图谱和所述对应的核酸序列来评估所述自动编码器132的重建的一误差的一第一误差函数，从而形成一经训练的自动编码器132。
[0203]
在一些实施例中，如本文可互换使用的，用于训练未经训练的自动编码器的输入的第一训练数据集中的对应的多个核酸甲基化片段包括一个或多个序列片段(例如，如本揭示所述预处理及/或过滤的核酸甲基化片段)。
[0204]
参考方框524，在一些实施例中，编码器134编码第一训练数据集中每个对应的多个核酸甲基化片段中对应的核酸甲基化片段的对应的甲基化图谱和对应的核酸序列，从而形成多个潜在特征，解码器136将所述多个潜在特征解码为对应的核酸甲基化片段的对应的甲基化图谱和对应的核酸序列的重建。
[0205]
图10说明了使用自动编码器来编码核酸甲基化片段的方法。通常，在一些这样的实施例中，自动编码器132学习为每个相应的训练输入(例如，核酸甲基化片段)编码相应输入的潜在表示(具体地，例如，相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列)。然后，自动编码器132尝试使用所学习的输入的潜在表示来重建输入。在一些实施例中，在一个或多个训练输入上训练自动编码器会产生一个经过训练的自动编码器，这个自
动编码器会生成与训练输入相似的测试输入的更精确的重建，但基于一个或更多训练输入的所学习的潜在表示，生成与训练输出不同的测试输入更不精确的重建，其中，重建与原始输入的相似性或不同性是使用诸如误差函数的一重建损失函数来确定的。
[0206]
在一些实施例中，潜在表示被生成为一组编码(例如嵌入)(例如向量及/或n维向量)。在一些实施例中，一组编码包括10个或权重、1000个或更多权重、10000个或更多重量、或100000个或更多的权重，其中，在使用训练数据集120对自动编码器132进行训练期间，对每个权重的值进行了优化和调整。在一些实施例中，自动编码器132包括10个或更多个权重、1000个或更多权重、10000个或更多的权重或100000个或更多个权重。
[0207]
在一些实施例中，自动编码器132被训练为在100个或更多核酸甲基化片段、200个或更多的核酸甲基化片段、300个或更多个核酸甲基化片段、500个或更多核苷酸甲基化片段、1000个或更多核酸甲基化片段、5000个或更多核酸甲基化片段、10000个或更多核酸甲基化片段、50000个或更多个核酸甲基化片段、100000个或多个核酸甲基化片段、500000个或更多核苷酸甲基化片段，或1x106个或更多个核酸甲基化片段的序列和甲基化图谱上进行训练。
[0208]
在一些实施例中，自动编码器受限于对训练及/或测试输入的压缩潜在表示进行编码。在一些实施例中，这种压缩通过促进捕获复杂模式和结构关系(例如，k-mers的模式和对应的甲基化状态)的潜在表示的构建来防止过度拟合，而不是复制在训练输入中观察到的确切特征。因此，压缩的潜在表示可以用于重建已知训练输入和未知测试输入。
[0209]
在一些实施例中，压缩表示是使用限制嵌入层大小的参数生成的(例如，包含潜在表示的值的隐藏层)，从而限制自动编码器的存储容量。例如，在一些实施例中，嵌入层的大小被限制为输入大小的1/2。在一些实施例中，嵌入层的大小被限制为小于输入大小的1/4、小于1/2或小于3/4。在一些实施例中，嵌入层的大小至少部分地通过评估第一误差函数来确定自动编码器的重建中对应的核酸甲基化片段的对应的甲基化图谱和对应的核酸序列的误差。在一些实施例中，嵌入层以一个或多个观察到的变量为条件，例如片段基因组位置。
[0210]
在一些实施例中，嵌入层中的值被限制在第一数字和第二数字之间。在一些这样的实施例中，第一数字是零并且第二数字是一。在一些实施例中，编码是单热编码。在一些这样的实施例中，嵌入层中的值被限制为零或一。
[0211]
]在一些实施例中，自动编码器包括一个隐藏层。在一些实施例中，自动编码器包括1个或更多、2个或更多、3个或更多、4个或更多、5个或更多、6个或更多、7个或更多、8个或更多、9个或更多、或10个或更多隐藏层。
[0212]
在一些实施例中，自动编码器是前馈人工神经网络。
[0213]
参考方框526，在一些实施例中，自动编码器是变分自动编码器(例如，参见kingma和max，2019，机器学习的基础和趋势，12(4)，issn 1935-8237)、条件变分自动编码(cvae)、叠层去噪深层自动编码器(例如，参见zheng，2019年，《短期负荷预测的堆栈去噪自动编码器：使用堆栈去噪自编码器算法的深度学习》，兰伯特学术出版)、深度循环自动编码器、卷积自动编码器或变压器网络。在一些实施例中，自动编码器包括生成对抗网络(gan)，例如可变自动编码器生成对抗网络架构(vae-gan)。在一些实施例中，自动编码器是收缩式自动编码器。在一些实施例中，自动编码器是长短期记忆(lstm)递归神经网络。在一些实施例
中，lstm递归神经网络包括堆叠双向编码器和堆叠解码器。
[0214]
在一些优选实施例中，自动编码器是变分自动编码器，潜在表示被约束为预定义分布，这样嵌入层中的每个值都从预定义分布中提取。在一些这样的实施例中，预定义分布是高斯分布。在一些实施例中，预定义分布是高斯分布的混合。因此，例如，参考图10，分配变分自动编码器嵌入层的张量z1、z2、
…
、zk，以便绘制每个张量的值生成高斯分布。
[0215]
在一些实施例中，预定义分布还包括用于集中趋势(例如，平均值)的一种或多种测量及/或误差测量(例如，标准偏差)的参数。在一些此类实施例中，此类测量的原始参数由自动编码器基于一个或多个训练输入(例如，来自第一训练数据集120)来预测。例如，对于第一训练数据集中的相应核酸甲基化片段124中的核酸序列，在一些实施例中，自动编码器生成表示序列中每个核苷酸碱基的平均值和标准偏差的多个嵌入。解码器对各个核酸甲基化片段的重建是通过从多个嵌入中采样并将这些值传递给解码器来执行的。
[0216]
变分自动编码器可以通过将更大的权重分配给由自动编码器识别的高度判别特征(例如，模式)，同时将较小的权重分配给判别能力差的特征，从而为异常检测的目的提供优势。例如，参见kristiadi，2016，“变分自动编码器：直觉和实现”和doersch，2016，“变分自动编码器教程”，arxiv预印本arxiv:1606.05908。
[0217]
在一些实施例中，对于第一训练数据集120中对应的多个核酸甲基化片段中的相应核酸甲基化片段124，自动编码器132的所述训练为自动编码器132提供相应核酸甲基化片段124的对应的甲基化图谱128。
[0218]
在一些实施例中，对于第一训练数据集120中对应的多个核酸甲基化片段中的相应核酸甲基化片段124，对自动编码器132的训练为自动编码器132提供相应核酸甲基化片段124的对应的核酸序列126。在一些此类实施例中，相应的核酸序列被分解为多个重叠的k-mers。如本文所用术语k-mer是指长度为k的序列的所有子序列，使得序列agat将具有四个单体(a、g、a和t)、三个2聚体(ag、ga、at)、两个3聚体(aga和gat)和一个4聚体(agat)。更一般地，长度为l的序列将具有l-k 1k-mers和总共nk个可能的k-mers，其中n是可能的单体的数量(例如，在dna的情况下为四个)。在一些实施例中，使用片段124的核酸序列126内具有特定长度k的k聚体，而不是使用序列内所有可能长度的k聚体。在一些替代实施例中，对应的核酸序列是多个残基，即片段的整个序列的线性顺序，而不是片段序列的子序列。
[0219]
参考方框528，在一些实施例中，所述自动编码器是深度循环自动编码器，并且训练所述自动编码器，对于在第一训练数据集中的对应的多个序列读数中读数的相应序列，向深度循环自动编码的第一轨道馈送分解为多个k-mer的相应核酸甲基化片段的对应的核酸序列，并将相应核酸甲基化片段的对应的甲基化图谱馈送给深循环自动编码器的第二轨道。
[0220]
在一些实施例中，所述自动编码器是深度循环自动编码器，并且训练所述自动编码器，对于第一训练数据集中对应的多个核酸甲基化片段中的相应核酸甲基化片段，以残基为基础向深度循环自动编码的第一轨道馈送相应核酸甲基化片段的对应的核酸序列，并将相应核酸甲基化片段的对应的甲基化图谱馈送给深循环自动编码器的第二轨道。
[0221]
在一些实施例中，自动编码器被提供了相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列两者作为输入，并且自动编码器编码包含对应的甲基化图谱和对应的甲基化图谱的基因组上下文之间的关系模式的潜在表示。在一些实施例中，将相应核酸甲基
化序列定位到基因组位置(例如，通过使用cpg索引及/或将相应核酸序列与参考基因组比对)。在一些实施例中，到基因组位置的定位发生在自编码器的训练之前或之后。在一些此类实施例中，相应的核酸序列具有至少一个阈值长度(例如，cpg的阈值数量及/或残基的阈值数量)，使得相应核酸甲基化序列与参考基因组中的单个位置对齐。例如，在一些此类实施例中，各自的核酸甲基化片段长度大于50、大于100、大于150或大于200个残基。在一些此类实施例中，各自的核酸甲基化片段包含大于3个、大于4个、大于5个或大于6个cpg位点。
[0222]
在一些实施例中，自动编码器被提供相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列分割成多个k-mer作为输入，并且，自动编码器对潜在表示进行编码，所述潜在表示包括对应的甲基化图谱与多个k-mer中的一个或多个k-mer之间的关系模式。在一些实施例中，k为3、4、5、6、7、8、9、10或大于10。在一些实施例中，多个k聚体包含不同长度的k聚体。在一些实施例中，多个k聚体包含相同长度的k聚体。
[0223]
在一些实施例中，自动编码器被提供相应核酸甲基化片段的对应的甲基化图谱的基因组位置作为输入，其中对应的甲基化图谱的基因组位置包括一个或多个cpg索引。
[0224]
如上所述，再次参考方框522，输入的自动编码器的重建包括重建对应的核酸甲基化片段对应的甲基化图谱和对应的核酸序列。在一些实施例中，输入的自动编码器132的重建包括重建对应的核酸甲基化片段对应的甲基化图谱或对应的核酸序列。
[0225]
如上所述，再次参考方框522，训练自动编码器包括自动编码器在重建中针对对应的核酸甲基化片段对应的甲基化图谱和对应的核酸序列的误差(例如，重建损失)评估第一误差函数，从而形成经训练的自动编码器。
[0226]
在一些实施例中，对于每个相应核酸甲基化片段，评估整个片段的重建损失。
[0227]
在一些实施例中，未经训练的自动编码器的训练包括嵌入层中嵌入值的反向传播。例如，在机器学习(例如，深度学习)的一些一般实施例中，反向传播是一种训练具有隐藏层(例如，自动编码器132)的网络的方法，所述隐藏层包括多个权重(例如，嵌入)。未经训练的模型的输出(例如，未经训练的自动编码器的重建)是使用一组任意选择的初始权重生成的。然后将输出与原始输入(例如，相应核酸甲基化片段对应的甲基化图谱和对应的核酸序列)进行比较，并计算误差(例如，使用损失函数)。然后更新权重以使误差最小化(例如，根据损失函数)。在一些实施例中，使用多种反向传播算法及/或方法中的任何一种来更新多个第一和第二权重，这对于本领域技术人员来说是显而易见的。
[0228]
在一些实施例中，训练自动编码器在对第一误差函数的第一次评估之后形成经训练的自动编码器。在一些实施例中，在基于第一误差函数的第一评估对多个嵌入进行第一更新之后，训练自动编码器形成经训练的自动编码器。在一些替代实施例中，训练自动编码器在至少1次、至少2次、至少3次、至少4次、至少5次、至少6次、至少7次、至少8次、至少9次、至少10次、至少20、至少30、至少40次、至少50次、至少100次、至少500次、至少1000次、至少10000次、至少50000次、至少100000次、至少200000次、至少500000次，或至少100万次的第一误差函数的评估。在一些这样的实施例中，训练自动编码器在多个嵌入的至少1次、至少2次、至少3次、至少4次、至少5次、至少6次、至少7次、至少8次、至少9次、至少10次、至少20次、至少30次、至少40次、至少50次、至少100次、至少500次、至少1000次、至少10000次、至少50000次、至少100000次、至少200000次、至少500000次、或至少100万次更新之后形成经过训练的自动编码器，并基于至少1次、至少2次、至少3次、至少4次、至少5次、至少6次、至少7
次、至少8次、至少9次、至少10次、至少20次、至少30次、至少40次、至少50次、至少100次、至少500次、至少1000次、至少10000次、至少50000次、至少100000次、至少200000次、至少500000次、或至少100万次评估误差函数。
[0229]
参考方框530，在一些实施例中，未经训练的自动编码器的训练包括根据梯度下降算法评估自动编码器重建中的第一误差函数。例如，见nguyen等人，2019年，“关于自动编码器梯度下降动力学”，2019第22届国际人工智能与统计会议(aistats)论文集，日本冲绳那霸，pmlr：第89卷，通过引用在此并入本文。
[0230]
在一些实施例中，当自动编码器满足最低性能要求时，对自动编码器的训练形成经训练的自动编码器。例如，参考方框532，在一些实施例中，在第一训练数据集上为经训练的自动编码器计算的误差满足误差阈值。在一些实施例中，当误差小于5％时，第一误差函数在第一训练数据集上计算的误差满足误差阈值。在一些实施例中，当误差小于20％、小于18％、小于15％、小于10％、小于5％或小于3％时，通过第一训练数据集的第一误差函数计算的误差满足误差阈值。
[0231]
第二训练数据集的处理
[0232]
参考方框534，本揭示的系统和方法的一些实施例以电子形式获得第二训练数据集120-2。对于多个第二训练受试者中的每个相应训练受试者，第二训练数据集包括通过通过从各自受试者获得的一生物样本中进行一核酸甲基化测序所确定的一对应的多个核酸甲基化片段中每个相应核酸甲基化片段的一对应的甲基化图谱和一对应的核酸序列。所述对应的甲基化图谱包括各个核酸甲基化片段中对应的多个cpg位点(例如，两个或更多个位点、三个或更多个位点、四个或更多个位点、五个或更多个位点、六个或更多个位点、七个或更多个位点、八个或更多个位点、九个或更多个位点、10个或更多个位点、11个或更多个位点位点、12个或更多位点、13个或更多位点、14个或更多位点或15个或更多位点)中每个相应cpg位点的一甲基化状态，并且多个第二训练受试者中的每个训练受试者具有第二癌症状态。
[0233]
在一些实施例中，从第二训练数据集120-2的各个受试者获得的生物样本中核酸的甲基化测序是生物样本中无细胞核酸的甲基化测序。在一些实施例中，生物样本是血液样本。在一些实施例中，生物样本包括受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
[0234]
在一些实施例中，第二数据集的相应生物样本对于第二癌症状态是同质的。在一些实施例中，第二数据集的相应生物样本是针对第二癌症状态同质的肿瘤样本。在一些实施例中，第二数据集的相应生物样本对于第二癌症状态是非均质的。在一些实施例中，第二数据集的相应生物样本是第二癌症状态的非同质cfdna样本。
[0235]
在一些实施例中，第二训练数据集的各自生物样本与第一训练数据集各自的生物样本是相同类型的样本(例如，液体或组织)。
[0236]
在一些实施例中，第二训练数据集120-2的相应生物样本是与第一训练数据集120-1的相应生物样本不同类型的样本(例如，液体或组织)。
[0237]
参考方框536，在一些实施例中，通过对从第一训练数据集或第二训练数据集中的各个受试者获得的生物样本中的核酸进行甲基化测序确定的对应的多个核酸甲基化片段包括一千或更多、一万或更多、十万或更多、一百万或更多、一千万或更多、一亿或更多、五
亿或更多、十亿或更多、二十亿或更多、三十亿或更多，40亿或更多、50亿或更多、60亿或更多、70亿或更多、80亿或更多、90亿或更多、或100亿或更多核酸甲基化片段。
[0238]
参考方框538，在一些实施例中，多个第二训练受试者包括30个或更少、50个或更少、100个或更少、或1000个或更少的训练受试者。在一些实施例中，与第二训练数据集相比，第一训练数据集的数据可从更多的受试者获得，并且所公开的系统和方法有优势地利用更容易获得的数据(第一数据集)来训练自动编码器，然后使用经训练的自动编码器可以在数据(第二个数据集)中找到不太容易获得的特征，这些特征可用于开发分类器以识别与第二数据集相关的癌症状态(例如，为了区分第一癌症状态和第二癌症状态，其中第一癌症状态由第一数据集表示，第二癌症状态由第二癌症状态表示)。
[0239]
在一些实施例中，第二训练数据集是使用本文公开的任何方法、受试者、生物样本及/或测序方法(例如，使用为第一训练数据集描述的任何方法及/或实施例)获得的。
[0240]
在一些实施例中，所揭示的系统和方法在获得第二训练数据集之后，在使用第二训练数据集之前，通过从对应的多个核酸甲基化片段中删除未能满足一个或多个选择标准的每个相应核酸甲基化片段，过滤第二训练数据集的每个对应的多个核苷酸甲基化片段。
[0241]
在一些实施例中，应用于上述第一训练数据集的相同过滤标准应用于第二训练数据集。
[0242]
在一些实施例中，当相应核酸甲基化片段的甲基化图谱具有不满足一p值阈值的一输出p值时，相应核酸甲基化片段不满足一个或多个选择标准中的一选择标准。其中至少部分地基于在所述相应核酸甲基化片段的多个cpg位点上的所述相应核酸甲基化片段的甲基化图谱与所述第一训练数据集中具有相应多个cpg位点的所述核酸甲基化片段的甲基化图谱的对应分布的一比较来确定相应核酸甲基化片段的所述p值。
[0243]
在一些实施例中，当相应核酸甲基化片段的甲基化图谱具有不满足一p值阈值的一输出p值时，相应核酸甲基化片段不满足一个或多个选择标准中的一选择标准。其中至少部分地基于在所述相应核酸甲基化片段的多个cpg位点上的所述相应核酸甲基化片段的甲基化图谱与所述第二训练数据集中具有相应多个cpg位点的所述核酸甲基化片段的甲基化图谱的对应分布的一比较来确定相应核酸甲基化片段的所述p值。
[0244]
在一些实施例中，当由一训练的马尔可夫模型提供的一p值响应于所述相应核酸甲基化片段的甲基化图谱的输入而未通过一选择标准时，来自所述第一训练数据集的所述相应核酸甲基化片段未能满足一个或多个选择标准中的一选择标准；以及所述训练的马尔可夫模型至少部分地基于在所述第一训练数据集中具有对应的多个cpg位点的所述核酸甲基化片段之间的相应核酸甲基化片段的多个cpg位点中的每个cpg位置的一甲基化状态的评估来训练。
[0245]
在一些实施例中，当由一训练的马尔可夫模型提供的一p值响应于所述相应核酸甲基化片段的甲基化图谱的输入而未达到一选择标准时，来自所述第二训练数据集的所述相应核酸甲基化片段未能满足一个或多个选择标准中的一选择标准；以及所述训练的马尔可夫模型至少部分地基于在所述第二训练数据集中具有对应的多个cpg位点的所述核酸甲基化片段之间的相应核酸甲基化片段的多个cpg位点中的每个cpg位置的一甲基化状态的评估来训练。
[0246]
在一些此类实施例中，p值在0.00001和0.20之间。在一些实施例中p值介于0.0010
和0.00020之间。在某些实施例中p值介于.0010和0.01之间。在有些实施例中p值介于0.01和0.05之间。在部分实施例中p值介于0.05和0.2之间。
[0247]
在一些实施例中，当所述相应核酸甲基化片段具有小于一阈值数量的cpg位点时，相应核酸甲基化片段不满足一个或多个选择标准中的一选择标准。在一些此类实施例中，cpg位点的阈值数量为4、5、6、7、8、9、10、11、12、13、14或15。在一些实施例中，cpg位点的阈值数量至少部分地基于每个相应核酸甲基化片段的每个可能甲基化图谱具有发生阈值可能性的要求(例如，3个cpg位序列的可能性为1/8，5个cpg-位序列的可能为1/32，等等)来确定(例如，作为超参数)。
[0248]
在一些实施例中，当所述相应核酸甲基化片段具有小于一阈值数量的残基时，所述相应核酸甲基化片段不满足一个或多个选择标准中的一选择标准。例如，在一些实施例中，每个相应核酸甲基化片段在残基(例如，碱基对及/或k-mers)中具有长度，其独立于相应核酸甲基化片段中的cpg位点的数量。因此，在一些实施例中，选择标准在异常检测之前将最小长度要求应用于多个核酸甲基化片段。在一些实施例中，残基的阈值数量是32或64。在一些实施例中，残基的阈值数量是20和90之间的固定值。在一些实施例中，残基的阈值数量大于90、大于100、大于150或大于200。
[0249]
在一些实施例中，残基的阈值数量是至少部分基于每个相应核酸甲基化片段的核酸序列映射到参考基因组中的位置的阈值数量以下的要求来确定的(例如，作为超参数)。在一些优选的实施例中，残基的阈值数量基于每个相应核酸甲基化片段的核酸序列映射到参考基因组中的单个位置的要求来确定。
[0250]
在一些实施例中，所述过滤移除第二数据集的所述多个核酸甲基化片段中的一核酸甲基化碎片，所述核酸甲基化碎片与所述多个核酸甲基化片段中的另一核酸甲基化片段具有相同的对应的甲基化图谱和相同的对应的核酸序列。
[0251]
在一些实施例中，所述过滤保留所述多个核酸甲基化片段中的一核酸甲基化碎片，所述核酸甲基化碎片与所述多个核酸甲基化片段中的另一核酸甲基化片段具有相同的对应的甲基化图谱和不同的对应的核酸序列。
[0252]
在一些实施例中，第二训练数据集的过滤保留了多个核酸甲基化片段中的核酸甲基化片段，所述核酸甲基化片段与多个核酸甲酯化片段中的另一核酸甲基化片段具有不同的对应的甲基化图谱和相同的对应的核酸序列。
[0253]
在一些实施例中，第二训练数据集的过滤去除映射到已知噪声基因组位置黑名单上的核酸片段。在一些实施例中，黑名单是编码黑名单的全部或一部分。参见ameniya等人，2019，“编码黑名单：基因组有问题区域的识别”，科学报告9，文章编号9354。
[0254]
在一个具体实施例中，当相应核酸甲基化片段具有小于阈值数量的cpg位点时，核酸甲基化片段不满足一个或多个选择标准中的选择标准。此外，在这些特定实施例中，获得第二训练数据集在训练自动编码器之前将对应的多个核酸甲基化片段中小于预定长度的每个核酸甲基化片段填充为预定长度。此外，在这些特定实施例中，获得第二训练数据集通过以预定步幅跨相应核酸甲基化片段开窗来截断对应的多个核酸甲基化片段中大于预定长度的每个相应核酸甲基化片段，从而将相应核酸甲基化片段分为两个或多个序列片段。两个或多个序列片段中的每个序列片段具有预定长度和至少阈值数量的cpg位点。两个或更多个序列片段共同替换对应的多个核酸甲基化片段中的相应核酸甲基化片段作为第二
训练数据集的使用的输入。在一些这样的实施例中，步幅在90和300个核苷酸之间。在一些实施例中，步幅是100、128或256个核苷酸。
[0255]
在一些实施例中，获得第二训练数据集中截断多个核酸甲基化片段中的第一核酸甲基化片段，所述第一核酸甲基化片段长于预定长度，位于所述第一核酸甲基化片段内的变异的位点、冲突甲基化调用的位点或不明确调用的位点被截断，从而缩短所述第一核酸甲基化片段以终止于所述位点。
[0256]
在一些实施例中，第二训练数据集使用本文公开的任何方法进行处理(例如，使用针对第一训练数据集中描述的任何方法及/或实施例)。在一些实施例中，第二训练数据集的过滤及/或预处理以本领域技术人员显而易见的任何顺序、组合及/或任何修改来执行。
[0257]
例如，图3说明了根据一些优选实施例获取和处理第二训练数据集的示例方法的流程图。参考方框302，所述方法包括从具有第二标签的第二训练群组中获取多个第二生物样本。参考方框304，使用全基因组或靶向甲基化测序获得来自第二训练群组中相应受试者的无细胞核酸的多个第二序列读数。参考方框306，从多个第二序列读数确定多个第二片段中每个片段的核酸序列和甲基化图谱。例如，参见美国专利公开号us 2019-0287652 a1，标题为“异常片段检测和分类”，美国专利公开号us 2020-0239964 a1，标题为“异常片段的检测和分类“，以及美国专利公开号us 2020-0239965 a1，标题为“基于无细胞dna样本中甲基化片段的来源反褶积”，其中每一个都通过引用在此并入本文，用于确定序列读数的甲基化图谱的方法。参考方框308，多个第二片段中的片段任选地在不同位置、3'和5'配对末端读数冲突的位置及/或模糊位置处分割。参考方框310，具有少于阈值数量的cpg位点(小于3个位点、小于4个位点、小于5个位点、小于6个位点、小于7个位点、小于8个位点、小于9个位点、小于10个位点、小于11个位点、小于12个位点、小于13个位点、小于14个位点、小于15个位点、小于20个位点、小于30个位点、小于50个位点)的片段在一些实施例中被丢弃。参考方框312，在一些实施例中，去除来自多个第二片段的具有相同核酸序列和相同cpg甲基化图谱的所有片段。
[0258]
参考方框314，通过将各个片段的甲基化图谱与多个第二片段中观察到的甲基化图谱进行比较，一个或多个第二阈值过滤器任选地应用于多个第二片段中的每个相应片段，以计算每个相应片段的甲基化图谱发生的可能性，从而从多个第二片段中滤除不满足第二阈值过滤器的第二阈值(例如，不具有低于特定阈值的p值)的片段。例如，见图4，其说明了如何基于多个片段表现出的甲基化图谱来计算特定甲基化图谱的p值。虽然图4涉及使用从第一训练数据集中提取的多个片段，但图4中所揭示的原理同样可以应用于使用从第二训练数据集提取的多个片段来确定片段甲基化图谱的p值。参考方框316，使用先前使用第一训练数据集训练的自动编码器132获得多个第二片段中的每个片段的片段误差分数。参考方框318，选择多个第二片段中满足编码器-解码器模型误差阈值的多个第三片段。参考方框320，多个第三片段中的甲基化图谱和核酸序列片段用于训练分类器以区分指定的疾病状况。
[0259]
在一些实施例中，使用第二训练数据集和经过训练的自动编码器将包含第二训练数据集120-2的多个核酸甲基化片段及/或序列段的数据集用作训练的自动编码的输入，如本发明所述，在对第二训练数据集进行任何所需的预处理及/或过滤之后。在一些实施例中，使用第二训练数据集和经过训练的自动编码器使用不同于最初获得的第二训练数据库
的数据集，所述数据集由来自各个受试者的生物样本中的核酸甲基化序列确定。
[0260]
甲基化片段重建分数
[0261]
参考方框540，所述方法还包括使用第二训练数据集120-2和经过训练的自动编码器132，从第二训练数据集表示的多个序列或多个甲基化图谱中识别多个特征146，对于第二训练数据集中每个对应的多个核酸甲基化片段中的每个相应核酸甲基化片段，通过计算，在将相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列输入到经过训练的自动编码器中时，自动编码器132至少部分地通过重建相应核酸甲基化片段的对应的甲基化图谱来确定一对应分数。
[0262]
例如，在一些实施例中，在第一训练数据集120-1上训练的训练自编码器从第二训练数据集(例如，测试或未知样本)重建相应核酸甲基化片段的对应的甲基化图谱。根据重建的准确性对来自第二训练数据集的片段的重建进行评分(例如，使用损失函数及/或甲基化片段重建分数(mfrs))。基于与训练数据集的重建分数的相似性(例如，通过原始分数值及/或分数分布的直方图)评估第二训练数据集中每个核酸甲基化片段的每个相应重建分数。在一些这样的实施例中，具有更高分数的一个或多个核酸甲基化片段因此被认为在重建中具有更高的错误，因此被认为是异常的。
[0263]
图11和图6说明了自动编码器132产生的重建输出示例。具体而言，图11说明了根据本发明的一些实施例的多个核酸甲基化片段的示例输入和输出核酸序列。“i”表示编码器132的输入(例如，多个核酸甲基化片段的对应的核酸序列和对应的甲基化图谱)，而“o”表示来自解码器的输出(例如，重建)。字母a、g、c和t表示核苷酸碱基，数字0和1分别表示未甲基化和甲基化状态。方框表示重建中的错误，其中虚线表示甲基化图谱重建中的错误，实线表示核酸序列重建中的错误。
[0264]
图6示出了根据本揭示的一些实施例的使用在由自动编码器132重建之后确定的对应重建分数的样本级甲基化图谱异常检测的示例。图6中的每个直方图显示了两个测试样本(一个有癌症，另一个没有癌症)的重建误差分数分布，这些样本被用作输入到经过训练的非癌症训练数据集的自动编码器中，其中，x轴表示重建误差分数，y轴表示具有相应重建误差分数的标准化片段数。深灰色直方图显示了非癌症测试样本的重建误差曲线。浅灰色直方图显示了癌症测试样本的重建误差曲线。每个测试样本包含相应的多个核酸甲基化片段。如图6所示，癌症检测样本的重建误差分数分布显示，与非癌症分布相比，具有高(例如大于40)重建误差分数的核酸甲基化片段数量更多。因此，当使用在非癌症训练数据集上训练的自动编码器时，与非癌症分布相比，重建误差分数较高的片段被视为异常。
[0265]
在一些实施例中，在将相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列输入到经过训练的自动编码器中时，通过自动编码器132重建相应核酸甲基化片段的对应的甲基化图谱来确定对应分数。在一些实施例中，在将相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列输入到经过训练的自动编码器中时，通过自动编码器重建相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列来确定对应分数。
[0266]
参考方框542，在一些实施例中，相应的核酸甲基化片段的对应分数由自动编码器重建相应核酸甲基化片段的对应的甲基化图谱的正确性决定，并且独立于由自动编码器重建相应核酸甲基化片段的对应的核酸序列的正确性。换言之，此类实施例中的分数不取决于自动编码器重建输入片段的核酸序列的程度，而仅取决于自动编码器重建输入片段的甲
基化图谱的程度。事实上，在这些实施例中，自动编码器可能根本不尝试重建输入核酸片段的序列，因为在这些实施例中它不用于评分。事实上，在一些这样的实施例中，自动编码器没有在第一训练数据集的片段的序列上进行训练，因为在这样的实施例中核酸序列重建不形成片段评分的基础。
[0267]
参考方框544，在一些实施例中，一相应核酸甲基化片段的所述对应分数：由所述自动编码器对所述相应核酸甲基化片段的对应的甲基化图谱的所述重建的一正确性确定；并且进一步由所述自动编码器对所述相应核酸甲基化片段的对应的核酸序列的所述重建的一正确性确定。换言之，在这样的实施例中，相应核酸甲基化片段的对应分数是自动编码器(a)重建相应核酸甲基化片段的对应的甲基化图谱的正确性以及自动编码器重建相应核酸甲基化片段的对应的核酸序列的正确性(b)两者的函数。在一些实施例中，所述函数是a和b的简单求和以获得对应分数。
[0268]
在一些实施例中，所述函数是加权组合x1a x2b，其中a由x1加权，b由x2加权，x1和x2彼此独立。在一些这样的非限制性实施例中，x1和x2分别在0到1的范围内，包括端点。在一些这样的非限制性实施例中，x1和x2都不是零。
[0269]
在一些实施例中，所述函数是x1a*x2b的加权组合，其中a由x1加权，b由x2加权，x1和x2相互独立。在一些这样的非限制性实施例中，x1和x2各自在0到1的范围内，包括端点。在一些这样的非限制性实施例中，x1和x2各自不为零。
[0270]
在一些实施例中，所述函数是(x1a
÷
x2b)或(x2b
÷
x1a)的加权组合，其中a由x1加权，b由x2加权，x1和x2相互独立。在一些这样的非限制性实施例中，x1和x2各自在0到1的范围内，包括端点。在一些这样的非限制性实施例中，x1和x2各自不为零。
[0271]
在一些实施例中，所述函数是加权对数组合log(x1a x2b)或log(x1a*x2b)，其中log是任意底数(例如10、2或自然对数)，a由x1加权，b由x2加权，x1和x2相互独立。在一些这样的非限制性实施例中，x1和x2各自在0到1的范围内，包括端点。在一些这样的非限制性实施例中，x1和x2各自不为零。
[0272]
在一些此类实施例中，所述相应核酸甲基化片段的对应的甲基化图谱的所述重建的所述正确性至少部分地由所述相应核酸甲基化片段的的对应的甲基化图谱的所述重建与所述相应核酸甲基化片段的实际甲基化图谱之间的一汉明距离确定。例如，在一些实施例中，两种甲基化图谱的汉明距离计算为重建中甲基化状态与原始输入片段中甲基化态不同的位置数之和。例如，考虑示例输入甲基化图谱11011001，其中每个“1”对应于甲基化cpg位点，每个“0”对应于未甲基化cpg位点。假设自动编码器132返回字符串10011101。为了计算汉明距离，输入和输出字符串组合为11011001
⊕
10011101＝01000100。由于01000100包含两个1，因此汉明距离d(11011001,10011101)在此示例中为2。在一些实施例中，通过重建相应核酸甲基化片段的对应的甲基化图谱与相应核酸甲基化片的实际甲基化图谱之间的莱文斯坦距离，至少部分地确定相应核酸甲基化片段的对应的甲基化图谱的重建的正确性。
[0273]
在一些实施例中，相应核酸甲基化片段的对应分数被限制在第一数字和第二数字之间。在一些这样的实施例中，第一数字是零并且第二数字是一。例如，在一些这样的实施例中，汉明距离通过输入字符串中的cpg位点的数量进行归一化。在上面的示例中，11011001
⊕
10011101＝01000100，汉明距离2将除以8，以便对8个cpg位点进行归一化，从而
使归一化分数为2/8或0.25。
[0274]
参考方框546，在一些实施例中，使用第一误差函数计算对应分数(例如，用于训练未经训练的自动编码器的第一个误差函数)。参考方框548，在一些实施例中，使用不同于第一误差函数的第二误差函数计算各个核酸甲基化片段的对应分数。
[0275]
在一些实施例中，对于每个相应核酸甲基化片段，使用跨整个片段计算的第一或第二误差函数来计算对应分数。
[0276]
在一些实施例中，使用损失函数计算对应分数。在一些此类实施例中，损失函数包括但不限于交叉熵损失函数、铰链损失函数、huber损失函数、kullback-leibler损失函数、欧几里得距离对数函数、逐元素kl散度、平均绝对误差或l1损失函数，及/或均方误差或l2损失函数。
[0277]
在一些实施例中，相应核酸甲基化片段的对应分数由自动编码器132计算为：
[0278]
a(f)＝loss(f,f’)；
[0279]
其中，f是相应核酸甲基化片段的对应的甲基化图谱；f’是在将对应的甲基化图谱和相应核酸甲基化片段的对应的核酸序列输入到自动编码器后，自动编码器对相应核酸甲酯化片段的对应的甲基化图谱的重建；以及loss是f和f'之间的损失(例如，甲基化重建误差)。
[0280]
在一些这样的实施例中，损失是f和f'之间的重建误差、f和f'之间的汉明距离、f和f’之间的交叉熵损失、f和f'之间的均方误差或f和f'之间的平均绝对误差。
[0281]
在一些实施例中，对应分数是重建误差和距离度量的总和。
[0282]
例如，在一些实施例中，相应核酸甲基化片段的对应分数计算如下：
[0283]
a(f)＝w1*loss(f,f') w2*距离[e(f),e(f_nc)]；
[0284]
其中，w1是第一权重；f是相应核酸甲基化片段的对应的甲基化图谱；f’是在将对应的甲基化图谱和相应核酸甲基化片段的对应的核酸序列输入到自动编码器后，自动编码器对相应核酸甲酯化片段的对应的甲基化图谱的重建；以及w2是第二权重；loss是f和f'之间的损失；e(f)是在将相应核酸甲基化片段的对应的甲基化图谱输入自动编码器时由自动编码器产生的编码；f_nc是核酸甲基化片段的甲基化图谱和核酸序列，其定位于与相应核酸甲基化片段相同的基因组位置并且具有与相应核酸甲基化片段相同的序列；e(f_nc)是自动编码器在将f_nc输入到自动编码器时产生的编码；以及距离是e(f)和e(f_nc)之间的距离度量或相似性度量。
[0285]
在一些实施例中，距离是余弦距离、列文斯坦距离、汉明距离、欧几里得距离、曼哈顿距离、杰卡德距离、相关距离、卡方距离或马氏距离。
[0286]
在一些实施例中，w1和w2的值均为1。在一些实施例中，w2和w1的值不同。在一些实施例中，w1和w2各自具有介于0和1之间的不同实数值，包括0和1。
[0287]
特征识别
[0288]
在一些优选实施例中，多个特征包括一个或多个核酸甲基化片段，这些片段很可能是癌症状况(例如，第一或第二癌症状况)的代表性(例如，区别性)。在一些这样的实施例中，多个特征包括一个或多个核酸甲基化片段，这些片段部分通过一个或更多核酸甲基化片段的重建误差(例如，mfrs)被确定为异常。在一些此类实施例中，多个特征包括两个或多个、三个或更多、10个或更多，15个或更多20或更多，50个或更多或100个或更多核酸甲基化
片段，这些片段被部分地通过一个或更多核苷酸甲基化片段的重建误差(例如，mfrs)确定为异常。在一些实施例中，部分或全部特征唯一地公开于专利合作条约wo2020154682a3中描述的基因组区域，名称为“检测癌症、癌症组织或起源或癌症类型”，其通过引用在此并入本文，包括其中引用的序列列表。在一些实施例中，部分或全部探针唯一地公开于专利合作条约wo2020/069350a1中描述的基因组区域，名称为“甲基化标记和靶向甲基化探针面板”，其专利通过引用在此并入本文，包括其中引用的序列列表。在一些实施例中，一些或所有探针唯一地公开于专利合作条约wo2019/195268a2中描述的基因组区域，名称为“甲基化标记和靶向甲基化探针面板”，其通过引用在此并入本文，包括其中引用的序列列表。
[0289]
参考图5d的方框550，在一些实施例中，接收满足一误差阈值的一对应分数的由所述第二训练数据集表示的对应于所述第二训练数据集中的一个或多个核酸甲基化片段的每个核酸序列被识别为所述多个特征中的一个特征。例如，在一些这样的实施例中，多个特征中的特征是基于对应的甲基化图谱的重建误差确定为异常的相应核酸甲基化片段的对应的核酸序列。
[0290]
在一些实施例中，当对应分数大于30、大于40、大于50、大于60或大于70时，对应分数(例如mfrs)满足误差阈值。在一些实施例中，当误差大于80％、大于82％、大于85％、大于90％、大于95％或大于97％时，对应分数满足误差阈值。
[0291]
在一些实施例中，当对应分数大于训练数据集120-2中唯一核酸甲基化片段的80％或以上、85％或以上、90％或以上、95％或以上、98％或以上或99％或以上的分数时，对应分数满足误差阈值。
[0292]
在一些实施例中，至少部分地基于对应分数的排名及/或重建中的误差的排名来选择多个特征中的一个特征。
[0293]
例如，参考方框552，在一些实施例中，使用第二训练数据集和经训练的自动编码器来识别多个特征，基于在前n个对应分数中(例如，通过计算获得的)选择与对应分数相关联的甲基化图谱的多个特征作为特征。在一些这样的实施例中，n在100和2000之间。在一些实施例中，n是1000。
[0294]
在一些实施例中，使用第二训练数据集和训练后的自动编码器来识别多个特征，基于对应分数在对应分数的第一分布(例如，直方图)中的位置，选择与对应分数相关联的甲基化图谱。在一些这样的实施例中，对应分数的第一分布中对应分数的位置与对应分数的第二分布进行比较。例如，请参见图6。
[0295]
在一些实施例中，多个特征中的一个特征是相应的一个或多个核酸甲基化片段的特征，而不是相应的一个或多个核酸甲基化片段的对应的核酸序列。
[0296]
在一些这样的实施例中，多个特征中的一个特征包括但不限于基于对应的甲基化图谱的重建误差而确定为异常的相应核酸甲基化片段的编码(例如，嵌入层的值)，基于多个对应的甲基化图谱的重建误差确定为异常的多个核酸甲基化片段的组合(例如，串联)编码，及/或第二训练数据集中所有核酸甲基化片段的组合(如，串联)解码。
[0297]
在一些实施例中，多个特征中的一个特征包括但不限于根据对应的甲基化图谱的重建误差确定为异常的相应核酸甲基化片段的重建分数(例如，mfrs及/或误差)，基于对应的多个甲基化图谱的重建误差而确定为异常的多个核酸甲基化片段的组合(例如，连接)重建分数，及/或第二训练数据集中所有核酸甲基化片段的组合(如，连接)重建分数。
[0298]
在一些实施例中，多个特征中的一个特征包括但不限于甲基化图谱的全部或部分、基因组位置及/或基于对应的甲基化图谱的重建误差确定为异常的相应核酸甲基化片段中一个或多个cpg位点的cpg索引。例如，在一些此类实施例中，多个特征中的特征可以包括对应的甲基化图谱和参考基因组中的特定位置之间的关联。
[0299]
在一些优选实施例中，多个特征中的一个特征包括与参考基因组中的单个位置对齐的核酸甲基化片段的一个或多个特征(例如，对应的核酸序列及/或对应的甲基化图谱)。在一些此类实施例中，与例如包含定位到参考基因组中至少第一和第二位置的对应的核酸序列的核酸甲基化片段相比，各自的特征可以提供更大的鉴别能力，其中，第一位置的对应的甲基化图谱是异常的，而第二位置的对应的甲基化图谱不是异常的。
[0300]
在一些实施例中，多个特征中的一个特征是一个或多个cpg位点的mfrs。在一些此类实施例中，多个特征中的一个特征是使用跨越多个核酸甲基化片段的一个或多个cpg位点的多个mfrs计算的参数。例如，在一些实施例中，特征是一个或多个cpg位点的平均mfrs，其可用于分类目的，其方式类似于β分数或m分数。例如，参见2020年12月11日提交的美国专利申请号us17/119606，名称为“使用面片卷积神经网络进行癌症分类”。在一些实施例中，一个或多个mfrs用于创建样本级特征向量。例如，在一些实施例中，mfrs被用作样本级特征向量中片段高甲基化及/或低甲基化的替代物。
[0301]
在一些实施例中，被鉴定为多个特征中的一个特征的相应核酸甲基化片段的核酸序列用于鉴定用于分类的进一步特征，包括但不限于核酸甲基化片段的生物学背景。在一些此类实施例中，使用被识别为多个特征中的一个特征的相应核酸甲基化片段的核酸序列，例如，选择低噪声区域、面板基因及/或其他信息区域。
[0302]
区分癌症状态
[0303]
参考图5e的方框554，在一些实施例中，本揭示的系统和方法使用上面确定的多个特征来训练区分第一癌症状态和第二癌症状态的监督模型148。
[0304]
参考方框556，在一些实施例中，第一癌症状态是没有癌症。参考方框558，在一些实施例中，所述第二癌症状态是肾上腺癌、胆道癌、膀胱癌、骨髓癌、脑癌、乳腺癌、宫颈癌、结直肠癌、食道癌、胃癌、头颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌、骨盆癌、胸膜癌、前列腺癌、肾恶性肿瘤、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病或其组合。
[0305]
在一些实施例中，第一癌症状态是特定癌症的第一阶段(例如，i、ii、iii或iv期)，并且第二癌症状态是指定癌症的第二阶段(例如，阶段i、ii、iii或iv和除了阶段1以外)。所述特定癌症是肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌、骨盆癌、胸膜癌、前列腺癌、肾恶性肿瘤、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病或其组合。
[0306]
在一些实施例中，所述第二癌症状态是肾上腺癌阶段、胆道癌阶段、膀胱癌阶段、骨/骨髓癌阶段、脑癌阶段、乳腺癌阶段、宫颈癌阶段、结直肠癌阶段、食道癌阶段、胃癌阶段、头颈癌阶段、肝胆癌阶段、肾癌阶段、肝癌阶段、肝癌阶段、卵巢癌阶段、胰腺癌阶段、盆腔癌阶段、胸膜癌阶段、前列腺癌阶段、肾恶性肿瘤阶段、皮肤癌阶段、胃癌阶段、睾丸癌阶段、胸腺癌阶段、甲状腺癌阶段、子宫癌阶段、淋巴瘤阶段、黑色素瘤阶段、多发性骨髓瘤阶
段或白血病阶段。
[0307]
在一些实施例中，第一癌症状态是第一起源组织，第二癌症状态是不同于第一癌症状态的第二起源组织。在一些实施例中，第一癌症状态是第一类型或亚型，而第二癌症状态是不同于第一癌症状态的第二类型或亚类型。
[0308]
在一些优选实施例中，第一癌症状态是没有癌症(例如，非罹患癌症或健康状态)，第二癌症状态是存在癌症。在一些此类实施例中，使用包括足够数量的训练样本(例如，来自健康群组)的第一训练数据集来训练(例如，使用反向传播)未训练的自动编码器以避免过度拟合。例如，在一个示例性实施例中，第一训练数据集120-1包含至少10,000,000个片段，每个片段至少5、6、7、8、9、10、11、12、13、14或15个甲基化位点，平均测序深度在200x到10,000x之间。在一些实施例中，平均测序深度约为100x、200x、500x、1000x、1500x、2000x、2500x、3000x、4000x或5000x。在一些实施例中，校准平均测序深度以说明靶向甲基化测定中富集探针的影响。例如，使用富集样本的150x测序深度可能等同于未富集样本的500x或更高深度。在一些进一步的此类实施例中，第二训练数据集120-2与经过训练的自动编码器132一起使用以生成重建分数(例如，mfrs)，并且选择分数低的核酸甲基化片段的核酸序列作为特征用于训练受监督模型148，其中多个特征被输入到分类器(监督模型148)中，标签指示各自的癌症状态。所公开的系统和方法的这些实施例是有利的，因为它们通过将用于训练监督模型148的输入特征限制为异常并因此具有高度辨别性的特征来改进监督模型148的训练。此外，所公开的系统和方法的这些实施例的优点在于，它们不需要第一和第二训练数据集都包含大量训练样本，从而允许针对相对罕见的癌症状况识别异常片段(例如，对于第二训练数据集120-2)。
[0309]
在一些实施例中，所公开的系统和方法用于通过识别指示癌症状态的异常甲基化图谱来识别生物标记物。在一些此类实施例中，癌症状态是缺乏现有筛查测试的特定类型的癌症(例如肺癌)。
[0310]
在一些实施例中，所公开的系统和方法用于构建特定癌症状态的一元分类器(例如，x与非x)。在一些这样的实施例中，所公开的系统和方法用于训练多个自动编码器。在这种功效中，使用多个训练数据集中的不同的各自训练数据集来训练对应的自动编码器，其中各自的训练数据集表示多个癌症状态中的特定癌症状态，并且其中每个训练的自动编码器用作对应癌症状态的一元分类器。在一些实施例中，训练2、3、4、5、6、7、8、9、10、11、12、13、14、15或16个自动编码器，其中，每个这样的各自的自动编码器被训练为在一元基础上区分不同的特定癌症状态。在一些实施例中，训练2、3、4、5、6、7、8、9、10、11、12、13、14、15或16个自动编码器，其中训练每个这样的各自的自动编码器以区分不同的癌症状态对(例如，第一和第二癌症状态等)
[0311]
在一些实施例中，所公开的系统和方法被用作快速筛选，以识别包含异常片段的生物样本(例如，使用在非癌症训练数据集上训练的自动编码器的反射模型)，以用于进一步调查及/或分析(例如，利用监督模型进一步分类)。在一些这样的实施例中，这通过筛选出不具有感兴趣的癌症状态的样本来提供优势，从而减少运行多个下游分析所需的计算负担和工作量。
[0312]
参考图5e的方框560，在一些实施例中，使用多个特征包括使用多个特征中每个特征的对应分数来计算在所述多个特征中找到的多个第二cpg位点中每个cpg位点的对应cpg
平均重建分数，从而计算多个对应的cpg平均重建分数。在一些此类实施例中，多个对应的cpg平均重建分数用于选择参考基因组中的低噪声区域、用于定向测序的参考基因组的区域或用于区分第一癌症状态和第二癌症状态的参考基因组区域。
[0313]
例如，在一些实施例中，多个特征用于识别与特定癌症状态相关的信息特征。此类信息特征的示例包括但不限于：转录因子结合、癌症和其他疾病中涉及的复杂基因组重排(cgr)、替代注释及/或基因组浏览器轨迹、各自核酸序列内或两侧的基因表达、突变、变体调用、来自全基因组测序及/或wgbs的低深度信息(例如，在30x处)，来自靶向序列及/或靶向甲基化序列、污染及/或其他生物背景的高深度信息。
[0314]
监督模型
[0315]
参考图5e的方框562，在一些实施例中，监督模型148是逻辑回归模型或多项式逻辑回归算法。逻辑回归算法，包括多元逻辑回归，公开于agresti，《分类数据分析导论》，1996年，第5章，第103-144页，john wiley&son，纽约，在此通过引用并入本文。
[0316]
参考图5e的方框564，在一些实施例中，监督模型148是神经网络算法(例如，卷积神经网络)。神经网络算法(包括卷积神经网络算法)公开于see，vincent等人，2010年，“叠加去噪自动编码器：在具有局部去噪标准的深层网络中学习有用的表示”，j mach learn res 11，pp.3371-3408；larochelle等人，2009年，“探索训练深层神经网络的策略”，《马赫学习研究杂志》第10期，第1-40页；和hassoun，1995年，《马萨诸塞州理工学院人工神经网络基础》，特此通过引用将其并入本文。
[0317]
在一些实施例中，监督模型148是支持向量机算法。svm算法在cristianini和shawe taylor，2000，“支持向量机简介”，剑桥大学出版社，剑桥；boser等人，1992年，“最优边缘分类器的训练算法”，载于《第五届acm计算学习理论研讨会论文集》，acm出版社，宾夕法尼亚州匹兹堡，第142-152页；vapnik，1998年，统计学习理论，威利，纽约；mount，2001，《生物信息学：序列和基因组分析》，纽约州冷泉港实验室出版社；杜达，《模式分类》，第二版，2001年，约翰
·
威利父子公司，第259262-265页；和hastie，2001年，《统计学习的要素》，纽约斯普林格；furey等人，2000，《生物信息学》16，906-914，其中每一个都通过引用完整地并入本文。当用于分类时，svm将一组给定的二进制标记数据训练集(例如，通过肿瘤分数)与一个与标记数据最大距离的超平面分离。对于无法进行线性分离的情况，svm可以与“内核”技术结合使用，从而自动实现到特征空间的非线性映射。svm在特征空间中找到的超平面对应于输入空间中的非线性决策边界。
[0318]
在一些实施例中，监督模型148是一种朴素贝叶斯算法。朴素贝叶斯算法算法在taheri和mammadov的《用优化模型学习朴素bayes分类器》(国际应用数学与计算机科学杂志23(4)，787-795)中进行了描述，现通过引用将其并入本文。
[0319]
在一些实施例中，监督模型148是最近邻算法。给定一个查询点x0，识别与x0距离最近的k个训练点x(r),r,
…
,k，然后使用k个最近邻对点x0进行分类。区间可以随意打断。在一些实施例中，特征空间中的欧几里得距离用于将距离确定为：
[0320]
d(i)＝‖x
(i)-x
(0)
‖。
[0321]
在一些实施例中，当使用最近邻算法时，跨用于计算线性判别式的第二数据集120-2的多个特征146的测量数据被标准化为具有均值0和方差1。多个特征146{p1，
…
，pn-k}表示第二训练集的参考实体被绘制到的特征空间。在一些实施例中，对最近邻规则进行
了改进，以解决不等类先验、差分误分类代价和特征选择等问题。其中许多改进涉及对邻规则进行某种形式的加权计分。有关最近邻分析的更多信息，请参阅duda，《模式分类》，第二版，2001年，john wiley&sons，inc。；和hastie，2001，统计学习要素，springer，new york，特此通过引用将其全部并入本文。
[0322]
在一些实施例中，监督模型148是增强树算法、随机森林算法或决策树算法。决策树一般由duda，2001，《模式分类》，john wiley&sons，inc.，纽约，第395-396页描述，现通过引用并入本文。基于决策树的方法将特征空间划分为一组矩形，然后在每个矩形中拟合一个模型(如常量)。在一些实施例中，决策树是随机森林回归。可以使用的一种特定算法是分类和回归树(cart)。其他特定的决策树算法包括但不限于id3、c4.5、mart和随机森林。cart、id3和c4.5在duda，2001，模式分类，john wiley&sons，inc.，纽约，第396-408页和第411-412页中进行了描述，现通过引用将其并入本文。cart、mart和c4.5在hastie et al.，2001，统计学习要素，springer verlag，new york，chapter 9中进行了描述，现通过引用将其全部并入本文。关于随机森林的描述，见breiman，1999年，“随机森林——随机特征”，技术报告567，加州大学伯克利分校统计局，1999年9月，通过引用将其全部并入本文。
[0323]
在一些实施例中，监督模型148是线性模型，例如线性回归算法。线性回归算法在hastie et al.等人，统计学习要素、数据挖掘、推理和预测，springer统计学系列，springer-verlag，new york的《统计学习、数据挖掘、推断和预测的要素》的第3章中进行了描述，现通过引用将其并入本文。
[0324]
在一些实施例中，监督模型是一个梯度提升机。例如，参见feng等人，2020年，“软梯度提升机”arxiv:2006.04059，此处通过引用合并，以了解梯度提升机的一般说明。
[0325]
监督模型(例如分类器)在2020年12月11日提交的题为“使用补丁卷积神经网络进行癌症分类”的美国临时专利申请号us17/119606和美国专利公开号us 2020-0385813 a1中进行了进一步详细描述，标题为“使用甲基化信息估计细胞源组分的系统和方法”，其中每一个均通过引用全部并入本文中。
[0326]
在一些实施例中，监督模型148经过训练以根据本文描述的任何癌症状况预测疾病状况，例如癌症状况及/或癌症状况的阶段。
[0327]
在一些实施例中，本文描述的任何特征用于训练受监督模型(例如，甲基化图谱、核酸序列、重建分数、mfrs、嵌入、替代特征及/或本领域技术人员显而易见的任何组合及/或修改)。
[0328]
在一些实施例中，监督模型针对上述多个癌症状态中的每个癌症状态进行训练(请参见“区分癌症状态”)。
[0329]
参考方框566，在一些实施例中，监督模型使用(i)多个第一和第二训练受试者的多个特征中每个相应核酸甲基化片段的甲基化图谱；以及(ii)关于核酸甲基化片段是源自具有第一癌症状态的训练受试者还是具有第二癌症状态的训练受试者的每个相应核酸甲基化片段的指示来被训练。
[0330]
在一些实施例中，监督模型是第一分布和第二分布之间的kullback
–
leibler距离，其中第一分布包括跨第一训练数据集或第二训练数据集的核酸甲基化片段的多个特征的多个第一对应分数，第二分布包括从测试受试者的生物样本中获得的多个核酸甲基化片段的多个第二对应分数。例如，kullback-leibler距离测量第一分布和第二分布的各自质
量之间的差异(例如，在重建和原始之间)。
[0331]
在一些实施例中，本揭示的系统和方法以电子形式获得测试数据集，其中，对于受试者，测试数据集包括由从受试者获得的生物样本中的核酸甲基化序列确定的多个测试核酸甲基化片段中每个相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列。在这些实施例中，对应的甲基化图谱包括相应测试核酸甲基化片段中对应的多个cpg位点中每个相应cpg位置的甲基化状态。将测试数据集的全部或部分应用于监督模型，从而从监督模型中确定受试者是否具有第一癌症状态还是第二癌症状态。
[0332]
在一些此类实施例中，使用本文所公开的任何方法及/或实施例(例如，对于第一和第二训练数据集)获得及/或处理测试数据集。在一些实施例中，监督模型根据本文所揭示的任何特征进行训练。
[0333]
经常性基础。在一些实施例中，根据监督模型148，对受试者是否具有第一癌症状态或第二癌症状态的确定随着时间的推移对受试者重复进行，以进行最小残留疾病和复发监测。在一些此类实施例中，根据监督模型，从受试者癌症治疗前获得的第一样本和癌症治疗后获得的第二样本来确定受试者是处于第一癌症状态还是第二癌症状态，以评估癌症治疗的疗效。
[0334]
在一些实施例中，根据监督模型148，在跨越一个时期的多个时间点重复关于测试受试者是否具有第一癌症状态或第二癌症状态的确定，因此，在多个癌症评估中，在每个相应的时间点为测试受试者获得相应的癌症评估。在一些实施例中，此处多个癌症评估(其中每个癌症评估是从监督模型中确定受试者在特定时间点是否处于第一癌症状态或第二癌症状态)用于确定受试者在一个时期期间的疾病状态或进展。
[0335]
在一些实施例中，每个时期是几个月的时期，并且多个时间点中的每个时间点是几个月时期中的不同时间点。在一些实施例中，几个月的时间少于四个月。在一些实施例中，每个时期为一个月。在一些实施例中，每个时期为两个月长。在一些实施例中，每个时期为三个月。在一些实施例中，每个时期为四个月长。在一些实施例中，每个时期是五、六、七、八、九、十、十一、十二、十三、十四、十五、十六、十七、十八、十九、二十、二十一、二十二、二十三或二十四个月。
[0336]
在一些实施例中，每个时期是以年周期，多个时间点中的每个时间点为年周期中的不同时间点。在一些实施例中，年周期在一年和十年之间。在一些实施例中，年周期是一年、两年、三年、四年、五年、六年、七年、八年、九年或十年。在一些实施例中，所述时期在一年到三十年之间。
[0337]
在一些实施例中，每个时期是小时周期，多个时间点中的每个时间点是小时周期中的不同时间点。在一些实施例中，小时周期在1小时到24小时之间。在一些实施例中，小时周期为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24小时。
[0338]
在一些实施例中，当从监督模型148观察到测试受试者是否具有第一癌症状态或第二癌症状态的确定在整个时期中改变阈值量时，测试受试者的诊断发生改变。例如，在一些实施例中，诊断从患有癌症变为处于缓解状态。作为另一个例子，在一些实施例中，诊断从没有癌症改变为患有癌症。作为另一个例子，在一些实施例中，诊断从患有第一阶段的癌症改变为患有第二阶段的癌症。作为另一个例子，在一些实施例中，诊断从患有癌症的第二阶段变为患有癌症的第三阶段。作为又一个例子，在一些实施例中，诊断从患有癌症的第三
阶段变为患有癌症的第四阶段。作为另一个示例，在一些实施例中，诊断从患有未转移的癌症变为患有已转移的癌症。
[0339]
在一些实施例中，当从监督模型148观察到在一个时期内测试受试者是否具有第一癌症状态或第二癌症状态的确定发生变化时，测试受试者的预测发生变化。例如，在一些实施例中，预测涉及预期寿命，并且预测从第一预期寿命变为第二预期寿命，其中第一和第二预期生命的持续时间不同。在一些实施例中，预测后的改变增加了受试者的预期寿命。在一些实施例中，预测后的改变降低了受试者的预期寿命。
[0340]
在一些实施例中，当从监督模型中观察到在一个时期内测试受试者是否具有第一癌症状态或第二癌症状态的确定发生变化时，测试受试者的处理被改变。在一些实施例中，治疗的改变包括启动癌症药物、增加癌症药物的剂量、停止癌症药物及/或减少癌症药物的用量。在一些实施例中，治疗的改变包括开始或终止对受试者使用来那度胺、彭布罗单抗、曲妥珠单抗、贝伐单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四联疫苗(6型、11型、16型和18型)、帕妥珠单抗、培美曲塞、尼罗替尼、尼罗替尼、地诺单抗、醋酸阿比特龙、普罗马他、伊马替尼、依维莫司、帕尔博环素、埃洛替尼、硼替佐米、硼替佐米或其通用等效药物。在一些实施例中，治疗方法的改变包括增加或减少下列药物的剂量:来那度胺、彭布罗单抗、曲妥珠单抗、贝伐单抗、利妥昔单抗、伊布替尼、人乳头瘤病毒四联疫苗(6型、11型、16型和18型)、帕妥珠单抗、培美曲塞、尼罗替尼、尼罗替尼、地诺单抗、醋酸阿比特龙、普罗马他、伊马替尼、依维莫司、帕尔博环素、埃洛替尼、硼替佐米、硼替佐米或其通用等效药物给受试者服用。
[0341]
在一些实施例中，至少部分地基于根据监督模型148确定受试者是处于第一癌症状态还是第二癌症状态，将治疗方案应用于受试者。在一些实施例中，治疗方案包括向受试者施用癌症药物。在一些实施例中，癌症药物是激素、免疫疗法、放射疗法或抗癌药物。在一些实施例中，癌症药物是来那度胺、派姆单抗、曲妥珠单抗、贝伐单抗、利妥昔单抗、依鲁替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼、尼罗替尼、地诺单抗、醋酸阿比特龙、普罗马他、伊马替尼、依维莫司、帕尔博环素、厄洛替尼、硼替佐米、硼替佐米或其通用等效物。
[0342]
在一些实施例中，受试者已经用癌症药物治疗过，根据监督模型148，关于受试者是处于第一癌症状态还是第二癌症状态的确定用于评估受试者对癌症药物的反应。在一些实施例中，癌症药物是激素、免疫疗法、放射疗法或抗癌药物。在一些实施例中，癌症药物是来那度胺、派姆单抗、曲妥珠单抗、贝伐单抗、利妥昔单抗、依鲁替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼、尼罗替尼、地诺单抗、醋酸阿比特龙、普罗马他、伊马替尼、依维莫司、帕尔博环素、厄洛替尼、硼替佐米、硼替佐米或其通用等效物。
[0343]
在一些实施例中，受试者已经用癌症药物治疗，并且来自监督模型的关于测试受试者是否具有第一癌症状态或第二癌症状态的确定用于确定是否加强或停止对测试受试者使用癌症药物。
[0344]
在一些实施例中，测试受试者已经接受了外科干预以解决癌症，并且根据监督模型148，关于测试受试者是具有第一癌症状态还是第二癌症状态的确定用于评估测试受试者的状态以响应外科干预。在一些实施例中，条件是基于使用本揭示中提供的方法从监督
模型中确定受试者是处于第一癌症状态还是第二癌症状态的指标。
[0345]
训练自动编码器检测癌症状态的方法
[0346]
本发明的另一目的提供了一种用于检测癌症状态的形成分类器148的方法。在这样的实施例中，以电子形式获得训练数据集。对于多个训练受试者中的每个相应训练受试者，训练数据集包括通过对从相应训练受试者获得的生物样本中的核酸进行甲基化测序确定的对应的多个核酸甲基化片段中的每个相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列。对应的甲基化图谱包括相应核酸甲基化片段中对应的多个cpg位点中每个相应cpg位点的甲基化状态。多个训练受试者中的每个训练受试者都具有癌症状态。
[0347]
使用训练数据集训练未经训练的自动编码器。自动编码器132包括编码器134和解码器136。使用训练数据集中每个对应的多个核酸甲基化片段中每个相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列作为输入来训练自动编码器。所述训练包括，对于训练数据集中每个对应的多个核酸甲基化片段中每个相应核酸甲基化片段的每个对应的核酸序列，为自动编码器在对应的多个核酸甲基化片段中对应的甲基化图谱和对应的核酸序列的重建中的误差评估第一误差函数，从而形成经训练的自动编码器。
[0348]
在一些实施例中，测试数据集以电子形式获得。对于一测试受试者，所述测试数据集包括通过从所述测试受试者获得的一生物样本中的核酸进行一甲基化测序所确定的多个测试核酸甲基化片段中每个相应测试核酸甲基化片段的一对应的甲基化图谱和一对应的核酸序列；以及所述对应的甲基化图谱包括相应测试核酸甲基化片段中对应的多个cpg位点中每个相应cpg位点的一甲基化状态。所述方法还包括将所述测试数据集的全部或部分应用到所述经训练的自动编码器，通过计算测试数据集中多个测试核酸甲基化片段中的每个相应测试核酸甲基片段来确定所述测试受试者是否患有所述癌症状态，在将相应测试核酸甲基化片段的对应的甲基化图谱和对应的核酸序列输入到所述自动编码器中时，通过所述经训练的自动编码器重建相应核酸甲基化片段的对应的甲基化图谱，计算至少部分确定的一对应分数。
[0349]
在一些实施例中，所述癌症状态是肾上腺癌、胆道癌、膀胱癌、骨髓癌、脑癌、乳腺癌、宫颈癌、结直肠癌、食道癌、胃癌、头颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌、骨盆癌、胸膜癌、前列腺癌、肾恶性肿瘤、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病或其组合。
[0350]
在一些实施例中，癌症状态是特定癌症的一个阶段。在一些此类实施例中，所述特定癌症是肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌、骨盆癌、胸膜癌、前列腺癌、肾恶性肿瘤、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病或其组合。
[0351]
在一些实施例中，训练数据集包括从具有两种或多种癌症状态的多个训练受试者获得的多个核酸甲基化片段(例如，多种特定的癌症、阶段、起源组织、亚型及/或癌症相关属性)。在一些这样的实施例中，获得训练数据集包括合并两个或更多个生物样本。
[0352]
使用经过训练的自动编码器检测癌症状态的方法
[0353]
本揭示的另一目的提供一种检测癌症状态的方法。以电子形式获得测试数据集。对于一测试受试者，所述测试数据集包括通过从所述测试受试者获得的一生物样本中的核
酸进行一甲基化测序所确定的多个核酸甲基化片段中每个相应核酸甲基化片段的一对应的甲基化图谱和一对应的核酸序列。所述对应的甲基化图谱包括相应核酸甲基化片段中对应的多个cpg位点中每个相应cpg位点的一甲基化状态。所述方法还包括将全部或部分多个核酸甲基化片段中每个相应核酸甲基化片段的对应的甲基化图谱和对应的核酸序列应用到经过训练的自动编码器，以通过计算确定受试者是否具有癌症状态，对于多个核酸甲基化片段的全部或部分中的每个相应核酸甲基化片段，在将相应测试核酸甲基化片段的对应的甲基化图谱和对应的核酸序列输入到所述自动编码器中时，通过所述经训练的自动编码器重建相应核酸甲基化片段的对应的甲基化图谱，计算至少部分确定的一对应分数。
[0354]
在一些实施例中，使用本文公开的任何方法及/或实施例，及/或本领域技术人员显而易见的任何组合及/或修改来获得及/或处理测试数据集。
[0355]
在一些实施例中，测试数据集与用于训练经过训练的自动编码器的训练数据集具有相同的癌症状态。在一些实施例中，测试数据集具有与用于训练经过训练的自编码器的训练数据集具有不同的癌症状态。
[0356]
在一些实施例中，使用测试数据集和经过训练的自动编码器来检测癌症状态包括本文描述的任何方法及/或实施例(例如，使用第二训练数据集和经过训练的自动编码器作为一元分类器来检测癌症状态)。
[0357]
在一些实施例中，癌症状态是没有癌症。
[0358]
在一些实施例中，所述癌症状态是肾上腺癌、胆道癌、膀胱癌、骨髓癌、脑癌、乳腺癌、宫颈癌、结直肠癌、食道癌、胃癌、头颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌、骨盆癌、胸膜癌、前列腺癌、肾恶性肿瘤、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病或其组合。
[0359]
在一些实施例中，癌症状态是特定癌症的一个阶段。在一些此类实施例中，所述特定癌症是肾上腺癌、胆道癌、膀胱癌、骨/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头颈癌、肝胆癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌、骨盆癌、胸膜癌、前列腺癌、肾恶性肿瘤、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病或其组合。
[0360]
在一些实施例中，癌症状态包括本文所述的任何癌症状态。
[0361]
用于癌症状况确定的系统
[0362]
本揭示的另一目的提供了一种用于区分第一癌症状态和第二癌症状态的计算机系统，其中第一癌症状态不同于第二癌症状态。本揭示的另一目的提供了一种用于形成用于检测癌症状态的分类器的计算机系统。本揭示的另一目的提供了一种用于检测癌症状态的计算机系统。
[0363]
所述计算机系统包括至少一个处理器和存储至少一个程序以供所述至少一个处理器执行的存储器，所述至少一个程序包括指令。在一些实施例中，至少一个程序包括用于执行本文所述的任何方法和实施例及/或其任何组合或替代方案的指令，这对于本领域技术人员来说是显而易见的。
[0364]
本揭示的另一目的提供了一种存储程序代码指令的非暂时性计算机可读存储介质，当由处理器执行时，使处理器执行用于区分第一癌症状态和第二癌症状态的方法，其中第一癌症状态不同于第二癌症状态。本揭示的另一目的提供了一种存储程序代码指令的非
12021；doi:10.1200/jco.2018.36.15；12021和liu等人，2019年，“全基因组无细胞dna(cfdna)甲基化特征和对原始组织(too)性能的影响”，临床杂志，肿瘤学37(15)，3049-3049；doi:10.1200/jco.2019.37.15，其中每一个均通过引用全部并入本文。
[0374]
实施例2-获取多个序列读数
[0375]
图7是根据一个实施例制备用于测序的核酸样本的方法700的流程图。方法700包括但不限于以下步骤。例如，方法700的任何步骤可以包括质量控制或本领域技术人员已知的其他实验室分析程序的定量子步骤。
[0376]
在方框702中，从受试者提取核酸样本(dna或rna)。样本可能是人类基因组的任何子集，包括整个基因组。样本可以从已知患有或怀疑患有癌症的受试者身上提取。样本可能包括血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任何组合。在一些实施例中，抽取血液样本的方法(例如，注射器或手指穿刺)可能比获取组织活检的方法侵入性小，后者可能需要手术。提取的样本可能包含cfdna及/或ctdna。对于健康的人来说，人体可以自然清除cfdna和其他细胞碎片。如果受试者患有癌症或疾病，提取样本中的ctdna可能以可检测的水平存在，以供诊断。
[0377]
在方框704中，准备了测序库。测序库程序因测序分析的类型而异。例如，对于甲基化测序，亚硫酸氢盐或酶转化可用于转化目标核酸分子中的非甲基化或甲基化胞嘧啶。在一些实施例中，可通过连接子连接将独特分子标识物(umi)添加到核酸分子(例如，dna分子)。独特分子标识物是短核酸序列(例如4-10碱基对)，在连接子连接期间添加到dna片段的末端。在一些实施例中，umis是退化碱基对，作为一个独特的标签，可用于识别源自特定dna片段的序列读数。在连接子连接后的pcr扩增过程中，umis与附着的dna片段一起复制。这提供了一种方法来识别来自下游分析中相同原始片段的序列读数。由于亚硫酸氢盐转化造成的破坏，通常不使用umis。本领域技术人员将理解，在甲基化相关处理(例如，仅甲基化胞嘧啶的酶转化)后保存双链目标核酸的实施例中，可以使用umis跟踪原始核酸分子，以便于序列错误校正和随后的变体分析。
[0378]
在一些实施例中，在本揭示的数据集中使用来自生物样本中无细胞核酸的正链和反链的核酸序列片段。
[0379]
在一些实施例中，当测序破坏umis或在umis不可用的情况下，例如亚硫酸氢盐转化，在与公开的自动编码器一起使用之前，将从核酸序列片段的反向链确定的核酸序列转化为其反向互补序列。
[0380]
在替代实施例中，再次地，在测序破坏umi或umi不可用的情况下，从核酸序列片段的反向链确定的核酸序列不会转化为其反向互补序列，而是在与所公开的自动编码器一起使用之前被标记(例如，电子标记为来自反向链)。换句话说，从核酸序列片段的反向链获得的核酸序列在测序过程中被电子追踪为来自反向链。在这些实施例中，自动编码器包括一个通道，用于根据数据是否标记为(或不是)来自反向链来确定每个这样的相应核酸序列是来自无细胞核酸甲基化片段的正向读取链还是反向读取链。
[0381]
在其他实施例中，如果测序干扰umi或umi不可用，则从核酸序列片段的反向链确定的核酸序列被转换为其反向互补序列，并且在与所公开的自动编码器一起使用之前也被标记(例如，电子标记为来自反向链)。换言之，从核酸序列片段的反向链获得的核酸序列在测序过程中被电子追踪为来自反向链并且被反向互补。在这些实施例中，自动编码器可选
地包括一个通道，用于根据数据是否标记为(或不是)来自反向链来确定每个这样的相应核酸序列是来自无细胞核酸片段的正向读取链还是反向读取链。
[0382]
在方框706中，目标dna序列从测序库中富集。在富集过程中，杂交探针(在本文中也称为“探针”)用于靶向和下拉核酸片段，这些核酸片段提供了癌症(或疾病)存在或不存在、癌症状态或癌症分类(例如，癌症类别或起源组织)的信息。对于给定的工作流程，探针可以被设计成黏合(或杂交)到目标(互补)dna链。目标链可以是“正向”链(例如，转录成mrna的链，随后翻译成蛋白质)或互补的“反向”链。探针的长度范围可以从10个、100个或1000个碱基对不等。在一个实施例中，探针是基于甲基化位点组设计的。在一个实施例中，这些探针是根据一组靶向基因设计的，以分析怀疑与某些癌症或其他类型疾病相对应的特定突变或基因组(例如人类或其他生物体)的目标区域。此外，探针可以覆盖目标区域的重叠部分。在方框708中，这些探针用于核酸样本的一般序列读数。
[0383]
图8是根据一个实施例获得序列读数的过程的图形表示。图8描绘了来自样本的核酸片段800的一个例子。核酸片段800可以是单链核酸片段。在一些实施例中，核酸片段800是双链cfdna片段。图示的实施例描述了可以被不同探针靶向的核酸片段的三个区域805a、805b和805c。具体而言，三个区域805a、805b和805c中的每一个都包括核酸片段800上的重叠位置。图8中描述了一个重叠位置的示例，即胞嘧啶(“c”)核苷酸碱基802。胞嘧啶核苷酸碱802位于区域805a的第一边缘附近、区域805b的中心和区域805c的第二边缘附近。
[0384]
在一些实施例中，一个或多个(或全部)探针是基于基因组或甲基化位点组设计的，用于分析怀疑与某些癌症或其他类型疾病对应的基因组(例如，人类或其他生物体)的特定突变或靶区。通过使用靶向基因组或甲基化位点组而不是对基因组的所有表达基因进行测序，也称为“全外显子组测序”，方法800可用于增加目标区域的测序深度，其中深度是指样本中给定靶向序列被测序的次数。增加测序深度会减少所需的核酸样本输入量。
[0385]
使用一个或多个探针对核酸样本800进行杂交，从而了解靶向序列870。如图8所示，靶向序列870是杂交探针靶向的区域805的核苷酸碱基序列。靶向序列870也可以称为杂交核酸片段。例如，靶向序列870a对应于第一杂交探针靶向的区域805a，靶向序列870b对应于第二杂交探针靶向的区域805b，靶向序列870c对应于第三杂交探针靶向的区域805c。假定胞嘧啶核苷酸碱基802位于杂交探针靶向的每个区域805a-c内的不同位置，每个靶向序列870包括对应于靶向序列870上特定位置的胞嘧啶核苷酸碱基802的核苷酸碱基。
[0386]
在杂交步骤之后，杂交的核酸片段被捕获并且还可以使用pcr进行扩增。例如，可以富集靶向序列870以获得可以随后测序的富集序列880。在一些实施例中，每个富集序列880从靶向序列870复制。分别从靶向序列870a和870c扩增的富集序列880a和880c还包括位于每个序列读数880a或880c边缘附近的胸腺嘧啶核苷酸碱基。如下文所用，富集序列880中相对于参考等位基因(例如胞嘧啶核苷酸碱基802)发生突变的突变核苷酸碱基(例如胸腺嘧啶核苷酸碱基)被认为是替代等位基因。此外，从靶向序列870b扩增的每个富集序列880b包括位于每个富集序列880b附近或中心的胞嘧啶核苷酸碱基。
[0387]
在方框708中，从富集的dna序列产生序列读数，例如图8中所示的富集序列880。测序数据可以通过本领域已知的方法从富集的dna序列中获得。例如，方法800可能包括下一代测序(ngs)技术，包括合成技术(illumina)、焦磷酸测序(454life sciences)、离子半导体技术(ion torrent测序)、单分子实时测序(pacific biosciences)、连接测序(solid测
序)，纳米孔测序(oxford nanopore technologies)或配对末端测序。在一些实施例中，使用具有可逆染料终止剂的合成测序进行大规模平行测序。
[0388]
在一些实施例中，可以使用本领域已知的方法将序列读数与参考基因组进行比对以确定比对位置信息。比对位置信息可以指示参考基因组中对应于给定序列读数的开始核苷酸碱基和结束核苷酸碱基的区域的开始位置和结束位置。比对位置信息还可以包括序列读数长度，可以从开始位置和结束位置确定。参考基因组中的一个区域可以与一个基因或一个基因片段相关联。
[0389]
在各种实施例中，序列读数由表示为r1和r2的读数对组成。例如，第一读数r1可以从核酸片段的第一端测序，而第二读数r2可以从核酸片段的第二端测序。因此，第一读数r1和第二读数r2的核苷酸碱基对可以与参考基因组的核苷酸碱基一致地(例如，以相反的方向)对齐。源自读数对r1和r2的比对位置信息可以包括参考基因组中对应于第一个读数(例如r1)的末端的起始位置和参考基因组中对应于第二读数(例如r2)的末端的末端位置。换言之，参考基因组中的起始位置和末端位置代表核酸片段对应的参考基因组内的可能位置。可以生成并输出具有sam(序列比对图)格式或bam(二进制)格式的输出文件，用于进一步分析，例如甲基化状态确定。
[0390]
实施例3
–
甲基化状态向量的生成
[0391]
图9是描述根据本揭示的实施例的对cfdna片段进行测序以获得甲基化状态向量的方法900的流程图。
[0392]
参考步骤902，从生物样本中获得cfdna片段(例如，如上文结合实施例2所讨论的)。参考步骤920，cfdna片段被处理以将未甲基化的胞嘧啶转化为尿嘧啶。在一个实施例中，对dna进行亚硫酸氢盐处理，将cfdna片段的未甲基化胞嘧啶转化为尿嘧啶而不转化甲基化胞嘧啶。例如，在一些实施例中，亚硫酸氢盐转化使用了诸如ez dna甲基化
tm
–
金ez dna甲基化
tm
–
直接或ez dna甲基化
tm
–
lightning试剂盒(可从zymo research corp(irvine,ca)获得)用于亚硫酸氢盐转化。在其他实施例中，使用酶反应实现非甲基化胞嘧啶转化为尿嘧啶。例如，转化可以使用市售的用于将未甲基化胞嘧啶转化为尿嘧啶的试剂盒，例如apobec-seq(nebiolabs,ipswich,ma)。
[0393]
从转化的cfdna片段制备测序库(步骤930)。任选地，测序库富集935cfdna片段或基因组区域，其使用多个杂交探针可提供癌症状态的信息。杂交探针是短寡核苷酸，能够与特别指定的cfdna片段或目标区域杂交，并富集这些片段或区域以供后续测序和分析。杂交探针可用于对一组研究人员感兴趣的特定cpg位点进行有针对性的高深度分析。一旦准备好，可以对测序库或其一部分进行测序以获得多个序列读数(940)。序列读数可以是用于计算机软件处理和解释的计算机可读数字格式。
[0394]
根据序列读数，基于序列读数与参考基因组的比对确定每个cpg位点的位置和甲基化状态(950)。生成每个片段的甲基化状态向量、指定甲基化位点的位置(例如，由每个片段中第一个cpg位点的位置或另一个类似指标指定)和cfdna片段中每个甲基化位点的甲基化状态(960)。
[0395]
有关wgbs的详细信息，请参见美国专利申请公开号us 2019-0287652 a1，名称为“异常碎片检测和分类”，以及美国专利申请公开号us 2020-0385813a1，名称为“使用甲基化信息估计细胞源组分的系统和方法”，其中每一个均通过引用并入本文。
[0396]
结论
[0397]
本文中描述的组件、操作或结构可以作为单个实例提供多个实例。最后，各种组件、操作和数据存储之间的边界在某种程度上是任意的，并且在特定说明性配置的上下文中说明了特定操作。功能的其他分配被设想并且可能落入实施的范围内。通常，在示例配置中呈现为单独组件的结构和功能可以实现为组合结构或组件。类似地，作为单一组件呈现的结构和功能可以实现为拆分的组件。这些和其他变化、修改、添加和改进落入实施例的范围内。
[0398]
还应当理解，尽管在本文中可以使用术语第一、第二等来描述各种组件，但是这些组件不应受到这些术语的限制。这些术语仅用于区分一个组件与另一个组件。例如，第一受试者可以称为第二受试者，并且类似地，第二受试者可以称为第一受试者，而不脱离本公开的范围。第一受试者和第二受试者都是受试者，但它们不是同一个受试者。
[0399]
本揭示中使用的术语仅出于描述特定实施例的目的，并非用以限制本揭示。如在本揭示的描述和所附权利要求中使用的，单数形式“一”、“一个”和“所述”也包括复数形式，除非上下文另有明确说明。还可以理解的是，如本文所用的术语“及/或”是指并涵盖一个或多个相关列出的项目的任何和所有可能的组合。应进一步理解，术语“包括”及/或“包含”在本揭示中使用时，指定了所述特征、整数、步骤、操作、组件及/或组件的存在，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、组件、组件及/或它们组成的群组。
[0400]
如本文所用术语“如果”可解释为表示“何时”或“根据”或“响应于确定”或“回应于检测”，具体取决于上下文。类似地，术语“如果确定”或“如果检测到[所述条件或事件]”可以解释为表示“在确定时”或“响应于确定”或“在检测到(所述条件或事件)时”或“响应检测(所述条件或事件)”，具体取决于上下文。
[0401]
上述描述包括体现示例性实现的示例系统、方法、技术、指令序列和计算机器程序产品。为了便于解释，阐述了许多具体细节，以提供对本揭示主题的各种实现的理解。然而，对于本领域技术人员显而易见的是，可以在没有这些具体细节的情况下实践本揭示主题的实现。一般来说，众所周知的指令实例、协议、结构和技术并未详细展示。
[0402]
为了解释的目的，以上描述已经参照具体实施方式进行了描述。然而，上述说明性讨论并非详尽无遗，也不是为了将实现限制在所公开的精确形式。鉴于上述教导，许多修改和变化都是可能的。选择和描述实施例是为了最好地解释原理及其实际应用，从而使本领域技术人员能够最好地利用实施例和具有各种修改的各种实施例，这些修改适合于预期的特定用途。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种数据处理用信息展示装置的制作方法

使用自动编码器确定癌症状态的系统和方法与流程

相关文献

最热文献