一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于cfDNA的肿瘤负荷检测装置及检测方法与流程

2022-02-24 13:51:59 来源:中国专利 TAG:

一种基于cfdna的肿瘤负荷检测装置及检测方法
技术领域
1.本发明涉及肿瘤检测技术领域,具体涉及一种基于cfdna的肿瘤负荷检测装置及检测方法。


背景技术:

2.肿瘤的形成涉及到了多种类型的基因组变异,例如点突变、拷贝数变异、基因融合等,肿瘤和遗传病不同,基因组变异是后天形成的,所以在肿瘤研究中,关注的是体细胞上的基因组变异,其中体细胞点突变、体细胞结构变异、体细胞拷贝数变异与肿瘤发生,转移和恶化程度以及患者预后生存质量密不可分。
3.根据美国国家癌症研究所(nci)的定义:肿瘤负荷是指人体中癌细胞的数量、肿瘤的大小或癌症病灶的总量。基于血浆中游离的自身dna(cfdna)的应用领域主要包括最小残留疾病(mrd,minimal residual disease)检测,用于及时超早期发现筛查肿瘤,及早指导临床治疗干预,延长患者生存期。我们发现,当前很多基于cfdna的技术路线的应用常常是针对转移性的高肿瘤负荷疾病阶段,在这种情况下,cfdna的肿瘤浓度(tf,tumor fraction)很高,传统的一些分子生物学检测手段不用加以复杂的实验设计和改造就可直接通过二代高通量测序(例如全外显子组测序或靶向测序)对样本进行有效的突变特征的获取与解析。而对于肿瘤所处于的低负荷阶段,cfdna肿瘤浓度也很低,传统技术(如传统靶向深度测序或热点突变测序)难以提供高准确度的检测。另外,单纯基于ctdna(循环肿瘤dna)突变的维度难以覆盖完成肿瘤基因组改变的特征图谱,因为,肿瘤基因组除了热点点突变特征,还大量存在结构变异、拷贝数变异、甲基化等变化形式,而且目前尚未有这些维度的整合或者结合的方式用于液态活检筛查肿瘤或肿瘤负荷监测。


技术实现要素:

4.为了解决目前基于cfdna的肿瘤负荷检测技术在对cfdna低频率浓度肿瘤变异的识别效率不高,且基于单一信号维度/变异类型所创立的检测方法不足以代表肿瘤基因组的整体突变图谱景观,而且只依赖于深度测序并不能彻底解决肿瘤检测敏感度与特异度的问题,本发明的目的是提供一种基于cfdna的肿瘤负荷检测装置及检测方法,其基于cfdna的全基因组的检测整合方案,通过从基因组水平更广更宽的尺度范围、并考虑更多变异类型(snv-体细胞变异、cna-染色体不稳定性考量指标-基因拷贝数变异率),以获取数据为基础进行分析,提供高准确度的检测。
5.为了实现上述目的,本发明采用以下技术方案:
6.本发明的第一方面,提供一种基于cfdna的肿瘤负荷检测装置,包括:
7.数据获取模块,用于对待测cfdna样本分别进行全基因组测序和甲基化测序,以获取测序数据;
8.数据处理模块,用于将获取的测序数据与对照基因组序列进行比对,并对比对结果进行统计处理,获取样本比对数据及统计指标;
9.数据计算模块,用于对获取的样本比对数据及统计指标进行处理、计算得到cfdna样本的snv信号值(snv z-score)和cfdna样本cna信号值(cna z-score);
10.数据整合模块,用于将计算得到的snv z-score和cna z-score按照以下公式计算综合肿瘤负荷(tb z-score),tb z-score=snv z-score cna z-score;
11.结果输出模块,用于输出所述综合肿瘤负荷检测结果。
12.其中,所述数据计算模块包括以下单元:
13.snv特征数据计算单元,用于在获取的样本排序后的比对数据中搜索待测cfdna样本内的肿瘤体细胞变异数据,对其进行处理并计算出snv z-score;
14.cna特征数据计算单元,用于在获取的样本排序后的比对数据中搜索出待测cfdna样本内的染色体不稳定性数据,对其进行处理并计算出cna z-score。
15.其中,所述snv特征数据计算单元包括以下子单元:
16.snv特征识别单元,用于在获取的样本排序后的比对数据中搜索待测cfdna样本内的肿瘤体细胞变异数据,尤其包括肿瘤已报导的热点变异、相同基因组位点上的相同替代型突变,并提取包含snv特征的比对测序片段;
17.cfdna测序中snv误差降噪处理单元,用于对提取的包含snv特征的比对测序片段进行进行误差降噪处理,以区分是真实的体细胞变异与人为测序误差造成的变异,并可进行肿瘤纯度的计算;
18.snv特征数据定量单元,用于根据待测cfdna样本内的肿瘤体细胞变异数据、得到的包含snv特征的比对测序片段及肿瘤纯度数据,并按以下公式计算snv z-score,snv z-score=1-(1-[m-μ*r]/n)^(1/cov),其中m为样品中检测到的snv数量,n为患者特异性突变谱中snv的总数,cov为具有肿瘤特异性snv的部位的局部覆盖率,μ为与对照血浆wgs数据中评估的特定于患者的snv谱相对应的平均噪声率(错误数/评估的读长),r表示涵盖特定于患者的突变体的读长总数。
[0019]
其中,所述cfdna测序中snv误差降噪处理单元中采用svm模型以区分真实的核酸突变与人为测序误差。
[0020]
其中,所述cna特征数据计算单元包括以下子单元:
[0021]
cnv(基因拷贝数变异)特征数据定量单元,用于在获取的样本排序后的比对数据中经搜索、定量计算获取cfdna样本中的染色体不稳定性指标;
[0022]
参考数据集创建单元,用于构建健康人的cfdna参考数据库;
[0023]
cfdna测序中cna误差降噪处理单元,用于对得到cfdna样本内的染色体不稳定性指标与健康人的cfdna参考数据库进行比较,以区分潜在的人为因素造成的变异,并获得患者特异性cna区间;
[0024]
cna特征数据定量单元,用于根据得到的cfdna样本中的染色体不稳定性指标及患者特异性cna区间,并按照以下公式计算cna z-score,cna z score=(cna score-μ)/σ,其中,μ和σ为cna score的均值和方差,cna z-score=sum{p(i)-n(i)*sign(t(i)-n(i))},i=1-m,其中m为无重复基因组区间的数量,p(i)与n(i)为标准化后的在第i个bin区间上的肿瘤cfdna的覆盖度深度z值得分和健康人对照组的cfdna的覆盖度深度z值得分,sign(t(i)-n(i))为在第i个基因组区间上,肿瘤cfdna的cna区段分割趋势。
[0025]
其中,所述数据处理模块包括以下单元:
[0026]
数据质控单元,用于将获取的测序数据与配对内参样本测序数据采用一致性得分指标参数进行对比分析,评估样本个体污染;
[0027]
数据预处理单元,用于对获取的测序数据进行处理,并与对照基因组序列进行比对,去除重复序列,并对序列排序操作以及质量得分矫正操作,获取样本排序后的比对数据;
[0028]
数据特征统计单元,用于对获取的样本排序后的比对数据进行统计处理,得到比对质量指标参数、测序覆盖度、重复序列等统计指标。
[0029]
其中,所述数据处理模块中对照基因组序列为grch37基因组版本。
[0030]
本发明的第二方面,提供一种所述的基于cfdna的肿瘤负荷检测装置的检测方法,包括以下步骤:
[0031]
s1、对待测cfdna样本分别进行全基因组测序和甲基化测序,获得测序数据;
[0032]
s2、对获得的测序数据进行处理,并与对照基因组序列进行比对,然后对对比结果进行统计分析,获得样本比对数据及统计指标;
[0033]
s3、在样本排序后的比对数据中搜索cfdna样本内的肿瘤体细胞变异数据,对其进行处理并计算出snv z-score;
[0034]
s4、在样本排序后的比对数据搜索cfdna样本中的染色体不稳定性,对其进行处理并计算出cna z-score;
[0035]
s5、按照以下公式计算综合肿瘤负荷(tb z-score),tb z-score=snv z-score cna z-score;
[0036]
s6、输出综合肿瘤负荷检测结果。
[0037]
与现有技术相比,本发明具有如下有益效果:
[0038]
相对于传统靶向深度测序或热点突变重测序而言,本发明采用的全基因组测序(wgs)和甲基化测序(rrbs),均可达到超高的灵敏的检测,可以在实体恶性肿瘤中观察到的数千个体细胞突变的累积信号,肿瘤浓度(tf)检测的灵敏度低至10-5
,全基因组测序方法可实现动态肿瘤负荷跟踪和术后残留疾病检测,且无创不具有副作用。同时本发明提出了一个全新技术框架整合了全基因组不同变异类型(snv-体细胞变异和cna-染色体不稳定性考量指标-拷贝数变异)以及全基因组基于cfdna的甲基化检测分析,从基因组变异到表观组学改变角度两大维度的整合共同来监测癌症负荷,从而能够进行超灵敏的检测,克服cfdna单一基于dna信号的局限性,并期望对低疾病负荷下的肿瘤精准及时检测出,给予最及时有效的治疗效果。
附图说明
[0039]
下面结合附图与具体实施例对本发明作进一步详细说明。
[0040]
图1为本发明中基于cfdna的肿瘤负荷检测装置的结构框图;
[0041]
图2为本发明中数据处理模块的结构框图;
[0042]
图3为本发明中数据计算模块的结构框图;
[0043]
图4为本发明中snv特征数据计算单元的结构框图;
[0044]
图5为本发明中cna特征数据计算单元的结构框图;
[0045]
图6为本发明中基于cfdna的肿瘤负荷检测方法的流程框图;
[0046]
其中,数据获取模块1,数据处理模块2,数据质控单元201,数据预处理单元202,数据特征统计单元203,数据计算模块3,snv特征数据计算单元4,snv特征识别单元401,cfdna测序中snv误差降噪处理单元402,snv特征数据定量单元403,cna特征数据计算单元5,cnv特征数据定量单元501,参考数据集创建单元502,cfdna测序中cna误差降噪处理单元503,cna特征数据定量单元504,数据整合模块6,结果输出模块7。
具体实施方式
[0047]
本发明的实施例公开了一种基于cfdna的肿瘤负荷检测装置,如图1所示,包括:
[0048]
数据获取模块1,用于对待测cfdna样本分别进行全基因组测序和甲基化测序,以获取测序数据;
[0049]
数据处理模块2,用于将获取的测序数据与对照基因组序列进行比对,并对比对结果进行统计处理,获取样本比对数据及统计指标,其中,数据处理模块2中对照基因组序列为grch37基因组版本;
[0050]
数据计算模块3,用于对获取的样本比对数据及统计指标进行处理、计算得到cfdna样本的snv信号值(snv z-score)和cfdna样本cna信号值(cna z-score);
[0051]
数据整合模块6,用于将计算得到的snv z-score和cna z-score按照以下公式计算综合肿瘤负荷(tb z-score),tb z-score=snv z-score cna z-score;分别对肿瘤cfdna与健康人的tb z-score进行计算,计算roc与阈值筛选;因为基于snv特征维度的模型与基于cna特征维度的模型是独立生物学事件,不具有统计相关性,因此对其进行联合,以增强单一基因组特征对检出覆盖的偏差和减少检出率低的传统问题;
[0052]
结果输出模块7,用于输出综合肿瘤负荷检测结果。
[0053]
其中,数据处理模块2,如图2所示,包括以下单元:
[0054]
数据质控单元201,用于将获取的测序数据与配对内参样本测序数据采用一致性得分指标参数进行对比分析,评估样本个体污染;
[0055]
数据预处理单元202,用于对获取的测序数据进行处理,并与对照基因组序列进行比对,去除重复序列,并对序列排序操作,indel重比对操作以及质量得分矫正操作,获取样本排序后的比对数据;
[0056]
数据特征统计单元203,用于对获取的样本排序后的比对数据进行统计处理,得到比对质量指标参数、测序覆盖度、重复序列等统计指标。
[0057]
其中,数据计算模块3,如图3所示,包括以下单元:
[0058]
snv特征数据计算单元4,用于在获取的样本排序后的比对数据中搜索待测cfdna样本内的肿瘤体细胞变异数据,对其进行处理并计算出snv z-score;
[0059]
cna特征数据计算单元5,用于在获取的样本排序后的比对数据中搜索出待测cfdna样本内的染色体不稳定性数据,对其进行处理并计算出cna z-score。
[0060]
其中,snv特征数据计算单元4,如图4所示,包括以下子单元:
[0061]
snv特征识别单元401,用于在获取的样本排序后的比对数据中搜索待测cfdna样本内的肿瘤体细胞变异数据,尤其包括肿瘤已报导的热点变异、相同基因组位点上的相同替代型突变,并提取包含snv特征的比对测序片段;为了有效的识别肿瘤体细胞变异数据,使用python脚本中pysam模块高效地提取包含变异的比对测序片段,并提取所有唯一映射
到目标变异信息(排除断裂的片段与重复遮掩过的片段区域),并将所有提取的测序读长进行后续肿瘤负荷模型构建训练与分类分析;
[0062]
cfdna测序中snv误差降噪处理单元402,用于对提取的包含snv特征的比对测序片段进行进行误差降噪处理,以区分是真实的体细胞变异与人为测序误差造成的变异,并可进行肿瘤纯度的计算;本实施例中采用svm模型,在模型训练中包含了如下5个已知能代表测序错误模式的特征,这些特征与我们的对血浆群中的人为检测误差的控制有关,包括:(1)变异碱基质量(vbq)表明了我们对特定错配的可信度,这种错配表现出了显著的序列错误富集度;(2)平均读取碱基质量(mrbq)代表特定读取对中测序的总体质量;(3)读入位置(pir)捕获特定反应循环周期引入的错误(4)r1和r2读长序列对之间的一致性,其中不一致与测序错误相关;(5)比对质量(mq)是特定比对方式中提供一种比对可信度的一种度量标准。为了训练以读长为中心的svm模型,首先专注于构建一个高品质的阳性集,包括真实的核酸突变与测序误差,对于高可信度的真实突变,我们的目标是提供高支持性的判别标准,在每个训练集个体上控制血浆样上采用gatk使用-l参数仅指定dbsnp变体中的返回位点,对于错误突变,通过使用samtools mpileup执行来鉴定整个基因组的错配,从而搜索支持程度较低的突变,然后将变异依据覆盖度(覆盖率》10倍)进行过滤,同时强制该变异具有≤0.1vaf的低支持。
[0063]
snv特征数据定量单元403,用于根据待测cfdna样本内的肿瘤体细胞变异数据、得到的包含snv特征的比对测序片段及肿瘤纯度数据,并按以下公式计算snv z-score,snv z-score=1-(1-[m-μ*r]/n)^(1/cov),其中m为样品中检测到的snv数量,n为患者特异性突变谱中snv的总数,cov为具有肿瘤特异性snv的部位的局部覆盖率,μ为与对照血浆wgs数据中评估的特定于患者的snv谱相对应的平均噪声率(错误数/评估的读长),r表示涵盖特定于患者的突变体的读长总数。
[0064]
其中,cna特征数据计算单元5,如图5所示,包括以下子单元:
[0065]
cnv特征数据定量单元501,用于在获取的样本排序后的比对数据中经搜索、定量计算cfdna样本中的染色体不稳定性指标;本实施例提出了一种基于cfdna的cnv定量计算的方法框架,首先,在训练集样本中,对肿瘤组织、肿瘤旁组织分析出cnv(包括缺失型,扩增型与拷贝数中性的杂合型缺失型),依据训练集组织水平鉴定的cnv事件,鉴定cfdna中ctdna的cnv事件,采取动态滑动窗口bin技术(200bp-1kb范围),对bin区域内测序深度进行样本内标准化处理(bin内覆盖度/样本平均覆盖度),为了校对样本特定的平均深度的差异,需要对血浆cfdna样本做z得分标准化处理:在每个500bp的基因组bin窗口区间内,计算统计覆盖度的中位数和中位数绝对偏差(mad),最后按下述公式计算标准化后的覆盖度:标准化覆盖度=(bi-中位数)/mad;
[0066]
参考数据集创建单元502,用于构建健康人的cfdna参考数据库,本单元构建健康对照人的cfdna参考集合,用于区分肿瘤特异cna事件,本实施例采用20个健康人外周血cfdna样本,同样采用wgs,并采用与肿瘤患者cfdna同等处理单元进行处理,并将其混合比对文件合成一个测序覆盖度统计文件,健康人参考数据集获得的z得分用于后续患者cfdna特异cna的鉴别分析;
[0067]
cfdna测序中cna误差降噪处理单元503,用于对得到cfdna样本内的染色体不稳定性指标与健康人的cfdna参考数据库进行比较,以区分潜在的人为因素造成的变异,并获得
患者特异性cna区间;
[0068]
cna特征数据定量单元504,用于根据得到的cfdna样本中的染色体不稳定性指标及患者特异性cna区间,并按照以下公式计算cna z-score,cna z score=(cna score-μ)/σ,其中,μ和σ为cna score的均值和方差,cna z-score=sum{p(i)-n(i)*sign(t(i)-n(i))},i=1-m,其中m为无重复基因组区间的数量,p(i)与n(i)为标准化后的在第i个bin区间上的肿瘤cfdna的覆盖度深度z值得分和健康人对照组的cfdna的覆盖度深度z值得分,sign(t(i)-n(i))为在第i个基因组区间上,肿瘤cfdna的cna区段分割趋势。
[0069]
上述基于cfdna的肿瘤负荷检测装置的检测方法如图6所示,包括以下步骤:
[0070]
s1、对待测cfdna样本分别进行全基因组测序和甲基化测序,获得测序数据;
[0071]
s2、对获得的测序数据进行处理,并与对照基因组序列进行比对,然后对对比结果进行统计分析,获得样本比对数据及统计指标;
[0072]
s3、在样本排序后的比对数据中搜索cfdna样本内的肿瘤体细胞变异数据,对其进行处理并计算出snv z-score;
[0073]
s4、在样本排序后的比对数据搜索cfdna样本中的染色体不稳定性,对其进行处理并计算出cna z-score;
[0074]
s5、按照以下公式计算综合肿瘤负荷(tb z-score),tb z-score=snv z-score cna z-score;
[0075]
s6、输出综合肿瘤负荷检测结果。
[0076]
本领域技术人员可以理解,上述实施例中全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
[0077]
相对于传统靶向深度测序或热点突变重测序而言,本发明采用的全基因组测序(wgs)和甲基化测序(rrbs),均可达到超高的灵敏的检测,可以在实体恶性肿瘤中观察到的数千个体细胞突变的累积信号,肿瘤浓度(tf)检测的灵敏度低至10-5
,全基因组测序方法可实现动态肿瘤负荷跟踪和术后残留疾病检测,且无创不具有副作用。同时本发明提出了一个全新技术框架整合了全基因组不同变异类型(snv-体细胞变异和cna-染色体不稳定性考量指标-拷贝数变异)以及全基因组基于cfdna的甲基化检测分析,从基因组变异到表观组学改变角度两大维度的整合共同来监测癌症负荷,从而能够进行超灵敏的检测,克服cfdna单一基于dna信号的局限性,并期望对低疾病负荷下的肿瘤精准及时检测出,给予最及时有效的治疗效果。
[0078]
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献