一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

生成目标对象的肿瘤检测数据的方法、设备和介质与流程

2022-09-01 08:23:36 来源:中国专利 TAG:


1.本发明总体上涉及生物信息的处理,并且具体地,涉及用于生成目标对象的肿瘤检测报告数据的方法、计算设备和计算机存储介质。


背景技术:

2.传统的用于生成关于目标对象的肿瘤检测报告数据(例如而不限于,肿瘤分析报告)的方案,通常是与测序仪器的硬件高度绑定的,肿瘤检测报告数据的内容和形式通常基于测序仪器的厂家规定的模式而确定,无法呈现定制化的肿瘤检测数据。而不同医院、肿瘤诊疗机构对肿瘤检测报告数据的内容和形式需求也存在差异。内容和形式差异的肿瘤检测数据不利于数据的共享、大数据统计以及自动化分析,也难以实现肿瘤检测数据的个性化的需求。
3.综上,传统的用于生成关于目标对象的肿瘤检测数据的方案,难以灵活兼容不同测序仪器对输出数据的固有差异化设置,以及难以实现肿瘤检测数据的按需生成。


技术实现要素:

4.本发明提供一种用于生成关于目标对象的肿瘤检测报告数据的方法、计算设备和计算机存储介质,能够灵活兼容不同测序仪器对输出数据的固有差异化设置而实现肿瘤检测数据的按需生成。
5.根据本发明的第一方面,提供了一种用于生成关于目标对象的肿瘤检测报告数据的方法。该方法包括:获取关于多个目标对象的临床信息和关于多个目标对象的待测样本的测序下机数据,用以生成关于待测样本的比对结果数据,所述临床信息至少包括目标对象的标识、年龄信息、癌种信息、分期信息、肿瘤细胞含量信息,测序下机数据至少包括与待测样本对应的建库标识、索引信息,待测样本包括组织样本和血液样本;基于比对结果数据,生成关于待测样本的多种变异的阳性结果信息;基于待测样本的多种变异的阳性结果信息和所获取的对照关系数据,生成关于待测样本的变异结果的临床注释信息表,临床注释信息表包括多个字段;以及基于所生成的临床注释信息表、检测报告模板和关于检测报告模板的操作信息,生成目标对象的肿瘤检测报告数据,检测报告模板至少包括多个注释标识和对应变量值。
6.根据本发明的第二方面,还提供了一种计算设备,该设备包括:存储器,被配置为存储一个或多个计算机程序;以及处理器,耦合至存储器并且被配置为执行一个或多个程序使装置执行本发明的第一方面的方法。
7.根据本发明的第三方面,还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令,该机器可执行指令在被执行时使机器执行本发明的第一方面的方法。
8.在一些实施例中,生成目标对象的肿瘤检测报告数据包括:基于关于检测报告模板的操作信息,在检测报告模板中的多个注释标识和对应变量值中选择目标注释标识和目
标对应变量值;将临床注释信息表的多个字段中的注释指标与目标注释标识相匹配,以便利用匹配上的注释指标所对应的注释信息替换检测报告模板中的匹配上的目标注释标识所对应的目标对应变量值;以及基于匹配上的目标注释标识和经替换的目标对应变量值,生成目标对象的肿瘤检测报告数据。
9.在一些实施例中,生成关于待测样本的变异结果的临床注释信息表包括:生成基础生信信息和数据库注释信息,基础生信信息和数据库注释信息至少包括:预定数据库的存在信息、单核苷酸位点变异注释信息、拷贝数变异注释信息、关于是否属于功能融合或重排的信息、肿瘤突变负荷的高低水平信息、微卫星稳定水平信息、有效基因和新抗原片段信息和对照样本注释信息;以及基于基础生信信息和数据库注释信息以及对照关系数据,生成临床注释信息表中的多个字段,多个字段中的每个字段包括注释指标和所述注释指标下的、与基因变异相关联的注释信息。
10.在一些实施例中,生成基础生信信息和数据库注释信息包括:对组织样本的体细胞变异进行基因组位置与功能注释,以便获得预定数据库的存在信息;针对单核苷酸位点变异对应所在的基因标志、转录本号、对应的转录本相对位置和蛋白相对位置t、外显子或内含子位置以及预测功能进行注释,以便获得单核苷酸位点变异注释信息;以及针对拷贝数变异所在的区域、基因、外显子、扩增或缺失信息进行注释,以便生成拷贝数变异注释信息。
11.在一些实施例中,生成基础生信信息和数据库注释信息还包括:基于基因重排或者基因融合的驱动基因和伴侣基因,预测转录形式信息、断点信息、断点所在的外显子或内含子信息、结构域包含信息和阅读框移码信息,以便确定关于是否属于功能融合或重排的信息;基于关于肿瘤突变负荷的数值,确定肿瘤突变负荷的高低水平信息;基于微卫星位点,确定微卫星稳定水平信息;基于人类白细胞抗原亚型信息,经由预测算法,预测新抗原信息,以便得到有效基因和新抗原片段信息;以及针对对照样本的胚系变异,进行多个预定数据库的注释,以便获得对照样本注释信息。
12.在一些实施例中,生成关于待测样本的变异结果的临床注释信息表包括:基于变异类型、癌种信息、分期信息和肿瘤细胞含量信息,确定关于变异类型属于癌症抑制或促进的预测结果;基于基因功能失活和激活的预测信息、变异类型、癌种信息、变异位点信息,生成基因变异注释信息;以及基于基因变异注释信息和对照关系数据,确定变异临床影响等级、用药推荐信息、耐药等级信息、基因功能信息、基因与临床相关性信息、以及相关药物临床试验信息。
13.在一些实施例中,生成关于待测样本的比对结果数据包括:获取多个目标对象的临床信息和关于多个目标对象的待测样本的测序下机数据,测序下机数据还包括捕获探针版本信息和下机批次信息;针对多个目标对象的待测样本进行单样本拆分,以便获得每一个目标对象的待测样本的测序序列数据和测序质量数据;以及针对同一目标对象的组织样本和血液样本,分别生成组织样本比对结果数据和血液样本比对结果数据。
14.在一些实施例中,获得每一个目标对象的待测样本的测序序列数据和测序质量数据包括:将测序下机数据的bcl文件转换为fastq文件;基于fastq文件中的碱基序列信息,将fastq文件拆分为待测样本的fastq文件,以便获得与待测样本相关联的原始测序fastq序列和质量数据文件;以及基于待测样本的测序时间和建库标识,确定与待测样本相关联
的fastq序列和质量数据文件的关联标识。
15.提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本发明的关键特征或主要特征,也无意限制本发明的范围。
附图说明
16.图1示出了根据本发明的实施例的用于实施生成关于目标对象的肿瘤检测报告数据的方法的系统的示意图。
17.图2示出了根据本发明的实施例的用于生成关于目标对象的肿瘤检测报告数据的方法的流程图。
18.图3示出了根据本发明的实施例的用于生成基础生信信息和数据库注释信息的方法的流程图。
19.图4示出了根据本发明的实施例的用于生成关于每一个待测样本的变异结果的临床注释信息表的方法的流程图。
20.图5示意性示出了适于用来实现本发明实施例的电子设备的框图。
21.在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
22.下面将参照附图更详细地描述本发明的优选实施例。虽然附图中显示了本发明的优选实施例,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
23.在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
24.如前文所描述,传统的用于生成关于目标对象的肿瘤检测数据的方案,难以灵活兼容不同测序仪器对输出数据的固有差异化设置,以及难以实现肿瘤检测数据的按需生成。
25.为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本发明的示例实施例提出了一种用于生成关于目标对象的肿瘤检测报告数据的方案。在该方案中,通过获取关于多个目标对象的临床信息和关于多个目标对象的待测样本的测序下机数据,用以生成关于待测样本的比对结果数据,以及基于比对结果数据,生成关于待测样本的多种变异结果的阳性结果信息;本发明可以高效率地获得各个目标对象的临床信息和丰富的阳性变异结果信息。另外,通过基于多种阳性变异结果信息和所获取的对照关系数据,生成关于每一个待测样本的变异结果的临床注释信息表;以及基于所生成的临床注释信息表、检测报告模板和关于检测报告模板的操作信息,生成关于目标对象的待测样本的检测报告数据,本发明能够使得肿瘤检测数据的内容不受测序仪器对输出数据的固有差异化设置而局限,以及基于关于检测报告模板的操作信息按需选择检测报告数据。因此,本发明能够实现
肿瘤检测数据的按需生成能够灵活兼容不同测序仪器对输出数据的固有差异化设置而实现肿瘤检测数据的按需生成。
26.图1示出了根据本发明的实施例的用于生成关于目标对象肿瘤检测报告数据的方法的系统100的示意图。如图1所示,系统100包括:计算设备110、测序设备130、网络140、服务器150。在一些实施例中,计算设备110、测序设备130、服务器150经由网络140进行数据交互。
27.关于测序设备130,其例如用于对多个目标对象的多个待测样本进行测序,以便生成测序下机数据;以及将所生成的测序下机数据发送至计算设备110。
28.关于服务器150,其例如用于提供多个预定数据库的信息。多个数据库例如包括cosmic数据库、千人基因组数据库、dbsnp数据库、clinvar数据库等等。计算设备110例如可以获取服务器150所提供的多个预定数据库的信息。
29.关于计算设备110,其例如用于获取关于多个目标对象的临床信息和关于多个目标对象的待测样本的测序下机数据,用以生成关于待测样本的比对结果数据。计算设备110还可以用于基于比对结果数据,生成关于待测样本的多种变异的阳性结果信息;基于多种变异的阳性结果信息和所获取的对照关系数据,生成关于待测样本的变异结果的临床注释信息表;以及基于所生成的临床注释信息表、检测报告模板和关于检测报告模板的操作信息,生成目标对象的肿瘤检测报告数据。
30.在一些实施例中,计算设备110可以具有一个或多个处理单元,包括诸如gpu、fpga和asic等的专用处理单元以及诸如cpu的通用处理单元。另外,在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如包括:比对结果数据生成单元112、多种变异的阳性结果信息生成单元114、临床注释信息表生成单元116、肿瘤检测报告数据生成单元118。比对结果数据生成单元112、多种变异的阳性结果信息生成单元114、临床注释信息表生成单元116、肿瘤检测报告数据生成单元118可以配置在一个或者多个计算设备110上。
31.关于比对结果数据生成单元112,其用于获取关于多个目标对象的临床信息和关于多个目标对象的待测样本的测序下机数据,用以生成关于待测样本的比对结果数据,所述临床信息至少包括目标对象的标识、年龄信息、癌种信息、分期信息、肿瘤细胞含量信息,测序下机数据至少包括与待测样本对应的建库标识、索引信息,待测样本包括组织样本和血液样本。
32.关于多种变异的阳性结果信息生成单元114,其用于基于比对结果数据,生成关于待测样本的多种变异的阳性结果信息。
33.关于临床注释信息表生成单元116,其用于基于待测样本的多种变异的阳性结果信息和所获取的对照关系数据,生成关于待测样本的变异结果的临床注释信息表,临床注释信息表包括多个字段。
34.关于肿瘤检测报告数据生成单元118,其用于基于所生成的临床注释信息表、检测报告模板和关于检测报告模板的操作信息,生成目标对象的肿瘤检测报告数据,检测报告模板至少包括多个注释标识和对应变量值。
35.以下将结合图2描述根据本发明的实施例的用于生成关于目标对象肿瘤检测报告数据的方法。图2示出了根据本发明的实施例的用于生成关于目标对象肿瘤检测报告数据的方法200的流程图。应当理解,方法200例如可以在图5所描述的电子设备500处执行。也可
以在图1所描述的计算设备110处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,本发明的范围在此方面不受限制。
36.在步骤202处,计算设备110获取关于多个目标对象的临床信息和关于多个目标对象的待测样本的测序下机数据,用以生成关于待测样本的比对结果数据,所述临床信息至少包括目标对象的标识、年龄信息、癌种信息、分期信息、肿瘤细胞含量信息,测序下机数据至少包括与待测样本对应的建库标识、索引信息,待测样本包括组织样本和血液样本。
37.关于测序下机数据,其例如而不限于是:新一代测序(ngs)下机批量多样本数据,不限捕获panel是全外显子组测序(wes)还是全基因组测序(wgs)。应当理解,ngs测序下机数据可以支持多种测序平台,不限一个品牌一种测序仪型号。例如,illumina测序仪的下机数据通常为bcl文件,其是将同一个测序通道(lane)所有待测样本的数据混杂在一起的。该下机批量多样本数据例如包含多个目标对象的多个待测样本的建库标识(例如,建库id标识序列,其与测序仪建库试剂盒相关联)、索引(index)代号与p5、p7 index。
38.关于目标对象的临床信息,其例如而不限于是:目标对象(患者)的姓名、年龄信息、主治医生信息、科室信息、床号信息、一二级癌种信息、分期信息、肿瘤细胞含量、病理科鉴别诊断常用ihc结果等临床病理信息。在一些实施例中,临床信息还指示关于以下各项的信息:送检医院、科室/病区、住院号、家族病史、用药史、门诊号和床号。以下表一示例性地示出了临床信息的部分内容。
39.表一
40.姓名性别送检医院科室/病区住院号家族病史用药史张三男本院肝胆外科000xxxxxxx
‑‑
肿瘤类型病理号样本编号病理诊断标本类型肿瘤细胞含量肿瘤类型小肠肿瘤b20xxxxxxn20xxxxx小肠腺癌石蜡组织2%小肠肿瘤dna总量(ng)pcr评分文库总量(ng)coverage_meaninsert_sizeuniformitymap_ratio292831363.5125520899%99%标本接收日期门诊号床号
ꢀꢀꢀꢀ
22/5/20-029
ꢀꢀꢀꢀ
41.关于生成关于待测样本的比对结果数据的方法,其例如包括:计算设备110获取多个目标对象的临床信息和关于多个目标对象的待测样本的测序下机数据,测序下机数据还包括捕获探针版本信息和下机批次信息;针对多个目标对象的待测样本进行单样本拆分,以便获得每一个目标对象的待测样本的测序序列数据和测序质量数据;以及针对同一目标对象的组织样本和血液样本,分别生成组织样本比对结果数据和血液样本比对结果数据。
42.关于测序质量数据,其例如是上文表一中的dna总量、pcr评分、文库总量、coverage_mean、insert_size、组织对照一致性(uniformity)、标本接收日期、比对回帖率(map_ratio,用于指示panel捕获时目标区域内reads占全部reads的比例)。
43.关于针对多个目标对象的待测样本进行单样本拆分的方法,以下结合计算设备110针对illumina测序仪的下机数据进行单样本拆分的方法进行示意。具体而言,例如,计算设备110使用illumina的bcl2fastq软件,将测序下机数据的bcl文件转换为fastq文件。应当理解,该fastq文件是多个待测样本的混合文件。在fastq文件中,每个单元信息中包括4行,例如,第1行指示:序列测序时的坐标等信息,第2行指示测序得到的碱基序列信息,其表现为atcgn(其中,“n”表示荧光信号干扰无法判断的碱基)。第3行指示一些附加信息。第4
行与第2行相对应,用于指示对应位置碱基的质量值,越大说明测序的质量越好。之后,计算设备110基于fastq文件中的碱基序列信息,将fastq文件拆分为待测样本的fastq文件,以便获得与待测样本相关联的原始测序fastq序列和质量数据文件。然后,计算设备110基于待测样本的测序时间和建库id,确定与待测样本的相关联的fastq序列和质量数据文件的关联标识。例如,某个待测样本的相关联的fastq序列和质量数据文件标识被确定为“20220619010”。其中,“20220619”为指示测序年份、月份和日期的数据,“010”指示待测样本的建库id编号。建库id例如与目标对象所属关联的医院标识相对应。应当理解,如果目标对象涉及对照样本,则关联有与待测组织样本的相关联的fastq序列和质量数据文件,以及与待测血液样本(对照样本)的相关联的fastq序列和质量数据文件。
44.关于针对同一目标对象分别生成组织样本和血液样本对应的比对结果数据的方法,其例如包括:计算设备110针对同一目标对象的与待测组织样本和待测血液样本分别相关联的fastq序列与参考基因组序列数据进行比对,以便生成比对结果数据(例如,利用bwa-mem进行比对。应当理解,bwa-mem支持较长的读长(read)长度,同时支持剪接性比对(split alignments),bwa-mem对于70bp-100bp的illumina数据来说,效果更好。然后,计算设备110针对所生成的比对结果数据进行过滤和去重,以便生成经由过滤和去重的比对结果数据。应当理解,在illumina测序中,通常存在光学重复和pcr重复两种类型的重复。例如,利用picard dedup模式进行pcr去重。在一些实施例中,可以用adapter remove进行index引物去除。
45.在步骤204处,计算设备110基于比对结果数据,生成关于待测样本的多种变异的阳性结果信息。
46.关于生成关于待测样本的多种变异结果信息的方法,其例如包括:计算设备110针对比对结果数据,结合捕获区域bed文件,获取质控指标;基于待测组织样本对应的比对结果数据,提取体细胞变异信息;基于待测血液样本对应的比对结果数据,提取胚系遗传变异信息;基于体细胞变异和胚系遗传变异所关联的reads数量和变异所在基因组位置的深度信息,确定变异对应的丰度或拷贝数;基于质控指标、变异对应的丰度或拷贝数,针对体细胞变异信息和胚系遗传变异信息进行过滤,以便生成多种变异的阳性结果信息。
47.关于bed文件,其一般指示捕获区域信息。bed文件例如至少指示了染色体号(chrom)、基因组上的起始位置(chromstart)、基因组上的终止位置(chromend)。
48.关于质控指标,其例如至少包括以下多种:测序平均深度、插入片段大小、比对率、q30、捕获率、还有配对样本的配对率等。
49.关于多种变异,其例如至少包括以下多种:单核苷酸位点变异(snv)、插入缺失变异(indel)、拷贝数变异(cnv),基因重排(rearrangement)、卫星不稳定(msi)、肿瘤突变负荷(tmb)、nab,人类白细胞抗原变异(hla)等等。
50.关于提取体细胞变异信息的方法,其例如包括:计算设备110利用常用的mutect、lanti、cnvkit等软件,基于待测组织样本对应的比对结果数据,提取体细胞变异(somatic mutation)信息。例如,计算设备110利用cnvkit软件的子命令call生成拷贝数变异信息,并且,子命令call可以对拷贝数进行基于b等位基因频率、肿瘤倍性和肿瘤纯度、患者性别等指标进行矫正,以便提取体细胞变异信息。再例如,计算设备110利用mutect2体细胞变异分析流程生成单核苷酸位点变异(snv)信息和插入缺失变异(indel)信息。
51.关于提取胚系遗传变异信息的方法,其例如包括:计算设备110用gatk(genome analysis toolkit)软件对对照血样本进行胚系遗传变异(germline)信息的提取。计算设备110用gatk的gatk-haplotypecaller模块沿着参考基因组以预定窗口滑动,统计比对的mismatches、indels和softclips等信息,从而识别活跃区域;对于每个活动区域,构建de bruijn图来组装活跃区域,经由smith-waterman算法,确定候选单倍型;对于每个活动区域,基于pairhmm算法将每个read与候选单倍型进行成对比对,以便生成单倍型似然值矩阵,以用于最终确定基因型。
52.在步骤206处,计算设备110基于待测样本的多种变异的阳性结果信息和所获取的对照关系数据,生成关于待测样本的变异结果的临床注释信息表,临床注释信息表包括多个字段。
53.关于对照关系数据,其例如指示基因、基因变异类型及其变异位点信息与多个临床信息之间的对照关系,多个临床信息例如包括:癌种信息、用药信息、耐药信息、基因功能信息、变异位点功能信息、变异等级信息等。变异等级信息例如包括:一级变异(或者称
“ⅰ
级变异”)、二级变异(或者称
“ⅱ
级变异”)和三级变异(或者称
“ⅲ
级变异”)。其中,一级变异例如指示预定变异数据库存在与当前基因变异及其变异位点完全匹配的变异数据记录。二级变异例如指示预定变异数据库存在与当前基因变异及其变异位点部分匹配的变异数据记录。三级变异例如指示没有数据库报告的变异数据记录。
54.关于对照关系数据的构建方式,其例如包括:计算设备110基于基因及其基因变异搜索多个预定数据库,获取与基因及其基因变异相关联的临床信息;建立基因及其基因变异与相关联的临床信息之间的关联关系,以便生成对照关系数据。
55.关于生成临床注释信息表的方法,其例如包括:计算设备110生成基础生信信息和数据库注释信息,基础生信信息和数据库注释信息至少包括:预定数据库的存在信息、单核苷酸位点变异注释信息、拷贝数变异注释信息、关于是否属于功能融合或重排的信息、肿瘤突变负荷的高低水平信息、微卫星稳定水平信息、有效基因和新抗原片段信息和对照样本注释信息;以及计算设备110基于基础生信信息和数据库注释信息以及对照关系数据,生成临床注释信息表中的多个字段,多个字段中的每个字段包括注释指标和所述注释指标下的、与基因变异相关联的注释信息。
56.以下表二示例性示出了临床注释信息表的部分内容。如表二所示,临床注释信息表包括多个注释指标,以及与每个注释指标所对应的注释信息。多个注释指标例如包括:变异类型(vartype)、体系或胚系变异(origin)、基因(gene)、dbsnp、基因类型(genotype)、药物推荐(drughint)、毒性(toxic)、dblevel、生物标识物(biomark)、治疗计划(plan)。在一些实施例中,多个注释指标例如还包括:cntclass、pdot、cdot、转录本号(transcript)、otsg、变异等级(reportsubset)、fre、cns、第二药物信息(drug2)、generelatetumorpy、funcdesgenetherabiom、immotheray、fda、crc等等
57.表二
[0058][0059]
关于生成基础生信信息和数据库注释的方法,其例如包括:计算设备110对组织样本的体细胞变异进行基因组位置与功能注释,以便获得预定数据库的存在信息;针对单核苷酸位点变异对应所在的基因标志、转录本号、对应的cdot和pdot、外显子或内含子位置以及预测功能进行注释,以便获得单核苷酸位点变异注释信息;以及针对拷贝数变异所在的区域、基因、外显子、扩增或缺失信息进行注释,以便生成拷贝数变异注释信息;基于基因重排或者基因融合的驱动基因和伴侣基因,预测转录形式信息、断点信息、断点所在的外显子或内含子信息、结构域包含信息和阅读框移码信息,以便确定关于是否属于功能融合或重排的信息;基于关于肿瘤突变负荷的数值,确定肿瘤突变负荷的高低水平信息;基于微卫星位点,确定微卫星稳定水平信息;基于人类白细胞抗原亚型信息,经由预测算法(例如而不限于是mhcnet预测算法),预测新抗原信息,以便得到有效基因和新抗原片段信息;以及针对对照样本的胚系变异,进行多个预定数据库的注释,以便获得对照样本注释信息。下文将结合图3说明用于生成基础生信信息和数据库注释的方法300,在此,不再赘述。
[0060]
关于生成关于每一个待测样本的变异结果的临床注释信息表的方法400,下文将结合图4详细说明,在此,不再赘述。
[0061]
在步骤208处,计算设备110基于所生成的临床注释信息表、检测报告模板和关于检测报告模板的操作信息,生成目标对象的肿瘤检测报告数据,检测报告模板至少包括多个注释标识和对应变量值。
[0062]
关于检测报告模板,其例如包括多个模块。每个模块包括多个指标标识、与指标标识关联的对应变量值。
[0063]
关于生成关于目标对象的待测样本的检测报告数据的方法,其例如包括:计算设备110基于关于检测报告模板的操作信息,在检测报告模板中的多个注释标识和对应变量值中选择目标注释标识和目标对应变量值;将临床注释信息表的多个字段中的注释指标与目标注释标识相匹配,以便利用匹配上的注释指标所对应的注释信息替换检测报告模板中的匹配上的目标注释标识所对应的目标对应变量值;以及基于匹配上的目标注释标识和经替换的目标对应变量值,生成目标对象的肿瘤检测报告数据。
[0064]
在一些实施例中,计算设备110将多个目标对象中的每个目标对象的待测样本的临床注释信息表分别匹配目标检测报告模板(该目标检测报告模板是基于关于检测报告模板的操作信息和原始检测报告模板而生成的),以便批量生成关于多个待测样本的肿瘤检测报告数据。通过采用上述手段,本公开可以基于个性化报告框架中,批量生成多样本的报
告。
[0065]
在上述方案中,通过获取关于多个目标对象的临床信息和关于多个目标对象的待测样本的测序下机数据,用以生成关于待测样本的比对结果数据,以及基于比对结果数据,生成关于待测样本的多种变异结果的阳性结果信息;本发明可以高效率地获得各个目标对象的临床信息和丰富的阳性变异结果信息。另外,通过基于多种阳性变异结果信息和所获取的对照关系数据,生成关于每一个待测样本的变异结果的临床注释信息表;以及基于所生成的临床注释信息表、检测报告模板和关于检测报告模板的操作信息,生成关于目标对象的待测样本的检测报告数据,本发明能够使得肿瘤检测数据的内容不受测序仪器对输出数据的固有差异化设置而局限,以及基于关于检测报告模板的操作信息按需选择肿瘤检测数据。因此,本发明能够实现肿瘤检测数据的按需生成能够灵活兼容不同测序仪器对输出数据的固有差异化设置而实现肿瘤检测数据的按需生成。
[0066]
以下将结合图3描述根据本发明的实施例的用于生成基础生信信息和数据库注释信息的方法。图3示出了根据本发明的实施例的用于生成基础生信信息和数据库注释信息的方法300的流程图。应当理解,方法300例如可以在图5所描述的电子设备500处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法300还可以包括未示出的附加动作和/或可以省略所示出的动作,本发明的范围在此方面不受限制。
[0067]
在步骤302处,计算设备110对组织样本的体细胞变异进行基因组位置与功能注释,以便获得预定数据库的存在信息。
[0068]
关于预定数据库,其例如而不限于是cosmic数据库。cosmic数据库包括癌症相关体细胞突变位点信息。例如,计算设备110比较组织样本的体细胞变异的基因组位置与cosmic数据库的癌症相关体细胞突变位点信息,以便基于比较结果生成cosmic数据库的存在信息。例如,所生成的cosmic数据库的存在信息指示组织样本的体细胞变异的基因组位置与cosmic数据库中的至少一个癌症相关体细胞突变位点信息相匹配。
[0069]
在步骤304处,计算设备110针对单核苷酸位点变异对应所在的基因标志、转录本号、对应的cdot和pdot、外显子或内含子位置以及预测功能进行注释,以便获得单核苷酸位点变异注释信息。所述预测功能例如包括:无义突变(nonsense)、移码突变(frameshift)、错义突变(missense)、剪切(splicing)。
[0070]
例如,计算设备110利用mutlyzer、annovar软件针对单核苷酸位点变异对应所在的基因标志、转录本号、对应的cdot和pdot、外显子或内含子位置进行注释。例如,annovar软件支持包括vcf在内的多种输入和输出文件格式,能够分析各种基因组中的遗传变异。annovar的注释方法包括:基于基因(gene-based annotation)、基于区域(region-based annotation)和基于筛选(filter-based annotation)注释。其中,基于基因的注释指示变异与已知基因直接的关系以及对已知基因产生的功能性影响,基于区域的注释指示变异与不同基因组特定段的关系,例如:它是否落在转录因子结合区域等,基于筛选的注释(filter-based annotation)则指示变异位点是否位于指定的数据库中,比如dbsnp,1000g,esp 6500等数据库。
[0071]
在步骤306处,计算设备110针对拷贝数变异所在的区域、基因、外显子、扩增或缺失信息进行注释,以便生成拷贝数变异注释信息。
[0072]
在步骤308处,计算设备110基于基因重排或者基因融合的驱动基因和伴侣基因,
预测转录形式信息、断点信息、断点所在的外显子或内含子信息、结构域包含信息和阅读框移码信息,以便确定关于是否属于功能融合或重排的信息。
[0073]
应当理解,dna水平所检测的基因重排或者基因融合,仅是基因的部分序列发生结构上的融合或重排,但是,该结构上的融合或重排是否具有功能意义,是否能够使用融合药物,需要预测或者确定dna水平所检测的基因重排或者基因融合是否属于功能融合或重排。通过基于基因重排或者基因融合的驱动基因和伴侣基因,预测转录形式信息、断点信息、断点所在的外显子或内含子信息、结构域包含信息以及阅读框移码信息,本发明可以准确预测dna水平的融合或重排是否属于功能融合或重排。
[0074]
在步骤310处,计算设备110基于关于肿瘤突变负荷的数值,确定肿瘤突变负荷的高低水平信息。应当理解,肿瘤突变负荷(tumor mutational burden,tmb)定义为肿瘤样本中每百万dna碱基突变的数量。tmb通常指示肿瘤细胞基因组的变异程度,tmb高水平(high tumor mutational burden,tmb-h)的目标对象(肿瘤患者)通常具有获得更多新生抗原的潜力,能增强肿瘤免疫原性以及与ici的反应,因此,通常与高免疫治疗获益相关。
[0075]
例如,计算设备110确定关于待测样本的肿瘤突变负荷的数值是否大于或者等于预定第一阈值,或者小于预定第二阈值;如果确定关于待测样本的肿瘤突变负荷的数值大于或者等于预定第一阈值,则确定肿瘤突变负荷的高低水平信息指示待测样本为tmb高水平(tmb-h);如果确定关于待测样本的肿瘤突变负荷的数值小于预定第二阈值,则确定肿瘤突变负荷的高低水平信息指示待测样本为tmb低水平(tmb-l)。
[0076]
在步骤312处,计算设备110基于微卫星位点,确定微卫星稳定水平信息。微卫星稳定水平信息例如包括:关于待测样本属于微卫星高度不稳定(msi-h)、微卫星低度不稳定(msi-l)、微卫星稳定(mss)的信息。
[0077]
应当理解,微卫星区域的重复序列在dna复制过程中特别容易发生插入或缺失突变,进而引起微卫星序列长度的改变,即,微卫星不稳定(microsatellite instability msi)。一般而言,msi根据程度可以被分成3类:微卫星高度不稳定(msi-h)、微卫星低度不稳定(msi-l)、微卫星稳定(mss)。msi-h表型存在于多种实体瘤,是一种泛肿瘤生物标志物。
[0078]
在步骤314处,计算设备110基于人类白细胞抗原亚型信息,经由预测算法,预测新抗原信息,以便得到有效基因和新抗原片段信息。
[0079]
例如,计算设备110通过基于mhcnet预测算法而构建的神经网络预测肽段和mhc-i结合的亲和力,其神经网络使用了81种不同的人类mhc等位基因进行训练,包括hla-a、hla-b、hla-c以及hla-e。在一些实施例中,计算设备110也可以通过netmhcpan软件预测肽段与mhc i型分子的亲和性。例如,首先,上传涵盖了体细胞突变位点的序列;然后选择切割肽段的方式,将序列切分成短的肽段之后在进行mhc分子亲和性的预测;之后选择hla allel,以便获得输出结果。输出结果中的“%rank”字段指示当前该肽段是一个天然存在的肽段的可能性。输出结果中的“bindlevel”字段代表亲和力的强弱水平。例如,“%rank”字段所指示的数值小于0.5,则指示当前肽段为强亲和性,将从突变之后的氨基酸序列中预测到与mhc i型分子亲和力较强的肽段预测为候选的肿瘤新抗原。以上仅是以mhcnet预测算法和netmhcpan为例加以示意性说明,应当理解,计算设备110可以经由其他预测算法来得到有效基因和新抗原片段信息。
[0080]
在步骤316处,计算设备110针对对照样本的胚系变异,进行多个预定数据库的注
释,以便获得对照样本注释信息。对照样本例如是血液样本。多个预定数据库例如为千人基因组数据库、dbsnp数据库、clinvar数据库等。clinvar是ncbi主办的与疾病相关的人类基因组变异数据库。其整合了dbsnp、dbvar、pubmed、omim等多个数据库在遗传变异和临床表型方面的数据信息。dbsnp是ncbi中专门用于存储物种snp位点信息的数据库。
[0081]
通过采用上述手段,本发明能够快速并准确地获得生成基础生信信息和数据库注释信息。
[0082]
以下将结合表三和图4描述根据本发明的实施例的用于生成关于每一个待测样本的变异结果的临床注释信息表的方法。表三示意性示出了临床注释信息表的一部分。图4示出了根据本发明的实施例的用于生成关于每一个待测样本的变异结果的临床注释信息表的方法400的流程图。应当理解,方法400例如可以在图5所描述的电子设备500处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法400还可以包括未示出的附加动作和/或可以省略所示出的动作,本发明的范围在此方面不受限制。
[0083]
在步骤402处,计算设备110基于变异类型、癌种信息、分期信息和肿瘤细胞含量信息,确定关于变异类型属于癌症抑制或促进的预测结果。
[0084]
关于变异类型属于癌症抑制或促进的预测结果,其例如包括:无义介导的mrna降解、以及失活的剪接位点信息。
[0085]
关于确定关于变异类型属于癌症抑制或促进的预测结果的方法,其例如包括:计算设备110基于变异类型、癌种信息、分期信息和肿瘤细胞含量信息,经由预定知识库,获取与变异类型、癌种信息、分期信息和肿瘤细胞含量信息中的至少一项信息相关联的索引标识(例如是pmid);计算设备110提取与索引标识相关联的字段信息,以便将所提取的字段信息进行组合,以生成关于变异类型属于癌症抑制或促进的预测结果。例如,与表三所指示的基因erbb2的cnv变异、分期信息为“i”等相关联的pmid包括:pmid:21734724、pmid:16166286、pmid:27877079、pmid:16916716、pmid:10190311、pmid:16648863和17653856、pmid:27273737和25822088。
[0086]
对于表三所指示的基因erbb2的cnv变异、分期信息为“i”,所确定的关于变异类型属于癌症抑制或促进的预测结果包括:“ccnd1扩增与ccnd1 mrna及蛋白过表达相关pmid:21734724。在鼻咽癌pmid:16166286、食管鳞癌pmid:27877079、黑色素瘤pmid:16916716、肺癌pmid:10190311、乳腺癌pmid:16648863,17653856及肝癌pmid:27273737,25822088中均检测到ccnd1扩增。目前尚无fda批准靶向ccnd1基因的抗肿瘤药物。ccnd1基因扩增可能导致cdk4/6激活,因此cdk抑制剂可作为ccnd1基因扩增患者的潜在治疗方式。fda批准cdk4/6抑制剂哌柏西利、ribociclib和阿贝西利用于治疗hr阳性、her2阴性的晚期或转移性乳腺癌”。
[0087]
应当理解,无义介导的mrna降解(nonsense-mediated mrna decay,nmd)是一种真核细胞质量控制机制,其识别并降解开放阅读框中含有提前终止密码子(premature termination codon,ptc)的mrna,在破坏有缺陷的致病mrna和维持正常的生理mrna丰度方面有重要作用。
[0088]
在步骤404处,计算设备110基于基因功能失活和激活的预测信息、变异类型、癌种信息、变异位点信息,生成基因变异注释信息。基因变异注释信息例如包括:表三未示出的基因功能注释信息(geneinform)、基因相关肿瘤注释信息(generelatetumor)、基因功能失
活和激活的预测信息(funcdesgenetherapy)。应当理解,基因功能注释信息、基因相关肿瘤注释信息、基因功能失活和激活的预测信息分别为表三中的一列或多列信息。
[0089]
对于表三所指示的基因erbb2的cnv变异,其基因功能失活和激活的预测信息(funcdesgenetherapy)例如包括:“/fda批准parp抑制剂奥拉帕利用于治疗包括brip1的同源重组修复(hrr)基因突变的转移性去势抵抗性前列腺癌患者”。
[0090]
对于表三所指示的基因erbb2的cnv变异,其基因功能注释信息(geneinform)例如包括:“erbb2(又名her2/neu)基因编码受体酪氨酸激酶her2,属于人类表皮生长因子受体家族(her);该家族包括4个成员:egfr、her2、her3以及her4;他们都是跨膜受体酪氨酸激酶,参与生长因子介导的致癌信号级联放大传递。her2本身是一个孤儿受体,没有配体;然而它能与其他结合配体的her家族成员形成二聚体。her2通常倾向于和其他受体异源二聚化,并且具有家族之中最强的激酶催化活性。her2基因扩增会导致自身形成同源二聚体,而不依赖配体结合。her2受体二聚化会诱导自身磷酸化并激活许多信号通路,包括pi3k/akt/mtor以及ras/raf/mapk等[pmid:22114931,22658319]”。
[0091]
对于表三所指示的基因erbb2的cnv变异,其基因相关肿瘤注释信息(generelatetumor)例如包括:“her2基因变异广泛存在于许多实体肿瘤中,包括乳腺癌、胃癌、肺癌、膀胱癌、卵巢癌、头颈肿瘤等[pmid:1351679,25480824]。her2过表达和/或her2基因扩增与肿瘤预后差相关,如乳腺癌、食管鳞状细胞癌、胃癌和胃食管交界癌[pmid:17208639,11248153,22751336,23426935]。在乳腺癌中,18-20%患者存在her2的过表达,绝大多数是her2基因扩增[pmid:15140287,3798106,15113815,25480824],her2基因的激活突变频率为1.6-2.0%[pmid:23220880],主要是her2细胞外结构域的错义突变和激酶结构域的小片段插入和错义突变。her2基因扩增和过表达与乳腺癌更高的组织学分级和导管癌(相对于小叶癌)病理类型有关。her2基因扩增/过表达现象被认为是原位导管癌的早期事件,在局部浸润到远处转移的疾病进展过程中持续存在[pmid:17471238,12897328]。而对良性乳腺疾病的研究发现,her2基因扩增是一个显著的乳腺癌风险因素[pmid:10637239]。在乳腺癌中,her2还存在另一种少见的大片段缺失突变,编码了一个截短的her2蛋白亚型p95her2,这种蛋白亚型可能引起了her2相关药物(如曲妥珠单抗)抗药性的产生[pmid:23630663]。与白人女性乳腺肿瘤相比,在er 亚洲乳腺肿瘤中,富含erbb2的分子亚型和tp53体细胞突变的患病率更高,亚洲乳腺肿瘤患者的免疫评分也较高,提示其对免疫治疗有潜在的临床反应。虽然erbb2亚型和增强的免疫评分与生存改善相关,但是tp53体细胞突变与er 肿瘤的生存较差相关[pmid:33353943]”。
[0092]
表三
[0093][0094]
在步骤406处,计算设备110基于基因变异注释信息和对照关系数据,确定变异临床影响等级、用药推荐信息、耐药等级信息、基因功能信息、基因与临床相关性信息、以及相
关药物临床试验信息。表三中未示出变异临床影响等级、用药推荐信息、耐药等级信息。应当理解,临床影响等级、用药推荐信息、耐药等级信息分别为表三中的一列或多列信息。对照关系数据例如是预先配置的知识库中的、用于指示基因变异与用药多态性信息之间的对应关系数据。
[0095]
例如,对于表三所指示的基因erbb2的cnv变异,所确定的变异临床影响等级(reportsubset)例如包括:“强烈影响(strong_sig)”。对于表三所指示的基因ccnd1的cnv变异,所确定的变异临床影响等级(reportsubset)例如包括:“潜在影响(potential_sig)”。
[0096]
例如,对于表三所指示的基因erbb2的cnv变异,所确定的用药推荐信息例如包括:“fam-trastuzumab deruxtecan-nxki(敏感-a);margetuximab-cmkb(敏感-a);trastuzumab-pkrb(敏感-a);伊尼妥单抗(敏感-a);吡咯替尼(敏感-a);奈拉替尼(敏感-a);帕博利珠单抗 曲妥珠单抗(敏感-a);帕妥珠单抗 曲妥珠单抗(敏感-a);恩美曲妥珠单抗(敏感-a);拉帕替尼(敏感-a);拉帕替尼 曲妥珠单抗(敏感-a);曲妥珠单抗(敏感-a);曲妥珠单抗 tucatinib(敏感-a);依维莫司 曲妥珠单抗(敏感-b);哌柏西利 帕妥珠单抗 曲妥珠单抗(敏感-c);恩美曲妥珠单抗 tucatinib(敏感-c);维迪西妥单抗(敏感-c);依维莫司 奈拉替尼(敏感-d);奈拉替尼 哌柏西利(敏感-d);奈拉替尼 曲美替尼(敏感-d);达可替尼(敏感-d);阿法替尼(敏感-d)”。
[0097]
对于表三所指示的基因erbb2的cnv变异,所确定的耐药等级信息(resistence)例如包括:“西妥昔单抗(耐药-r4)”。
[0098]
通过采用上述手段,本发明能够快速并准确地生成关于每一个待测样本的变异结果的临床注释信息表。
[0099]
图5示意性示出了适于用来实现本发明实施例的电子设备500的框图。电子设备100500可以是用于实现执行图2至图4所示的方法200至400。如图5所示,电子设备1000包括中央处理单元(即,cpu 501),其可以根据存储在只读存储器(即,rom 502)中的计算机程序指令或者从存储单元508加载到随机访问存储器(即,ram 503)中的计算机程序指令,来执行各种适当的动作和处理。在ram 503中,还可存储电子设备500操作所需的各种程序和数据。cpu 501、rom 502以及ram 503通过总线504彼此相连。输入/输出接口(即,i/o接口505)也连接至总线504。
[0100]
电子设备500中的多个部件连接至i/o接口505,包括:输入单元506、输出单元507、存储单元508,cpu 501执行上文所描述的各个方法和处理,例如执行方法200至400。例如,在一些实施例中,方法200至400可被实现为计算机软件程序,其被存储于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由rom 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到ram 503并由cpu 501执行时,可以执行上文描述的方法200至400的一个或多个操作。备选地,在其他实施例中,cpu 501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200至400的一个或多个动作。
[0101]
需要进一步说明的是,本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本发明的各个方面的计算机可读程序指令。
[0102]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0103]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0104]
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如smalltalk、c 等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
[0105]
这里参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0106]
这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0107]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它
设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0108]
附图中的流程图和框图显示了根据本发明的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0109]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
[0110]
以上仅为本发明的可选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献