一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

血样Motif特征提取方法及癌症早筛模型构建方法与流程

2022-06-11 15:13:41 来源:中国专利 TAG:

血样motif特征提取方法及癌症早筛模型构建方法
技术领域
1.本发明涉及癌症早筛技术领域,尤其涉及一种血样motif特征提取方法及癌症早筛模型构建方法。


背景技术:

2.液体活检就是通过分析血液中的癌症组分,来实现癌症的早期筛查、分子分型、预后、用药指导以及复发监测等临床应用。液体活检作为精准医疗新技术,因其可定性定量检测肿瘤直接相关的肿瘤细胞和脱氧核糖核酸(deoxyribonucleic acid,dna),并具有非入侵性、取样便捷、实时监测等特点,在肿瘤诊疗中发挥越来越重要的作用。
3.目前,研究液体活检、癌症早筛的常规方法为通过对致癌基因或者抑癌基因的突变检测来识别肿瘤释放的游离dna(cell-free dna,cfdna)。cfdna是释放到血浆中的降解dna片段,存在于人体的各种体液中,随组织损伤、癌症和炎症反应等发生浓度变化。
4.motif特征是一段特定模式的dna序列,可以与调控蛋白(比如转录因子)结合,从而可以在短暂时间内锚定功能蛋白。因此,现有技术中通常从cfdna中提取motif特征,并基于motif特征构建癌症早筛模型,以实现癌症早筛的顺利进行。
5.但是,由于现有技术中提取的motif特征较为单一,这将影响基于motif特征构建的癌症早筛模型的筛查准确性,降低筛查结果的可靠性。


技术实现要素:

6.本发明提供一种血样motif特征提取方法及癌症早筛模型构建方法,用以解决现有技术中存在的缺陷。
7.本发明提供一种血样motif特征提取方法,包括:获取对血样进行cfdna提取并测序得到的双端测序序列,并基于所述双端测序序列以及参考基因组,确定待提取序列;提取所述待提取序列的k-mer的序列特征,并统计所有所述序列特征中各类别的所述序列特征的比例,基于所述比例以及所有所述序列特征中所述序列特征的类别数量,确定所述待提取序列的k-mer的整体特征。
8.根据本发明提供的一种血样motif特征提取方法,所述基于所述双端测序序列以及参考基因组,确定待提取序列,包括:确定所述双端测序序列的重叠区域,基于所述重叠区域,对所述双端测序序列进行合并,得到所述双端测序序列的合并结果;将所述合并结果与所述参考基因组进行比对,得到第一比对结果,并基于所述第一比对结果,得到所述待提取序列。
9.根据本发明提供的一种血样motif特征提取方法,所述基于所述第一比对结果,得到所述待提取序列,包括:基于所述第一比对结果,对所述合并结果进行indel区域重新比对,得到第二比对
结果;基于所述第一比对结果以及所述第二比对结果,对所述合并结果依次进行过滤筛选以及gc含量矫正,得到所述待提取序列。
10.根据本发明提供的一种血样motif特征提取方法,所述基于所述双端测序序列以及参考基因组,确定待提取序列,之前包括:基于测序质量信息以及碱基识别结果,对所述双端测序进行过滤筛选,得到备选双端测序序列;去除所述备选双端测序序列中的引物序列以及引物识别失败的读段,得到所述双端测序序列。
11.根据本发明提供的一种血样motif特征提取方法,所述基于所述比例以及所有所述序列特征中所述序列特征的类别数量,确定所述待提取序列的k-mer的整体特征,包括:基于所述比例以及所述类别数量,确定所述比例对应的类别分布参数;基于所述比例以及所述类别分布参数,确定所述比例对应的加权参数;对所述各类别所述序列特征的比例对应的加权参数进行求和,得到所述整体特征。
12.本发明还提供一种癌症早筛模型构建方法,包括:基于上述的血样motif特征提取方法,对携带有阳性标签的第一类血样以及携带有阴性标签的第二类血样分别进行特征提取,得到各类血样的k-mer的序列特征以及k-mer的整体特征;基于所述阳性标签、所述阴性标签、所述各类血样的k-mer的序列特征以及k-mer的整体特征,对初始模型进行训练,得到癌症早筛模型。
13.本发明还提供一种血样motif特征提取装置,包括:序列获取模块,用于获取对血样进行cfdna提取并测序得到的双端测序序列,并基于所述双端测序序列以及参考基因组,确定待提取序列;第一特征提取模块,用于提取所述待提取序列的k-mer的序列特征,并统计所有所述序列特征中各类别的所述序列特征的比例,基于所述比例以及所有所述序列特征中所述序列特征的类别数量,确定所述待提取序列的k-mer的整体特征。
14.本发明还提供一种癌症早筛模型构建装置,包括:第二特征提取模块,用于基于上述的血样motif特征提取方法,对携带有阳性标签的第一类血样以及携带有阴性标签的第二类血样分别进行特征提取,得到各类血样的k-mer的序列特征以及k-mer的整体特征;训练模块,用于基于所述阳性标签、所述阴性标签、所述各类血样的k-mer的序列特征以及k-mer的整体特征,对初始模型进行训练,得到癌症早筛模型。
15.本发明还提供一种癌症早筛装置,包括:第三特征提取模块,用于获取待筛查血样,并基于上述的血样motif特征提取方法,对所述待筛查血样进行特征提取,得到所述待筛查血样的k-mer的序列特征以及k-mer的整体特征;筛查模块,用于将所述待筛查血样的k-mer的序列特征以及k-mer的整体特征输入至癌症早筛模型,得到所述癌症早筛模型输出的筛查结果;
其中,所述癌症早筛模型基于上述的癌症早筛模型构建方法进行构建得到。
16.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的血样motif特征提取方法;和/或,实现如上述任一种所述的癌症早筛模型构建方法;和/或,实现如上述任一种所述的癌症早筛方法。
17.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的血样motif特征提取方法;和/或,实现如上述任一种所述的癌症早筛模型构建方法;和/或,实现如上述任一种所述的癌症早筛方法。
18.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的血样motif特征提取方法;和/或,实现如上述任一种所述的癌症早筛模型构建方法;和/或,实现如上述任一种所述的癌症早筛方法。
19.本发明提供的血样motif特征提取方法及癌症早筛模型构建方法,首先获取对血样进行cfdna提取并测序得到的双端测序序列,并基于双端测序序列以及参考基因组,确定待提取序列;然后提取待提取序列的k-mer的序列特征,并统计所有序列特征中各类别的序列特征的比例,基于比例以及所有序列特征中序列特征的类别数量,确定待提取序列的k-mer的整体特征。通过该方法可以提取到k-mer的序列特征以及k-mer的整体特征这两类motif特征,k-mer的序列特征可以从不同类别的序列特征的维度表征血样,k-mer的整体特征可以考虑序列特征类别的多样性,从序列特征整体维度表征血样。该方法不仅可以获取多种motif特征,增加了motif特征的多样性,还可以提高后续基于motif特征构建的癌症早筛模型的筛查准确性,增加筛查结果的可靠性,进而可以保证癌症的诊断和治疗的及时性。
附图说明
20.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1是本发明提供的血样motif特征提取方法的流程示意图;图2是本发明提供的癌症早筛模型构建方法的流程示意图之一;图3是本发明提供的癌症早筛模型构建方法的流程示意图之二;图4是本发明提供的癌症早筛方法的流程示意图;图5是本发明提供的血样motif特征提取装置的结构示意图;图6是本发明提供的癌症早筛模型构建装置的结构示意图;图7是本发明提供的癌症早筛装置的结构示意图;图8是本发明提供的电子设备的结构示意图。
具体实施方式
22.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳
动前提下所获得的所有其他实施例,都属于本发明保护的范围。
23.现有进行早期癌症筛查的方法中,传统早筛方法普遍性较低,且多数癌种尚无有效的早期筛查手段;内镜筛查虽然可以早期筛查发现消化道癌或者肠癌,但属于侵入性筛查,检查过程痛苦,对病人体质要求较高;影像学筛查(例如ct、mri等)手段具有辐射性,对早期癌症的识别力较低;组织活检取样困难,肿瘤异质性容易造成取样不全,不利于诊断分型,同时假阴性和假阳性率也比较高。
24.而采用试剂盒的早筛方法,检测癌种固定、位点固定;无法进行更新,优化,除非重新进行试剂盒设计;局限性较大,且较依赖已确定的信息,无法确定新的预测点。
25.通过提取特征以及构建模型的早筛方法,主要是从cfdna中提取motif特征,这相当于从不同疾病产生的片段中提取特定的序列,具有一定的疾病特征性,因此基于motif特征构建癌症早筛模型,可有助于癌症早筛的顺利进行。
26.但是由于现有技术中提取的motif特征较为单一,这大大降低了基于motif特征构建的癌症早筛模型的筛查准确性,降低了筛查结果的可靠性,进而会影响癌症的诊断和治疗。
27.为此,本发明实施例中提供了一种血样motif特征提取方法。
28.图1为本发明实施例中提供的血样motif特征提取方法的流程示意图,如图1所示,该方法包括:s11,获取对血样进行cfdna提取并测序得到的双端测序序列,并基于所述双端测序序列以及参考基因组,确定待提取序列;s12,提取所述待提取序列的k-mer的序列特征,并统计所有所述序列特征中各类别的所述序列特征的比例,基于所述比例以及所有所述序列特征中所述序列特征的类别数量,确定所述待提取序列的k-mer的整体特征。
29.具体地,本发明实施例中提供的血样motif特征提取方法,其执行主体为血样motif特征提取装置,该装置可以配置于服务器内,该服务器可以是本地服务器,也可以是云端服务器,本地服务器具体可以是计算机等,本发明实施例中对此不作具体限定。
30.首先执行步骤s11,获取对血样进行cfdna提取并测序得到的双端测序序列,并基于所述双端测序序列以及参考基因组,确定待提取序列。该血样是指血液样品,可以是健康人员的血液样本,也可以是癌症患者的血液样本,此处不作具体限定。该血样可以使用采血管采集得到。
31.在获取血样后,可以从血样中提取cfdna,并进行建库、测序等操作。此处,可以采用常规方法提取cfdna以及建库,并可以采用常规的测序技术,例如3x wgs测序技术,获得cfdna的双端测序序列,双端测序序列可以表示为fastq序列。
32.由于在对血样进行cfdna提取并测序时,通常是进行双端测序,包括正向测序序列以及反向测序序列,正向测序序列可以表示为fastq1,反向测序序列可以表示为fastq2。正向测序序列以及反向测序序列均包含有多个读段(reads),每个读段均包含有碱基信息。
33.在得到双端测序序列之后,可以结合双端测序序列以及参考基因组,确定出待提取序列。参考基因组是指人类全基因组序列,该参考基因组是dna双螺旋结构,依靠碱基互补配对氢离键链接;在正常衰老和癌症进展过程中,细胞周围环境的酸碱度发生变化,从而破坏了碱基互补氢键,发生断裂;由于断裂处的碱基序列不同,包含不同断点处序列的信息
的序列占比也会不同。
34.待提取序列是指可以进行特征提取的序列,待提取序列的获取可以通过直接将双端测序序列与参考基因组进行比对实现,可以将双端测序序列中与参考基因组相匹配的读段构成的序列直接作为待提取序列。
35.获取待提取序列时,在将双端测序序列与参考基因组进行比对之前,可以先对双端测序序列进行预处理,得到预处理结果,并将预处理结果与参考基因组进行比对,将预处理结果中与参考基因组相匹配的读段构成的序列作为待提取序列。
36.获取待提取序列时,在将双端测序序列与参考基因组进行比对之后,或将预处理结果与参考基因组进行比对之后,还可以通过得到的比对结果,对双端测序序列或预处理结果进行后处理,得到后处理结果,并可以将该后处理结果作为待提取序列。
37.然后执行步骤s12,提取待提取序列的k-mer的序列特征。可以理解的是,k-mer是指从待提取序列中迭代地选取长度为k个碱基的目标序列。k的取值可以根据需要进行设置,此处k可以为小于等于8,例如可以是4、8等,此处不作具体限定。
38.k-mer的序列特征是指每次迭代选取的目标序列在待提取序列中包含的数量。k-mer的序列特征即为一种motif特征。
39.由于每次迭代选取的目标序列中均包含k个碱基,而由于碱基的种类只有4种,因此k-mer的序列特征的类别数量为4k。若k=4,则类别数量为256,若k=8,则类别数量为65536。由此可知,采用4-mer的序列特征,可以大大降低特征提取的计算量。
40.在确定所有序列特征中各类别的序列特征的比例时,可以先确定所有序列特征的求和结果,然后计算每一类别的序列特征与求和结果的比值,即为该类别的序列特征的比例。
41.此后,可以根据各类别的序列特征的比例以及序列特征的类别数量,确定出待提取序列的k-mer的整体特征。k-mer的整体特征即为另一种motif特征。该k-mer的整体特征的确定,可以通过每一类别的序列特征的比例以及类别数量,确定针对于每一类别的特征参数。此后,基于对各类别的特征参数进行求和,即可得到k-mer的整体特征。至此,本发明实施例中提供的血样motif特征提取方法的流程结束。
42.本发明实施例中提供的血样motif特征提取方法,首先获取对血样进行cfdna提取并测序得到的双端测序序列,并基于双端测序序列以及参考基因组,确定待提取序列;然后提取待提取序列的k-mer的序列特征,并统计所有序列特征中各类别的序列特征的比例,基于比例以及所有序列特征中序列特征的类别数量,确定待提取序列的k-mer的整体特征。通过该方法可以提取到k-mer的序列特征以及k-mer的整体特征这两类motif特征,k-mer的序列特征可以从不同类别的序列特征的维度表征血样,k-mer的整体特征可以考虑序列特征类别的多样性,从序列特征整体维度表征血样。该方法不仅可以获取多种motif特征,增加了motif特征的多样性,还可以提高后续基于motif特征构建的癌症早筛模型的筛查准确性,增加筛查结果的可靠性,进而可以保证癌症的诊断和治疗的及时性。
43.在上述实施例的基础上,本发明实施例中提供的血样motif特征提取方法,所述基于所述双端测序序列以及参考基因组,确定待提取序列,包括:确定所述双端测序序列的重叠区域,基于所述重叠区域,对所述双端测序序列进行合并,得到所述双端测序序列的合并结果;
将所述合并结果与所述参考基因组进行比对,得到第一比对结果,并基于所述第一比对结果,得到所述待提取序列。
44.具体地,本发明实施例中,在确定待提取序列时,可以先确定双端测序序列的重叠区域。由于双端测序序列包括正向测序序列以及反向测序序列,在同一位置上的配对正向测序序列与反向测序序列,其尾端会有部分重叠区域。
45.在目标区域较小,而读段相对较长时,就会发生测通的情况。即在相同的区域上,既有fastq1又有fastq2进行覆盖,两条序列发生测序重叠的情况,产生重叠区域。考虑测序实际情况,一般在所得读段的首尾部分,会发生碱基的系统性检测偏差,对后续与参考基因组的比对会产生较大影响。
46.为避免以上问题,提高与参考基因组的比对准确率,根据重叠区内容,进行fastq1和fastq2中重叠区域的合并,以使二者合并为一条没有重复区域的测序序列,即得到合并结果。
47.此后,将合并结果与参考基因组进行比对,以获取合并结果中每条读段在参考基因组上的定位信息,得到第一比对结果。该第一比对结果可以为bam文件,该bam文件中可以记录有每一条读段的基本信息和比对到的位置。
48.根据第一比对结果,即可得到待提取序列。此处,可以根据第一比对结果,直接将合并结果中与参考基因组匹配的读段构成的序列作为待提取序列,也可以根据第一比对结果,对合并结果进行进一步处理,进而得到待提取序列,此处不作具体限定。
49.本发明实施例中,在与参考基因组比对之前需要进行重叠区域的合并,可以提高比对准确率以及比对效率。
50.在上述实施例的基础上,本发明实施例中提供的血样motif特征提取方法,所述基于所述第一比对结果,得到所述待提取序列,包括:基于所述第一比对结果,对所述合并结果进行indel区域重新比对,得到第二比对结果;基于所述第一比对结果以及所述第二比对结果,对所述合并结果依次进行过滤筛选以及gc含量矫正,得到所述待提取序列。
51.具体地,本发明实施例中,在确定待提取序列时,若双端测序序列中存在碱基的插入或缺失等变异时,会对待提取序列的正确性产生影响,并会直接影响周边变异的检测性。因而,需要根据第一比对结果对合并结果进行进一步处理,即对合并结果进行indel区域重新比对,以得到合并结果中每条读段在参考基因组上的准确定位信息。此处,可以利用已有的人类参考基因组序列和千人基因组计划推出的indel位点信息,找到合并结果中所有需要进行重新比对的区域,形成interval文件;然后结合此interval文件,对合并结果中的indel变异类型进行比对操作,可以得到第二比对结果。该第二比对结果可以理解为是对第一比对结果进行校正得到。
52.此后,可以通过第一比对结果以及第二比对结果对合并结果进行过滤筛选,得到过滤筛选结果。过滤筛选的过程可以包括质量控制过程、过滤过程以及筛选过程。
53.质量控制过程是指根据第一比对结果,获取合并结果中各读段的比对质量得分(mapping quality,mapq),并从合并结果中筛除mapq小于预设阈值的读段。该预设阈值可以根据需要进行设置,例如可以设置为大于等于80%。
54.过滤过程是指根据第二比对结果,从合并结果中过滤得到与参考基因组匹配的所有读段。
55.筛选过程是指去除合并结果中的重复序列。
56.可以理解的是,质量控制过程、过滤过程以及筛选过程的执行顺序可以根据需要进行设置,此处不作具体限定。
57.此后,由于测序在聚合酶链式反应(polymerase chain reaction,pcr)扩增时,pcr的偏向性会导致测序结果出现gc含量的偏差。为此,本发明实施例中,需要对过滤筛选结果的gc含量的偏好性进行校正,即可得到待提取序列。此处,校正的方式可以使用loess模型实现对样本的gc偏好性进行矫正。
58.本发明实施例中,在与参考基因组比对之后进行indel区域重新比对、过滤筛选以及gc含量矫正等操作,可以提高待提取序列的准确性,降低后续对待提取序列进行特征提取得到的k-mer的序列特征的误差,进而可以提高特征提取的准确性。
59.在上述实施例的基础上,本发明实施例中提供的血样motif特征提取方法,所述基于所述双端测序序列以及参考基因组,确定待提取序列,之前包括:基于测序质量信息以及碱基识别结果,对所述双端测序进行过滤筛选,得到备选双端测序序列;去除所述备选双端测序序列中的引物序列以及引物识别失败的读段,得到所述双端测序序列。
60.具体地,本发明实施例中,在获取双端测序序列之后,应用双端测序序列之前,可以先根据测序质量信息以及碱基识别结果,对双端测序进行过滤筛选,得到备选双端测序序列。此处,过滤筛选是指根据测序质量信息,去除低质量的读段,过滤筛选得到高质量的读段。根据碱基识别结果,去除未识别到碱基的读段,得到能够识别到碱基的读段。经过上述两个过程,即可得到备选双端测序序列。
61.由于技术需要,在建库测序时,在每条读段上均会出现引物序列。此引物序列会影响后续读段中变异位点的识别,并增加不必要的数据量,因而本发明实施例中根据已知的引物信息将每条读段的引物序列去除,以提高后续的分析效率。
62.引物识别的基本原理是使用每条引物的特异性序列来作为对应引物的特异性标记。当某对引物的特异性序列在读段的前30bp中多次出现时,可以认为该读段是由对应引物扩增得到。在识别出对应引物后,即可根据引物长度去除对应引物序列以及无法识别引物的读段。
63.本发明实施例中,在获取双端测序序列之后,对双端测序序列进行预处理,可以保证双端测序序列的质量,降低测序过程中的低质量序列对后续处理造成的干扰,提高后续处理结果的准确性,为提高特征提取效率提供基础。
64.在上述实施例的基础上,本发明实施例中提供的血样motif特征提取方法,所述基于所述比例以及所有所述序列特征中所述序列特征的类别数量,确定所述待提取序列的k-mer的整体特征,包括:基于所述比例以及所述类别数量,确定所述比例对应的类别分布参数;基于所述比例以及所述类别分布参数,确定所述比例对应的加权参数;对所述各类别所述序列特征的比例对应的加权参数进行求和,得到所述整体特
征。
65.具体地,本发明实施例中,在计算k-mer的整体特征时,可以先根据各类别的序列特征的比例以及类别数量,确定各类别的序列特征的比例对应的类别分布参数。该类别分布参数可以通过常用对数的比值进行表示,例如第i个类别的序列特征的比例对应的类别分布参数可以表示为:其中,表示第i个类别的序列特征的比例。
66.然后,根据各类别的序列特征的比例以及对应的类别分布参数,确定比例对应的加权参数,即有:最后,可以对各类别的序列特征的比例对应的加权参数进行求和,得到k-mer的整体特征,可以用mds(motif diversity score)表示,即有:本发明实施例中,结合类别分布参数以及加权参数,以求和的方式确定k-mer的整体特征,可以使得k-mer的整体特征能够表征血样的k-mer的序列特征的整体多样性。
67.如图2所示,在上述实施例的基础上,本发明实施例中提供了一种癌症早筛模型构建方法,包括:s21,基于上述各实施例中提供的血样motif特征提取方法,对携带有阳性标签的第一类血样以及携带有阴性标签的第二类血样分别进行特征提取,得到各类血样的k-mer的序列特征以及k-mer的整体特征;s22,基于所述阳性标签、所述阴性标签、所述各类血样的k-mer的序列特征以及k-mer的整体特征,对初始模型进行训练,得到癌症早筛模型。
68.具体地,本发明实施例中提供的癌症早筛模型构建方法,其执行主体为癌症早筛模型构建装置,该装置可以配置于服务器内,该服务器可以是本地服务器,也可以是云端服务器,本地服务器具体可以是计算机等,本发明实施例中对此不作具体限定。
69.首先执行步骤s21,采用上述各实施例中提供的血样motif特征提取方法,对携带有阳性标签的第一类血样以及携带有阴性标签的第二类血样分别进行特征提取,得到各类血样的k-mer的序列特征以及k-mer的整体特征。即可以分别得到第一类血样的k-mer的序列特征以及k-mer的整体特征,也可以用分别得到第二类血样的k-mer的序列特征以及k-mer的整体特征。
70.可以理解的是,携带有阳性标签的第一类血样是指癌症患者的血样,携带有阴性标签的第二类血样是指健康人员的血样。
71.如表1所示,为部分血样的4-mer的序列特征。
72.表1 部分血样的4-mer的序列特征
其中,type列为4-mer的序列特征的类别,b1-b9分别为9个血样的序号,表1中的数据表示9个血样的各类别的4-mer的序列特征。
73.表2 部分血样的4-mer的整体特征其中,id列为各血样的序号,mds为各血样的4-mer的整体特征。
74.此后,结合阳性标签、阴性标签、各类血样的k-mer的序列特征以及k-mer的整体特征,对初始模型进行训练,得到癌症早筛模型。该初始模型可以是神经网络模型,可以将各类血样的k-mer的序列特征以及k-mer的整体特征输入至初始模型,由初始模型输出各类血
样预测结果,结合预测结果以及各类血样携带的阳性标签或阴性标签,计算损失函数。基于损失函数调整初始模型的模型参数,并重复上述过程,直至损失函数收敛或达到预设训练次数,即可得到癌症早筛模型。该癌症早筛模型可以用于对血样进行分析,以判断该血样是阴性还是阳性。
75.可以理解的是,本发明实施例中采用的损失函数可以根据需要进行设定,可以采用常规的损失函数即可,预设训练次数也可以根据需要进行设置,此处均不作具体限定。
76.本发明实施例中提供的癌症早筛模型构建方法,首先基于上述各实施例中提供的血样motif特征提取方法,对携带有阳性标签的第一类血样以及携带有阴性标签的第二类血样分别进行特征提取,得到各类血样的k-mer的序列特征以及k-mer的整体特征;然后基于阳性标签、阴性标签、各类血样的k-mer的序列特征以及k-mer的整体特征,对初始模型进行训练,得到癌症早筛模型。该构建方法引入了各类血样的k-mer的序列特征以及k-mer的整体特征,使得训练得到的癌症早筛模型可以从局部以及全局角度分别对血样进行分析,进而得到更加准确的早筛结果,提高了癌症早筛模型的准确性。
77.如图3所示,为本发明实施例中提供的癌症早筛模型构建方法的流程示意图,该方法包括:获取各类血样的双端测序序列;对各类血样的双端测序序列分别进行预处理,得到各预处理结果;对各预处理结果进行质控,合格则对预处理结果进行引物识别,否则丢弃预处理结果;各预处理结果在进行引物识别之后,分别进行序列合并,得到各合并结果;将各合并结果分别与参考基因组进行比对,得到各第一比对结果,分别对各第一比对结果进行校正、对各合并结果依次进行过滤筛选以及gc含量矫正,得到待提取序列;提取待提取序列的k-mer的序列特征以及k-mer的整体特征;构建癌症早筛模型。
78.如图4所示,在上述实施例的基础上,本发明实施例中提供了一种癌症早筛方法,包括:s41,获取待筛查血样,并基于上述各实施例中提供的血样motif特征提取方法,对所述待筛查血样进行特征提取,得到所述待筛查血样的k-mer的序列特征以及k-mer的整体特征;s42,将所述待筛查血样的k-mer的序列特征以及k-mer的整体特征输入至癌症早筛模型,得到所述癌症早筛模型输出的筛查结果;其中,所述癌症早筛模型基于上述各实施例中提供的癌症早筛模型构建方法进行构建得到。
79.具体地,本发明实施例中提供的癌症早筛方法,其执行主体为癌症早筛装置,该装置可以配置于服务器内,该服务器可以是本地服务器,也可以是云端服务器,本地服务器具体可以是计算机等,本发明实施例中对此不作具体限定。
80.首先执行步骤s41,获取待筛查血样。该待筛查血样是指需要确定其为阴性还是阳性的血样。根据上述各实施例中提供的血样motif特征提取方法,可以对待筛查血样进行特征提取,进而得到待筛查血样的k-mer的序列特征以及k-mer的整体特征;
然后执行步骤s42,将待筛查血样的k-mer的序列特征以及k-mer的整体特征输入至癌症早筛模型,通过癌症早筛模型对待筛查血样的k-mer的序列特征以及k-mer的整体特征进行分析,进而输出筛查结果。该筛查结果可以是待筛查血样为阳性的概率。
81.可以理解的是,本发明实施例中采用的癌症早筛模型可以通过上述各实施例中提供的癌症早筛模型构建方法进行构建得到。
82.本发明实施例中提供的癌症早筛方法,首先获取待筛查血样,并基于上述各实施例中提供的血样motif特征提取方法,对所述待筛查血样进行特征提取,得到所述待筛查血样的k-mer的序列特征以及k-mer的整体特征;然后将所述待筛查血样的k-mer的序列特征以及k-mer的整体特征输入至癌症早筛模型,得到所述癌症早筛模型输出的筛查结果。该方法利用了基于各类血样的k-mer的序列特征以及k-mer的整体特征训练得到的癌症早筛模型量,可以使得到的筛查结果更加准确,增加筛查结果的可靠性,进而可以保证癌症的诊断和治疗的及时性。
83.如图5所示,在上述实施例的基础上,本发明实施例中提供了一种血样motif特征提取装置,包括:序列获取模块51,用于获取对血样进行cfdna提取并测序得到的双端测序序列,并基于所述双端测序序列以及参考基因组,确定待提取序列;第一特征提取模块52,用于提取所述待提取序列的k-mer的序列特征,并统计所有所述序列特征中各类别的所述序列特征的比例,基于所述比例以及所有所述序列特征中所述序列特征的类别数量,确定所述待提取序列的k-mer的整体特征。
84.在上述实施例的基础上,本发明实施例中提供的血样motif特征提取装置,所述序列获取模块,用于:确定所述双端测序序列的重叠区域,基于所述重叠区域,对所述双端测序序列进行合并,得到所述双端测序序列的合并结果;将所述合并结果与所述参考基因组进行比对,得到第一比对结果,并基于所述第一比对结果,得到所述待提取序列。
85.在上述实施例的基础上,本发明实施例中提供的血样motif特征提取装置,所述序列获取模块,用于:基于所述第一比对结果,对所述合并结果进行indel区域重新比对,得到第二比对结果;基于所述第一比对结果以及所述第二比对结果,对所述合并结果依次进行过滤筛选以及gc含量矫正,得到所述待提取序列。
86.在上述实施例的基础上,本发明实施例中提供的血样motif特征提取装置,还包括预处理模块,用于:基于测序质量信息以及碱基识别结果,对所述双端测序进行过滤筛选,得到备选双端测序序列;去除所述备选双端测序序列中的引物序列以及引物识别失败的读段,得到所述双端测序序列。
87.在上述实施例的基础上,本发明实施例中提供的血样motif特征提取装置,所述第一特征提取模块,用于:
基于所述比例以及所述类别数量,确定所述比例对应的类别分布参数;基于所述比例以及所述类别分布参数,确定所述比例对应的加权参数;对所述各类别所述序列特征的比例对应的加权参数进行求和,得到所述整体特征。
88.具体地,本发明实施例中提供的血样motif特征提取装置中各模块的作用与上述以血样motif特征提取装置为执行主体的方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。
89.如图6所示,在上述实施例的基础上,本发明实施例中提供了一种癌症早筛模型构建装置,包括:第二特征提取模块61,用于基于上述各实施例中提供的血样motif特征提取方法,对携带有阳性标签的第一类血样以及携带有阴性标签的第二类血样分别进行特征提取,得到各类血样的k-mer的序列特征以及k-mer的整体特征;训练模块62,用于基于所述阳性标签、所述阴性标签、所述各类血样的k-mer的序列特征以及k-mer的整体特征,对初始模型进行训练,得到癌症早筛模型。
90.具体地,本发明实施例中提供的癌症早筛模型构建装置中各模块的作用与上述以癌症早筛模型构建装置为执行主体的方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。
91.如图7所示,在上述实施例的基础上,本发明实施例中提供了一种癌症早筛装置,包括:第三特征提取模块71,用于获取待筛查血样,并基于上述各实施例中提供的血样motif特征提取方法,对所述待筛查血样进行特征提取,得到所述待筛查血样的k-mer的序列特征以及k-mer的整体特征;筛查模块72,用于将所述待筛查血样的k-mer的序列特征以及k-mer的整体特征输入至癌症早筛模型,得到所述癌症早筛模型输出的筛查结果;其中,所述癌症早筛模型基于上述各实施例中提供的癌症早筛模型构建方法进行构建得到。
92.具体地,本发明实施例中提供的癌症早筛装置中各模块的作用与上述以癌症早筛装置为执行主体的方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。
93.图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行上述各实施例中提供的血样motif特征提取方法,该方法包括:获取对血样进行cfdna提取并测序得到的双端测序序列,并基于所述双端测序序列以及参考基因组,确定待提取序列;提取所述待提取序列的k-mer的序列特征,并统计所有所述序列特征中各类别的所述序列特征的比例,基于所述比例以及所有所述序列特征中所述序列特征的类别数量,确定所述待提取序列的k-mer的整体特征。和/或,执行上述各实施例中提供的癌症早筛模型构建方法,该方法包括:基于上述各实施例中提供的血样motif特征提取方法,对携带有阳性标签的第一类血样以及携带有阴性标
签的第二类血样分别进行特征提取,得到各类血样的k-mer的序列特征以及k-mer的整体特征;基于所述阳性标签、所述阴性标签、所述各类血样的k-mer的序列特征以及k-mer的整体特征,对初始模型进行训练,得到癌症早筛模型。和/或,执行上述各实施例中提供的癌症早筛方法,该方法包括:获取待筛查血样,并基于上述各实施例中提供的血样motif特征提取方法,对所述待筛查血样进行特征提取,得到所述待筛查血样的k-mer的序列特征以及k-mer的整体特征;筛查模块,用于将所述待筛查血样的k-mer的序列特征以及k-mer的整体特征输入至癌症早筛模型,得到所述癌症早筛模型输出的筛查结果;其中,所述癌症早筛模型基于上述各实施例中提供的癌症早筛模型构建方法进行构建得到。
94.此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
95.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例中提供的血样motif特征提取方法,该方法包括:获取对血样进行cfdna提取并测序得到的双端测序序列,并基于所述双端测序序列以及参考基因组,确定待提取序列;提取所述待提取序列的k-mer的序列特征,并统计所有所述序列特征中各类别的所述序列特征的比例,基于所述比例以及所有所述序列特征中所述序列特征的类别数量,确定所述待提取序列的k-mer的整体特征。和/或,执行上述各实施例中提供的癌症早筛模型构建方法,该方法包括:基于上述各实施例中提供的血样motif特征提取方法,对携带有阳性标签的第一类血样以及携带有阴性标签的第二类血样分别进行特征提取,得到各类血样的k-mer的序列特征以及k-mer的整体特征;基于所述阳性标签、所述阴性标签、所述各类血样的k-mer的序列特征以及k-mer的整体特征,对初始模型进行训练,得到癌症早筛模型。和/或,执行上述各实施例中提供的癌症早筛方法,该方法包括:获取待筛查血样,并基于上述各实施例中提供的血样motif特征提取方法,对所述待筛查血样进行特征提取,得到所述待筛查血样的k-mer的序列特征以及k-mer的整体特征;筛查模块,用于将所述待筛查血样的k-mer的序列特征以及k-mer的整体特征输入至癌症早筛模型,得到所述癌症早筛模型输出的筛查结果;其中,所述癌症早筛模型基于上述各实施例中提供的癌症早筛模型构建方法进行构建得到。
96.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例中提供的血样motif特征提取方法,该方法包括:获取对血样进行cfdna提取并测序得到的双端测序序列,并基于所述双端测序序列以及参考基因组,确定待提取序列;提取所述待提取序列的k-mer的序列特征,并统计所有所述序列特征中各类别的所述序列特征的比例,基于所述比例以及所有所述序列特征中所述序列特征的类别数量,确定所述待提取序列的k-mer的整体特征。和/或,执行
上述各实施例中提供的癌症早筛模型构建方法,该方法包括:基于上述各实施例中提供的血样motif特征提取方法,对携带有阳性标签的第一类血样以及携带有阴性标签的第二类血样分别进行特征提取,得到各类血样的k-mer的序列特征以及k-mer的整体特征;基于所述阳性标签、所述阴性标签、所述各类血样的k-mer的序列特征以及k-mer的整体特征,对初始模型进行训练,得到癌症早筛模型。和/或,执行上述各实施例中提供的癌症早筛方法,该方法包括:获取待筛查血样,并基于上述各实施例中提供的血样motif特征提取方法,对所述待筛查血样进行特征提取,得到所述待筛查血样的k-mer的序列特征以及k-mer的整体特征;筛查模块,用于将所述待筛查血样的k-mer的序列特征以及k-mer的整体特征输入至癌症早筛模型,得到所述癌症早筛模型输出的筛查结果;其中,所述癌症早筛模型基于上述各实施例中提供的癌症早筛模型构建方法进行构建得到。
97.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
98.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
99.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献