甲状腺肿瘤良恶性鉴别模型及其应用的制作方法

2021-10-23 03:32:00 来源：中国专利 TAG：分子生物学甲状腺鉴别肿瘤构建

1.本发明涉及分子生物学技术和计算机领域，涉及滤泡状甲状腺肿瘤良恶性鉴别模型及其构建方法和应用。

背景技术：

2.甲状腺肿瘤是一种十分常见的肿瘤，有良性和恶性之分。良性肿瘤分为滤泡型腺瘤(follicular thyroid adenoma,fta)和乳头型腺瘤(papillary thyroid adenoma,pta)两种，其中fta是最常见的良性肿瘤，约占甲状腺腺瘤的70％～80％。恶性肿瘤分为乳头状癌(papillary thyroid carcinoma,ptc)，滤泡癌(follicular thyroid carcinoma,ftc)，未分化癌(anaplastic thyroid carcinoma)和髓样癌(medullary thyroidcarcinoma)。后两类较为少见，ptc的恶性程度低，预后较好，而ftc是一种恶性程度偏高的恶性肿瘤。除此之外，临床上还具有一类良恶性之间的交界性肿瘤，即：形态上具有非浸润性和可疑恶性肿瘤细胞核特征的包裹性滤泡型肿瘤，或者具有可疑包膜浸润但不伴有细胞核特征的肿瘤。这类交界性肿瘤被命名为：恶性潜能未定的甲状腺肿瘤(ump)。
3.临床上常根据病理特征对甲状腺肿瘤进行良性、恶性以及ump的划分。然而fta和ftc的病理特征存在交叉，即部分fta和ftc不能完全区分；此外，病理上的ump中存在部分患者的肿瘤可能是被漏诊的恶性甲状腺癌。常见的恶性肿瘤标志物并不具备区分良恶性甲状腺癌的功能。一些基因突变，比如ras和braf的突变虽然与肿瘤恶性程度和不良预后相关，但是其在良恶性肿瘤鉴定中的灵敏性和特异性都较低；而tert启动子区突变具有很高的恶性肿瘤特异性，但其在甲状腺癌中的突变率很低，ptc中仅11.7％，ftc中仅13.9％。因此，临床上还需要一种简便高效的模型和算法，辅助甲状腺癌的良恶性判断，以及ump的恶性潜能评估。

技术实现要素：

4.针对现有技术中滤泡型甲状腺肿瘤良恶性鉴别的诊断操作复杂、价格昂贵以及针对恶性潜能未定的甲状腺肿瘤诊断难度大等不足，本发明提供了一种适合于滤泡型甲状腺肿瘤诊断的模型和算法，所述模型涉及的标志物对于滤泡型甲状腺肿瘤良恶性鉴别以及对恶性潜能未定的甲状腺肿瘤的评估都具有较好的灵敏度和特异度，对于及时诊断、改善甲状腺肿瘤预后、降低死亡率有很重要的意义。
5.本发明还提供上述标志物的筛选方法，通过该方法所得的标志物对于滤泡型甲状腺肿瘤都具有很好的灵敏度和特异性，对于甲状腺肿瘤的治疗有重要的临床意义。
6.本发明还提供鉴别滤泡型甲状腺肿瘤良恶性的模型及其构建方法，该模型构建方法简单，方便快捷，对于良性、恶性甲状腺肿瘤或恶性潜能未定的甲状腺肿瘤都具有较好的灵敏度和特异度。
7.因此，本发明提供一种甲基化标志物，所述标志物选自分离自动物的以下任意一个、多个或全部基因的基因间区、内含子、外显子、启动子或utr，或包含其的基因组片段，或
as1的基因间区、myef2的启动子、rora的启动子、nudt16l1的第7个外显子、linc01530的基因间区、proc的基因间区、prmt2的基因间区、lgals1的启动子，或包含其的基因组片段，或与其具有70％序列相同性的变体，所述片段的长度为5-1500bp。在一个或多个实施方案中，所述标记物是与甲状腺肿瘤良恶性相关的基因组dna甲基化标志物。在一个或多个实施方案中，甲状腺肿瘤是滤泡状甲状腺肿瘤或恶性潜能未定的甲状腺肿瘤。
10.本发明提供一种核酸分子，所述核酸分子的长度为5-1500bp、6-1400bp、7-1300bp、7-1261bp，所述核酸分子具有(1)动物基因组的包含选自以下一种、多种或全部序列的序列，或与其具有至少70％相同性的变体，所述变体中的甲基化位点未发生突变：chr1:119543868:119543879，chr1:180202465:180202541，chr1:203044677:203044823，chr1:203045227:203045293，chr10:124896784:124897154，chr12:52745149:52745173，chr13:92051635:92051674，chr14:38071275:38071410，chr14:38091345:38091744，chr14:60977845:60977865，chr16:85620063:85620331，chr17:40937184:40937480，chr17:46631705:46632377，chr18:19747115:19747127，chr18:70209347:70209475，chr2:105474371:105474381，chr2:203036052:203036236，chr2:80530770:80530826，chr2:95401381:95401629，chr21:38077572:38077685，chr4:111554966:111554989，chr4:1400384:1400459，chr4:40632502:40632519，chr5:72594262:72594269，chr6:168502296:168502347，chr7:101241802:101241926，chr7:157485865:157486031，chr7:158798629:158798674，chr7:27182264:27183525，chr7:45002063:45002754，chr7:50467662:50468309，chr8:55366694:55366747，chr9:139740669:139740676，chr1:16862044:16862199，chr10:102822370:102822647，chr10:105253375:105253477，chr12:116946248:116946304，chr12:50355085:50355570，chr12:52652220:52652362，chr13:32605660:32605843，chr13:77459521:77459792，chr14:102172655:102172687，chr16:88599725:88600068，chr17:80009015:80009025，chr19:12831808:12832195，chr19:13213485:13213513，chr19:13213644:13213814，chr19:15344092:15344411，chr19:8674674:8674749，chr20:48902548:48902611，chr22:42710260:42710349，chr3:193987426:193987681，chr3:194208192:194208617，chr6:31696240:31696334，chr7:26415826:26415917，chr11:2000109:2000154，chr15:48470425:48470556，chr15:60883371:60883395，chr16:4715122:4715220，chr19:52104749:52104928，chr2:128158537:128158621，chr21:48087183:48088183，chr22:38071168:38071189，chr7:26415938:26416562(2)(1)的互补序列。在上述一个或多个实施方案中，所述核酸分子是与甲状腺肿瘤良恶性相关的基因组dna甲基化标志物。在一个或多个实施方案中，甲状腺肿瘤是滤泡状甲状腺肿瘤或恶性潜能未定的甲状腺肿瘤。
11.在一个或多个实施方案中，所述核酸分子的序列选自以下中的任意一种、一种以上或全部的组合：chr1:119543868:119543879，chr1:180202465:180202541，chr1:203044677:203044823，chr1:203045227:203045293，chr10:124896784:124897154，chr12:52745149:52745173，chr13:92051635:92051674，chr14:38071275:38071410，chr14:38091345:38091744，chr14:60977845:60977865，chr16:85620063:85620331，chr17:40937184:40937480，chr17:46631705:46632377，chr18:19747115:19747127，chr18:70209347:70209475，chr2:105474371:105474381，chr2:203036052:203036236，chr2:
80530770:80530826，chr2:95401381:95401629，chr21:38077572:38077685，chr4:111554966:111554989，chr4:1400384:1400459，chr4:40632502:40632519，chr5:72594262:72594269，chr6:168502296:168502347，chr7:101241802:101241926，chr7:157485865:157486031，chr7:158798629:158798674，chr7:27182264:27183525，chr7:45002063:45002754，chr7:50467662:50468309，chr8:55366694:55366747，chr9:139740669:139740676，chr1:16862044:16862199，chr10:102822370:102822647，chr10:105253375:105253477，chr12:116946248:116946304，chr12:50355085:50355570，chr12:52652220:52652362，chr13:32605660:32605843，chr13:77459521:77459792，chr14:102172655:102172687，chr16:88599725:88600068，chr17:80009015:80009025，chr19:12831808:12832195，chr19:13213485:13213513，chr19:13213644:13213814，chr19:15344092:15344411，chr19:8674674:8674749，chr20:48902548:48902611，chr22:42710260:42710349，chr3:193987426:193987681，chr3:194208192:194208617，chr6:31696240:31696334，chr7:26415826:26415917，chr11:2000109:2000154，chr15:48470425:48470556，chr15:60883371:60883395，chr16:4715122:4715220，chr19:52104749:52104928，chr2:128158537:128158621，chr21:48087183:48088183，chr22:38071168:38071189，chr7:26415938:26416562。
12.本发明提供一种标志物，包含下述核酸分子或与其具有至少70％相同性的变体和算法的组合中的任意一种、一种以上或全部，所述变体中的甲基化位点未发生突变：chr1:119543868:119543879-mhl3、chr1:180202465:180202541-mhl3、chr1:203044677:203044823-mhl3、chr1:203045227:203045293-mhl3、chr10:124896784:124897154-mhl3、chr12:52745149:52745173-mhl3、chr13:92051635:92051674-mhl3、chr14:38071275:38071410-mhl3、chr14:38091345:38091744-mhl3、chr14:60977845:60977865-mhl3、chr16:85620063:85620331-mhl3、chr17:40937184:40937480-mhl3、chr17:46631705:46632377-mhl3、chr18:19747115:19747127-mhl3、chr18:70209347:70209475-mhl3、chr2:105474371:105474381-mhl3、chr2:203036052:203036236-mhl3、chr2:80530770:80530826-mhl3、chr2:95401381:95401629-mhl3、chr21:38077572:38077685-mhl3、chr4:111554966:111554989-mhl3、chr4:1400384:1400459-mhl3、chr4:40632502:40632519-mhl3、chr5:72594262:72594269-mhl3、chr6:168502296:168502347-mhl3、chr7:101241802:101241926-mhl3、chr7:157485865:157486031-mhl3、chr7:158798629:158798674-mhl3、chr7:27182264:27183525-mhl3、chr7:45002063:45002754-mhl3、chr7:50467662:50468309-mhl3、chr8:55366694:55366747-mhl3、chr9:139740669:139740676-mhl3、chr1:203044677:203044823-mhl、chr13:92051635:92051674-mhl、chr14:60977845:60977865-mhl、chr18:19747115:19747127-mhl、chr7:27182264:27183525-mhl、chr1:16862044:16862199-pdr、chr10:102822370:102822647-pdr、chr10:105253375:105253477-pdr、chr12:116946248:116946304-pdr、chr12:50355085:50355570-pdr、chr12:52652220:52652362-pdr、chr13:32605660:32605843-pdr、chr13:77459521:77459792-pdr、chr14:102172655:102172687-pdr、chr16:88599725:88600068-pdr、chr17:80009015:80009025-pdr、chr19:12831808:12832195-pdr、chr19:13213485:13213513-pdr、chr19:13213644:13213814-pdr、chr19:15344092:15344411-pdr、chr19:8674674:
8674749-pdr、chr20:48902548:48902611-pdr、chr22:42710260:42710349-pdr、chr3:193987426:193987681-pdr、chr3:194208192:194208617-pdr、chr6:31696240:31696334-pdr、chr7:26415826:26415917-pdr、chr10:102822370:102822647-umhl、chr11:2000109:2000154-umhl、chr15:48470425:48470556-umhl、chr15:60883371:60883395-umhl、chr16:4715122:4715220-umhl、chr19:52104749:52104928-umhl、chr2:128158537:128158621-umhl、chr21:48087183:48088183-umhl、chr22:38071168:38071189-umhl、chr7:26415938:26416562-umhl。在一个或多个实施方案中，所述标记物是与甲状腺肿瘤良恶性相关的基因组dna甲基化标志物。在一个或多个实施方案中，甲状腺肿瘤是滤泡状甲状腺肿瘤或恶性潜能未定的甲状腺肿瘤。
13.在一个或多个实施方案中，标志物是下述核酸分子或与其具有至少70％相同性的变体和算法的组合中的任意一种、一种以上或全部，所述变体中的甲基化位点未发生突变：chr18:19747115:19747127_mhl3，chr15:48470425:48470556_umhl，chr19:12831808:12832195_pdr，chr17:80009015:80009025_pdr，chr10:105253375:105253477_pdr，chr13:92051635:92051674_mhl3，chr7:101241802:101241926_mhl3，chr14:38091345:38091744_mhl3，chr16:4715122:4715220_umhl，chr16:85620063:85620331_mhl3，chr18:19747115:19747127_mhl，chr7:45002063:45002754_mhl3，chr19:15344092:15344411_pdr，chr12:50355085:50355570_pdr，chr10:102822370:102822647_pdr，chr7:27182264:27183525_mhl，chr2:128158537:128158621_umhl，chr2:80530770:80530826_mhl3，chr2:105474371:105474381_mhl3，chr1:119543868:119543879_mhl3，chr2:203036052:203036236_mhl3，chr8:55366694:55366747_mhl3，chr10:124896784:124897154_mhl3，chr1:203044677:203044823_mhl3，chr2:95401381:95401629_mhl3，chr7:158798629:158798674_mhl3，chr4:1400384:1400459_mhl3，chr1:16862044:16862199_pdr，chr19:13213485:13213513_pdr，chr19:52104749:52104928_umhl，chr7:26415826:26415917_pdr，chr1:203045227:203045293_mhl3，chr17:40937184:40937480_mhl3，chr14:102172655:102172687_pdr，chr22:38071168:38071189_umhl，chr9:139740669:139740676_mhl3，chr21:48087183:48088183_umhl，chr5:72594262:72594269_mhl3，chr4:111554966:111554989_mhl3，chr12:116946248:116946304_pdr，chr12:52652220:52652362_pdr，chr7:26415938:26416562_umhl，chr19:8674674:8674749_pdr，chr17:46631705:46632377_mhl3，chr14:60977845:60977865_mhl3，chr13:92051635:92051674_mhl，chr18:70209347:70209475_mhl3，chr20:48902548:48902611_pdr，chr6:168502296:168502347_mhl3，chr21:38077572:38077685_mhl3。
14.在一个或多个实施方案中，标志物是下述核酸分子或与其具有至少70％相同性的变体和算法的组合中的任意一种、一种以上或全部，所述变体中的甲基化位点未发生突变：chr14:38091345:38091744_mhl3，chr22:42710260:42710349_pdr，chr16:85620063:85620331_mhl3，chr16:4715122:4715220_umhl，chr18:19747115:19747127_mhl3，chr12:50355085:50355570_pdr，chr2:105474371:105474381_mhl3，chr21:38077572:38077685_mhl3，chr17:40937184:40937480_mhl3，chr3:194208192:194208617_pdr，chr2:203036052:203036236_mhl3，chr1:203044677:203044823_mhl，chr10:102822370:102822647_pdr，chr1:203044677:203044823_mhl3，chr7:27182264:27183525_mhl3，
chr22:38071168:38071189_umhl，chr1:16862044:16862199_pdr，chr8:55366694:55366747_mhl3，chr14:60977845:60977865_mhl3，chr21:48087183:48088183_umhl，chr9:139740669:139740676_mhl3，chr20:48902548:48902611_pdr，chr1:203045227:203045293_mhl3，chr7:45002063:45002754_mhl3，chr10:105253375:105253477_pdr，chr13:92051635:92051674_mhl，chr14:60977845:60977865_mhl，chr7:158798629:158798674_mhl3，chr18:70209347:70209475_mhl3，chr7:27182264:27183525_mhl。
15.在一个或多个实施方案中，标志物是下述核酸分子或与其具有至少70％相同性的变体和算法的组合中的任意一种、一种以上或全部，所述变体中的甲基化位点未发生突变：chr22:42710260:42710349_pdr，chr17:80009015:80009025_pdr，chr8:55366694:55366747_mhl3，chr2:95401381:95401629_mhl3，chr1:203044677:203044823_mhl3，chr19:13213485:13213513_pdr，chr7:27182264:27183525_mhl3，chr7:101241802:101241926_mhl3，chr18:19747115:19747127_mhl3，chr15:60883371:60883395_umhl。
16.在上述一个或多个实施方案中，所述核酸分子长度为5-1500bp、6-1400bp、7-1300bp、7-1261bp。
17.在上述一个或多个实施方案中，所述核酸分子的序列编号参考hg19。
18.在上述一个或多个实施方案中，所述标记物或核酸分子是与甲状腺肿瘤良恶性相关的基因组dna甲基化标志物。在一个或多个实施方案中，甲状腺肿瘤是滤泡状甲状腺肿瘤或恶性潜能未定的甲状腺肿瘤。
19.在上述一个或多个实施方案中，所述动物是哺乳动物，优选人。
20.在上述一个或多个实施方案中，所述甲基化位点是连续的cg。
21.在上述一个或多个实施方案中，所述序列包括dna正义链或反义链。
22.在上述一个或多个实施方案中，所述核酸分子用作检测样品中相应序列的dna甲基化水平的内标或对照。
23.本发明第二方面提供检测dna甲基化的试剂，所述试剂检测样品中本文第一方面所述标志物或核酸分子中的一种或多种的dna甲基化水平。
24.在一个或多个实施方案中，所述样品来自哺乳动物，优选人。
25.在一个或多个实施方案中，所述试剂是选自以下方法的一个或多个中所用的试剂：基于重亚硫酸盐转化的pcr(例如甲基化特异性pcr)、dna测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。
26.优选地，所述试剂选自以下一种或多种：重亚硫酸盐及其衍生物、pcr缓冲液、聚合酶、dntp、引物、探针、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。
27.在一个或多个实施方案中，所述试剂包括引物。所述引物检测本文所述区域或序列的甲基化水平。在一个或多个实施方案中，所述引物可以是基因组测序的引物，例如全基因组测序引物或针对部分基因组的测序引物，也可以是用于扩增本文所述区域或序列的pcr引物或用于扩增区域中一个或多个甲基化标志物的pcr引物。
28.在一个或多个实施方案中，所述引物是利用简化甲基化测序法检测所述标志物的甲基化水平的引物或用于扩增一个或多个标志物的pcr引物。
29.在一个或多个实施方案中，所述试剂包括探针。所述探针的序列的5’端标记荧光报告基团，3’端标记淬灭基团。优选地，所述探针检测本文所述区域或序列的甲基化水平。
30.本发明还提供鉴别甲状腺肿瘤良恶性的试剂盒，包含本文所述的标志物和/或本文所述的试剂。在一个或多个实施方案中，甲状腺肿瘤是滤泡状甲状腺肿瘤或恶性潜能未定的甲状腺肿瘤。
31.本发明还提供检测dna甲基化的试剂和任选的本文所述的标志物中的一种或多种在制备用于鉴定样品中甲状腺肿瘤良恶性的试剂盒中的用途，所述试剂检测样品中本文所述标志物中的一种或多种的dna甲基化水平。在一个或多个实施方案中，甲状腺肿瘤是滤泡状甲状腺肿瘤或恶性潜能未定的甲状腺肿瘤。
32.在用途的一个或多个实施方案中，所述样品来自哺乳动物，优选人。所述样品优选来自组织、细胞或者体液，例如甲状腺组织或血液。在一个或多个实施方案中，所述样品是甲状腺结节或肿瘤的活检物，优选是细针穿刺活检物。在一个或多个实施方案中，所述样品是血浆。
33.在用途的一个或多个实施方案中，所述样品包括基因组dna或cfdna。
34.在一个或多个实施方案中，所述试剂是选自以下方法的一个或多个中所用的试剂：基于重亚硫酸盐转化的pcr(例如甲基化特异性pcr)、dna测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。
35.优选地，所述试剂选自以下一种或多种：重亚硫酸盐及其衍生物、pcr缓冲液、聚合酶、dntp、引物、探针、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。
36.在一个或多个实施方案中，所述试剂包括引物。所述引物检测本文所述区域或序列的甲基化水平。在一个或多个实施方案中，所述引物可以是基因组测序的引物，例如全基因组测序引物或针对部分基因组的测序引物，也可以是用于扩增本文所述区域或序列的pcr引物或用于扩增区域中一个或多个标志物的pcr引物。
37.在一个或多个实施方案中，所述引物是利用简化甲基化测序法检测所述标志物的甲基化水平的引物或用于扩增一个或多个标志物的pcr引物。
38.在一个或多个实施方案中，所述试剂包括探针。所述探针的序列的5’端标记荧光报告基团，3’端标记淬灭基团。优选地，所述探针检测本文所述区域或序列的甲基化水平。
39.本发明第四方面提供一种鉴别滤泡状甲状腺肿瘤良恶性或评估恶性潜能未定的甲状腺肿瘤的恶性潜能的方法，包括：
40.(1)获取样品中一种或多种标志物的甲基化水平，
41.(2)使用选自mhl、mhl3、umhl和pdr中的至少一种算法处理各标志物的甲基化水平，
42.(3)通过构建模型利用步骤(2)的经处理的甲基化水平获得评分，
43.(4)根据评分鉴别甲状腺肿瘤良恶性或评估甲状腺肿瘤的恶性潜能。
44.在一个或多个实施方案中，获取标志物的甲基化水平包括(1)检测全基因组dna的甲基化水平或包含所述标志物的基因组dna的甲基化水平，并选取标志物的甲基化水平；或(2)检测所述标志物的甲基化水平。
45.在一个或多个实施方案中，所述样品来自健康对象或甲状腺结节对象，优选滤泡状甲状腺结节对象。
46.在一个或多个实施方案中，所述样品是甲状腺组织样品。
47.在一个或多个实施方案中，所述样品是甲状腺结节或肿瘤样品。
48.在一个或多个实施方案中，所述样品是良性(fta)和/或恶性甲状腺肿瘤(ftc)组织样品；
49.在一个或多个实施方案中，mhl算法如下：
[0050][0051]
其中l为该甲基化标志物的长度；p(mhi)是从该标志物起始位置到i位点的区域中，由ngs检测到的完全甲基化的读数数量占到该区域所有读数数量的比例；w
i
是从该标志物起始位置到i位点的区域的长度的比重，其为i。
[0052]
在一个或多个实施方案中，mhl3算法如下：
[0053][0054]
其中l为该甲基化标志物的长度；p(mhi)是从该标志物起始位置到i位点的区域中，由ngs检测到的完全甲基化的读数数量占到该区域所有读数数量的比例；w
i
是从该标志物起始位置到i位点的区域的长度的比重，其为i3。
[0055]
在一个或多个实施方案中，umhl算法如下：
[0056][0057]
其中l为该甲基化标志物的长度；p(mhi)是从该标志物起始位置到i位点的区域中，由ngs检测到的完全未甲基化的读数数量占到该区域所有读数数量的比例；w
i
是从该标志物起始位置到i位点的区域的长度的比重，其为i。
[0058]
在一个或多个实施方案中，pdr算法如下：
[0059]
pdr＝不一致读数/总读数
[0060]
即标志物中既有甲基化又有未甲基化胞嘧啶的读数数量与所有读数数量的比值。
[0061]
在一个或多个实施方案中，步骤(1)的标志物是核酸分子，所述核酸分子的长度为5-1500bp、6-1400bp、7-1300bp、7-1261bp，所述核酸分子具有(1)动物基因组的包含选自以下一种、多种或全部序列的序列，或与其具有至少70％相同性的变体，所述变体中的甲基化位点未发生突变：chr1:119543868:119543879，chr1:180202465:180202541，chr1:203044677:203044823，chr1:203045227:203045293，chr10:124896784:124897154，chr12:52745149:52745173，chr13:92051635:92051674，chr14:38071275:38071410，chr14:38091345:38091744，chr14:60977845:60977865，chr16:85620063:85620331，chr17:40937184:40937480，chr17:46631705:46632377，chr18:19747115:19747127，chr18:70209347:70209475，chr2:105474371:105474381，chr2:203036052:203036236，chr2:
80530770:80530826，chr2:95401381:95401629，chr21:38077572:38077685，chr4:111554966:111554989，chr4:1400384:1400459，chr4:40632502:40632519，chr5:72594262:72594269，chr6:168502296:168502347，chr7:101241802:101241926，chr7:157485865:157486031，chr7:158798629:158798674，chr7:27182264:27183525，chr7:45002063:45002754，chr7:50467662:50468309，chr8:55366694:55366747，chr9:139740669:139740676，chr1:16862044:16862199，chr10:102822370:102822647，chr10:105253375:105253477，chr12:116946248:116946304，chr12:50355085:50355570，chr12:52652220:52652362，chr13:32605660:32605843，chr13:77459521:77459792，chr14:102172655:102172687，chr16:88599725:88600068，chr17:80009015:80009025，chr19:12831808:12832195，chr19:13213485:13213513，chr19:13213644:13213814，chr19:15344092:15344411，chr19:8674674:8674749，chr20:48902548:48902611，chr22:42710260:42710349，chr3:193987426:193987681，chr3:194208192:194208617，chr6:31696240:31696334，chr7:26415826:26415917，chr11:2000109:2000154，chr15:48470425:48470556，chr15:60883371:60883395，chr16:4715122:4715220，chr19:52104749:52104928，chr2:128158537:128158621，chr21:48087183:48088183，chr22:38071168:38071189，chr7:26415938:26416562(2)(1)的互补序列。
[0062]
在一个或多个实施方案中，所述核酸分子的序列选自以下任意一种、一种以上或全部的组合或与其具有至少70％相同性的变体，所述变体中的甲基化位点未突变：chr1:119543868:119543879，chr1:180202465:180202541，chr1:203044677:203044823，chr1:203045227:203045293，chr10:124896784:124897154，chr12:52745149:52745173，chr13:92051635:92051674，chr14:38071275:38071410，chr14:38091345:38091744，chr14:60977845:60977865，chr16:85620063:85620331，chr17:40937184:40937480，chr17:46631705:46632377，chr18:19747115:19747127，chr18:70209347:70209475，chr2:105474371:105474381，chr2:203036052:203036236，chr2:80530770:80530826，chr2:95401381:95401629，chr21:38077572:38077685，chr4:111554966:111554989，chr4:1400384:1400459，chr4:40632502:40632519，chr5:72594262:72594269，chr6:168502296:168502347，chr7:101241802:101241926，chr7:157485865:157486031，chr7:158798629:158798674，chr7:27182264:27183525，chr7:45002063:45002754，chr7:50467662:50468309，chr8:55366694:55366747，chr9:139740669:139740676，chr1:16862044:16862199，chr10:102822370:102822647，chr10:105253375:105253477，chr12:116946248:116946304，chr12:50355085:50355570，chr12:52652220:52652362，chr13:32605660:32605843，chr13:77459521:77459792，chr14:102172655:102172687，chr16:88599725:88600068，chr17:80009015:80009025，chr19:12831808:12832195，chr19:13213485:13213513，chr19:13213644:13213814，chr19:15344092:15344411，chr19:8674674:8674749，chr20:48902548:48902611，chr22:42710260:42710349，chr3:193987426:193987681，chr3:194208192:194208617，chr6:31696240:31696334，chr7:26415826:26415917，chr11:2000109:2000154，chr15:48470425:48470556，chr15:60883371:60883395，chr16:4715122:4715220，chr19:52104749:52104928，chr2:128158537:128158621，chr21:48087183:48088183，chr22:38071168:38071189，chr7:26415938:
26416562。
[0063]
在一个或多个实施方案中，步骤(2)中标志物及其对应处理算法选自下述核酸分子或与其具有至少70％相同性的变体和算法的组合中的任意一种、多种或全部，所述变体中的甲基化位点未发生突变：chr1:119543868:119543879-mhl3、chr1:180202465:180202541-mhl3、chr1:203044677:203044823-mhl3、chr1:203045227:203045293-mhl3、chr10:124896784:124897154-mhl3、chr12:52745149:52745173-mhl3、chr13:92051635:92051674-mhl3、chr14:38071275:38071410-mhl3、chr14:38091345:38091744-mhl3、chr14:60977845:60977865-mhl3、chr16:85620063:85620331-mhl3、chr17:40937184:40937480-mhl3、chr17:46631705:46632377-mhl3、chr18:19747115:19747127-mhl3、chr18:70209347:70209475-mhl3、chr2:105474371:105474381-mhl3、chr2:203036052:203036236-mhl3、chr2:80530770:80530826-mhl3、chr2:95401381:95401629-mhl3、chr21:38077572:38077685-mhl3、chr4:111554966:111554989-mhl3、chr4:1400384:1400459-mhl3、chr4:40632502:40632519-mhl3、chr5:72594262:72594269-mhl3、chr6:168502296:168502347-mhl3、chr7:101241802:101241926-mhl3、chr7:157485865:157486031-mhl3、chr7:158798629:158798674-mhl3、chr7:27182264:27183525-mhl3、chr7:45002063:45002754-mhl3、chr7:50467662:50468309-mhl3、chr8:55366694:55366747-mhl3、chr9:139740669:139740676-mhl3、chr1:203044677:203044823-mhl、chr13:92051635:92051674-mhl、chr14:60977845:60977865-mhl、chr18:19747115:19747127-mhl、chr7:27182264:27183525-mhl、chr1:16862044:16862199-pdr、chr10:102822370:102822647-pdr、chr10:105253375:105253477-pdr、chr12:116946248:116946304-pdr、chr12:50355085:50355570-pdr、chr12:52652220:52652362-pdr、chr13:32605660:32605843-pdr、chr13:77459521:77459792-pdr、chr14:102172655:102172687-pdr、chr16:88599725:88600068-pdr、chr17:80009015:80009025-pdr、chr19:12831808:12832195-pdr、chr19:13213485:13213513-pdr、chr19:13213644:13213814-pdr、chr19:15344092:15344411-pdr、chr19:8674674:8674749-pdr、chr20:48902548:48902611-pdr、chr22:42710260:42710349-pdr、chr3:193987426:193987681-pdr、chr3:194208192:194208617-pdr、chr6:31696240:31696334-pdr、chr7:26415826:26415917-pdr、chr10:102822370:102822647-umhl、chr11:2000109:2000154-umhl、chr15:48470425:48470556-umhl、chr15:60883371:60883395-umhl、chr16:4715122:4715220-umhl、chr19:52104749:52104928-umhl、chr2:128158537:128158621-umhl、chr21:48087183:48088183-umhl、chr22:38071168:38071189-umhl、chr7:26415938:26416562-umhl。
[0064]
在一个或多个实施方案中，步骤(3)中的模型是随机森林模型或支持向量机模型。
[0065]
在一个或多个实施方案中，步骤(3)中的模型是随机森林模型，其由r语言的caret软件包中的train函数构建。
[0066]
在一个或多个实施方案中，步骤(4)包括：当评分满足阈值时，则鉴定甲状腺肿瘤为良性或恶性。
[0067]
在一个或多个实施方案中，步骤(1)中的检测包括但不限于：基于重亚硫酸盐转化的pcr(例如甲基化特异性pcr)、dna测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解
曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。优选地，步骤(1)中的检测是测序。
[0068]
在一个或多个实施方案中，所述方法在步骤(1)之前还包括：样品dna的抽提、质检、和将dna上未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。在一个或多个实施方案中，所述转化使用酶促方法进行，优选脱氨酶处理，或所述转化使用非酶促方法进行，优选用亚硫酸氢盐或重硫酸盐处理，更优选使用亚硫酸氢钙、亚硫酸氢钠、亚硫酸氢钾、亚硫酸氢铵、重硫酸钠、重硫酸钾和重硫酸铵处理。
[0069]
本发明还提供一种装置，其特征在于，所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：
[0070]
(1)获取样品中本文所述标志物中的一种或多种或全部的甲基化水平，
[0071]
(2)使用选自mhl、mhl3、umhl和pdr中的至少一种算法处理所述各标志物的甲基化水平，
[0072]
(3)通过构建模型利用步骤(2)的经处理的甲基化水平获得评分，
[0073]
(4)根据评分鉴别滤泡状甲状腺肿瘤良恶性或评估恶性潜能未定的甲状腺肿瘤的恶性潜能。
[0074]
在一个或多个实施方案中，mhl、mhl3、umhl、pdr如本文第四方面所述。
[0075]
在一个或多个实施方案中，所述装置用于鉴别滤泡状甲状腺肿瘤的良恶性或用于评估恶性潜能未定的甲状腺肿瘤的恶性潜能。
[0076]
本发明还提供一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现下述步骤：
[0077]
(1)获取样品中本文所述标志物中的一种或多种或全部的甲基化水平，
[0078]
(2)使用选自mhl、mhl3、umhl和pdr中的至少一种算法处理所述各标志物的甲基化水平，
[0079]
(3)通过构建模型利用步骤(2)的经处理的各标志物的甲基化水平获得评分，
[0080]
(4)根据评分鉴别滤泡状甲状腺肿瘤的良恶性或评估恶性潜能未定的甲状腺肿瘤的恶性潜能。
[0081]
在一个或多个实施方案中，mhl、mhl3、umhl、pdr如本文第四方面所述。
[0082]
本发明还提供一种用于鉴别滤泡状甲状腺肿瘤的良恶性或评估恶性潜能未定的甲状腺肿瘤的恶性潜能的系统，其特征在于，包括：
[0083]
采集装置，用于获取样品中本文所述标志物中的一种或多种或全部的甲基化水平，
[0084]
数据处理装置，使用选自mhl、mhl3、umhl和pdr中的至少一种算法处理所述各标志物的甲基化水平，并通过构建模型利用经处理的各标志物的甲基化水平获得评分，
[0085]
判定装置，用于根据评分鉴别甲状腺肿瘤的良恶性或评估恶性潜能未定的甲状腺肿瘤的恶性潜能。
[0086]
在一个或多个实施方案中，采集装置包括样品处理装置和测序装置。
[0087]
在一个或多个实施方案中，采集装置包括输入所述甲基化水平的装置。
[0088]
在一个或多个实施方案中，所述模型是随机森林模型或支持向量机模型。
[0089]
在一个或多个实施方案中，mhl、mhl3、umhl、pdr如本文第四方面所述。
[0090]
本发明还提供一种构建鉴别滤泡状甲状腺肿瘤良恶性的模型的方法，包括：
[0091]
(1)获取肿瘤样品和对照样品的基因组dna中候选位点或片段的甲基化水平，
[0092]
(2)使用选自mhl、mhl3、umhl和pdr中的至少一种算法处理所述位点或片段的甲基化水平，
[0093]
(3)筛选出经处理的甲基化水平在肿瘤样品和对照样品之间存在显著差异的位点或片段和任选的其对应算法，所述位点或片段即为甲基化标志物，
[0094]
(4)根据甲基化标志物的经处理的甲基化水平，使用r语言的caret软件包中的train函数构建鉴别滤泡状甲状腺肿瘤良恶性的模型，其为随机森林模型。
[0095]
在一个或多个实施方案中，mhl、mhl3、umhl、pdr如本文第四方面所述。
[0096]
在一个或多个实施方案中，所述甲状腺肿瘤是滤泡状甲状腺肿瘤或恶性潜能未定的甲状腺肿瘤。
[0097]
在一个或多个实施方案中，所述肿瘤样品包括良性(fta)和/或恶性甲状腺肿瘤(ftc)组织样品；
[0098]
在一个或多个实施方案中，所述对照样品来自(1)无所述肿瘤的对象的正常组织，或(2)与肿瘤样品来源相同的对象的正常组织。
[0099]
在一个或多个实施方案中，获取候选位点或片段的甲基化水平包括(1)检测全基因组dna的甲基化水平或包含所述候选位点或片段的基因组dna的甲基化水平，并选取候选位点或片段的甲基化水平；或(2)检测所述候选位点或片段的甲基化水平。
[0100]
在一个或多个实施方案中，步骤(3)包括：(3.1)使用r语言软件包对各样品的经处理的甲基化水平进行预处理得到横坐标为甲基化标志物，纵坐标为各样品的二维矩阵；和(3.2)根据经处理的甲基化水平在肿瘤样品和对照样品之间是否存在显著差异筛选位点或片段和任选的其对应算法。
[0101]
在一个或多个实施方案中，显著差异为p值小于0.05。
[0102]
在一个或多个实施方案中，所述甲基化标志物是本文第一方面所述的标志物。
[0103]
在一个或多个实施方案中，所述肿瘤样品中来自良性甲状腺肿瘤患者的样品为30个以上，来自恶性甲状腺肿瘤患者的样品为30个以上。
[0104]
在一个或多个实施方案中，构建随机森林模型时的参数为：method＝
‘
rf’，ntree＝500，trcontrol＝traincontrol(method＝"repeatedcv",savepredictions＝t,classprobs＝t,number＝3,repeats＝10,allowparallel＝true)。
[0105]
在一个或多个实施方案中，甲基化标志物及其对应算法如下所示并且所述模型的鉴别阈值为0.5：chr1:119543868:119543879-mhl3、chr1:180202465:180202541-mhl3、chr1:203044677:203044823-mhl3、chr1:203045227:203045293-mhl3、chr10:124896784:124897154-mhl3、chr12:52745149:52745173-mhl3、chr13:92051635:92051674-mhl3、chr14:38071275:38071410-mhl3、chr14:38091345:38091744-mhl3、chr14:60977845:60977865-mhl3、chr16:85620063:85620331-mhl3、chr17:40937184:40937480-mhl3、chr17:46631705:46632377-mhl3、chr18:19747115:19747127-mhl3、chr18:70209347:70209475-mhl3、chr2:105474371:105474381-mhl3、chr2:203036052:203036236-mhl3、chr2:80530770:80530826-mhl3、chr2:95401381:95401629-mhl3、chr21:38077572:
38077685-mhl3、chr4:111554966:111554989-mhl3、chr4:1400384:1400459-mhl3、chr4:40632502:40632519-mhl3、chr5:72594262:72594269-mhl3、chr6:168502296:168502347-mhl3、chr7:101241802:101241926-mhl3、chr7:157485865:157486031-mhl3、chr7:158798629:158798674-mhl3、chr7:27182264:27183525-mhl3、chr7:45002063:45002754-mhl3、chr7:50467662:50468309-mhl3、chr8:55366694:55366747-mhl3、chr9:139740669:139740676-mhl3、chr1:203044677:203044823-mhl、chr13:92051635:92051674-mhl、chr14:60977845:60977865-mhl、chr18:19747115:19747127-mhl、chr7:27182264:27183525-mhl、chr1:16862044:16862199-pdr、chr10:102822370:102822647-pdr、chr10:105253375:105253477-pdr、chr12:116946248:116946304-pdr、chr12:50355085:50355570-pdr、chr12:52652220:52652362-pdr、chr13:32605660:32605843-pdr、chr13:77459521:77459792-pdr、chr14:102172655:102172687-pdr、chr16:88599725:88600068-pdr、chr17:80009015:80009025-pdr、chr19:12831808:12832195-pdr、chr19:13213485:13213513-pdr、chr19:13213644:13213814-pdr、chr19:15344092:15344411-pdr、chr19:8674674:8674749-pdr、chr20:48902548:48902611-pdr、chr22:42710260:42710349-pdr、chr3:193987426:193987681-pdr、chr3:194208192:194208617-pdr、chr6:31696240:31696334-pdr、chr7:26415826:26415917-pdr、chr10:102822370:102822647-umhl、chr11:2000109:2000154-umhl、chr15:48470425:48470556-umhl、chr15:60883371:60883395-umhl、chr16:4715122:4715220-umhl、chr19:52104749:52104928-umhl、chr2:128158537:128158621-umhl、chr21:48087183:48088183-umhl、chr22:38071168:38071189-umhl和chr7:26415938:26416562-umhl。
[0106]
在一个或多个实施方案中，模型的预测值大于或等于阈值则鉴定甲状腺肿瘤为恶性；模型的预测值小于阈值则鉴定甲状腺肿瘤为良性。
[0107]
本发明还提供了一种鉴定甲状腺肿瘤良恶性的模型，该模型按照上述甲状腺肿瘤模型的构建方法的实施方案构建而得。在一个或多个实施方案中，所述甲状腺肿瘤滤是泡状甲状腺肿瘤或恶性潜能未定的甲状腺肿瘤。
[0108]
本发明还提供一种筛选甲基化标志物的方法，包括以下步骤：
[0109]
(1)获取肿瘤样品和对照样品的基因组dna中候选位点或片段的甲基化水平，
[0110]
(2)使用选自mhl、mhl3、umhl和pdr中的至少一种算法处理所述位点或片段的甲基化水平，
[0111]
(3)筛选出经处理的甲基化水平在肿瘤样品和对照样品之间存在显著差异的位点或片段和任选的其对应算法，所述位点或片段即为甲基化标志物。
[0112]
在一个或多个实施方案中，所述肿瘤样品是滤泡状甲状腺肿瘤样品或恶性潜能未定的甲状腺肿瘤样品。
[0113]
在一个或多个实施方案中，所述肿瘤样品包括良性(fta)和/或恶性甲状腺肿瘤(ftc)组织样品；
[0114]
在一个或多个实施方案中，所述对照样品来自(1)无所述肿瘤的对象的正常组织，或(2)与肿瘤样品来源相同的对象的正常组织。
[0115]
在一个或多个实施方案中，获取候选位点或片段的甲基化水平包括(1)检测全基因组dna的甲基化水平或包含所述候选位点或片段的基因组dna的甲基化水平，并选取候选
位点或片段的甲基化水平；或(2)检测所述候选位点或片段的甲基化水平。
[0116]
在一个或多个实施方案中，步骤(3)包括：(3.1)使用r语言软件包对各样品的经处理的甲基化水平进行预处理得到横坐标为甲基化标志物，纵坐标为各样品的二维矩阵；和(3.2)根据经处理的甲基化水平在肿瘤样品和对照样品之间存在显著差异筛选位点或片段和任选的其对应算法。
[0117]
在一个或多个实施方案中，显著差异为p值小于0.05。
[0118]
在一个或多个实施方案中，所述甲基化标志物是本文第一方面所述的甲基化标志物。
[0119]
在一个或多个实施方案中，mhl、mhl3、umhl、pdr如本文第四方面所述。
附图说明
[0120]
图1是26例疑似甲状腺癌患者的甲基化标志物预测roc曲线。灰色部分为95％置信区间。
[0121]
图2是36例ump样本的甲基化标志物恶性潜能评分及其基因变异。
具体实施方式
[0122]
本发明探究了dna甲基化水平与甲状腺肿瘤良恶性的关系。旨在通过无创的方法利用dna甲基化标志物群作为甲状腺肿瘤良恶性鉴别标志物，提高甲状腺肿瘤无创诊断的精确性。本文中，甲状腺肿瘤包括临床上的甲状腺结节和肿瘤。
[0123]
对于临床上根据病理鉴定无法明确进行fta/ftc鉴定的患者，以及鉴定为ump的甲状腺肿瘤患者，首先要收集他们的肿瘤组织样本(手术切除组织或者穿刺组织)，进行基因组dna的抽提。可以是直接新鲜或冻存组织抽提，也可以先制作成石蜡包埋(ffpe)组织，然后再进行dna抽提。对抽提后的dna样本进行甲基化测序，可以是全基因组甲基化测序(wgbs)，或者是简并甲基化测序(rrbs)，还可以是根据标志物设计引物进行定制测序。
[0124]
本文所述“甲基化标志物”或“标志物”既可以是核酸分子，也可以是核酸分子与其甲基化算法的组合。所述核酸分子可以是分离自动物的核酸分子，也可以是人工合成的具有动物基因组片段序列的核酸分子。本文的甲基化标志物中涉及的核酸分子可以不是以基因为单位，而是以cpg位点有连锁效应的区段为单位，即甲基化单倍型单元(mhb)。因此，本发明中，两个不同的标志物可以来自相同基因。而且，本发明中标志物也可位于基因间区。
[0125]
发明人经过多次的尝试，最终确定了70个dna区域和算法的甲基化特征，最能表现滤泡状甲状腺良性和恶性肿瘤之间的差异。这70个dna区域的位置和算法见表1，其在样品中的甲基化水平变化见表2。
[0126]
表1
[0127]
[0128]
[0129][0130]
表2
[0131]
[0132][0133]
本文中，所示序列以及序列表所示序列视为正义链。当正义链5
’-3’
方向为cpg时，
反义链上对应位置在5
’-3’
方向也为cpg。因此，在提及甲基化位点时，即包含正义链上甲基化位点的胞嘧啶，也包含反义链上该位点处对应碱基(鸟嘌呤)上游(5’端)相邻位置的胞嘧啶。
[0134]
本文中，甲基化水平代表一个或多个位点处于甲基化状态的比例。一个区域(或一组位点)的甲基化水平是该区域中所有位点(或组中所有位点)的甲基水平的综合体现。因此，区域的甲基化水平上升或下降并不表示区域中所有甲基化位点的甲基化水平都上升或下降。本领域知晓将检测dna甲基化的方法(例如简化甲基化测序)所得结果转化为甲基化水平的过程。示例性实施例利用软件bismark(v0.17.0)获得cpg位点的甲基化水平。
[0135]
本文中，检测样品dna甲基化的方法本领域周知，例如基于重亚硫酸盐转化的pcr(例如甲基化特异性pcr(methylation-specific pcr,msp))、dna测序(如亚硫酸氢盐测序(bisulfite sequencing,bs)、全基因组甲基化测序(whole-genome bisulfite sequencing,wgbs)、简化甲基化测序(reduced representation bisulfite sequencing,rrbs))、根据标志物设计引物进行pcr或测序、甲基化敏感的限制性内切酶分析法(methylation-sensitive dependent restriction enzymes)、荧光定量法、甲基化敏感性高分辨率熔解曲线法(methylation-sensitivity high-resolution melting,ms-hrm)、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。在一个或多个实施方案中，检测包括检测基因或位点处的任一条链。
[0136]
因此，本发明涉及检测dna甲基化的试剂。本领域周知上述检测dna甲基化的方法中所用的试剂。示例性地，检测dna甲基化的试剂可包含以下的一种或多种：重亚硫酸盐及其衍生物、pcr缓冲液、聚合酶、dntp、引物、探针、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。在涉及dna扩增的检测方法中，检测dna甲基化的试剂包括引物。所述引物序列为甲基化特异的或非特异的。优选地，所述引物的序列包括非甲基化特异的封闭序列(blocker)。封闭序列可以提高甲基化检测的特异性。检测dna甲基化的试剂还可包括探针。通常，探针的序列的5’端标记荧光报告基团，3’端标记淬灭基团。示例性地，所述探针的序列包含mgb(minor groove binder)或者lna(locked nucleic acid)。mgb和lna用于提高tm(melting temperature)值，增加分析的特异性，提高探针设计的灵活性。
[0137]
在示例性的实施方式中，本发明使用简化基因组甲基化测序(rrbs)检测dna甲基化。简化基因组甲基化测序是利用限制性内切酶对基因组进行酶切，经bisulfite处理，对基因组cpg区域进行测序的技术。步骤包括：1、利用限制性内切酶对基因组进行酶切；2、文库构建，包括末端修复、加a尾和接头3、片段长度分选；4、重亚硫酸盐转换；5、pcr扩增；6、测序。本文中，文库用illumina hiseq 2500测序仪进行双端测序，测序量为每个样本35～40m。示例性地，简化基因组甲基化测序所用试剂包括：血浆核酸纯化试剂盒、连接酶、重亚硫酸盐及其衍生物、dntp、聚合酶、引物、无核酸酶水，任选的磁珠、乙酸钠、糖原。
[0138]
本文中，样品来自哺乳动物，优选人。样品可来自任何器官(例如甲状腺)、组织(例如上皮组织、结缔组织、肌肉组织和神经组织)、细胞(例如甲状腺结节活检物)或者体液(例如血液、血浆、血清、组织液、尿液)。通常，只要所述样品包含基因组dna或cfdna(circulating free dna or cell free dna)即可。cfdna称为循环游离dna或者细胞游离dna，是释放到血浆中的降解的dna片段。示例性地，所述样品是甲状腺结节活检物，优选是
细针穿刺活检物。或者，所述样品是血浆或cfdna。
[0139]
本发明还涉及鉴定甲状腺结节性质的试剂盒，包含本文所述，特别是本文第三方面所述的试剂。所述试剂盒还可包含本文所述，特别是第一方面所述的核酸分子作为内标或阳性对照。除了所述试剂和核酸分子之外，试剂盒还包含检测dna甲基化所需的其他试剂。示例性地，检测dna甲基化的其他试剂可包含以下的一种或多种：重亚硫酸盐及其衍生物、pcr缓冲液、聚合酶、dntp、引物、探针、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。
[0140]
本文所述“引物”是指在核苷酸聚合作用起始时，引导合成的一种具有特定核苷酸序列的核酸分子。引物通常是人工合成的两段寡核苷酸序列，一个引物与靶区域一端的一条dna模板链互补，另一个引物与靶区域另一端的另一条dna模板链互补，其功能是作为核苷酸聚合作用的起始点。体外人工设计的引物被广泛用于聚合酶链反应(pcr)、qpcr、测序和探针合成等。通常，引物被设计为扩增的产物长度为50～150bp、60-140、70-130、80-120bp。
[0141]
本文试剂中所含引物可以是基因组测序的引物，例如全基因组测序引物或针对基因组某一区域的测序引物，也可以是用于扩增特定区域的pcr引物或用于扩增区域中一个或多个甲基化位点的pcr引物。
[0142]
例如，检测dna区域所用的引物可以是全基因组测序引物，所述引物可以获得很多扩增产物，这些扩增产物可以包含所述区域或在拼接后包含所述区域。根据全基因组测序结果，在测序后获得该区域中的每个甲基化位点(cpg)的甲基化状态，从而获取整个区域的甲基化水平。
[0143]
又如，检测dna区域所用的引物可以是针对包含该区域的dna进行测序的引物，所述引物可以获得较多扩增产物，这些扩增产物可以包含所述区域或在拼接后包含所述区域。在测序后获得该区域中的每个甲基化位点(cpg)的甲基化状态，从而获取整个区域的甲基化水平。
[0144]
再如，检测dna区域所用的引物可以是扩增该区域中一个或多个甲基化位点的pcr引物。这些引物的扩增产物可以包含区域中某一个或多个或全部甲基化位点，在对扩增产物中包含的甲基化位点进行检测后，获取整个区域的甲基化水平。
[0145]
因此，检测某一区域所用的引物的扩增产物可以仅包含该区域中的一个或多个甲基化位点，也可以同时包含其他区域中的一个或多个甲基化位点。而且检测某一区域所需的引物可为一对或多对，例如1对、2对、3对、4对、5对、6对、7对、8对、9对、10对等，其中任一对引物的扩增产物至少包含该区域中的至少一个甲基化位点。
[0146]
上述引物的描述同样适用于本文所述的其他dna区域。本领域知晓全基因组测序引物或针对特定区域或区域中某一位点的pcr引物的设计方法。
[0147]
本文术语“变体”或“突变体”是指与参照序列相比，通过一个或多个核苷酸的插入、缺失或取代使核酸序列发生变化同时保留其与其他核酸杂交能力的多核苷酸。本文任一实施方案所述的突变体包括与参照序列具有至少70％，优选至少80％，优选至少85％，优选至少90％，优选至少95％，优选至少97％的序列相同性并保留参照序列的生物学活性的核苷酸序列。可采用例如ncbi的blastn计算两条比对的序列之间的序列相同性。突变体还包括在参照序列的和核苷酸序列中具有一个或多个突变(插入、缺失或取代)、同时仍保留
参照序列生物学活性的核苷酸序列。所述多个突变通常指1－10个以内，例如1－8个、1－5个或1－3个。取代可以是嘌呤核苷酸与嘧啶核苷酸之间的取代，也可以是嘌呤核苷酸之间或嘧啶核苷酸之间的取代。取代优选是保守性取代。例如，在本领域中，用性能相近或相似的核苷酸进行保守性取代时，通常不会改变多核苷酸的稳定性和功能。保守性取代例如嘌呤核苷酸之间的(a与g)的互换，嘧啶核苷酸之间的(t或u与c)的互换。因此，在本发明多核苷酸中用来自同一残基替换一个或几个位点，将不会在实质上影响其活性。此外，本发明的变体中所含有的本文所述的甲基化位点未发生突变。即本发明方法检测的是相应序列中的甲基化位点的甲基化情况，对于这些位点之外的碱基可以发生突变。
[0148]
dna或rna的碱基之间可发生转化。本文所述“ct转化”是利用非酶促或酶促方法处理dna，将未修饰的胞嘧啶碱基(c)转化为不与鸟嘌呤结合的碱基(例如尿嘧啶碱基(u))的过程。本文所述“ag转化”是利用非酶促或酶促方法处理dna，将腺嘌呤(a)转化为鸟嘌呤(g)的过程。本领域周知进行转化的非酶促或酶促方法。示例性地，非酶促方法包括亚硫酸氢盐或重硫酸盐处理，例如亚硫酸氢钙、亚硫酸氢钠、亚硫酸氢钾、亚硫酸氢铵、重硫酸钠、重硫酸钾和重硫酸铵等。示例性地，酶促方法包括脱氨酶处理。经转化的dna任选经纯化。适用于本文的dna纯化方法本领域周知。
[0149]
提及胞嘧啶时，“修饰”表示胞嘧啶碱基上的化学基团的引入或除去。在一个或多个实施方案中，修饰是指甲基化。本文所述“甲基化”或“dna甲基化”是指在基因组dna的cpg二核苷酸的胞嘧啶5'碳位共价结合一个甲基基团，成为5-甲基胞嘧啶(5mc)。
[0150]
具体实施方案中，本发明的标志物通过如下方法筛选：(1)收集肿瘤样品和对照样品，其中滤泡状甲状腺肿瘤患者样品包括良性(fta)和恶性甲状腺肿瘤(ftc)组织样品；(2)对样品中的基因组dna进行甲基化检测，与147888个核酸片段(guo et al.(2017))进行比较，找出所检测dna样本中的所有测到的片段；(3)根据文中的mhl计算方法(包括mhl、mhl3、umhl和pdr)，以及的pdr计算方法(landau et al.(2014))，算出每个核酸片段每种计算方法在每个样本中的甲基化评分，筛选出在良恶性甲状腺肿瘤中存在显著差异(矫正p值小于0.05)的片段及其对应算法。
[0151]
在一个或多个实施方案中，与对照样品比较时，对象样品的甲基化水平升高或降低。对所测基因的甲基化水平进行数学分析，获得得分。对于检测的样品而言，当得分大于阈值，则判定结果为阳性，即为恶性结节，否则为阴性，即良性结节。本领域知晓常规数学分析的方法以及确定阈值的过程，示例性的方法是数学模型，例如支持向量机和随机森林模型。例如，对于差异nda甲基化标志物，对两组样本构建支持向量机(svm)和随机森林(random forest，rf)模型，利用模型统计检测结果的准确率，敏感性和特异性以及预测值特征曲线(roc)下面积(auc)，统计测试集样本预测得分。
[0152]
例如，本文可通过下述方法构建随机森林模型：(1)收集甲状腺肿瘤患者的肿瘤组织及其配对瘤旁样本，其中甲状腺肿瘤患者的组织样本包括良性(fta)和恶性甲状腺肿瘤(ftc)组织样品，(2)检测样品基因组dna中候选位点或片段的甲基化水平，使用选自mhl、mhl3、umhl和pdr中的至少一种算法处理所述检测得到的甲基化水平，得到各样品的基因组dna的甲基化信息，即经处理的甲基化水平，(3)使用r语言软件包对各样品的经处理的甲基化水平进行预处理得到横坐标为甲基化标志物，纵坐标为各样品的二维矩阵，(4)根据经处理的甲基化水平在肿瘤样品和对照样品之间是否存在显著差异筛选位点或片段和任选的
其对应算法，(5)根据甲基化标志物的经处理的甲基化水平，使用r语言的caret软件包中的train函数构建滤泡状甲状腺癌良恶性鉴别模型，其为随机森林模型。在r语言环境中，载入caret模块，设置ctcontrol参数：ctrl＝traincontrol(method＝"repeatedcv",savepredictions＝t,classprobs＝t,number＝3,repeats＝10,allowparallel＝true)。
[0153]
示例性的rf模型如下：
[0154]
mod_rf<-train(imputed,used_pheno,method＝'rf',trcontrol＝ctrl)
[0155]
类似地，示例性的svm模型如下：mod_svm<-train(imputed,pheno,method＝'svmradialsigma',trcontrol＝ctrl)
[0156]
其中imputed为标志物二维矩阵；pheno为建模所用样本信息，ftc样本标注为p.ftc，fta样本标注位n.fta。
[0157]
上述两个模型在本文样本中的比较如下：
[0158] 准确性灵敏性特异性aucrf0.96153850.923076910.9940828svm0.653846210.30769230.9349112
[0159]
两种模型的auc均大于0.9，显示了较好的预测能力。其中rf的特异性更好，准确性更高。本文实施例中采用rf模型。
[0160]
模型使用方法如下：使用该模型对滤泡状甲状腺肿瘤进行良恶性评估时，先对待评估的样本进行dna抽提和甲基化测序，然后计算每个样本上述70个甲基化标志物的打分值，以形成一个横坐标为甲基化标志物，纵坐标为样本名的打分矩阵(valmatrix)。如果矩阵中出现确失值(na)，需先将其补齐。之后用r软件包中的randomforest模块进行预测，输入代码为：
[0161]
predict(model,imputed,type＝"response")
[0162]
输出结果为每个样本的良恶性预测结果，其中“n.fta”表示该样本可能为良性肿瘤，“p.ftc”表示该样本为恶性肿瘤的可能性更大。
[0163]
如果想要查看每个样本为恶性肿瘤的可能性，可以用代码：
[0164]
predict(model,imputed,type＝"prob")
[0165]
此外，本发明还揭示了存储计算机程序的计算机可读存储介质，存储介质上所存储的计算机程序运行后执行本文所述的鉴别甲状腺良恶性的方法。结合本文中公开的实施方案描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在asic中。asic可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。
[0166]
实施例
[0167]
下面结合附图和具体实施例对本发明作进一步详细的说明。下列实施例中，未注明具体条件的实验方法，通常按常规条件中所述的方法进行。
[0168]
研究对象
[0169]
良性甲状腺肿瘤患者33人，恶性甲状腺肿瘤患者33人用于筛选标志物和构建模型。26例疑似滤泡状甲状腺癌患者用于甲状腺良恶性鉴别。36例临床病理诊断为恶性潜能未定的甲状腺肿瘤(ump)患者用于评估甲状腺肿瘤的恶性潜能。
[0170]
对于这些对象，手术或穿刺活检取其肿瘤组织。其中大部分组织用作病理检测，少部分组织用qiagen组织dna提取试剂盒抽提全基因组dna进行甲基化分析。
[0171]
简化甲基化测序(rrbs)
[0172]
组织dna抽提
[0173]
1.将组织样本剪碎，置于1.5ml的离心管中，并加入裂解缓冲液和proteinase k，充分振荡混匀后，置于56℃孵育至少一小时，直至组织接近完全裂解。
[0174]
2.加入rnase a，振荡混匀后室温孵育2分钟。加入终止缓冲液，脉冲式振荡混匀15秒，随后70℃孵育10分钟。
[0175]
3.加入无水乙醇，振荡混匀后短暂离心，将全部混合物转管至纯化回收柱，离心1分钟，更换新的废液收集管。
[0176]
4.加入洗涤缓冲液到纯化回收柱中，离心1分钟，弃废液；再次加入洗涤缓冲液到纯化回收柱中，全速离心3分钟，弃废液；全速离心1分钟空甩后丢弃废液收集管。
[0177]
5.将纯化回收柱放入新的1.5毫升离心管中，加入50-100μl洗脱液，室温孵育5分钟后离心1分钟来洗脱dna。
[0178]
6.质检：dna不少于0.5ug
[0179]
dna甲基化文库构建
[0180]
1.阳性对照：与样本dna等量的na12878dna标准样
[0181]
阴性对照：与样本dna等体积的纯水
[0182]
2.dna消化：使用限制性内切酶消化基因组dna和对照样本
[0183]
3.末端修复与加da：使用末端修复和加da专用酶混合液和缓冲液，修复酶切产物dna或ctdna的末端，产生平端，并在平端的3’末端上加上一个da，形成3’的突出，加热酶反应以灭活用于上述反应的酶。
[0184]
4.连接接头序列：在灭活后加入dna连接酶和接头序列，催化加a产物与接头序列之间的连接反应。
[0185]
5.连接产物纯化：使用ampure xp dna纯化磁珠，纯化回收连接产物。
[0186]
6.使用亚硫氰酸钠处理连接产物：在人类基因组dna中甲基化仅发生在胞嘧啶碱基上。使用亚硫氰酸钠处理ctdna后，未被甲基化的胞嘧啶碱基被转化为尿嘧啶(du)，在下一步pcr扩增步骤中被进一步扩增为dt，并在测序结果中被检测出来；而甲基化的胞嘧啶不受亚硫氰酸钠处理影响，仍然为dc，因此在测序结果中仍显示为dc。因此亚硫氰酸钠处理后的连接产物将未甲基化的dc转化为dt，保留甲基化的dc不变，从而为在测序结果中区别两者奠定基础。如前文所述，接头序列中dc均已被甲基化，不受亚硫氰酸钠处理影响
[0187]
7.pcr扩增和产物纯化：pcr方法扩增dna，构建文库；使用ampure xp dna纯化磁珠，纯化回收扩增产物
[0188]
8.质检：使用labchip检测文库的丰度与片段分布
[0189]
a)文库主要信号集中在170-400bp区间，其中峰值在250-350bp左右
[0190]
b)接头二聚体产物形成的尖峰信号应显著低于文库主峰信号
[0191]
c)na12878 dna对应的文库有较强的信号，而阴性对照中应无明显信号
[0192]
9.甲基化文库测序：在使用illumina测序平台对甲基化文库进行测序
[0193]
实施例1，标志物筛选和模型构建
[0194]
甲基化检测：对来自良性甲状腺肿瘤(ftc)患者33人，恶性甲状腺肿瘤(fta)患者33人的样品利用rrbs技术进行甲基化测序和建库。
[0195]
标志物筛选：将甲基化检测结果与guo et al.(2017)中定义的147888个核酸片段进行比较，找出所检测dna样本中的所有测到的片段。根据mhl计算方法(mhl、mhl3、umhl和pdr)和pdr计算方法(landau et al.(2014))，算出每个核酸片段每种计算方法在每个样本中的甲基化评分，筛选出在良恶性甲状腺肿瘤中存在显著差异(矫正p值小于0.05)的片段及其对应算法，得到70组标志物和算法的组合。
[0196]
数据处理：每个样本的测序结果进行质控分析后，将标志物区段的序列挑选出来，并根据每个标志物对应的甲基化值计算方式进行计算，如果有区段内某cpg位点测序深度低于10
×
，则该区段的甲基化值为na。形成样本-标志物的数值矩阵，部分示例性数据见表3：
[0197]
表3 10个甲状腺肿瘤样本的标志物甲基化值矩阵
[0198]
[0199][0200]
构建模型
[0201]
模型构建使用的是本文前面的33例ftc和33例fta的甲基化水平矩阵(markers)，66例样本的分类信息存储为第一列为样本名，第二列为分类信息(ftc名为p.ftc，fta名为n.fta)的矩阵(pheno)。
[0202]
打开r程序包，导入66例样本的分类信息矩阵和相应的甲基化水平矩阵
[0203]
pheno＝read.delim(“分类信息矩阵的存储路径”,sep＝"\t",as.is＝t,header＝t,check.names＝false)
[0204]
markers＝ead.delim(“甲基化水平矩阵的存储路径”,sep＝"\t",as.is＝t,header＝t,check.names＝false)
[0205]
将甲基化水平矩阵转置为行名为样本名称,列名为甲基化标志物名称的矩阵
[0206]
imput＝t(markers)
[0207]
用临近值补充法补上na值
[0208]
library(dmwr)
[0209]
imputed＝knnimputation(imput)
[0210]
设置建模参数
[0211]
library(caret,quietly＝t)
[0212]
ctrl<-traincontrol(method＝"repeatedcv",savepredictions＝t,classprobs＝t,number＝3,repeats＝10,allowparallel＝true)
[0213]
构建随机森林模型
[0214]
mod_rf<-train(imputed,pheno,method＝'rf',trcontrol＝ctrl)
[0215]
存储模型
[0216]
saverds(mod_rf$finalmodel,file.path(“存储路径”,"rfmodelftc.rds"))
[0217]
实施例2，甲状腺良恶性鉴别
[0218]
本实施例利用实施例1构建的模型对26例疑似滤泡状甲状腺癌样品进行甲状腺良恶性鉴别。过程如下：
[0219]
根据实施例1的方法，构建类似表3的26个样品的样本-标志物的数值矩阵。
[0220]
打开r程序包，导入26例待评估样本-标志物的数值矩阵
[0221]
valdata＝read.delim(“样本-标志物矩阵的存储路径”,sep＝"\t",as.is＝t,row.names＝1,header＝t,check.names＝f)
[0222]
将矩阵转置为行名为样本名称,列名为甲基化标志物名称的矩阵
[0223]
imput＝t(valdata)
[0224]
并用临近值补充法补上na值
[0225]
library(dmwr)
[0226]
imputed＝knnimputation(imput)
[0227]
再导入已建立的恶性甲状腺癌潜能的评估模型(rfmodelftc)
[0228]
model＝readrds("rfmodelftc存储路径")
[0229]
之后开始进行模型评估，得出每一例样本是更倾向于恶性或者良性
[0230]
library(randomforest)
[0231]
class＝predict(model,imputed,type＝"response")
[0232]
并计算出每例样本是恶性肿瘤的概率
[0233]
probs＝predict(model,imputed,type＝"prob")
[0234]
将最终结果与病理检测结果进行比较，发现26例样本，仅一例(14号样品)的甲基化标志物模型预测与病理不一致(见表3)，预测灵敏度92.3％，特异性100％，准确性为96.2％，roc曲线下面积auc为0.994(图1)。该结果展现了甲基化标志物对甲基化肿瘤预测结果与临床病理结果的高度一致性。
[0235]
表4 26例甲状腺肿瘤患者的良恶性鉴别
[0236][0237][0238]
实施例3，恶性潜能未定的甲状腺肿瘤的恶性潜能的评估
[0239]
本实施例利用实施例1构建的模型对36例临床病理诊断为恶性潜能未定的甲状腺肿瘤(ump)患者进行甲状腺肿瘤的恶性潜能的评估。
[0240]
样本处理：用qiagen组织dna提取试剂盒抽提全基因组dna后，一部分dna样本进行由18个恶性肿瘤基因形成的基因panel突变检测，包括tert,eif1ax,hras,nras,kras,braf,tp53,pik3ca,pten，gnas,tshr,ctnnb1,akt1和etv6的所有全外显子区域，部分内含子区域，以及部分基因的启动子区域的突变，以及ret,pparg,alk和ntrk1的融合。另外的dna样本进行基于rrbs技术的甲基化测序。
[0241]
根据实施例1的方法，构建类似表3的ump样本的样本-标志物的数值矩阵。
[0242]
打开r程序包，导入ump样本的甲基化标志物数值矩阵
[0243]
valdata＝read.delim(“样本-标志物矩阵的存储路径”,sep＝"\t",as.is＝t,row.names＝1,header＝t,check.names＝f)
[0244]
将矩阵转置为行名为样本名称,列名为甲基化标志物名称的矩阵
[0245]
imput＝t(valdata)
[0246]
并用临近值补充法补上na值
[0247]
library(dmwr)
[0248]
imputed＝knnimputation(imput)
[0249]
再导入已建立的恶性甲状腺癌潜能的评估模型(rfmodelftc)
[0250]
model＝readrds("rfmodelftc存储路径")
[0251]
进行恶性潜能打分：
[0252]
probs＝predict(model,imputed,type＝"prob")
[0253]
根据甲基化打分结果，可以将所有ump样本分为三类(三个风险级别)：1——低风险，甲基化分值为0-0.4；2——中风险，甲基化分值为0.4-0.6；3——高风险，甲基化分值为0.6-1。将甲基化打分结果与基因突变检测结果进行比较(见图2)，7例低风险样本均未检测到恶性突变(0％)，14例中风险样本有5例检测到恶性突变(35.7％)，15例高风险样本有11例检测到突变(73.3％)。高风险组的突变样本比例显著高于低风险组(p＝0.004)，且显著高于中低风险组(p＝0.006)。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于治疗涉及CXCL1功能的疾病的组合物和方法与流程

甲状腺肿瘤良恶性鉴别模型及其应用的制作方法

相关文章

最热文献