一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种结直肠癌检测的生物标志物及其应用的制作方法

2022-07-16 23:03:11 来源:中国专利 TAG:


1.本发明涉及医学领域,具体而言,涉及利用代谢组学筛选结直肠癌的生物标志物并用于结直肠癌的诊断,尤其涉及一种通过检测尿液样本来预测结直肠癌发生风险的生物标志物。


背景技术:

2.代谢组学(metabolomics)是对机体中相对分子量小于1000的小分子代谢物进行定性和定量分析的一门学科。通过代谢组学分析可以反映机体的生理和病理状况,也可以区分不同个体间的差异。随着质谱技术的发展,液相色谱与质谱联用技术(lc-ms)已成为代谢组学研究中最主要的研究工具。目前,代谢组学已经广泛应用与临床诊断领域,主要是发现与疾病诊断与治疗相关的代谢标志物。
3.结直肠癌(crc)在全球和我国都是最常见的恶性肿瘤之一。2018年中国癌症统计报告显示,我国结直肠癌发病率、死亡率在全部恶性肿瘤中分别位居第3位和第5位,其中新发病例37.6万,死亡病例19.1万。而根据2020年《中国结直肠癌早诊早治专家共识》,我国结直肠癌的发病率已跃居城市恶性肿瘤发病率第2位(33.17/10万),死亡率第4位(15.98/10万)。农村地区恶性肿瘤发病率(19.71/10万)和死亡率(9.68/10万)第5位。几乎全国所有肿瘤登记地区的结直肠癌发病率均在逐年上升。结直肠癌的防治经历长期基础研究和临床实践已经取得一定的进步,但总的五年生存率仍较低,原因包括缺乏有效的能早期预示crc发生风险的生物标记物。因此提高结直肠癌总体生存率的关键还是在于早发现和早治疗。
4.目前,对结直肠癌的诊断主要还是基于肠镜和影像学。在癌症生物标记物的研究发现过程中,基于系统生物学的各种组学(omics)技术也发挥着重要的作用。基于基因组学和蛋白质组学研究结果发现的生物标志物在癌症研究中已有应用,比如针对结直肠癌的kras基因突变及bmp3/ndrg4基因甲基化检测的基因诊断体外诊断试剂盒“kras基因突变及bmp3/ndrg4基因甲基化和便隐血联合检测试剂盒(pcr荧光探针法-胶体金法)”已于2020年11月9日获得国家药监局批准上市,应用于对肠镜依从性差的结直肠癌高风险人群的筛查。
5.近年来代谢组学研究产生的大量研究成果正越来越广泛地见诸于各种学术期刊中。2014年,cross et al.对254例结直肠癌病人和匹配的254例无病对照人群进行了血清的代谢组学研究。从鉴定到的447个血清代谢物中没有筛选到具体确定哪些血清代谢物和直肠癌风险有直接的关联,但是一个有趣的发现是,女性群体中,胆汁酸中的甘氨鹅脱氧胆酸(glycochenodeoxycholate)的含量和直肠癌的风险呈显著正相关。在另外一个针对结直肠癌的代谢组学研究中,long et al.首先对30例crc患者和30例健康对照人的血清进行了非靶向的代谢组学研究。以上这些为数不多针对crc的早期发现和预警的研究从理论上证明了通过代谢组学技术发现crc相关代谢生物标志物的可行性。但目前已经报道的针对结直肠的代谢生物标记物所需样品类型都是血样,而针对结直肠癌风险的基因检测则需用到粪便样品,在样品收集的无创性和简易性方面都不具备优势。
6.因此急需找到一种能方便快捷地无创取样,并能早期预测个体是否具结直肠癌风
险的生物标记物,从而能够实现更高效地评估结直肠癌风险。


技术实现要素:

7.针对现有技术中存在的问题,本发明提供了一种结直肠癌检测的生物标志物,利用代谢组学的方法,通过分析结直肠癌症患者和正常人的尿液中具有显著性差异的代谢物,筛选出系列能早期预示结直肠癌(crc)发生风险的生物标记物,并从中进一步筛选出一组生物标志物构建结直肠癌的诊断模型,可用于便捷、无创、高效地预测个体是否患结直肠癌,满足临床所需。
8.一方面,本发明提供了一种生物标志物在制备预测个体是否是结直肠癌的试剂中的用途,所述生物标志物选自如下的一种或多种:2-哌啶酮、3-羟氨苯甲酸、3-羟基吲哚硫酸盐、4-羟基苯乙酰谷氨酰胺、4-羟苯基丙酮酸、5-羟基吲哚葡糖苷、6-羟基吲哚硫酸盐、二甲基胍戊酸、n-乙酰-戊二胺、n-甲酰甲硫氨酸、烟酰胺、烟酰胺-n-氧化物、n-甲基-4-氨基丁酸、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酸、苯乙酰谷氨酰胺、苯乙酰组氨酸、苯乙酰甲硫氨酸、苯乙酰丝氨酸、苯乙酰氨基乙磺酸、苯乙酰苏氨酸、三甲胺-n-氧化物、黄嘌呤、三羟甲基氨基甲烷醋酸盐。
9.本发明通过非靶向代谢组学研究,用uplc-ms/ms超高效液相色谱-串联质谱联用方法分析健康组和结直肠癌病人组两组尿液样品,再通过random forest、pls-da、差异检验和svm四种统计学方法分别筛选在结直肠癌样品和对照样品之间有显著差异的代谢物,选取在四种统计分析方法中都被筛选到的显著差异代谢物,最终得到26个尿液代谢物,作为生物标志物,可用于高效预测个体是否结直肠癌。
10.在一些方式中,所述可用于预测个体是否是结直肠癌试剂的生物标志物,可以生物标志物为检测目标制备检测试剂,例如样品前处理试剂、抗原或抗体等适用于所述生物标志物检测的生物试剂及试剂盒;也可以开发成适用于所述生物标志物lc-uv或lc-ms检测的标准化试剂或试剂盒等。
11.在一些方式中,本发明的所述生物标志物是通过尿液样本筛选获得的,尤其适于开发成用于结直肠癌预测的尿液检测试剂或试剂盒等。
12.在一些方式中,当选取的生物标志物为氨基酸或氨基酸衍生物或含有氨基时,如4-羟基苯乙酰谷氨酰胺、n-乙酰-戊二胺、n-甲酰甲硫氨酸、n-甲基-4-氨基丁酸、苯乙酰丙氨酸、苯乙酰谷氨酸、苯乙酰组氨酸、苯乙酰甲硫氨酸、苯乙酰丝氨酸、苯乙酰氨基乙磺酸、苯乙酰苏氨酸,可结合pitc法或aqc法或opa法或fmoc法等氨基酸分析法制备适用于氨基酸分析仪使用或lc-uv使用的用于检测这些生物标志物的试剂或试剂盒。
13.进一步地,所述生物标志物选自如下的一种或多种:4-羟苯基丙酮酸、二甲基胍戊酸、n-甲基-4-氨基丁酸、烟酰胺、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酰胺、苯乙酰甲硫氨酸、苯乙酰苏氨酸、3-羟氨苯甲酸、5-羟基吲哚葡糖苷、苯乙酰谷氨酸、苯乙酰组氨酸、2-哌啶酮、n-甲酰甲硫氨酸、苯乙酰氨基乙磺酸、3-羟基吲哚硫酸盐、6-羟基吲哚硫酸盐、三甲胺-n-氧化物。
14.通过考察生物标志物在结直肠癌症患者和正常人的尿液中的浓度差异,根据差异的倍数进行排序,从26个生物标志物中进一步选出结直肠癌症患者和正常对照之间变化倍数最大的20个生物标志物(理论上这些变化倍数大的化合物会是最有效的标志物),可用于
更有效地区分或预测结直肠癌的风险,或用于构建结直肠癌的诊断模型。
15.进一步地,所述生物标志物选自如下的一种或多种:4-羟苯基丙酮酸、二甲基胍戊酸、n-甲基-4-氨基丁酸、烟酰胺、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酰胺、苯乙酰甲硫氨酸、苯乙酰苏氨酸。
16.通过考察生物标志物在结直肠癌症患者和正常人的尿液中的浓度差异,根据差异的倍数进行排序,从26个生物标志物中进一步选出结直肠癌症患者和正常对照之间变化倍数最大的10个生物标志物(理论上这些变化倍数大的化合物可能会是最有效的标志物),可用于更有效地区分或预测结直肠癌的风险,或用于构建结直肠癌的诊断模型。
17.进一步地,所述生物标志物选自如下的一种或多种:4-羟苯基丙酮酸、n-甲基-4-氨基丁酸、对甲酚硫酸盐、苯乙酰甲硫氨酸、苯乙酰苏氨酸。
18.通过考察生物标志物在结直肠癌症患者和正常人的尿液中的浓度差异,根据差异的倍数进行排序,从26个生物标志物中进一步选出结直肠癌症患者和正常对照之间变化倍数最大的5个生物标志物(理论上这些变化倍数大的化合物可能会是最有效的标志物),可用于更有效地区分或预测结直肠癌的风险,或用于构建结直肠癌的诊断模型。
19.进一步地,所述生物标志物选自如下的一种或多种:对甲酚硫酸盐、苯乙酰苏氨酸。
20.通过考察生物标志物在结直肠癌症患者和正常人的尿液中的浓度差异,根据差异的倍数进行排序,从26个生物标志物中进一步选出结直肠癌症患者和正常对照之间变化倍数最大的2个生物标志物(理论上这些变化倍数大的化合物可能会是最有效的标志物),可用于更有效地区分或预测结直肠癌的风险,或用于构建结直肠癌的诊断模型。
21.进一步地,所述试剂用于检测尿液中的生物标志物。
22.本发明从尿液筛选到结直肠癌的生物标志物,这些生物标志物在结肠癌患者和非结肠癌患者的尿液中存在显著性差异,通过收集尿液样本,即可通过检测个体尿液中这些生物标志物来预测或辅助诊断该个体是否有结直肠癌或患有结直肠癌的可能性,或者可以检测某一群体尿液中的这些生物标志物,进而将该群体分为结直肠癌组或非结直肠癌组。相对于血液和粪便,尿液收集具有无创和简便的特点,将尿液生物标志物用于制备结直肠癌的诊断试剂中或结直肠癌的诊断时会具有更大的优势和前景。
23.进一步地,所述检测尿液中的生物标志物为检测个体的尿液样本中生物标志物的有无或相对丰度或浓度。
24.在一些方式中,优选采用相对丰度来表示,所述相对丰度为高效液相色谱-串联质谱获得的检测图谱中该生物标志物的峰面积。比如某个生物标志物在对照样品(未患结肠癌的个体)里测出的平均峰面积是500,在大肠癌样品里测出的平均峰面积是3000,那么就认为该生物标志物在大肠癌样本中的丰度是对照样本中的6倍。
25.另一方面,本发明提供了一种用于预测个体是否是结直肠癌的试剂盒或芯片,该试剂盒或芯片中包括如上所述的生物标志物的检测试剂。
26.进一步地,所述试剂用于检测尿液中的生物标志物。
27.再一方面,本发明提供了一种用于预测个体是否是结直肠癌的生物标志物组合,所述生物标志物组合包括如下的生物标志物:4-羟苯基丙酮酸、二甲基胍戊酸、n-甲基-4-氨基丁酸、烟酰胺、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酰胺、
苯乙酰甲硫氨酸、苯乙酰苏氨酸。
28.进一步地,所述生物标志物组合,包括如下的生物标志物:2-哌啶酮、3-羟氨苯甲酸、3-羟基吲哚硫酸盐、4-羟基苯乙酰谷氨酰胺、4-羟苯基丙酮酸、5-羟基吲哚葡糖苷、6-羟基吲哚硫酸盐、二甲基胍戊酸、n-乙酰-戊二胺、n-甲酰甲硫氨酸、烟酰胺、烟酰胺-n-氧化物、n-甲基-4-氨基丁酸、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酸、苯乙酰谷氨酰胺、苯乙酰组氨酸、苯乙酰甲硫氨酸、苯乙酰丝氨酸、苯乙酰氨基乙磺酸、苯乙酰苏氨酸、三甲胺-n-氧化物、黄嘌呤、三羟甲基氨基甲烷醋酸盐。
29.再一方面,本发明提供了一种预测个体是否是结直肠癌的系统,所述系统包括数据分析模块;所述数据分析模块用于分析生物标志物的检测值,所述生物标志物为选自如下的一种或多种:2-哌啶酮、3-羟氨苯甲酸、3-羟基吲哚硫酸盐、4-羟基苯乙酰谷氨酰胺、4-羟苯基丙酮酸、5-羟基吲哚葡糖苷、6-羟基吲哚硫酸盐、二甲基胍戊酸、n-乙酰-戊二胺、n-甲酰甲硫氨酸、烟酰胺、烟酰胺-n-氧化物、n-甲基-4-氨基丁酸、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酸、苯乙酰谷氨酰胺、苯乙酰组氨酸、苯乙酰甲硫氨酸、苯乙酰丝氨酸、苯乙酰氨基乙磺酸、苯乙酰苏氨酸、三甲胺-n-氧化物、黄嘌呤、三羟甲基氨基甲烷醋酸盐。
30.进一步地,所述生物标志物选自如下的一种或多种:4-羟苯基丙酮酸、二甲基胍戊酸、n-甲基-4-氨基丁酸、烟酰胺、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酰胺、苯乙酰甲硫氨酸、苯乙酰苏氨酸、3-羟氨苯甲酸、5-羟基吲哚葡糖苷、苯乙酰谷氨酸、苯乙酰组氨酸、2-哌啶酮、n-甲酰甲硫氨酸、苯乙酰氨基乙磺酸、3-羟基吲哚硫酸盐、6-羟基吲哚硫酸盐、三甲胺-n-氧化物。
31.进一步地,所述生物标志物选自如下的一种或多种:4-羟苯基丙酮酸、二甲基胍戊酸、n-甲基-4-氨基丁酸、烟酰胺、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酰胺、苯乙酰甲硫氨酸、苯乙酰苏氨酸。
32.进一步地,所述生物标志物的检测值为检测尿液中的生物标志物的检测值。
33.进一步地,所述生物标志物的检测值为检测个体的尿液样本中生物标志物的有无或相对丰度或浓度。
34.进一步地,所述数据分析模块采用随机森林或逻辑回归方程来构建模型进行分析。
35.进一步地,所述数据分析模块通过将生物标志物的检测值代入逻辑回归方程,计算预测个体是否是结直肠癌的预测值,从而评估个体是否是结直肠癌。
36.进一步地,所述逻辑回归方程为:z=4-羟苯基丙酮酸*0.037986 二甲基胍戊酸*0.4818-n-甲基-4-氨基丁酸*1.0077-烟酰胺*1.525-对甲酚葡萄糖醛酸盐*0.0353-对甲酚硫酸盐*0.021798-苯乙酰丙氨酸*0.1902 苯乙酰谷氨酰胺*0.858-苯乙酰甲硫氨酸*0.118805 苯乙酰苏氨酸*0.59727 0.7486;其中,e为自然对数之底数;p表示预测个体是否是结直肠癌的预测值。
37.e是自然对数的底数,是一个无限不循环小数,其值是2.71828
……
,是这样定义的:当n-》∞时,(1 1/n)n的极限()。
38.其中,生物标志物名称代表尿液样本中相应生物标志物的相对丰度,也就是经高效液相色谱-串联质谱获得的检测图谱中该生物标志物的峰面积。
39.进一步地,当p大于0.5,预测个体是结直肠癌的可能性高;当p小于0.5,预测个体是结直肠癌的可能性低。
40.再一方面,本发明提供了如上所述的系统用于构建预测个体是否是结直肠癌的概率值的检测模型的用途。
41.本发明的有益效果为:1、筛选到26个全新的能早期预示结直肠癌(crc)发生风险的生物标记物;2、筛选出2、3、5、10、20、26种生物标志物构建结直肠癌的随机森林诊断模型,发现采用10种生物标志物构建结直肠癌的模型最优;3、比较采用10种生物标志物构建的随机森林模型和逻辑回归模型,发现逻辑回归模型能进一步提高检测准确率,可用于更高效地预测个体是否患结直肠癌,auc值达到0.957;4、 仅需通过尿液收集样本进行检测,无创且更便捷,相比通过血清或粪便样本检测,具有更大的优势和前景。
附图说明
42.图1为实施例1中的通过代谢组学筛选尿液中生物标志物的流程图;图2为实施例1中的3-羟基吲哚硫酸盐的结构式;图3为实施例1中的4-羟基苯乙酰谷氨酰胺的结构式;图4为实施例1中的5-羟基吲哚葡糖苷的结构式;图5为实施例1中的苯乙酰谷氨酸的结构式;图6为实施例1中的苯乙酰组氨酸的结构式;图7为实施例1中的苯乙酰甲硫氨酸的结构式;图8为实施例1中的苯乙酰苏氨酸的结构式;图9为实施例2中从26种生物标志物中的分别选择2、3、5、10、20、26种生物标志物来构建结直肠癌诊断模型的预测准确性比较示意图;图10为实施例2中构建的预测是否结直肠癌的随机森林模型的roc曲线;图11为实施例2中预测是否结直肠癌的随机森林模型的分析图谱;图12为实施例2中构建的预测是否结直肠癌的逻辑回归模型的roc曲线;图13为实施例2中预测是否结直肠癌的逻辑回归模型的分析图谱;图14为实施例3中预测是否结直肠癌模型的准确性评估结果。
具体实施方式
43.下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实
施例旨在便于对本发明的理解,而对其不起任何限定作用。本实施例中使用的试剂均为已知产品,通过购买市售产品获得。
44.实施例1利用代谢组学筛选尿液中结直肠癌的生物标志物本实施例首先通过非靶向代谢组学研究,用uplc-ms/ms超高效液相色谱-串联质谱联用方法分析健康组和结直肠癌病人组两组尿液样品。其次,通过randomforest、pls-da、volcano和svm四种统计学方法分别筛选在结直肠癌样品和对照样品之间有显著差异的代谢物,选取在四种统计分析方法中都被筛选到的显著差异代谢物,最终得到26个尿液代谢物,作为生物标志物,并验证这些生物标志物在结直肠癌诊断或区分中的作用(流程图见图1)。
45.具体步骤如下:1、实验方法

样本收集收集结直肠癌病人和对照个体(非结直肠癌个体)的尿液样品,各50例。其中,结直肠癌病人是经过肠镜检确认患有结直肠癌的个体。
46.②
样本处理按照1:4的比例,向尿液样品中加入甲醇,振荡3分钟混匀后,于20℃4000
×
g离心10分钟。从每个样品中取4份各100μl上清至4个样品板中,氮气吹干,加入复溶液用于后续lc-ms/ms检测。
47.③
lc-ms/ms检测及数据处理从lc-ms/ms检测得到的原始质谱数据提取m/z离子,搜索数据库检索鉴定代谢物,检查代谢物色谱峰积分得到峰面积,并进行数据归一化和缺失值填充,得到的数据矩阵进行后续生信分析,包括randomforest(随机森林),pls-da(偏最小二乘法),volcano(火山图)和svm(支持向量机)四种统计学方法,分别筛选在结直肠癌样品和对照样品之间对样本分组最有效的差异代谢物排名名单。最后,再选取在四种方法中都被筛选到的代谢物作为结直肠癌的生物标志物。
48.2、实验结果通过randomforest,pls-da,差异检验和svm四种统计学方法分别筛选到32、41、35、52种差异代谢物,其中在四种数据分析方法中都被筛选到的代谢物有26种,即26种生物标志物,如表1所示。
49.表1、25种结直肠癌生物标志物
实施例2:结直肠癌预测模型本实施例利用实施例1中筛选出的单个生物标志物或多个生物标志物的组合建立结直肠癌的预测或诊断模型。这些模型用于区分结直肠癌和非结直肠癌,或者从群体中筛选出结直肠癌患者,或者用于预测个体是否是结直肠癌患者或个体得结直肠癌的可能性,具体模型如下。
50.、单一生物标志物应用r语言软件处理数据。根据结直肠癌患者和非结直肠癌人群分组,判断结直肠癌患者和非结直肠癌人群的尿液样本中26种生物标志物的浓度变化,将所有检测结果进行lasso回归分析建立预测个体是否结直肠癌的数学模型,采用校准曲线及roc曲线法评价回归模型效能。
51.分析结果证明,26种生物标志物与是否患结直肠癌具有明显相关性,分析结果如表2和表3所示。
52.表2、26种生物标志物与是否患结直肠癌相关性检测结果比较
表3、单一生物标志物roc分析结果
26种生物标志物的浓度变化与是否患结直肠癌的关联性的高低,可以通过表2中的or值、p-value等来区分,也可以通过表3的auc值等来区分,其中or值和auc值最为直观和明显。or值越高,代表患结直肠癌人群相对于非结直肠癌人群,对该指标的影响越大,指标暴露约明显。auc值越高,表示该生物标志物越能准确区分结直肠癌人群和非结直肠癌人群。
53.由表2可以看出,26种生物标志物与的浓度变化与是否患结直肠癌都具有明显的关联性,其中苯乙酰谷氨酰胺的关联性最高,or值达到2.36,其次为苯乙酰苏氨酸,or值达到1.82。
54.由表3可以看出,单独采用26种生物标志物中的任意一种的浓度变化,用于区分结直肠癌人群和非结直肠癌人群,其auc值都能达到0.63以上,都具有较高的准确性,其中auc值最高的为苯乙酰谷氨酰胺,auc值达到0.7876,其次为对甲酚葡萄糖醛酸盐,auc值达到0.7836。
55.、多种生物标志物的组合利用单一的生物标志物虽然也能区分结直肠癌与非结直肠癌尿液样本或进行结
直肠癌的预测,但一般来说将多种生物标志物进行组合,其区分或预测的准确性更高。
56.但是,预测结直肠癌准确性更高的单一生物标志物,在与其他一种或多种生物标志物组合后,其在该组合中起的作用不一定越大,同时也并非生物标志物的个数越多,其组合的预测准确性(auc值)就越高,因此还需要进行大量验证实验。
57.由于生物标志物的auc和or值偏向于评估变量在统计模型中的相对重要性,并不适合用于优选变量来构建模型,因此本实施例优选采用结直肠癌与非结直肠癌尿液样本中浓度差异倍数最高的2、3、5、10、20、26种生物标志物用于构建结直肠癌的诊断模型,26种生物标志物在结直肠癌与非结直肠癌尿液样本中的浓度差异倍数(fold change,fold change=疾病样本的表达均值除以正常样本的表达均值),由高到低进行排名,结果如表4所示。
58.表4、26种生物标志物在结直肠癌与非结直肠癌尿液样本中的浓度差异倍数排名根据表4提供的26种生物标志物在结直肠癌与非结直肠癌尿液样本中的浓度差异倍数,本实施例分别选取26种生物标志物中的2、3、5、10、20、26种生物标志物,通过随机森
林来构建结直肠癌的诊断模型。
59.其中,2种生物标志物为表4中的排名第1和第2的两种生物标志物(对甲酚硫酸盐和苯乙酰苏氨酸),构建的随机森林模型中,对甲酚硫酸盐的信息增益比(gini系数)为25.31,平均下降精度(meandecreaseaccuracy)为21.17;苯乙酰苏氨酸的gini系数为24.22,平均下降精度为16.71。
60.3种生物标志物为表4中的排名第1到第3的三种生物标志物,构建的随机森林模型中,对甲酚硫酸盐的gini系数为15.43,平均下降精度为16.37;苯乙酰苏氨酸的gini系数为15.75,平均下降精度为15.04;n-甲基-4-氨基丁酸的gini系数为18.33,平均下降精度为24.42。
61.5种生物标志物为表4中的排名第1到第5的五种生物标志物,构建的随机森林模型中,对甲酚硫酸盐的gini系数为7.86,平均下降精度为10.99;苯乙酰苏氨酸的gini系数为6.39,平均下降精度为5.58;n-甲基-4-氨基丁酸的gini系数为13.73,平均下降精度为25.36;4-羟苯基丙酮酸的gini系数为10.43,平均下降精度为45.38;苯乙酰甲硫氨酸的gini系数为11.05,平均下降精度为18.74。
62.10种生物标志物为表4中的排名第1到第10的十种生物标志物,构建的随机森林模型中,对甲酚硫酸盐的gini系数为3.64,平均下降精度为7.56;苯乙酰苏氨酸的gini系数为2.46,平均下降精度为4.80;n-甲基-4-氨基丁酸的gini系数为8.04,平均下降精度为18.60;4-羟苯基丙酮酸的gini系数为6.25,平均下降精度为12.60;苯乙酰甲硫氨酸的gini系数为6.26,平均下降精度为12.85;对甲酚葡萄糖醛酸盐的gini系数为5.20,平均下降精度为11.07;烟酰胺的gini系数为6.56,平均下降精度为12.51;苯乙酰丙氨酸的gini系数为3.18,平均下降精度为6.30;苯乙酰谷氨酰胺的gini系数为4.47,平均下降精度为6.83;二甲基胍戊酸的gini系数为3.43,平均下降精度为9.16。
63.20种生物标志物为表4中的排名第1到第20的20种生物标志物,构建的随机森林模型中,对甲酚硫酸盐的gini系数为2.36,平均下降精度为6.21;苯乙酰苏氨酸的gini系数为1.73,平均下降精度为4.02;n-甲基-4-氨基丁酸的gini系数为5.92,平均下降精度为16.23;4-羟苯基丙酮酸的gini系数为4.10,平均下降精度为9.28;苯乙酰甲硫氨酸的gini系数为3.79,平均下降精度为10.13;对甲酚葡萄糖醛酸盐的gini系数为3.77,平均下降精度为9.49;烟酰胺的gini系数为4.67,平均下降精度为11.61;苯乙酰丙氨酸的gini系数为2.26,平均下降精度为5.84;苯乙酰谷氨酰胺的gini系数为2.67,平均下降精度为7.71;二甲基胍戊酸的gini系数为2.00,平均下降精度为7.77;3-羟氨苯甲酸的gini系数为2.03,平均下降精度为4.32;5-羟基吲哚葡糖苷的gini系数为2.69,平均下降精度为5.66;苯乙酰谷氨酸的gini系数为1.59,平均下降精度为4.38;苯乙酰组氨酸的gini系数为1.62,平均下降精度为4.96;2-哌啶酮的gini系数为1.57,平均下降精度为1.85;n-甲酰甲硫氨酸的gini系数为1.45,平均下降精度为2.81;苯乙酰氨基乙磺酸的gini系数为1.28,平均下降精度为0.79;3-羟基吲哚硫酸盐的gini系数为1.41,平均下降精度为3.51;6-羟基吲哚硫酸盐的gini系数为1.57,平均下降精度为1.93;三甲胺-n-氧化物的gini系数为1.02,平均下降精度为2.61。
64.26种生物标志物为表4中的排名第1到第26的26种生物标志物,构建的随机森林模型中,对甲酚硫酸盐的gini系数为1.69,平均下降精度为7.04;苯乙酰苏氨酸的gini系数为
1.04,平均下降精度为2.80;n-甲基-4-氨基丁酸的gini系数为3.57,平均下降精度为12.93;4-羟苯基丙酮酸的gini系数为2.45,平均下降精度为5.50;苯乙酰甲硫氨酸的gini系数为2.68,平均下降精度为7.68;对甲酚葡萄糖醛酸盐的gini系数为2.61,平均下降精度为8.31;烟酰胺的gini系数为2.56,平均下降精度为8.02;苯乙酰丙氨酸的gini系数为1.47,平均下降精度为4.84;苯乙酰谷氨酰胺的gini系数为1.83,平均下降精度为5.74;二甲基胍戊酸的gini系数为1.34,平均下降精度为3.76;3-羟氨苯甲酸的gini系数为1.14,平均下降精度为4.11;5-羟基吲哚葡糖苷的gini系数为1.76,平均下降精度为4.39;苯乙酰谷氨酸的gini系数为0.88,平均下降精度为3.11;苯乙酰组氨酸的gini系数为1.00,平均下降精度为4.79;2-哌啶酮的gini系数为1.20,平均下降精度为1.80;n-甲酰甲硫氨酸的gini系数为0.79,平均下降精度为2.15;苯乙酰氨基乙磺酸的gini系数为0.58,平均下降精度为2.70;3-羟基吲哚硫酸盐的gini系数为0.96,平均下降精度为3.64;6-羟基吲哚硫酸盐的gini系数为0.73,平均下降精度为2.70;三甲胺-n-氧化物的gini系数为0.74,平均下降精度为2.33;4-羟基苯乙酰谷氨酰胺的gini系数为0.83,平均下降精度为4.61;n-乙酰-戊二胺的gini系数为2.22,平均下降精度为7.72;三羟甲基氨基甲烷醋酸盐的gini系数为2.48,平均下降精度为8.06;黄嘌呤的gini系数为2.70,平均下降精度为8.67;烟酰胺-n-氧化物的gini系数为8.21,平均下降精度为16.94;苯乙酰丝氨酸的gini系数为2.01,平均下降精度为7.16。
65.分别计算如上所述的采用2、3、5、10、20、26种生物标志物构建的6种随机森林诊断模型的auc值和95%cl置信空间,结果如图9所示。
66.由图9可以看出,从26种生物标志物中选择排名最靠前的两种生物标志物构建模型,其auc值仅能达到0.922,95%cl置信区间为0.718-0.999,随着选取生物标志物的数量升高,auc值逐渐上升,95%cl置信区间逐步缩小,当选取10种生物标志物来构建结直肠癌的诊断模型时,auc值达到了0.935,95%cl置信区间为0.842-0.998,而当生物标志物种类数进一步上升到20或26时,auc继续上升的空间非常有限,且置信区间变大;另外,相比20、26种生物标志物,采用10种生物标志物来构建模型,能够减少变量的个数,降低模型的复杂度。因此优选采用表4中排名最靠前的10种生物标志物来构建结直肠癌的诊断模型,不仅能达到非常好的预测准确性,而且模型更简单、便利。
67.以临床已知的42例结直肠癌病人和42例非结直肠癌病人作为总的数据集,检测其尿液样本的生物标志物检测值,通过10种生物标志物的random forest(随机森林)模型进行分析,分析图谱如图11所示,由图11可以看出,采用10种生物标志物构建的random forest(随机森林)模型用于预测结直肠癌时,会存在一定的误差(当然误差是难以避免的),42例结直肠癌病人中,有37例被检出,42例非结直肠癌病人中,有5例被归到结直肠癌病人区,准确率为88%。图11可以看出当预测值p大于0.5,预测个体是结直肠癌的可能性高;当预测值p小于0.5,预测个体是结直肠癌的可能性低。
68.采用fold change排名前10的10种生物标志物,进行多因素回归分析,建立预测个体是否结直肠癌的逻辑回归评估模型:z=4-羟苯基丙酮酸*0.037986 二甲基胍戊酸*0.4818-n-甲基-4-氨基丁酸*1.0077-烟酰胺*1.525-对甲酚葡萄糖醛酸盐*0.0353-对甲酚硫酸盐*0.021798-苯乙酰丙氨酸*0.1902 苯乙酰谷氨酰胺*0.858-苯乙酰甲硫氨酸*0.118805 苯乙酰苏氨酸*0.59727
0.7486;其中,e为自然对数之底数;p表示预测个体是否是结直肠癌的预测值,生物标志物名称代表尿液样本中相应生物标志物的相对丰度,也就是经高效液相色谱-串联质谱获得的检测图谱中该生物标志物的峰面积。
69.本实施例提供的预测个体是否结直肠癌的逻辑回归模型的roc曲线如图12所示,auc值达到0.957,相比10种生物标志物的随机森林模型有明显提高。
70.采用该预测个体是否结直肠癌的逻辑回归模型,以临床已知的50例结直肠癌病人和50例非结直肠癌病人作为总的数据集进行分析,分析结果如图13和表5所示,其中表5、预测个体是否结直肠癌模型分析结果由图13和表5可以看出,采用10种生物标志物构建的预测个体是否结直肠癌的逻辑回归评估模型进行分析,50例结直肠癌病人中,有45例被检出,50例非结直肠癌病人中,有5例被归到结直肠癌病人区,准确率达到90%以上,准确性有所提高。
71.由图13也可以看出,p为0.5时可作为判断的分界点,当p大于0.5,预测个体是结直肠癌的可能性高;当p小于0.5,预测个体是结直肠癌的可能性低。
72.实施例3:预测是否结直肠癌模型的评估本实施例针对实施例2构建的预测是否结直肠癌模型进行临床应用准确性评估,将上述42例结直肠癌病人和42例非结直肠癌病人作为总的数据集,从中随机抽取8例crc病人和正常人(非crc病人),取尿液样本,按实施例1中的样本处理方法,测定模型中10种生物标志物的相对丰度,从而通过模型计算预测值p,预测个体是否结直肠癌,结果如图14所示。
73.由图14可以看出,8例结直肠癌患者全部被检出,8例正常人中有一例被预测为结直肠癌,准确率为93.75%。
74.虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献