一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于血清miRNA的胰腺癌诊断的机器学习系统

2022-06-01 12:07:06 来源:中国专利 TAG:
基于血清mirna的胰腺癌诊断的机器学习系统
技术领域
1.本发明属于生物技术与机器学习领域,涉及基于血清microrna结合机器学习方法在胰腺癌诊断判别中的应用。


背景技术:

2.胰腺癌被称为癌中之王,全球总体发病率和死亡率逐年上升,预计在2030年将成为恶性肿瘤的第二大杀手。胰腺癌具有高发病率、高复发转移率、高死亡率、低早期诊断率、低切除率、低药物有效率和低生存率三高四低的特点。胰腺癌防治效果差的主要原因包括病因不清、无法预防,早期诊断困难,早诊率仅为5%。现有治疗手段的效果均已达到瓶颈,短期内难有突破,5年生存率仅为7.2%,胰腺癌患者的5年生存率在恶性肿瘤中最低。
3.检查方法包括b超检查、电子计算机x线断层扫描(ct)、磁共振(mri)、磁共振胰胆管成像(mrcp)、正电子发射断层扫描(pet)、正电子发射断层扫描(pet)以及超声内镜检查(eus)、经口胰管镜(pops)、胰管内超声检查(pidus)等。但由于胰腺位置隐匿,内镜及影像学技术的诊断效果有限。目前,用于胰腺癌诊断和随访的肿瘤标记物有10余种,但迄今为止尚未找到一种对胰腺癌诊断灵敏性和特异性都十分满意的肿瘤标志物。因此各指标单独使用对胰腺癌早期诊断价值不大,可用于判断胰腺癌切除后是否有残余病灶以及复发的监测。常用的肿瘤标志物包括ca19-9、cea(癌胚抗原)。但是,上述肿瘤标记物的灵敏度和特异性相对较低,它们的检测结果还不能作为胰腺癌确诊的指标。
4.microrna为一类长约19-23个核苷酸的单链小核糖核酸(rna)分子,位于基因组非编码区,进化上高度保守,可以通过抑制靶基因的翻译(translation)过程对基因表达进行调节。微小核糖核酸参与正常生理活动,如生物个体发育、组织分化、细胞凋亡以及能量代谢等,也与许多疾病的发生及发展存在着紧密的联系。本团队率先发现血清中microrna在各种环境中表达非常稳定,并且与多种疾病的发生、发展具有极强的相关性;再加上其取材便利,使得血清microrna具备了成为优异生物标志物的潜质,具有良好的开发应用前景。同时,我们的大量实验研究发现人血清中的mir-25与胰腺癌发生具有相关性,基于此发现提出了血清mir-25可以作为一个新的胰腺癌检测靶标,在制备胰腺癌诊断试剂中应用。
5.目前microrna检测方法主要通过荧光定量pcr检测方法。该方法需要测序人员具有一定的分子生物学实验技能。同时不同人员、不同荧光定量pcr仪均会对该检测方法最终的稳定性产生影响。针对该问题,本团队基于发明“一种体外辅助诊断胰腺癌的试剂盒”(cn 104745678 b)所述的一系列检测指标,基于试剂盒上市前后的一系列临床实验数据,开发了一种机器学习的诊断系统,该系统比原方法具有更强的鲁棒性,能有效提高试剂盒的准确性。


技术实现要素:

6.本发明的目的是基于本团队发明“一种体外辅助诊断胰腺癌的试剂盒”(cn 104745678 b)所述的一系列检测指标,基于试剂盒上市前后的一系列临床检测数据,开发
了一种机器学习的诊断系统,用于提高原诊断试剂盒的鲁棒性和准确率。
7.具体的本发明包括以下几个内容:
8.(1)建立胰腺癌诊断信息数据库。收集发明“一种体外辅助诊断胰腺癌的试剂盒”(cn 104745678 b)的关联产品在临床注册阶段时获得的样本数据与上市后临床研究获得的样品数据。准确记录每次实时荧光定量pcr仪的产生的数据,包括:mir-25的ct值(或称为cp值)、内参的ct值(或称为cp值)、mir-25阳性对照ct值(或称为cp值)、mir-25阴性对照ct值(或称为cp值)、mir-25空白对照ct值(或称为cp值)、标准品(包括s1、s2、s3、s4)ct值(或称为cp值)、内参阳性对照ct值(或称为cp值)、内参阴性对照ct值(或称为cp值)、内参空白对照ct值(或称为cp值)、具体的实验批次信息和样品临床信息(是否为胰腺癌)。
9.(2)确定基于机器学习的胰腺癌诊断模型。利用支持向量机(svm)的算法,使用上述数据库的中的数据作为特征,使用这些特征及其相关组合作为输入、样品临床信息(是否为胰腺癌)作为输出,构建胰腺癌的分类模型。
10.(3)建立基于血清mirna的胰腺癌诊断系统。基于mir-25和内参的ct值(或称为cp值)与对应阳性、阴性及空白对照的ct值(或称为cp值)的对比,确定实验样品及过程是否合格,基于模型输出的决定值的分析判定样品为胰腺癌阳性、胰腺癌阴性、或疑似胰腺癌阳性。
11.优选地,在本发明的基于基于血清mirna的胰腺癌诊断的机器学习系统的方法中,所述步骤(2)的确定基于机器学习的胰腺癌诊断模型包括对数据的预处理,包括:
12.(a)基于mir-25与内参ct值(或称为cp值)的数据分布,进行数据的标准化和中心化,包括基于正态分布、二项分布、负二项分布、柏松分布等分布的参数估计方法的标准化和中心化方法。
13.(b)基于标准品、mir-25和内参的ct值(或称为cp值)的标准化。利用标准品计算一个mir-25的ct值(或称为cp值)与已知摩尔浓度的标准曲线,利用该标准曲线标准化mir-25和内参的数值。
14.(c)mir-25与内参ct值(或称为cp值)及其标准化或中心化的数值的相加、相减、相乘及相除。
15.优选地,在本发明的基于基于血清mirna的胰腺癌诊断的机器学习系统的方法中,所述支持向量机算法核函数包括线性核(linear kernel)、多项式核(polynomial kernel)、径向基核函数(radial basis function)、高斯核(gaussian kernel)幂指数核(exponential kernel)、拉普拉斯核(laplacian kernel)、anova核(anova kernel)、二次有理核(rational quadratic kernel)、多元二次核(multiquadric kernel)逆多元二次核(inverse multiquadric kernel)、sigmoid核(sigmoid kernel)及其他可能的核函数。
16.优选地,在本发明的基于基于血清mirna的胰腺癌诊断的机器学习系统的方法中,所述支持向量机算法核函数线性核(linear kernel)。
17.优选地,在本发明的基于基于血清mirna的胰腺癌诊断的机器学习系统的方法中,所述评价指数包括精确度、召回率和f1分数。
18.优选地,在本发明的基于基于血清mirna的胰腺癌诊断的机器学习系统的方法中,所述数据包括杂交探针获得的数据。
19.优选地,在本发明的基于基于血清mirna的胰腺癌诊断的机器学习系统的方法中,
所述数据还包括其他未包括与本发明数据库中的基于mir-25及内参的临床测试数据。
20.基于机器学习的胰腺癌预测模型在一定程度上更充分的利用了原传统方法没有利用到的数据,包括内参数据及相关对照数据。通过充分挖掘这些临床测试数据的内在关联,进一步的消除原有基于血清microrna的胰腺癌诊断试剂盒操作过程中引入的人为噪音对患者病情判别的影响。这种改进对于临床中心开展的胰腺癌的诊断工作具有极大的帮助,也为胰腺癌患者带来了福音。
21.本发明的方法在算法速度、精度、分析结果的准确率上均超过原有方法。另外,本发明还通过增加更多的临床测试结果对机器学习模型进行进一步的改进以提高准确性。
附图说明
22.图1是本发明的主要流程图
具体实施方式
23.以下通过实施例对本发明作进一步的阐述。
24.基于本团队发明“一种体外辅助诊断胰腺癌的试剂盒”(cn 104745678 b)所述的一系列检测指标,基于试剂盒上市前后的一系列临床检测数据,开发了一种机器学习的诊断系统,用于提高原诊断试剂盒的鲁棒性和准确率。
25.实施例1:基于上市前后临床检测数据的胰腺癌机器学习诊断模型建立
26.(1)研究对象为:发明“一种体外辅助诊断胰腺癌的试剂盒”(cn 104745678 b)的关联产品在临床注册阶段时获得的样本数据与上市后临床研究获得的样品数据,包括:mir-25的ct值(或称为cp值)、内参的ct值(或称为cp值)、mir-25阳性对照ct值(或称为cp值)、mir-25阴性对照ct值(或称为cp值)、mir-25空白对照ct值(或称为cp值)、标准品(包括s1、s2、s3、s4)ct值(或称为cp值)、内参阳性对照ct值(或称为cp值)、内参阴性对照ct值(或称为cp值)、内参空白对照ct值(或称为cp值)、具体的实验批次信息和样品临床信息(是否为胰腺癌)。
27.(2)数据预处理:
28.a)根据每个96孔板中标准品(s1、s2、s3和s4)的平均ct值,将平均ct值与标准品对应浓度做线性回归,得到ct值与标准浓度对应的标准曲线。
29.b)对照标准曲线,计算每个样品的实际浓度。
30.c)将内参ct值中心化
31.d)将上述数值进行组合,构建模型训练集。
32.(3)构建基于svm的胰腺癌诊断模型。
33.(4)评估构建模型的分类效果。
34.构建模型的混淆矩阵如表1所示,模型的准确性为91.3%,高于临床注册数据。
35.表1.机器学习模型预测混淆矩阵
36.37.实施例2:基于血清microrna的胰腺癌机器学习诊断系统实际使用。
38.针对血清microrna胰腺癌诊断试剂盒的临床诊断数据,利用已开发机器学习诊断系统,可以有效的提高模型准确性。本实施例采用在一批因样品采集问题原试剂盒产品诊断结果大幅度下降的样品作为对照。
39.具体过程如下:
40.(1)将临床检测的样本数据包括mir-25的ct值(或称为cp值)、内参的ct值(或称为cp值)、mir-25阳性对照ct值(或称为cp值)、mir-25阴性对照ct值(或称为cp值)、mir-25空白对照ct值(或称为cp值)、标准品(包括s1、s2、s3、s4)ct值(或称为cp值)、内参阳性对照ct值(或称为cp值)、内参阴性对照ct值(或称为cp值)、内参空白对照ct值(或称为cp值)作为数据输入录入机器学习诊断系统。
41.(2)基于诊断系统输出预测结果与原方法进行对比。
42.结果如表2所示,基于支持向量机的机器学习诊断系统大幅度提升判别准确性。
43.表2.机器学习诊断系统与原方法诊断对比
44.
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献