一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

MCM3相关乳腺癌生物标志物试剂盒、诊断系统及其相关应用的制作方法

2022-03-08 22:39:05 来源:中国专利 TAG:

mcm3相关乳腺癌生物标志物试剂盒、诊断系统及其相关应用
技术领域
1.本文关于乳腺癌生物标志物试剂盒、诊断系统及其相关应用,具体而言,本文是关于检测来自待测个体的离体样品中tacc3等14个差异表达的基因水平利用该以及试剂盒和/或诊断系统中的应用。


背景技术:

2.乳腺癌是全球范围内女性常见的恶性肿瘤,严重威胁女性健康,全球乳腺癌发病率自20世纪70年代末开始一直呈上升趋势。美国8名妇女一生中就会有1人患乳腺癌。中国不是乳腺癌的高发国家,但不宜乐观,近年我国乳腺癌发病率的增长速度却高出高发国家1~2个百分点。据国家癌症中心和卫生部疾病预防控制局公布的乳腺癌发病数据显示:全国肿瘤登记地区乳腺癌发病率位居女性恶性肿瘤的第1位,女性乳腺癌发病率(粗率)全国合计为42.55/10万,城市为51.91/10万,农村为23.12/10万。根据临床病理分型可将乳腺癌分为luminal a型,luminal b型,her2过表达型和基底细胞型(三阴性乳腺癌),各分子亚型间在基因表达水平,发病年龄,临床特征,恶性程度和治疗敏感度及预后均存在差异,其中尤其以三阴性乳腺癌的恶性程度最高且预后较差。
3.乳腺癌的发生、发展与许多肿瘤标志物的异常表达有关,目前研究较多的乳腺癌肿瘤标志物有:孕激素受体(pr)、血管内皮生长因子(vegf)、雌激素受体(er)、cd44、p53等。但单一乳腺癌肿瘤标志物的检测灵敏度不高,常常存在误诊,导致真正的临床应用非常有限。


技术实现要素:

4.为了解决上述现有技术中的问题,本文通过对特定的tacc3、spag5、ube2t、tnnt1、comp、mfap2、gpr68、pkmyt1、mmp13、crabp2、rab26、ctxn1、hist1h2bc和slc12a8共14个基因的表达式水平进行了检测,提高了对乳腺癌检测的准确性。
5.本文的一个目的在于寻找新的、敏感性及特异性更好的诊断乳腺癌的标记物的组合,检测上述基因的试剂在制备鉴别乳腺癌细胞和/或诊断乳腺癌的诊断系统中的应用。
6.本发明的另一目的在于提供一种基于一组互相关联的诊断标记物所制备的乳腺癌检测试剂盒。
7.本文的另一目的在于提供一种乳腺癌诊断系统,包括检测单元和数据分析单元,所述检测单元用于检测来自待测个体的离体样本中上述14个基因的表达值,获得检测结果;所述数据分析单元用于对检测单元的检测结果进行分析处理。
8.本文的另一目的在于提供一种存储有基于所构建的乳腺癌诊断模型的计算机程序指令的计算机存储介质,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现:基于待测个体的上述14个基因的表达水平值获得个体罹患乳腺癌的诊断分类结果。
9.本文的另一目的在于提供一种计算机设备,包括存储器、处理器及存储在存储器
上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:基于待测个体的上述14个基因的表达水平值获得个体罹患乳腺癌的诊断分类结果。
10.综上所述,本文提供了一组mcm3相关乳腺癌生物标志物与基于该组标志物构建的诊断系统及其相关应用,所建立的包含14个基因的诊断系统经计算机模拟及乳腺癌基因组数据验证皆具有高可信度。与现有的针对乳腺癌的单一诊断标记相比,本文的生物标志物能够进一步提升乳腺癌的诊断灵敏度和精确性。基于本文中诊断标记的高准确性以及检测方法的快速和高可操作性,本文可以通过商业试剂盒以用于乳腺癌的临床快速检验。
附图说明
11.图1所示为本文实施例mcm3关联基因在不同类型肿瘤细胞中的表达量分析示意图;
12.图2所示为本文实施例构建检测模型的流程图;
13.图3所示为本文实施例mcm3关联的差异表达基因与乳腺癌差异表达基因的相关性分析示意图;
14.图4所示为本文实施例乳腺癌诊断系统的结构示意图;
15.图5所示为本文实施例乳腺癌诊断系统的具体结构示意图;
16.图6所示为本文实施例基于机器学习的lasso逻辑回归模型(lasso logistic regression model)分析曲线图;
17.图7a、图7b所示为本文实施例利用计算机模拟数据测试以该组14个基因组成的乳腺癌诊断系统的诊断能力示意图;
18.图8所示为本文实施例利用已发布的乳腺癌基因组数据集测试以该组14个基因组成的乳腺癌诊断模型的诊断能力示意图;
19.图9所示为本文实施例的结构示意图。
具体实施方式
20.为了对本文的技术特征、目的和有益效果有更加清楚的理解,现对本文的技术方案进行以下详细说明,但不能理解为对本文的可实施范围的限定。实施例中未详细注明的操作方法,按照所属领域中的常规操作或厂商说明书的建议操作条件进行。
21.mcm3(minichromosome maintenance deficient 3)是真核生物dna复制解旋酶中的一个组成部分,本文发明人研究发现,mcm3同样参与基因表达调控。如图1所示,mcm3在19种不同的癌症的肿瘤样本和正常样本中都存在显著差异表达的现象,其中mcm3在绝大部分肿瘤样本里过表达,其可能于癌症发展过程中发挥作用。
22.如图2所示为本文实施例构建检测模型的流程图,在本图中描述了构建通过mcm3的14个关联基因作为乳腺癌诊断的标志物组合的筛选过程,由所述检测模型构成的乳腺癌诊断系统可以提供很高的准确率以及可信度,该方法具体包括:
23.步骤201,筛选mcm3关联基因。
24.在本步骤中,鉴于mcm3在细胞生长中的重要作用以及在乳腺癌细胞中的显著过表达,本文发明人通过研究mcm3的基因表达调控功能,利用rna干扰技术敲减和高通量转录组测序技术鉴定,共发现1518个mcm3差异表达基因,这些基因的表达可能受到mcm3的直接或
间接调控,与mcm3的功能可能具有相关性,因此为mcm3关联基因。
25.其中,rna干扰技术敲减和高通量转录组测序技术可以参考现有技术中的方法,当然也可以采用其他的分析方法得到类似的和mcm3相关的差异表达基因,即mcm3关联基因,例如rna干扰技术可以采用crispr-casrx基因编辑技术进行替代;高通量转录组测序技术可以采用基因芯片(genechip)技术替代。
26.步骤202,筛选mcm3关联基因和乳腺癌差异表达基因的相关基因。
27.在本步骤中,通过比对mcm3关联基因与乳腺癌细胞差异表达基因,获得了一个包含168个共同相关基因的列表,如图3所示的韦恩图展示了mcm3相关的1518个差异表达基因和1695个在乳腺癌肿瘤样本和正常样本中差异表达的基因,两者共有168个相关基因。这些基因与mcm3及乳腺癌都存在相关性,部分基因可能代表了乳腺癌细胞的某种特性。
28.步骤203,从所述相关基因中筛选出预测能力较强的基因。
29.在本步骤中,通过对上述168个相关基因进行单基因预测水平筛选(single gene predictive power filtering),将候选的诊断标记物列表进一步缩小为38个基因。
30.具体的,根据前述rna干扰技术敲减和高通量转录组测序技术,通过分析得到mcm3关联基因。为了进一步探寻mcm3关联基因在乳腺癌诊断中的作用,分析了乳腺癌肿瘤样本和正常样本的差异基因,通过和mcm3的关联基因进行分析筛选,得到168个在乳腺癌中差异表达的mcm3的相关基因,它们可能对乳腺癌的早期诊断有贡献。由于差异基因并不一定代表该基因能对区分癌症和正常样本起作用,因此,又对上述相关的168个基因进行接受者操作特征曲线(receiver operating characteristic curve,roc)分析,在一个实施例中将曲线面积(area under the curve of roc,auc)大于阈值(例如0.8)的基因筛选而出,在本例中得到38个基因。通过roc分析滤除预测能力较低的单基因后,得到的38个基因能提高结果的预测效果。
31.步骤204,从预测能力较强的基因中筛选出mcm3中作为乳腺癌的诊断标志物的基因组合。
32.在本步骤中,为进一步缩小诊断标志物组合以便于临床应用,本文利用基于glmnet算法(https://cran.r-project.org/web/packages/glmnet/index.html)的lasso逻辑回归模型(lasso logistic regression model)分析,筛选出一组共14个基因作为乳腺癌的诊断标志物组合。
33.其中,在训练数据集中,包括了多个具有乳腺癌诊断标签(正确分类)的上述38个单基因预测能力大于阈值的mcm3相关的乳腺癌差异基因,即癌症样本或正常样本,采用上述lasso逻辑回归模型可以以很低的错误率筛选出最佳的乳腺癌诊断标志物基因组合,还可以得到拟合的线性回归模型的截距和基因组合中每个基因的权重系数。
34.在其他实施例中,还可以采用前进法,后退法,逐步回归法,logstic线性回归法、甚至枚举法等算法进行上述筛选最佳乳腺癌诊断标志物基因组合,并得到线性回归模型的截距和每个基因的权重系数。
35.上述的基因组合包括14个基因,这14个基因分别是:tacc3、spag5、ube2t、tnnt1、comp、mfap2、gpr68、pkmyt1、mmp13、crabp2、rab26、ctxn1、hist1h2bc、slc12a8。
36.步骤205,根据所述基因组合构建乳腺癌检测模型。
37.在上述步骤中,以该组14个mcm3基因组合为基础构建乳腺癌检测模型,通过上述
的lasso逻辑回归模型可以构建出如下的检测模型,或者还可以通过logstic线性回归生成检测模型:
38.8.2178595 0.0000001
×
tacc3 0.1630247
×
spag5 1.1824652
×
ube2t 0.8529433
×
tnnt1 1.2709300
×
comp 0.4809236
×
mfap2 0.7679371
×
gpr68 0.5655680
×
pkmyt1 0.5373511
×
mmp13-0.5447167
×
crabp2 1.4946474
×
rab26 0.5254629
×
ctxn1 0.5588773
×
hist1h2bc 1.0419111
×
slc12a8。
39.如图4所示为本文实施例乳腺癌诊断系统的结构示意图,在本图中描述了利用上述检测模型构建的诊断系统,该系统中可以通过软件程序实现其中功能模块,或者也可以通过专用芯片或者通用芯片的方式实现其中的功能模块,其中的功能模块可以存在于一台计算机中,也可以存在于多台计算机构成的计算机集群中,所述系统包括:
40.检测单元401,用于检测以下基因表达值,获得检测结果:tacc3、spag5、ube2t、tnnt1、comp、mfap2、gpr68、pkmyt1、mmp13、crabp2、rab26、ctxn1、hist1h2bc和slc12a8;
41.数据分析单元402,用于对检测单元的检测结果进行分析处理。其中,所述数据分析单元对检测结果进行分析处理后输出分类结果。
42.作为本文实施例的一个方面,所述数据分析单元402进一步用于将14个基因表达值配以权重系数,以计算所述离体样本的风险得分。
43.上述的数据分析单元402应用了前述的检测模型对检测得到的待测个体的离体样本中的14个基因表达值进行计算。
44.所述检测可以采用本领域中任何已知的技术检测所述基因。可以在dna水平、rna水平检测本发明所述基因。
45.检测所述基因的试剂包括采用rt-qpcr(定量逆转录聚合酶链式反应)技术或微阵列(microarray)技术用到的材料和/或设备。通过rt-qpcr技术或微阵列(microarray)技术检测所述基因以鉴别及诊断乳腺癌细胞,检测方法快速且具有高可操作性。
46.所述离体样本例如可以是血液、病理组织样品等。
47.作为本文实施例的一个方面,还可以参考图5所示为本文实施例乳腺癌诊断系统的详细结构示意图,所述数据分析单元402进一步包括,预处理模块4021,用于将所述离体样本的基因表达值标准化;
48.计算模块4022,用于将标准化的基因表达值带入到以下检测模型,得到该离体样本的风险得分:
49.风险得分=8.2178595 0.0000001
×
tacc3 0.1630247
×
spag5 1.1824652
×
ube2t 0.8529433
×
tnnt1 1.2709300
×
comp 0.4809236
×
mfap2 0.7679371
×
gpr68 0.5655680
×
pkmyt1 0.5373511
×
mmp13-0.5447167
×
crabp2 1.4946474
×
rab26 0.5254629
×
ctxn1 0.5588773
×
hist1h2bc 1.0419111
×
slc12a8。
50.上述的预处理模块4021对于所述离体样本中的同一个基因表达值进行“z-score”标准化,即减掉均值再除以标准差,可以通过r函数的’scale()’进行标准化,标准化后获得由14个mcm3基因表达值组成的数据集。
51.作为本文实施例的一个方面,所述数据分析单元402还包括,矩阵输入模块4023,用于接收所述预处理模块4021输出的多个所述标准化的基因表达值,将所述标准化的基因表达值以矩阵形式输入到所述计算模块4022。
52.上述的矩阵输入模块4023可以将多个离体样本的标准化基因表达值输入到计算模块中,所述的计算模块可同时对多个离体样品的标准化基因表达值进行分析,以表达矩阵的形式输入计算模块,其中,矩阵的行是不同的离体样品,矩阵的列是14个基因的标准化表达值。
53.作为本文实施例的一个方面,所述数据分析单元402还包括,输出模块4024,用于接收所述计算模块4022输出的风险得分,将大于0和小于0的风险得分转换为诊断分类结果。
54.上述的输出模块4024通过内置的predict函数,输出二分值结果:“0”代表正常样品,“1”代表癌症样品。其内部逻辑如下:根据检测模型对14个基因的标准化表达值的风险得分计算,得分大于0的风险得分输出结果“1”,代表癌症样品;得分小于0的风险得分输出结果“0”,代表正常样品。
55.本文所述的乳腺癌诊断系统,可以是虚拟装置,只要能实现所述检测单元以及数据分析单元的功能即可。所述的检测单元可以是包括各种检测试剂材料和/或检测仪器设备等。所述的数据分析单元可以是任何可以实现对检测单元的检测结果进行分析处理而得出待测个体是否罹患乳腺癌的分析预判结果的运算仪器、模块或是虚拟设备,例如可以是预先存储有基于算法模型的运算程序指令的运算仪器,将检测单元的检测结果输入该运算仪器能得出待测个体是否罹患乳腺癌的分析预判结果或分类结果。
56.根据本文技术方案的验证结果显示,该检测模型对乳腺癌具有显著的诊断能力。计算机模拟数据测试显示该检测模型对模拟癌症细胞的诊断能力高达99%,如图6所示,展示了使用r包“glmnet”的lasso算法,通过交叉验证,对38个auc值大于0.8的潜在标志基因进行进一步筛选的过程,纵坐标代表错误率,横坐标上方数字代表选取的分子标志物组合里基因的个数,点代表该组合下的错误率,上下灰线代表误差范围。可以看到从右到左,随着组合的基因数目增加,模型的错误率在降低。该过程挑选出2个最佳基因组合,如两条灰色虚线所示,其中,如本文实施例中采用lasso回归寻找最佳特征组合时,底层参数选择的标准有两种,一种是使得交叉验证的平均错误率最低,另一种是使得误差在最小值的标准误差内。图中的两条灰色线段分别对应了这两种不同的标准。在图6中展示了在底层参数lambda取不同的值时,交叉验证的平均误差的值,最上方的数字代表在lambda取不同值时,对应的特征组合的特征数目,同样的特征数目对应的特征并不一样。横坐标下面的数字代表底层参数lambda的对数值(log)。
57.此外,利用已公布的乳腺癌基因组数据进行测试,结果显示通过检测模型对计算机模拟数据进行检测,预测准确率高达99%(如图7a所示),其中,通过计算机模型建立包含正常组织和癌细胞组织的模拟数据集,该数据集共包含1022个模拟样品的数据,其中模拟正常样品93个,模拟癌细胞样品929个。利用机器学习算法通过模拟数据集对模型进行训练,训练结果显示模型可以正确分类大于99%的癌细胞样品(926/929)。训练结束后,再利用检测模型的诊断系统对另一测试数据集进行分类,结果显示该诊断系统分类准确率高达99%(179/180)(如图7b所示)。
58.为了进一步证明本文利用了上述检测模型的诊断系统针对真实临床样品依然切实有效,本文收集了公共数据库中已发布的乳腺癌样品基因表达值验证数据集(编号gse42568,包括17个正常组织和104个癌细胞组织的基因组数据),通过上述的检测模型的
诊断系统对该组样品进行诊断和分析,结果显示该诊断系统能够成功诊断出全部104个癌症组织样品,诊断准确度达97.5%(如图8所示),准确度的计算方法是:(14 104)/121=97.5%,敏感度的计算方法是:104/104=100%,特异性的计算方法是:14/17=82.4%,表明本文的诊断系统针对乳腺癌具有显著的诊断能力,表明其具有很高的可信度和应用前景。
59.本文可通过简单的rt-qpcr技术或微阵列(microarray)技术鉴别及诊断乳腺癌细胞。具体而言,在取得新的样品后,采用rt-qpcr技术或微阵列(microarray)技术获得本文中14个诊断标记的基因表达值,然后,通过诊断系统对样品进行鉴定。该系统以不同权重分别将14个基因的表达水平纳入计算,从而得到预测的分类结果(0代表正常样品,1代表癌症样品)。
60.基于本文中诊断标志物及诊断模型的高准确性以及检测方法的快速和高可操作性,本文还可以形成商业试剂盒以用于乳腺癌的临床快速检验。
61.如图9所示为本文实施例乳腺癌诊断系统的结构示意图,在本实施例中,在本实施例中的诊断系统上检测待测个体的离体样本,获得mcm3相应的基因表达值,并对14个基因表达值进行计算分析并输出分类结果,在本实施例中称为计算设备,计算设备902可以包括一个或多个处理设备904,诸如一个或多个中央处理单元(cpu),每个处理单元可以实现一个或多个硬件线程。计算设备902还可以包括任何存储资源906,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储资源906可以包括以下任一项或多种组合:任何类型的ram,任何类型的rom,闪存设备,硬盘,光盘等。更一般地,任何存储资源都可以使用任何技术来存储信息。进一步地,任何存储资源可以提供信息的易失性或非易失性保留。进一步地,任何存储资源可以表示计算设备902的固定或可移除部件。在一种情况下,当处理设备904执行被存储在任何存储资源或存储资源的组合中的相关联的指令时,计算设备902可以执行相关联指令的任一操作。计算设备902还包括用于与任何存储资源交互的一个或多个驱动机构908,诸如硬盘驱动机构、光盘驱动机构等。
62.计算设备902还可以包括输入/输出模块910(i/o),其用于接收各种输入(经由输入设备912)和用于提供各种输出(经由输出设备914))。一个具体输出机构可以包括呈现设备916和相关联的图形用户接口(gui)918。计算设备902还可以包括一个或多个网络接口920,其用于经由一个或多个通信链路922与其他设备交换数据。一个或多个通信总线924将上文所描述的部件耦合在一起。
63.通信链路922可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路922可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
64.本文实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
65.检测以下基因表达值,获得检测结果:tacc3、spag5、ube2t、tnnt1、comp、mfap2、gpr68、pkmyt1、mmp13、crabp2、rab26、ctxn1、hist1h2bc和slc12a8;对所述检测结果进行分析处理。其中,所述数据分析单元对检测结果进行分析处理后输出分类结果。
66.本文实施例提供的计算机设备还可以实现如图2、图3、图6-图8中的处理。
67.本文实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有
计算机程序,该计算机程序被处理器运行时执行上述系统的步骤。
68.本文实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行如图2、图3、图6-图8中的处理。
69.应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
70.还应理解,在本发明实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
71.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
72.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
73.在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
74.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
75.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
76.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
77.本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例
的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献