一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测方法及系统与流程

2022-03-14 02:03:11 来源:中国专利 TAG:


1.本发明涉及机器学习与医学交叉领域,尤其涉及一种基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测方法及系统,属于机器学习神经网络模型在医疗诊断中的应用。


背景技术:

2.随着医学技术的发展,许多乳腺癌亚型已经找到了有效的治疗方法。然而,对于tnbc患者仍然缺乏有效的治疗。由于缺乏er、pr、her2的表达,他们不能从内分泌治疗和抗her2靶向疗法中获益,其侵袭性强,极易发生远处转移以及局部位置的复发,因此,tnbc患者在标准治疗后复发率较高且预后较差。传统的手术治疗、化疗、放疗以及靶向药物治疗等虽然有一定效果,但远远不能满足治疗需求。近年来,肿瘤免疫疗法用于晚期癌症可达到“临床治愈”效果,成为癌症研究关注的重点领域,其在许多癌症中已显示出了非常有效的治疗效果。 2018年10月,美国免疫学家james allison和日本免疫学家tasuku honjo因其在肿瘤免疫学方面的贡献获得诺贝尔生理学或医学奖,他们的研究提供了一种通过刺激免疫系统的原始能力来对抗肿瘤细胞的方法。此次得奖奠定了肿瘤免疫疗法的重要意义,检查点治疗已经彻底改变了癌症治疗方法,从根本上改变了人类对癌症治疗方式的看法,免疫疗法成为继手术、化疗、放疗、肿瘤靶向治疗后的新一代肿瘤治疗手段。
3.免疫疗法在三阴性乳腺癌患者中取得不错的效果,如2018年在欧洲肿瘤内科学会(esmo)年会上发表的impassion130研究、2019年esmo报道ⅲ期 keynote-522研究。另外,美国食品和药物管理局(fda)在2019年加速批准罗氏旗下genetech公司研发的pd-l1单抗药物阿特珠单抗(atezolizumab) 联合化疗一线治疗无法切除的局部晚期或转移性pd-l1阳性的三阴性乳腺癌 (tnbc),这是三阴性乳腺癌首个获批的免疫疗法。2020年11月13日,fda批准keytruda(pembrolizumab)与化疗联合治疗肿瘤表达pd-l1生物标志物的局部复发或转移性三阴性乳腺癌(tnbc)患者。
4.虽然免疫疗法能取得不错的治疗效果,但并非所有患者都能从免疫疗法中获益,筛选适合免疫治疗的患者成为临床上一个关键的问题。医生与科研工作者这几年也致力于寻找能筛选患者的生物标志物,其中发现肿瘤突变负荷(tmb) 是一个有效的标志物。tmb越高,产生新抗原的数量就越多,作为免疫治疗的识别位点就越多从而使治疗效果越好,利用tmb筛选适合患者在肺癌治疗中已被写入ncnn指南。而在三阴性乳腺癌中,研究发现tnbc与其他亚型乳腺癌相比有更高的突变率。yarchoan等人发现包含乳腺癌在内的27中癌症中, tmb与免疫检查点抑制剂(immune checkpoint inhibitors,icis)的疗效存在正相关。samstein等人研究了在1662名含乳腺癌的10种癌症的免疫治疗数据,首次在多种癌种中证实高tmb的患者接受免疫治疗后的生存率更高,高tmb于较好的总生存期(os)呈正相关。2019年asco会议公布的一项关于tmb评估转移性乳腺癌pembrolizumab单一疗法的ⅱ期tapur研究数据,证实高tmb 的晚期乳腺癌患者可从pembrolizumab疗法中获益。2020年
asco会议中 keynote-119研究最新数据显示tmb是预测tnbc优势人群进行 pembrolizumab联合化疗治疗疗效的有效指标。barroso-sousa等人也在转移性三阴乳腺癌患者中评估tmb与mtnbc抗pd-1/pd-l1治疗效果的相关性,结果显示高tmb与更长的pfs显著相关。valero等人在1678例共16种癌症肿瘤患者中研究tmb与免疫治疗效果的关系,其中在共包含乳腺癌的11种癌症种显示高tmb肿瘤患者的缓解率(response rates,rr)高于低tmb患者的。这些研究表明tmb可作为筛选合适的三阴性乳腺癌免疫治疗患者的生物标志物。
5.临床上测量tmb主要是用全外显子组测序(whole exome sequencing,wes) 技术,但这种测序方法成本高、操作复杂、耗时长,在一般医院难以实现,缺乏普用性,限制免疫治疗作用的发挥。此外,虽然在其他癌种中有利用组织病理图像预测tmb的研究,但是这些研究存在一些问题:利用所有patch预测tmb噪声大,从而导致准确率不高;基于病理医生标注的肿瘤区域的patch用于预测 tmb,过分依赖病理医生的标注。


技术实现要素:

6.本发明提出了一种基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测方法及系统,用于解决或者至少部分解决现有技术中的方法存在的预测准确率不高的技术问题。
7.为了解决上述技术问题,本发明第一方面提供了一种基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测方法,包括:
8.s1:从乳腺癌组织病理图像中筛选出三阴性乳腺癌组织病理全玻片图像wsi;
9.s2:根据每个三阴性乳腺癌患者的基因突变情况,计算每个患者的肿瘤突变负荷值,并根据设定的阈值划分为肿瘤突变负荷高和低两组,分别记为tmb-h 和tmb-l,作为每个患者的wsi对应的标签;
10.s3:将wsi切分为设定大小的块,并进行预处理;
11.s4:根据核分数函数从预处理后的块中筛选出核分数值满足阈值的块;
12.s5:搭建卷积神经网络分类模型,随机初始化分类模型的参数;
13.s6:对核分数值满足阈值的块进行颜色标准化,将进行颜色标准化后的块与对应的标签输入分类模型中训练出tmb分类器,其中,每一个块属于对应的 wsi,块对应的标签为与块对应的wsi的标签;
14.s7:利用训练好的tmb分类器对三阴性乳腺癌肿瘤突变负荷进行预测。
15.在一种实施方式中,步骤s2中根据每个三阴性乳腺癌患者的基因突变情况,计算每个患者的肿瘤突变负荷值,包括:将患者的体细胞蛋白编码区的非同义突变的肿瘤除以蛋白编码区的总长度得到每个患者的肿瘤突变负荷值,单位为 mutations/mb,用以表征蛋白编码区的非同义突变分布的密度。
16.在一种实施方式中,步骤s2中划分肿瘤突变负荷高和低两组时,采用中值划分法,阈值记为m,当患者的tmb值大于m时,该患者为tmb-h组,否则为tmb-l组。
17.在一种实施方式中,步骤s3包括:
18.首先选定wsi的层数,基于该层依次保存设定大小的图像,以将图像切分成块;
19.从切分后的块中去除空白和不规则的块,其中,去除空白块的方法为:对每个patch进行像素均值计算,当该patch的像素均值小于设定阈值时,则保留该 patch,否则丢
弃;去除不规则块的方法为:计算每个patch的长和宽是否等于设定的patch大小,如果相等,则保留,否则丢弃。
20.在一种实施方式中,步骤s4包括:
21.s4.1:将rgb图像转为hed空间,提取出h通道数值;
22.s4.2:用h通道数值分别生成初步的掩码与用于清洗的掩码,其中,初步的掩码通过在h通道上通过多级图像阈值划分得到,用于清洗的掩码通过在h通道上进行多级图像阈值划分和形态学变换操作得到;
23.s4.3:将初步的掩码与用于清洗的掩码相减得到细胞核的掩码;
24.s4.4:计算每张patch的细胞核比率n
t
,该比率为细胞核的掩码的非零像素个数与该掩码的像素总个数的比值;
25.s4.5:生成组织区域的掩码;
26.s4.6:计算组织的比率t
t
,该比率为组织区域的掩码的非零像素个数与整个掩码像数总个数的比值;
27.s4.7:根据每张patch的细胞核比率、组织的比率t
t
,通过核分数函数计算每个patch的核分数值s
t

28.s4.8:根据得到的核分数值进行排序,筛选出核分数满足阈值的块。
29.在一种实施方式中,步骤s4.7中核分数函数为:
30.s
t
=n
t
·
tanh(t
t
),0≤s
t
<1
31.其中,s
t
代表第t个patch的细胞核的分数,n
t
表示在patcht上的细胞核的比率,t
t
表示patcht上组织的比率,patcht表示第t个patch,即第t个块。
32.在一种实施方式中,步骤s5中的分类模型使用resnet18作为特征提取模块,并将最后一层全连接层的输出修改为2。
33.在一种实施方式中,步骤s6中,训练过程根据损失函数与梯度下降法寻找模型最优值,损失函数采用交叉熵损失函数,梯度下降法采用自适应动量估计算法adam。
34.基于同样的发明构思,本发明第二方面提供了一种基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测系统,包括:
35.wsi预处理模块,用于从乳腺癌组织病理图像中筛选出三阴性乳腺癌组织病理全玻片图像wsi;
36.tmb标签生成模块,用于根据每个三阴性乳腺癌患者的基因突变情况,计算每个患者的肿瘤突变负荷值,并根据设定的阈值划分为肿瘤突变负荷高和低两组,分别记为tmb-h和tmb-l,作为每张wsi对应的标签;
37.patch筛选模块,用于将wsi切分为设定大小的块,并进行预处理;以及根据核分数函数从预处理后的块中筛选出核分数值满足阈值的块;
38.训练优化模块,用于搭建卷积神经网络分类模型,随机初始化分类模型的参数,以及对核分数值满足阈值的块进行颜色标准化,将进行颜色标准化后的块与对应的标签输入分类模型中训练出tmb分类器,其中,每一个块属于对应的 wsi,块对应的标签为与块对应的wsi的标签;
39.tmb分类识别模块,用于利用训练好的tmb分类器对三阴性乳腺癌肿瘤突变负荷进行预测。
40.在一种实施方式中,所述系统还包括:报告生成模块,用于将预测结果和对应的wsi进行可视化报告的生成。
41.本技术实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
42.本发明提供的一种基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测方法,一方面,使用组织病理图像即可预测三阴性乳腺癌肿瘤突变负荷,得出tmb高或低的结论,解决了临床上使用wes技术测量tmb成本高、操作复杂、效率低下、缺乏普用性的问题,能快速筛选适合免疫治疗的tnbc 患者,给患者争取更早的治疗时间同时减轻医生的工作负担,另一方面,采用核分数函数对每张wsi的所有patch(块)进行patch内细胞核的打分,分数越高表示细胞核数量越多,取其分数高的一部分patch(即核分数值满足阈值的块) 用于训练分类模型,不需要依赖病理医生人工标注肿瘤区域即可筛选有效的 patch,提高分类准确率同时节省计算资源。
附图说明
43.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
44.图1为本发明实施例使用的tnbc的wsi;
45.图2为本发明实施例中部分切成的patch图;
46.图3是本发明实施例中采用核分数函数筛选的部分patch图;
47.图4是本发明实施例提供的基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测方法的工作流程图;
48.图5是本发明实施例中利用核分数函数筛选块的具体流程图;
49.图6是本发明实施例中核分数函数中细胞核mask的生成流程示意图;
50.图7是本发明实施例中核分数函数中组织区域mask的生成流程示意图;
51.图8是本发明实施例中的基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测系统的模块结构图。
具体实施方式
52.本技术发明人通过大量的研究与实践发现:临床上测量tmb主要是用全外显子组测序(whole exome sequencing,wes)技术,但这种测序方法成本高、操作复杂、耗时长,在一般医院难以实现,缺乏普用性,限制免疫治疗作用的发挥,因此亟需发明一种准确高效且具普用性的tmb测量技术。多项研究已表明基因突变影响组织形态,可在组织病理图像中得到呈现,同时有多项研究已成功从组织病理图像中预测基因突变情况。
53.因此,为了解决tmb预测成本高、耗时长、缺乏普用性的问题,本发明提出一种基于核分数的tnbc组织病理全玻片图像自动预测tmb的方法及系统,实现仅用组织病理图像即可自动得到tmb高或低结论的目的。本发明大大加快了筛选适合tnbc患者的速度及扩展测量tmb的使用范围,辅助医生快速筛选患者,减轻医生工作负担,同时让免疫治疗更大程度
地发挥其作用,具有重要的临床意义。基于调研情况,我们发现本发明是第一个用组织病理图像预测tmb 筛选适合免疫治疗的tnbc患者的发明,具有开创性与前瞻性。
54.虽然在其他癌种中有利用组织病理图像预测tmb的研究,但是这些研究存在一些问题:利用所有patch预测tmb噪声大,从而导致准确率不高;基于病理医生标注的肿瘤区域的patch用于预测tmb,过分依赖病理医生的标注,而本发明解决了以上的问题,不需要病理医生标注肿瘤区域即可达到高准确率的目的。
55.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
56.实施例一
57.本发明实施例提供了一种基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测方法,包括:
58.s1:从乳腺癌组织病理图像中筛选出三阴性乳腺癌组织病理全玻片图像wsi;
59.s2:根据每个三阴性乳腺癌患者的基因突变情况,计算每个患者的肿瘤突变负荷值,并根据设定的阈值划分为肿瘤突变负荷高和低两组,分别记为tmb-h 和tmb-l,作为每个患者的wsi对应的标签;
60.s3:将wsi切分为设定大小的块,并进行预处理;
61.s4:根据核分数函数从预处理后的块中筛选出核分数值满足阈值的块;
62.s5:搭建卷积神经网络分类模型,随机初始化分类模型的参数;
63.s6:对核分数值满足阈值的块进行颜色标准化,将进行颜色标准化后的块与对应的标签输入分类模型中训练出tmb分类器,其中,每一个块属于对应的 wsi,块对应的标签为与块对应的wsi的标签;
64.s7:利用训练好的tmb分类器对三阴性乳腺癌肿瘤突变负荷进行预测。
65.其中,相关术语中英文如下:三阴性乳腺癌(triple negative breast cancer, tnbc),组织病理全玻片图像(whole slide image,wsi),肿瘤突变负荷(tumormutation burden,tmb),块(patch),tmb-h(高肿瘤突变负荷),tmb-l(低肿瘤突变负荷)。
66.需要说明的是,一个患者可能对应一张或多张wsi,同一个患者的wsi只对应一个分组,如假设一个tmb-h的患者有两张wsi,这两张wsi都是tmb-h 的。
67.具体实施过程中,筛选tnbc患者,可以根据病人的雌激素受体(estrogenreceptor,er)、孕激素受体(progestogen receptor,pr)、人类表皮生长因子受体 2(her2)的阳性或阴性的状态筛选,当er、pr、her2均为阴性时,则该患者为tnbc。
68.请参见图4,为本发明实施例提供的基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测方法的工作流程图;请参见图1,为具体实施例使用的tnbc的wsi。
69.在具体应用过程中,本发明使用基于核分数和组织病理全玻片图像自动预测三阴性乳腺癌瘤突变负荷的方法,实现了仅用组织病理图像即可筛选适合免疫治疗的三阴性乳腺癌患者,解决了临床上用全外显子测序技术检测肿瘤突变负荷筛选患者的成本高、普用性差的问题,大大提高肿瘤突变负荷的检测速度,助力于免疫治疗的推进。
70.在一种实施方式中,步骤s2中根据每个三阴性乳腺癌患者的基因突变情况,计算
每个患者的肿瘤突变负荷值,包括:将患者的体细胞蛋白编码区的非同义突变的肿瘤除以蛋白编码区的总长度得到每个患者的肿瘤突变负荷值,单位为 mutations/mb,用以表征蛋白编码区的非同义突变分布的密度。
71.在一种实施方式中,步骤s2中划分肿瘤突变负荷高和低两组时,采用中值划分法,阈值记为m,当患者的tmb值大于m时,该患者为tmb-h组,否则为tmb-l组。
72.在一种实施方式中,步骤s3包括:
73.首先选定wsi的层数,基于该层依次保存设定大小的图像,以将图像切分成块;
74.从切分后的块中去除空白和不规则的块,其中,去除空白块的方法为:对每个patch进行像素均值计算,当该patch的像素均值小于设定阈值时,则保留该 patch,否则丢弃;去除不规则块的方法为:计算每个patch的长和宽是否等于设定的patch大小,如果相等,则保留,否则丢弃。
75.请参见图2,为本发明实施例中部分切成的patch图。
76.在一种实施方式中,步骤s4包括:
77.s4.1:将rgb图像转为hed空间,提取出h通道数值;
78.s4.2:用h通道数值分别生成初步的掩码与用于清洗的掩码,其中,初步的掩码通过在h通道上通过多级图像阈值划分得到,用于清洗的掩码通过在h通道上进行多级图像阈值划分和形态学变换操作得到;
79.s4.3:将初步的掩码与用于清洗的掩码相减得到细胞核的掩码;
80.s4.4:计算每张patch的细胞核比率n
t
,该比率为细胞核的掩码的非零像素个数与该掩码的像素总个数的比值;
81.s4.5:生成组织区域的掩码;
82.s4.6:计算组织的比率t
t
,该比率为组织区域的掩码的非零像素个数与整个掩码像数总个数的比值;
83.s4.7:根据每张patch的细胞核比率、组织的比率t
t
,通过核分数函数计算每个patch的核分数值s
t

84.s4.8:根据得到的核分数值进行排序,筛选出核分数满足阈值的块。
85.请参见图5~7,其中,图5是本发明实施例中利用核分数函数筛选块的具体流程图;图6是本发明实施例中核分数函数中细胞核掩码的生成流程示意图;图 7是本发明实施例中核分数函数中组织区域掩码的生成流程示意图。其中图6的 a表示原图,b表示将rgb空间转为hed空间并提取h通道信息,c表示yen 阈值分割,d表示yen阈值分割后进行whitetophat(白顶帽)操作,e为得到的细胞核掩码。图7的a表示原图,b表示将rgb空间转为灰度空间,c表示进行大津阈值法分割,d表示二值膨胀,e表示去除小连通区域且该图为组织区域掩码。具体实施过程中,步骤s4.2中,多级图像阈值划分可以采用yenthreshold 方法,形态学变换可以采用tophat算法。(为了更清楚地展示wsi、patch、细胞核mask和组织区域mask,相关附图的原图请参见实审参考资料)
86.步骤s4.5在生成组织区域的mask(掩码)时,主要将rgb图像转化为灰度图像,然后在灰度图像上进行otsuthreshold(大津阈值法)、binarydilation(二值膨胀)、removesmallobjects(去除小连通区域)操作后得到。
87.具体来说,其中yenthreshold(yen阈值分割)是一种多级图像阈值方法,用于将对
象与背景分离。对于给定的灰度级s,它自动计算最大化熵相关ec的阈值,定义为:
88.ec(s)=-ln[g(s)
×
g'(s)] 2ln[p(s)
×
(1-p(s))]
[0089]
其中g(s)表示直到第(s-1)个灰度级的概率平方和,1)个灰度级的概率平方和,m是在图像中灰度级的数量,i是指第i灰度级,表示直到第(s-1)个灰度级的总概率,图像f中灰度级i的概率可以计算为fi为第i灰度级的图像,n x n表示第i灰度级图像的像素。在最大熵准则中,基本思想是选择阈值,使得对象和背景提供的信息总量最大化。为了获得图像f中物体和背景贡献的最大相关性,最大化ec(s),因此是确定阈值s* 使得gm表示灰度级集合。
[0090]
tophat(顶帽)算法属于形态学变换,主要应用在解决当光照不均等条件引起的背景灰度不均问题。tophat算法本质是形态学变换中开闭运算的组合:开运算能消除灰度图像中较亮的细节,闭运算则能消除较暗的细节,whitetophat (白顶帽)是原图像-开运算结果,图像的白色顶帽定义为图像减去其相对于结构元素的形态开口,此操作返回图像中小于结构元素的亮点。
[0091]
otsuthreshold(大津阈值法)基本思想是用一个阈值将图像中的数据分为两类,一类中图像的像素点的灰度均小于这个阈值,另一类中的图像的像素点的灰度均大于或者等于该阈值。如果这两个类中像素点的灰度的方差越大,说明获取到的阈值就是最佳的阈值,利用该阈值可以将图像分为前景和背景两个部分。目标函数为:
[0092]
l(v)=w0*(u
0-u) w1*(u
1-u)2[0093]
其中l(v)为当分割阈值为v时的类间方差,w0表示前景像素点占图像的比例,均值为u0,w1表示背景像素点占图像的比例,均值为u1,整个图像的均值为 u=w0*u0 w1*u1,otsu算法使得l(v)最大时所对应的v为最佳阈值。
[0094]
binarydilation(二值膨胀)是对一个二值图进行膨胀操作。对一个二值图像进行膨胀操作需要一个se核,se核由一个二值矩阵组成,另需定义一个原点表示核的核心。具体步骤为遍历原图像的每一个像素点,将其与se核的原点对齐,然后取当前se中所有1的位置所覆盖下原图中对应的像素中的最大值,用这个最大值(二值图像最大值为1)替换当前像素值。
[0095]
removesmallholes(去除小连通区域)通过设定的连通域面积阈值有效去掉图片中的噪点,即去除小连通区域。
[0096]
在计算出核分数值后,根据得到的s
t
值进行排序,最终选取靠前的一定数量的patch。
[0097]
在一种实施方式中,步骤s4.7中核分数函数为:
[0098]st
=n
t
·
tanh(t
t
),0≤s
t
<1
[0099]
其中,s
t
代表第t个patch的细胞核的分数,n
t
表示在patcht上的细胞核的比率,t
t
表示patcht上组织的比率(即patch t上组织的部分),patcht表示第t个 patch,即第t个块。
[0100]
请参见图3,是本发明实施例中采用核分数函数筛选的部分patch图。
[0101]
在一种实施方式中,步骤s5中的分类模型使用resnet18作为特征提取模块,并将最后一层全连接层的输出修改为2。
[0102]
具体来说,resnet18主要思想为残差学习,目标函数包含恒等函数和残差函数两部分,公式如下:
[0103]
h(x)=x (h(x)-x)
[0104]
其中h(x)表示目标函数,x表示恒等函数,h(x)-x表示残差函数。relu激活函数为:
[0105]
f(x)=max(0,x)
[0106]
其中x表示神经元的输入,能将将所有的负值都变为0,而正值不变,这种单侧抑制功能能使神经网络中的神经元具有稀疏激活性。
[0107]
在一种实施方式中,步骤s6中,训练过程根据损失函数与梯度下降法寻找模型最优值,损失函数采用交叉熵损失函数,梯度下降法采用自适应动量估计算法adam。
[0108]
具体实施过程中,训练过程根据损失函数与梯度下降法寻找模型最优值,损失函数用于量化模型预测与真实标签之间的差异,梯度下降用于寻找一组可以最小化结构风险的参数。所述的损失函数采用交叉熵损失函数,其函数为:
[0109][0110]
其中y表示真实标签,取值为0或1,表示样本预测为正的概率;预测输出与y相差越大,j值越大;
[0111]
梯度下降法采用自适应动量估计算法即adam,该方法是动量法和rmsprop 的结合,不但使用动量作为参数更新方向,而且可以自适应调整学习率;动量法主要思想用积累动量代替每次的实际梯度,有效缓解梯度下降过程中震荡严重影响优化速度,在第t次迭代时,参数的更新方向为:
[0112]
δθ
t
=ρδθ
t-1-αg
t
[0113]
其中δθ
t
表示第t次迭代的更新差值,δθ
t-1
表示第t-1次迭代的更新差值,ρ为动量因子,α为学习率,g
t
表示更新的梯度;每个参数的实际更新差值取决于最近一段时间内梯度的加权平均值;adam不但使用动量作为参数更新方向,而且能自适应调整学习率,具体表现在即计算梯度平方g
t2
的指数加权平均,又计算梯度g
t
的指数加权平均,相关公式为:
[0114]mt
=β1m
t-1
(1-β1)g
t
[0115]gt
=β2g
t-1
(1-β2)g
t
⊙gt
[0116]
其中m
t
可看作是梯度的均值(一阶矩),g
t
可看作是梯度未减去均值的方差(二阶矩)。β1和β2分别为两个移动平均的衰减率,g
t
表示更新的梯度,计算:
[0117][0118][0119]
其中是对m
t
进行偏差修正,是对g
t
进行偏差修正,和分别表示第t次迭代两个移动平均的衰减率,ε是一个极小的数,adam的参数更新差值δθt为:
[0120][0121]
所述训练过程为:指定训练轮数l,利用adam优化器进行梯度下降计算,共训练l轮,得到验证集中损失值最小的一轮的参数和结果。
[0122]
下面通过具体的示例对本发明提供的基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测方法,进行介绍:
[0123]
步骤一:从乳腺癌组织病理全玻片图像中筛选出三阴性乳腺癌组织病理全玻片,tnbc患者数量记为a,tnbc组织病理全玻片数量记为b。
[0124]
步骤二:根据每个三阴性乳腺癌(tnbc)患者的基因突变情况,计算每个患者的肿瘤突变负荷值,并根据设定的阈值划分为肿瘤突变负荷高和低两组,分别记为tmb-h和tmb-l,作为每张wsi对应的标签。
[0125]
步骤三:将三阴性乳腺癌组织病理全玻片图像切分为512*512的patch,去除空白和不规则的patch。
[0126]
步骤四:根据核分数函数在步骤三得到的patch中筛选从每张wsi对应的核分数靠前k个patch。
[0127]
步骤五:搭建卷积神经网络(convolutional neural network,cnn)分类模型,记为模型a,并随机初始化模型a的参数。
[0128]
步骤六:将步骤四筛选出来的patch进行颜色标准化后和步骤二得到的相应标签放入a模型中训练出tmb分类器,训练轮数指定为l;
[0129]
步骤七:利用训练出的tmb分类器预测每张wsi的tmb高或低。
[0130]
具体实施过程中,根据病人的雌激素受体(estrogen receptor,er)、孕激素受体(progestogen receptor,pr)、人类表皮生长因子受体2(her2)的阳性或阴性的状态筛选,当er、pr、her2均为阴性时,则该患者为tnbc,本发明采用的数据集来源于tcga数据库的乳腺癌数据集tcga_brca,根据临床信息得到患者的 er、pr、her2的信息,共筛选出患者数量a为74,tnbc组织病理全玻片数量b 为87。
[0131]
本实施方式中,基因突变数据使用snv(single nucleotide variants)数据。tmb 阈值划分采用中值划分法,该阈值m为0.98,当患者的tmb值大于m时,该患者为tmb-h组,否则为tmb-l组。
[0132]
步骤三中,三阴性乳腺癌组织病理全玻片图像切分为512*512的patch,首先选定wsi的第0层进行切patch,基于该层将依次保存512*512大小的图像,从而达到切patch的目的,最后去除一些空白和不规则的patch。
[0133]
其中,判断是否为空白patch的方法为:对每个patch进行像素的均值计算,当该patch的像素均值小于235时,该patch则留下,否则丢弃;判断是否为不规则 patch为:计算每个patch的长和宽像素是否等于512,如果相等,则留下,否则丢弃。
[0134]
步骤四的根据核分数函数在步骤三得到的patch中从预处理后的patch中筛选出对应核分数靠前的k个patch,本发明中k取值为100,
[0135]
在训练tmb分类器,本实施中训练轮数l为50,利用adam优化器进行梯度下降计算,学习率采用指数衰减,初始学习率为0.001,batch_size取值为16,训练l轮后得到验证集中
损失值最小的一轮的参数和结果。
[0136]
针对临床上测量tmb成本高、耗时长、缺乏普用性从而导致筛选适合免疫治疗tnbc患者低效的问题,本发明提出一种基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测方法及系统,实现仅用组织病理图像即可自动得到tmb高或低结论的目的,能准确高效的筛选出适合免疫治疗的tnbc患者。本发明大大加快了筛选适合tnbc患者的速度及扩展测量tmb的使用范围,辅助医生快速筛选患者,减轻医生工作负担,同时让免疫治疗更大程度地发挥其作用,具有重要的临床意义。表1展示了本发明中用核分数函数筛选出patch与所有patch训练tmb分类器的性能比较。
[0137]
表1所有patch与细胞核patch的性能比较
[0138][0139]
与现有技术相比较,本发明的有益效果在于:
[0140]
1、本发明使用组织病理图像即可预测tmb高或低的结论,解决了临床上使用wes技术测量tmb成本高、操作复杂、效率低下、缺乏普用性的问题,能快速筛选适合免疫治疗的tnbc患者,给患者争取更早的治疗时间同时减轻医生的工作负担。
[0141]
2、本发明采用核分数函数对每张wsi的所有patch进行了patch内细胞核的打分,分数越高表示细胞核数量越多,取其分数高的一部分patch用于训练分类模型,不需要依赖病理医生人工标注肿瘤区域即可筛选有效的patch,提高分类准确率同时节省计算资源。
[0142]
实施例二
[0143]
基于同样的发明构思,本实施例提供了一种基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测系统,包括:
[0144]
wsi预处理模块,用于从乳腺癌组织病理图像中筛选出三阴性乳腺癌组织病理全玻片图像wsi;
[0145]
tmb标签生成模块,用于根据每个三阴性乳腺癌患者的基因突变情况,计算每个患者的肿瘤突变负荷值,并根据设定的阈值划分为肿瘤突变负荷高和低两组,分别记为tmb-h和tmb-l,作为每张wsi对应的标签;
[0146]
patch筛选模块,用于将wsi切分为设定大小的块,并进行预处理;以及根据核分数函数从预处理后的块中筛选出核分数值满足阈值的块;
[0147]
训练优化模块,用于搭建卷积神经网络分类模型,随机初始化分类模型的参数,以及对核分数值满足阈值的块进行颜色标准化,将进行颜色标准化后的块与对应的标签输入分类模型中训练出tmb分类器,其中,每一个块属于对应的 wsi,块对应的标签为与块对应的wsi的标签;
[0148]
tmb分类识别模块,用于利用训练好的tmb分类器对三阴性乳腺癌肿瘤突变负荷进行预测。
[0149]
在一种实施方式中,所述系统还包括:报告生成模块,用于将预测结果和对应的wsi进行可视化报告的生成,供医生参考。
[0150]
请参见图8,是本发明实施例中的基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测系统的模块结构图。
[0151]
由于本发明实施例二所介绍的系统,为实施本发明实施例一中基于核分数和组织病理全玻片图像的三阴性乳腺癌肿瘤突变负荷预测方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属技术人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。
[0152]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献