一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于弱监督学习的液基细胞病理图像生成方法与流程

2022-02-20 01:08:09 来源:中国专利 TAG:


1.本发明涉及医疗技术领域,尤其涉及一种基于弱监督学习的液基细胞病理图像生成方法。


背景技术:

2.随着计算机技术及显微成像技术的发展,基于人工智能(ai)的数字病理图像精准辅助诊断系统日益成熟,当前的一些实验研究成果表明,ai模型在大量人工精细标注数据的监督训练下,能够提供与相关专家相匹配的诊断性能。然而数据的精细标注是一项低效且高成本的工作,尤其是面对需要专业背景知识的病理图像,其极高的分辨率(百万级)严重阻碍数据标注的进行。因此,通过人工对局部大区域的识别产生的弱标注来训练ai模型是一个有前景可持续的发展方向。然而在实际临床疾病筛查获得数据情况中,阴性样本占据极大的比例,数据分布存在严重的不平衡,从而导致模型预测的偏向性,普通的训练方法容易将阴性的样本判读成阳性,这种误判在医学诊断上是及其危险且不可接受的。如何在有限的数据中产生多样性的样本(即数据扩充)来训练ai模型是目前需要思考的问题。
3.在现有技术中,ai模型训练一般采取在线的多样数据扩充方法,例如概率性的平移、旋转、翻转、缩放、颜色扰动等图像变换操作来改变图像整体风格、尺度、位置及形变,从而在模型训练过程中添加相应的扰动,使得模型能够提取更鲁棒的特征,但该类操作能够扩展的数据域仍然是有限的。另外有部分研究通过生成对抗模型将无意义的噪声转换成可以以假乱真的数据,不过该类方法仍需要一定量的人工标注,且额外增加了一项过程较为复杂的生成对抗模型的训练。为了在疾病筛查产生的样本不平衡的液基细胞病理图像中训练出鲁棒的ai模型,本发明旨在设计一种新的病理图像生成算法,在基本的图像变换扰动外,通过在阴性样本中引入局部阳性实例来生成新的病理图像内容的阳性样本,达到扩充数据的目的。


技术实现要素:

4.本发明的目的在于提供一种基于弱监督学习的液基细胞病理图像生成方法,以解决上述背景技术中提出的问题。
5.为实现上述目的,本发明提供如下技术方案:一种基于弱监督学习的液基细胞病理图像生成方法,方法如下:
6.步骤一、采集弱标注的病理图像切片并进行分类,分类形成阴性样本和阳性样本;
7.步骤二、对分类后的切片样本进行细胞核定位,获得细胞核掩膜中的独立区域的形态学信息及中心坐标;
8.步骤三、采用实例采集模块分别对阴性样本和阳性样本进行实例采集,其中阳性样本中所采集到的多实例细胞样本运用弱监督学习的多实例分类模块,获得最有可能是阳性的实例细胞图像;
9.步骤四、选取阴性样本中采集到的实例细胞样本中的一个来作为染色基准图像,
采用实例染色均一化模块对步骤三获得的阳性实例图像进行染色均一化操作,确定待插入阳性细胞,并对其区域进行量化统计;
10.步骤五、将步骤四中确定的待插入阳性细胞插入至阴性样本的区域中。
11.优选的,切片样本进行细胞核定位的具体步骤为:
12.s21、对原始图像进行灰度变换,并使用直方图均衡化法调节整幅图的灰度分布;
13.s22、使用阈值tn提取相关细胞核掩膜;
14.s23、使用圆形结构元进行形态学开运算,去除粗糙掩膜中的多余的小结构;
15.s24、对区域进行标记并进行区域量化统计,获得细胞核掩膜中的独立区域的形态学信息及中心坐标。
16.优选的,步骤三采集多实例细胞样本的具体步骤为:
17.s31、定义尺寸与原图分辨率相当的采样标记图,根据获得的细胞核标记图中的每个区域中心进行实例拟采样,拟定初始采样中心;
18.s32、当采样区域中存在多个核时,根据核直接的距离分别进行处理;若核之间的距离大于d,则将每个核单独处理,若核之间的距离小于d,则选择所有核区域中心的坐标均值,进行采样中心的重定位,获得细胞实例图像
19.s33、随后在采样标记图及标记图副本中移除采样区域;
20.s34、重复步骤s31~s34,直到标记图副本中不存在值为1的像素,即可获得细胞实例图像。
21.s35、在细胞核的未测出区域,将原图按长与宽分别以步长为m和m进行网格分区,统计每一格的空白区域大小和中心,并进行m*m的实例采样,作为背景样本或未测出细胞样本。
22.优选的,弱监督学习的多实例分类模块包括有实例编码器和多实例注意力的分类器,多实例注意力的分类器包括有降维模块、实例注意力模块及分类模块,多实例细胞样本经过实例编码器转换成高维向量,高维向量经过降维模块降维后通过实例注意力模块及分类模块形成注意力热图。
23.优选的,步骤四中通过实例染色均一化模块确定待插入阳性细胞的局部步骤为:
24.s41、选取阴性样本中采集到的实例细胞样本中的一个来作为染色基准图像,使用vahadane染色归一化法对待插入的阳性实例图像进行染色均一化操作;
25.s42、然后将待插入的阳性实例图像的细胞区域提取出来,利用模型可视化法将梯度反向传播,从而可视化实例中的做出疑似阳性判定的热图;
26.s43、原实例图像上使用ostu自动阈值法,提取包含细胞质在内的粗糙区域,利用形态学闭操作平滑处理区域边界;
27.s44、通过在所有区域中找到热图中对应值最大的细胞,从而确定待插入阳性细胞,并对其区域进行量化统计。
28.优选的,步骤五中最终图像生成的具体步骤为:
29.s51、对阴性样本中的未测出区域空白部分进行量化统计;
30.s52、统计空白区域是否有足够达到的面积,若是,则随机选取其中一个作为待插入区域;否则在已检测出细胞核的位置上,利用区域的otsu自动阈值法获得大致细胞区域并进行量化统计,随机选择量化较小的细胞区域作为待插入区域,待插入阳性细胞以一定
的随机操作进行处理,并插入到待插入区域中,从而生成阳性病理图像样本。
31.s54、将待插入阳性细胞以一定的随机操作进行处理,并插入到待插入区域中,从而生成阳性病理图像样本。
32.优选的,步骤s54中阳性细胞的随机操作选用随机角度旋转、翻转或缩放中的一种或多种。
33.与现有技术相比,本发明提供了一种基于弱监督学习的液基细胞病理图像生成方法,具备以下有益效果:
34.本发明在基本的图像变换扰动外,在弱监督学习中,通过阳性实例注意力获得局部阳性实例,再利用细胞区域检测算法寻找阴性样本中可以容纳阳性实例的位置,或可替换类似阳性实例大小的阴性实例,从而构造新的内容的阳性样本,扩展了数据集的数量并且平衡了数据集比例。
附图说明
35.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制,在附图中:
36.图1为本发明的病理图像生成流程示意图;
37.图2为细胞核定位的具体流程示意图;
38.图3为多实例注意力的分类器的结构示意图。
具体实施方式
39.下面将结合本发明的实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.在本发明的实施例的描述中,需要理解的是,术语“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明的实施方式和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的实施方式的限制。
41.本实施例中公开了一种基于弱监督学习的液基细胞病理图像生成方法,以液基细胞筛查的病理图像辅助诊断为例,其主要包含以下模块:实例采集模块、弱监督的多实例分类模块、实例染色均一化模块以及图像生成模块。
42.本发明中涉及到的数据有:弱标注的病理图像i
bag
(分辨率m*m),包含细胞的图像实例ii(分辨率m*m),其中弱标注的病理图像一般包含数十个以上的细胞实例图像,其分辨率远远大于细胞实例图像。此外在实例采集模块中包括了已经训练好的细胞核定位模型或者无须训练的细胞核提取算法(阈值形态学法)。
43.生成病理图像时,首先对细胞核定位,细胞核定位定位的具体流程为:(1)将原始
rgb图像进行灰度变换,并使用直方图均衡化法调节整幅图的灰度分布,整幅图的灰度范围为0~255;(2)使用阈值tn(如tn=150),以白色区域作为背景,将小于阈值tn的区域提取,生成粗糙细胞核掩膜;(3)对细胞核掩膜使用半径为r(r=5)的圆形结构元进行形态学开运算,去除粗糙掩膜的多余的小结构;(4)使用标记函数对区域进行标记(python中skimage开源包的measure.label),获得对应的标记图i
label
,并进行区域量化统计(python中skimage开源包的measure.regionprops),获得细胞核掩膜中的独立区域的形态学信息及中心坐标。
44.然后根据弱标注的病理数据图像i
bag
的类型,分别采取不同流程进行实例采集。
45.当为弱标注为阳性样本时,需要对检测出的细胞核在原始rgb图像上进行实例图像(分辨率m*m*3)采样,运用多实例分类模型的实例注意力机制,获得最有可能是阳性的实例细胞图像,步骤为:
46.(1)定义尺寸与原图分辨率(m*m)相当的采样标记图i
mark
(像素值初始为1),根据在步骤1中获得的细胞核标记图i
label
中的每个区域中心进行分辨率为m*m的实例拟采样,拟定初始采样中心c(xi,yi);
47.(2)当采样区域[(x
i-m/2):(xi m/2),(y
i-m/2):(yi m/2)]中存在多个核时,需要根据核直接的距离分别进行处理;若核之间的距离大于d,则将每个核单独处理,即选取其中最边缘(采样区域左上角)的核开始处理;若核之间的距离小于d,则选择所有核区域中心的坐标均值,进行采样中心的重定位cm(x,y),获得细胞实例图像i
i;
[0048]
(3)随后在采样标记图i
mark
及标记图副本i
label
'中移除采样区域,即
[0049]imark
[(x-m/2):(x m/2),(y-m/2):(y m/2)]=0,
[0050]ilabel
'[(x-m/2):(x m/2),(y-m/2):(y m/2)]=0;
[0051]
(4)重复(1)-(3)步骤,直到i
label
'中不存在值为1的像素,即可获得n个细胞实例图像ii,i={1,2,
……
,n}。
[0052]
(5)在采样标记图的空白区域,即i
mark
=1处,将原图(m*m)按长与宽分别以步长为m和m进行网格分区,统计每一格的空白区域大小和中心,并进行m*m的实例采样,作为背景样本或未测出细胞样本。
[0053]
而当弱标注为阴性样本时,同理按照以上步骤先进行细胞测出部分的实例采样及未测出部分的实例采样。
[0054]
弱监督学习的多实例分类模块,该模块包含实例编码器(任一种深度卷积backbone,如去除全连接层的resnet系列编码器)和基于多实例注意力的分类器(包含一个降维模块,一个实例注意力模块及分类模块)。
[0055]
其中我们定义的线性层(全连接层)为y=xa
t
b,a和b为该层待训练参数,每个线性层会将输入向量x的维度降维至其原本维度的一半,输出为y。
[0056]
tanh计算层即
[0057][0058]
为双曲正切激活函数。转置操作层则将输入数据的两个维度进行交换。
[0059]
softmax层即
[0060][0061]
将n维度的输入向量的值缩放至[0,1]之间。
[0062]
具体计算过程如下:
[0063]
(1)首先,所有的实例图像经过实例编码器转换成1*d维度的高维(维度大于512)向量x;
[0064]
(2)然后将来自同一个原图的实例在新的维度上进行合并;之后通过降维模块,即通过两个“线性层 非线性激活层(relu层)”,将维度连续2次减半至d/4,获得降维合并特征h;
[0065]
(3)再通过一个“线性层 tanh计算层 线性层”,将维度降至1得到a',并通过转置和softmax层,将值缩放至[0,1]来获得每个实例的注意力a;
[0066]
(4)将a与a'的每个元素一一对应相乘来获得整个病理图像样本bag级别的特征。
[0067]
在图像生成相关的应用中,需要预先对其进行训练,所需的样本为上一个步骤获得的一系列实例及弱监督(bag级别)标签。训练完成后根据输入的实例以及计算过程中的每个实例的注意力值,可将每个实例在原始对应的区域内赋值对应的注意力,其中相重叠的区域取其能获得的较大注意力(如值大于0.75),最终生成原始图像同样尺寸的注意力热图。根据热图中的较大注意力区域,取其中的细胞核位置再进行实例采样,获得预测的多个阳性实例,随机选取一个作为阳性图像生成的基础实例。
[0068]
由于本发明图像生成是基于弱标注为阴性的图像样本中插入阳性实例图像而实现的,因此我们选取阴性样本中采集到的实例细胞样本中的一个来作为染色基准图像,使用vahadane染色归一化法对待插入的阳性实例图像进行染色均一化操作;然后将待插入的阳性实例图像的细胞区域提取出来,利用模型可视化法将梯度反向传播,从而可视化实例中的做出疑似阳性判定的热图;之后再原实例图像上使用ostu自动阈值法,提取包含细胞质在内的粗糙区域,利用形态学闭操作平滑处理区域边界;通过在所有区域中找到热图中对应值最大的细胞,从而确定待插入阳性细胞,并对其区域进行量化统计。
[0069]
在之前的步骤中,阴性样本中可获得未测出区域,对其区域空白部分(对应i
label
=0处)进行量化统计;若统计出有足够面积的空白区域,可供待插入阳性细胞进行插入,那找出面积较大前n个区域并随机选取其中一个作为待插入区域;若没有足够的区域,则在已检测出细胞核的位置上,利用区域的otsu自动阈值法(区域不超过定义m*m大小的实例)获得大致细胞区域并进行量化统计,在细胞面积较小的前n个区域中随机选取一个作为待插入区域;最后,将待插入阳性细胞以一定的随机操作(随机角度旋转、翻转、缩放)进行处理,并插入到待插入区域中,从而生成阳性病理图像样本。
[0070]
在本发明的描述中,术语“第一”、“第二”、“另一”、“又一”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本发明的实施方式的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0071]
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的
普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0072]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献