一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多示例学习的小样本乳腺癌细胞图像判别方法与流程

2022-02-20 02:07:48 来源:中国专利 TAG:


1.本发明属于计算机图像与医疗辅助技术领域,更为具体地讲,涉及一种基于多示例学习的小样本乳腺癌细胞图像判别方法。


背景技术:

2.随着机器学习与人工智能技术的飞速发展,机器学习开始和各种传统科学领域进行交叉结合,推动了各行各业的发展。特别是在医疗领域,有效的机器学习技术的应用使医疗专业人员能够做出更好的决策、识别趋势和带来创新,更好提高研究和临床实验的效率。
3.据2018年国际癌症研究机构(iarc)调查的最新数据显示,乳腺癌在全球女性癌症中的发病率为24.2%,位居女性癌症的首位,其中52.9%发生在发展中国家,严重威胁女性健康。为加强乳腺癌诊断准确性,提早治疗乳腺癌以使得对身体的损害最小化,目前出现了一些使用机器学习手段辅助乳腺癌诊断的方法,包括采用支持向量机、深度神经网络模型等方法直接对处理好的乳腺癌细胞和正常细胞进行分类。为开发一个强大而准确的深度学习模型,科研者从研究项目、患者统计、医疗健康记录和其他来源收集大量数据,十分耗费人力物力。另一方面,支持向量机一类的传统方法不需要太多数据,但考虑的变量较为宽泛,比如年龄、体重、身高和性别等。而对于乳腺癌本身的形态数据等直接信息利用不足,这会影响最终结果的准确性。
4.小样本学习是一种旨在解决传统机器学习中需求样本量大,耗时长的问题而提出的一种利用不同学习任务当中学习到的先验知识来辅助目标任务,仅需要少量样本快速学习的深度机器学习技术。小样本学习已经在计算机视觉、强化学习、自然语言处理等多个人工智能领域有了广泛的应用。在乳腺癌细胞检测中,应用卷积神经网络、注意力机制并结合小样本学习,既能使模型聚焦乳腺癌细胞本身形态特征,同时也不需要大量训练数据,提高了模型的广泛适应性,节约了成本。


技术实现要素:

5.本发明的目的在于克服现有机器学习技术辅助医疗诊断时,样本量不足,预测结果精度不足及可解释性问题,提出了一种基于多示例学习的小样本乳腺癌细胞图像判别方法。通过将原始分类问题转化为多示例学习问题,并结合卷积神经网络及注意力机制,可以显著提高对乳腺癌细胞图像分类与目标检测的效果。
6.为实现上述发明目的,本发明基于多示例学习的小样本乳腺癌细胞图像判别方法,其特征在于,包括以下步骤:
7.(1)从医院采集包括乳腺癌细胞在内的如肝癌细胞、肺癌细胞、胃癌细胞等至少4种不同类型癌细胞图像,每种类细胞至少10张图片。图片为采用了苏木精和伊红染色的全幻灯片癌细胞与正常细胞彩色三通道图像。
8.(2)由医学专家为图像赋予标签,如果图像中没有癌细胞,则认为是正常图像,赋值为0,反之则标记为癌细胞图像,赋值为1。图像数据按癌细胞类别分别存放。
9.(3)将原始图像分割为3*28*28大小的图像块k个,同时如果图像块包含75%或以上的空白则将该块丢弃,之后将一副原始图像认为是一个多示例包,每个图像中分割出来的图像块认为是一个示例。每个示例包继承了原始图像的标签,而每个图像块没有具体的标签。从而将传统的图像分类问题转化为了多示例分类问题。然后使用卷积神经网络(如resnet)对所有图像块提取图像特征。
10.(4)将上一步得到的样本构建成不同的学习任务,任务为一个二分类任务,即对于当前类别的细胞,学习该示例包是否包含该类的癌细胞。学习任务包括元训练任务和元测试任务两种,元训练任务采用除乳腺癌细胞之外的如肝癌细胞、肺癌细胞等细胞进行模型分类,乳腺癌细胞图像任务构成元测试任务。一个学习任务包括支持集和查询集两个数据集合,对应于传统机器学习的训练集与测试集的功能。在当前学习任务中,模型将在支持集中进行训练,在查询集上进行测试以验证模型性能。
11.(5)在元训练阶段,将当前类型细胞支持集数据输入结合注意力机制的卷积神经网络中进行训练,得到对应是否是癌细胞图片的标签,然后在查询集上测试模型,即保持模型参数固定,不进行梯度反传,直接由输入得到输出结果,将预测标签与真实标签之间的差异作为统计的最终结果。模型学习完成当前任务后,不清空模型参数,继续在下一个任务上持续学习,同时在每个任务中记录一个最终结果与对应模型参数,保留最好结果的参数。
12.(6)在元测试阶段,即模型整体评估预测的阶段,将元训练阶段最佳结果的模型参数输入模型,模型参数不需要进行学习调整,整体固定,然后输入乳腺癌细胞任务数据,直接得到结果。
13.(7)依据元测试模型中图像块级别的注意力机制,将注意力权重较大的图像块标注出来,可认为该部分图像块有更大可能包含了乳腺癌细胞。
14.本发明的目的时这样实现的。
15.本发明基于多示例学习的小样本乳腺癌细胞图像判别方法,首先从医院采集包括乳腺癌细胞在内的如肝癌细胞、肺癌细胞、胃癌细胞等至少4种不同类型癌细胞图像,每种类细胞至少10张图片。并将原始图像分割为3*28*28大小的图像块,之后将一副原始图像认为是一个多示例包,每个图像中分割出来的图像块认为是一个示例。每个示例包继承了原始图像的标签,而每个图像块没有具体的标签。从而将传统的图像分类问题转化为了多示例分类问题。然后使用卷积神经网络对所有图像块提取图像特征。以小样本学习中的元学习框架建立以除乳腺癌细胞之外的各类癌细胞图像为基础的多个元训练集与以乳腺癌细胞图像为基础的元测试集。最后以融合了不同图像块之间特征的单头自注意力机制的卷积神经网络在多个元训练集中训练模型,将训练效果最佳的模型参数输入模型,对乳腺癌细胞图像构成的元测试集进行测试。本发明从多示例学习的角度出发对癌细胞图像进行处理,能够充分考虑图像不同部位对结果的影响,并加入了图像块级的注意力机制,使得各个图像部位的影响力得到直观体现。
附图说明
16.图1是本发明一种基于多示例学习的小样本乳腺癌细胞图像判别方法流程图;
17.图2是将传统的图像分类任务转化为多示例学习的示意图;
18.图3是本发明一种基于多示例学习的小样本乳腺癌细胞图像判别方法的小样本元
学习框架示意图;
19.图4是本发明一种基于多示例学习的小样本乳腺癌细胞图像判别方法的结合注意力机制的卷积神经网络模型示意图。
具体实施方式
20.下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
21.图1是本发明基于多示例学习的小样本乳腺癌细胞图像判别方法流程图。
22.在本实施例中,如图1所示,本发明基于多示例学习的小样本乳腺癌细胞图像判别方法包括以下步骤:
23.s1:原始图像收集与整理
24.从医院采集包括乳腺癌细胞在内的如肝癌细胞、肺癌细胞、胃癌细胞等至少4种不同类型癌细胞图像,每种类细胞至少10张图片。图片为采用了苏木精和伊红染色的全幻灯片癌细胞与正常细胞彩色三通道图像。并由医学专家为图像赋予标签,如果图像中没有癌细胞,则认为是正常图像,赋值为0,反之则标记为癌细胞图像,赋值为1。图像数据按癌细胞类别分别存放。
25.s2:多示例任务构建
26.如图2所示,将原始图像分割为3*28*28大小的图像块k(图中为6)个,同时如果图像块包含75%或以上的空白则将该块丢弃,之后将一副原始图像认为是一个多示例包,每个图像中分割出来的图像块认为是一个示例。每个示例包继承了原始图像的标签,而每个图像块没有具体的标签。从而将传统的图像分类问题转化为了多示例分类问题。然后使用卷积神经网络(如resnet)对所有图像块提取图像特征。
27.s3:元训练集与元测试集构建
28.考虑到医学图像获取难度大,病历较少,难以构建传统的图像分类算法,因而采用小样本学习方法来减少样本需求量。元学习是解决小样本学习任务的一种常见方法,旨在人工构建大量与目标任务相似的任务,并利用一个元学习器以学习不同任务之间的共同特征与不同之处,在应对目标任务时,元学习器可利用之前学习到的先验知识来加快模型学习效率、缩小参数搜索空间。
29.元训练集与元测试集如图3所示。将上一步得到的样本构建成不同的学习任务,任务为一个二分类任务,即对于当前类别的细胞,学习该示例包是否包含该类的癌细胞。学习任务包括元训练任务和元测试任务两种,元训练任务采用除乳腺癌细胞之外的如肝癌细胞、肺癌细胞等细胞进行模型分类,乳腺癌细胞图像任务构成元测试任务。一个学习任务包括支持集和查询集两个数据集合,对应于传统机器学习的训练集与测试集的功能。在当前学习任务中,模型将在支持集中进行训练,在查询集上进行测试以验证模型性能。
30.s4:分类模型的构建与训练
31.分类模型示意图如图4,对每种构建的分类任务学习的基于注意力机制的卷积神经网络,图像块级别注意力机制构建与示例包表征计算。该注意力机制建立在图像块上,整体以a表示,每个图像块的注意力为ai。与分类结果最相关的特征块,即包含癌细胞的图像
块应该具有比其他块更高的权重。另外,所有的权重值总和应该为1。对于第k个图像块,其注意力权重定义为:
[0032][0033]
其中均为注意力参数,k表示示例包中有k个示例,m表示图像块特征向量长度,l为注意力隐藏层神经元个数,tanh(
·
)为双曲正切函数,是一种神经网络激活函数,exp(
·
)为以自然常数为底的指数函数。对每个图象块的特征按该注意力机制得到的权重进行加权求和,得到最终该图片的特征向量z:
[0034][0035]
得到每个图像的表征z以后,将其输入一个简单的单层线性神经网络层,并进行sigmoid值处理,得到最终的分类预测值。
[0036]
在元训练阶段任务,将当前类型细胞支持集数据输入结合注意力机制的卷积神经网络中进行训练,得到对应是否是癌细胞图片的标签,然后在查询集上测试模型,即保持模型参数固定,不进行梯度反传,直接由输入得到输出结果,将预测标签与真实标签之间的差异作为统计的最终结果。模型学习完成当前任务后,不清空模型参数,继续在下一个任务上持续学习,同时在每个任务中记录一个最终结果与对应模型参数,保留最好结果的参数。
[0037]
s5:乳腺癌细胞图像判别与粗粒度定位
[0038]
在元测试阶段,即模型整体评估预测的阶段,将元训练阶段最佳结果的模型参数输入模型,模型参数不需要进行学习调整,整体固定,然后输入乳腺癌细胞任务数据,直接得到结果。对于可能的癌细胞块,则设定一个权重θ,任意注意力权重ak≥θ且预测值为癌细胞图像的图像块可以认为该图像块有更高可能包含癌细胞。
[0039]
本发明中,针对传统网络异常检测方法中的不足提出了一种基于多示例学习的小样本乳腺癌细胞图像判别方法。本发明中在小样本分类和医学图像目标识别等关键技术上做出了创新。
[0040]
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献