一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

自监督学习模型在细胞图像分类过程中的应用方法及系统与流程

2022-06-01 04:19:25 来源:中国专利 TAG:


1.本发明涉及计算机图像处理技术领域,特别涉及一种自监督学习模型在细胞图像分类过程中的应用方法及系统。


背景技术:

2.近年来,基于监督学习的机器学习技术在人工智能领域中做出了巨大贡献,监督学习是从标记的数据,通过训练得到的机器学习网络来推断一个功能的机器学习任务。但是,在训练基于监督学习的机器学习网络时,需要大量的人工标注信息的训练数据进行训练,由于人工标注数据的有限性以及处理训练数据的能力不足,所以基于监督学习的机器学习技术直到前几年才逐渐开始成为商业落地的实用技术之一。基于监督学习的机器学习技术仅仅适用于有足够高质量的训练数据且可以捕获所有可能场景的情况,然而在医疗图像领域,高质量精确的标注的训练数据的获取困难、获取成本高及可获取的数量少,所以无法得到精度很高的机器学习网络来对医疗图像进行分类。
3.人们越来越关心如何使用海量的未标注训练数据,对机器学习网络进行训练,得到能精确对细胞图像进行分类的机器学习网络,进行后续应用。因此,自监督学习技术被提出出来,自监督学习技术(self-supervised learning)可以被看作是机器学习网络模型的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注训练数据,就能够得到训练好的机器学习网络。但是,如何将自监督学习技术应用到对细胞图像的分类中,是一个亟待解决的问题。


技术实现要素:

4.有鉴于此,本技术实施例提供一种自监督学习模型在细胞图像分类过程中的应用方法,该方法能够将自监督学习技术应用到对初始化的细胞分类模型的学习过程,从而在后续应用时优化了细胞图像分类过程。
5.本技术实施例还提供一种自监督学习模型在细胞图像分类过程中的应用系统,该系统能够将自监督学习技术应用到对初始化的细胞分类模型的学习过程,从而在后续应用时优化了细胞图像分类过程。
6.本技术实施例是这样实现的:
7.一种自监督学习模型在细胞图像分类过程中的应用方法,包括:
8.基于多个未标注的细胞图像数据,采用自监督学习方式进行初始化的细胞分类模型的学习,将得到的初始化的细胞分类模型作为细胞图像分类的预训练模型;
9.在应用时,将未标注的细胞图像数据输入到所述预训练模型进行处理后,将输出结果输入到细胞图像分类网络模型中,输出得到细胞图像的分类结果。
10.所述初始化的细胞分类模型包括图像变换层、卷积神经网络层cnn、及多层感知器mlp层,其中,
11.图像变换层,对所述未标注的细胞图像数据进行图像变换;
12.cnn,对经过了图像变换后的所述未标注的细胞图像数据进行卷积计算;
13.mlp,对经过了卷积计算的图像变换后的所述未标注的细胞图像数据进行感知计算,得到对应各个图像变换后的所述未标注的细胞图像数据对应的特征向量。
14.所述基于多个未标注的细胞图像数据进行初始化的细胞分类模型的学习包括:
15.未标注的细胞图像数据进行变换后,得到多个细胞图像增强数据,分别进行cnn及mlp的计算后,分别得到特征向量;
16.在学习过程中,在所述模型设置的迭代次数的每一迭代过程中,调整cnn及mlp中的内部参数,使得来自于同一细胞图像数据的多个细胞图像增强数据经过cnn及mlp处理后,分别得到的特征向量在特征空间中的差异值,在迭代过程中不断减小,使得来自于不同细胞图像数据的多个细胞图像增强数据经过cnn及mlp处理后,分别得到的特征向量在特征空间中的差异值,在迭代过程中不断增加。
17.在应用之前,所述方法还包括:对得到的初始化的细胞分类模型采用迁移学习方式进行调整。
18.所述对得到的初始化的细胞分类模型采用迁移学习方式进行调整包括:
19.将得到的初始化的细胞分类模型作为预训练模型,使用有标注的细胞图像微调。
20.所述使用有标注的细胞图像微调包括:
21.对初始化的细胞分类模型的cnn中的最后一层的全连接层进行调整、或cnn中的最后一层的特征提取层及最后一层的全连接层进行调整、或cnn内的全部特征提取层及最后一层的全连接层进行调整。
22.在应用之前,所述方法还包括:
23.对初始化的细胞分类模型进行实验验证,确定其符合验证要求。
24.一种自监督学习模型在细胞图像分类过程中的应用系统,所述系统包括:包括获取模块、自监督学习模块及应用模块,其中,
25.获取模块,用于获取多个未标注的细胞图像数据;
26.自监督学习模块,用于基于多个未标注的细胞图像数据,采用自监督学习方式进行初始化的细胞分类模型的学习,将得到的初始化的细胞分类模型作为细胞图像分类的预训练模型;
27.应用模块,用于将未标注的细胞图像数据输入到所述预训练模型进行处理后,将输出结果输入到细胞图像分类网络模型中,输出得到细胞图像的分类结果。
28.所述系统还包括:监督学习模块,用于在应用模块应用之前,对得到的初始化的细胞分类模型采用迁移学习方式进行调整。
29.如上所述,本技术实施例基于多个未标注的细胞图像数据,采用自监督学习方式进行初始化的细胞分类模型的学习,将得到的初始化的细胞分类模型作为细胞图像分类的预训练模型,且初始化的细胞分类模型在学习完成后采用迁移学习方式对所述模型进行调整;在应用时,将未标注的细胞图像数据输入到所述预训练模型进行处理后,将输出结果输入到细胞图像分类网络模型中,输出得到细胞图像的分类结果。这样,由于采用自监督学习方式对初始化的细胞分类模型进行学习,且进一步采用了迁移学习方式调整该初始化的细胞分类模型,从而优化了细胞图像分类过程。
附图说明
30.图1为本技术实施例提供的一种自监督学习模型在细胞图像分类过程中的应用方法流程图;
31.图2为本技术实施例提供的学习得到初始化的细胞分类模型的方法流程图;
32.图3为本技术实施例提供的初始化的细胞分类模型处理未标注的细胞图像数据过程示意图;
33.图4为本技术实施例提供的一种自监督学习模型在细胞图像分类过程中的应用系统结构示意图。
具体实施方式
34.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
35.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
36.下面以具体实施例对本技术的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
37.目前,主流的自监督学习技术是采用对比学习的思想,基于未标注数据进行机器学习网络模型中的内部结构信息的自监督学习,通常对一图像数据进行各种变换后,优化目标是同一图像数据的不同变换在特征空间中尽量接近,不同帧的图像数据在特定空间中尽量远离。
38.因此,本技术实施例应用了自监督学习技术,基于多个未标注的细胞图像数据,采用自监督学习方式进行初始化的细胞分类模型的学习,将得到的初始化的细胞分类模型作为细胞图像分类的预训练模型;在应用时,将未标注的细胞图像数据输入到所述预训练模型进行处理后,将输出结果输入到细胞图像分类网络模型中,输出得到细胞图像的分类结果。
39.本技术实施例在实际应用该初始化的细胞分类模型之前,还对该初始化的细胞分类模型进行调整,具体采用迁移学习方式进行调整,迁移学习方式是一种机器学习方法,是将源领域的知识迁移到目标领域,使得目标领域能够取得很好的学习效果。通常源领域数据量充足而目标领域数据量较小,这种场景就很适合采用迁移学习方式。特别是在进行细胞图像的分类任务中,采用迁移学习方式可以大大提高当标注的训练样本数据不充足时学习得到的细胞图像分类网络模型的细胞图像分类结果的准确性。
40.这样,由于采用自监督学习方式对初始化的细胞分类模型进行学习,从而优化了
细胞图像分类过程。
41.图1为本技术实施例提供的一种自监督学习模型在细胞图像分类过程中的应用方法流程图,其具体步骤包括:
42.步骤101、基于多个未标注的细胞图像数据,采用自监督学习方式进行初始化的细胞分类模型的学习,将得到的初始化的细胞分类模型作为细胞图像分类的预训练模型;
43.步骤102、在应用时,将未标注的细胞图像数据输入到所述预训练模型进行处理后,将输出结果输入到细胞图像分类网络模型中,输出得到细胞图像的分类结果。
44.在该方法中,所述初始化的细胞分类模型包括图像变换层、卷积神经网络层(cnn)、及多层感知器(mlp)层,其中,
45.图像变换层,对所述未标注的细胞图像数据进行图像变换;
46.cnn,对经过了图像变换后的所述未标注的细胞图像数据进行卷积计算;
47.mlp,对经过了卷积计算的图像变换后的所述未标注的细胞图像数据进行感知计算,得到对应各个图像变换后的所述未标注的细胞图像数据对应的特征向量。
48.在该方法中,所述基于多个未标注的细胞图像数据进行初始化的细胞分类模型的学习包括:
49.未标注的细胞图像数据进行变换后,得到多个细胞图像增强数据,分别进行cnn及mlp的计算后,分别得到特征向量;
50.在学习过程中,在所述模型设置的迭代次数的每一迭代过程中,调整cnn及mlp中的内部参数,使得来自于同一细胞图像数据的多个细胞图像增强数据经过cnn及mlp处理后,分别得到的特征向量在特征空间中的差异值,在迭代过程中不断减小,使得来自于不同细胞图像数据的多个细胞图像增强数据经过cnn及mlp处理后,分别得到的特征向量在特征空间中的差异值,在迭代过程中不断增加。
51.在该方法中,在应用之前,对得到的初始化的细胞分类模型采用迁移学习方式进行调整。
52.具体地说,所述对得到的初始化的细胞分类模型采用迁移学习方式进行调整包括:
53.将得到的初始化的细胞分类模型作为预训练模型,使用有标注的细胞图像微调该细胞分类模型。
54.在这里,所述使用有标注的细胞图像微调包括:
55.对初始化的细胞分类模型的cnn中的最后一层的全连接层进行调整、或cnn中的最后一层的特征提取层及最后一层的全连接层进行调整、或cnn内的全部特征提取层及最后一层的全连接层进行调整。
56.在上述方法中,在应用之前,还包括:
57.对初始化的细胞分类模型进行实验验证,确定其符合验证要求。
58.从上述方法可以看出,本技术实施例采用对比学习的思想进行自监督学习,基于大量未标注的细胞图像数据进行初始化的细胞分类模型中内部结构数据的自监督学习,学习得到一个可以处理未标注的细胞图像数据的初始化的细胞分类模型,其输出结果作为下游的细胞图像分类网络模型的输入特征的预训练模型。本技术实施例使用上述学习好的预训练模型,应用在细胞图像数据的分类任务中,在此之前采用迁移学习方式进行调整,以进
一步提升细胞图像数据的分类准确率。
59.图2为本技术实施例提供的学习得到初始化的细胞分类模型的方法流程图,其具体步骤包括:
60.步骤201、获取细胞图像数据的训练集合;
61.在本步骤中,可以获取260万张的未标注的细胞图像数据,作为学习初始化的细胞分类模型的训练集合;也可以获取20万张的已经标注的细胞图像数据,作为后续采用迁移学习方式对学习好的初始化的细胞分类模型的调整;
62.步骤202、基于所获取的细胞图像数据的训练集合,进行初始化的细胞分类模型的学习,得到初始化的细胞分类模型;
63.在本步骤中,采用对比学习的技术思想进行自监督学习过程,通常是对训练集合中的未标注的细胞图像数据进行各种变换,目标是同一张细胞图像数据的不同变换在特征空间中尽量接近,不同的细胞图像数据在特征空间中尽量远离,以此对初始化的细胞分类模型进行学习;
64.步骤203、采用已经标注的细胞图像数据,采用迁移学习方式对初始化的细胞分类模型进行调整;
65.在该步骤中,对初始化的细胞分类模型进行调整的过程实际上就是监督学习过程;
66.步骤204、对初始化的细胞分类模型进行实验验证,确定其符合验证要求。
67.在图2的步骤201中,获取细胞图像数据的训练集合如下所述。
68.收集和整理未标注的260万张的细胞图像数据,用于自监督学习的学习。收集并整理已标注的20万张的细胞图像数据为后续采用迁移学习方式对学习好的初始化的细胞分类模型的调整。
69.在这里,由于细胞图像数据中的阴性样本数据量远大于阳性数据样本数据量,有比较明显的长尾分布现象,将其应用于自监督学习任务中会对降低模型对样本量较少的阳性样本数据的学习能力,所以其中未标注的图像数据应包含不少于10%的阳性样本。这些细胞图像数据不需要人工标注,导出后直接用于自监督模型的学习。在后续的监督学习阶段,细胞图像数据需要专业病理医生进行图像类别标注,经过初始化的细胞分类模型的处理后,最终结果由3名富有阅片经验的病理医生质控。其中有细胞分类的标签类别是阴性类,阳性类和杂质类。训练集每类的平均标注数量为6.6万张左右的细胞图像数据,其中,从训练集随机选出20%作为测试集。
70.图3为本技术实施例提供的初始化的细胞分类模型处理未标注的细胞图像数据过程示意图,如图所示,未标注的细胞图像数据进行变换后,得到多个细胞图像增强数据,分别进行卷积神经网络(cnn)及多层感知器(mlp)的处理,分别得到特征向量。在学习过程中,调整cnn及mlp中的内部参数,使得来自于同一细胞图像数据的多个细胞图像增强数据经过cnn及mlp处理后,分别得到的特征向量在特征空间中尽量接近(attract),使得来自于不同细胞图像数据的多个细胞图像增强数据经过cnn及mlp处理后,分别得到的特征向量在特征空间中尽量远离(repel)。
71.所述模型在进行自监督学习过程中,所使用的服务器的内存大小为256gb,cpu型号为64核intel(r)xeon(r)gold 5218,显卡为geforce rtx 2080ti,显存大小为40gb。学习
支持的字节数为1024,初始学习率为0.1*字节/256。采用的模型优化算法为为随机梯度下降算法(sgd)配合动量设置方式(momentum),学习率下降方式为余弦退火,权重衰减大小设置为1e-4。细胞图像数据随机裁剪大小为224*224,数据增强方式为随机裁剪和色彩变换。使用的深度学习框架为pytorch。训练迭代次数(epoch)为400。
72.所述模型在进行自监督学习过程中,采用的主干网络为mobilenetv3,经过主干网络最后的输出特征维度为256。所述模型中的mlp为两层全连接结构,中间的激活函数为relu。所述模型处理过程如图3所示,过程为:首先将输入图像进行随机数据增强,经过特征提取网络,输出特征维度为128维度的特征向量。采用对比学习的思想进行自监督学习。通常对图像做各种变换,然后优化目标是同一张图像的不同变换在特征空间中尽量接近,不同图像在特征空间中尽量远离,以此为目标信息进行所述模型的学习,将学习好的所述模型作为预训练模型。所述模型的具体实现方式为将所述模型输出的特征向量编码成对比损失函数,经过反向传播算法,不断优化所述模型的误差,每个迭代过程更新所述模型中的参数,最终得到学习好的所述模型。损失函数具体的计算方式为:
[0073][0074]
其中,公式中zi和zj表示同一张图像分别经过两次数据增强后,输入cnn和mlp结构后输出的特征向量,zk表示其他不同张图像及其数据增强后的图像经过cnn和mlp结构之后输出的特征向量。sim(zi,zj)为两个特征向量之间的相似度,|zi|为经过特征正则化之后的向量表示。t表示超参数,初步设置的t大小为0.07。
[0075]
在所述模型经过了上述的自监督学习后,就采用图2中的步骤203采用已经标注的细胞图像数据,作为测试集合,对所述模型进行监督学习,调整所述模型中的内部参数。
[0076]
对所述模型进行调整时采用三种方式:
[0077]
1)冻结所述模型的全部cnn的特征提取层,仅调整所述模型中的最后一个全连接层。
[0078]
2)冻结所述模型的部分cnn的特征提取层,仅调整cnn的最后一个block的特征提取层以及cnn中的最后一个全连接层。
[0079]
3)不做冻结操作,对所述模型的全部cnn的特征提取层及最后一层进行调整。
[0080]
对于所述模型的cnn结构进行调整的初始学习率分别设为1e-1*batc size/256,1e-2*batc size/256,1e-3*batch size/256。对最后一层的全连接层(fc)结构进行调整的初始学习率分别设为1e*batc size/256,1e-1*batc size/256,1e-2*batch size/256。采用的算法优化器为adam,学习率下降方式为余弦退火,训练迭代次数epoch为200。所述模型进行调整的主干网络同样为mobilenetv3,最后一层的分类层的维度为1*3。图像随机裁剪大小为224*224,数据增强方式为随机水平翻转、色彩变换、随机擦除以及随机噪声。经过实验验证得出结论第三种方式的平均实验结果在图像三分类上的准确率最高,效果最好。所以本技术实施例通常使用第三种方式对所述模型进行调整。
[0081]
在对所述模型进行调整后,对初始化的细胞分类模型进行实验验证,确定其作为预训练模型对后续的细胞图像数据分类的分类效果。
[0082]
对比三种迁移学习方式对细胞图像数据进行分类的分类效果。
[0083]
a)使用本技术学习得到的模型作为预训练模型。
[0084]
b)使用有监督的imagenet数据训练得到的模型作为预训练模型。具体使用在ilsvrc imagenet 2012数据上训练的1000分类模型,作为预训练模型,将该预训练模型应用于下游的细胞图像数据分类的任务中,进行细胞图像数据的三分类实验。
[0085]
c)使用随机初始化的方式作为初始化模型。
[0086]
通过对比实验a,实验b和实验c得到的细胞图像数据的分类结果,实验a的分类准确性更高。
[0087]
由上述实验结果得出以下实验结论:基于大量未标注的细胞图像数据的训练集合可以有效的学习细胞特征,相较于直接使用在imagenet上预训练的模型或者随机初始化的方式,处理下游的细胞图像分类任务有了更好的初始化模型方式。有效提升了下游的细胞图像分类任务的迁移学习效果,利用了大量的未标注的细胞图像数据学习得到所述初始化的细胞分类模型,在后续使用时直接对未标注的细胞图像数据进行预处理后,在进行下游的细胞图像分类模型的处理,得到最终的图像分类结果,减少了下游的细胞图像分类模型对大量标注的细胞图像数据的需求。
[0088]
图4为本技术实施例提供的一种自监督学习模型在细胞图像分类过程中的应用系统结构示意图,包括获取模块、自监督学习模块及应用模块,其中,
[0089]
获取模块,用于获取多个未标注的细胞图像数据;
[0090]
自监督学习模块,用于基于多个未标注的细胞图像数据,采用自监督学习方式进行初始化的细胞分类模型的学习,将得到的初始化的细胞分类模型作为细胞图像分类的预训练模型;
[0091]
应用模块,用于将未标注的细胞图像数据输入到所述预训练模型进行处理后,将输出结果输入到细胞图像分类网络模型中,输出得到细胞图像的分类结果。
[0092]
在该系统中,还包括:监督学习模块,用于在应用模块应用之前,对得到的初始化的细胞分类模型采用迁移学习方式进行调整。
[0093]
从本技术实施例提供的方法及系统可以看出,基于大量未标注的细胞图像数据可以有效的学习细胞特征,有效提升了细胞图像分类任务的迁移学习效果,利用了大量的细胞图像数据,减少了后续的对细胞图像数据对大量的细胞图像数据的需求。
[0094]
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本技术中。特别地,在不脱离本技术精神和教导的情况下,本技术的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本技术公开的范围。
[0095]
本文中应用了具体实施例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思路,并不用于限制本技术。对于本领域的技术人员来说,可以依据本技术的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本技术保护的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献