一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于细胞检测和分割的弱监督多任务学习的制作方法

2022-06-09 01:12:54 来源:中国专利 TAG:

用于细胞检测和分割的弱监督多任务学习
1.相关申请的交叉引用
2.本技术要求2019年10月14日提交的名称为“weakly supervised multi-task learning for cell detection and segmentation(用于细胞检测和分割的弱监督多任务学习)”的美国临时申请号62,914,966的优先权和权益,其全部内容以引用方式并入本文以用于所有目的。
技术领域
3.本公开涉及生物学图像分析,并且特别地涉及用于使用弱监督迁移学习和多任务调度器来分割和检测细胞的系统和方法。


背景技术:

4.在对诸如组织切片、血液、细胞培养物等生物学样本进行的分析中,通常用染色剂或测定的一种或多种组合对生物学样本进行染色,并且随后对染色的生物学样本进行观察或成像以进行进一步分析。通过观察染色或测定的生物学样本可实现各种过程,包括诊断疾病、评定对治疗的应答以及开发新的抗病药物。例如,识别生物学图像(例如,组织病理学图像)中的某些对象或结构,诸如淋巴细胞、癌细胞、癌细胞核等,通常是对获得这些生物学图像的患者的疾病进行分级或诊断的先决条件。这些对象或结构的存在、范围、大小、形状和其他形态外观可以是疾病的存在或严重程度的重要指标。此外,特定对象或结构(诸如细胞或细胞核)的数量或比例对于一些疾病病症具有诊断意义,进一步激发了准确识别特定对象或结构的需求。
5.在采集生物学图像时,可以导出图像数据的多个通道,例如rgb颜色通道,每个观察到的通道包括多个信号的混合体。该图像数据的处理可以包括颜色分离、光谱解混、颜色反卷积等方法,这些方法被用来确定来自观察到的图像数据的一个或多个通道的特定染色的浓度。对于通过自动化方法处理的、显示在显示器上的图像数据,或对于观察者观察到的测定,可以确定组织的颜色与染色的颜色之间的关系,以确定染色的组织中生物标志物分布的模型。染色的局部存在和量可以指示组织中被查询的生物标志物的存在和浓度。免疫组化(ihc)载玻片染色为一种可以用来识别组织切片的细胞中的特定蛋白质(例如,生物标志物)并被广泛用于研究不同类型的细胞,诸如生物学组织中的癌细胞和免疫细胞的技术。例如,在pms2 ihc核染色的结直肠癌(crc)图像中,呈不同形状和大小的(例如,细长且高度聚集的)被染色为棕色的阳性肿瘤核、被弱染色为浅棕色的阳性肿瘤核以及被染色蓝色的阴性肿瘤核可被识别和/或量化以区分患有林奇综合征(ls)的患者和患有dna错配修复缺陷(dmmr)的患者。


技术实现要素:

6.在各种实施例中,提供了一种计算机实现的方法,该方法包括:通过数据处理系统访问一个或多个细胞的多个图像;通过该数据处理系统从多个图像中提取三个标签,其中
三个标签是使用voronoi变换、局部聚类和应用repel代码来提取的;通过该数据处理系统的多任务调度器基于与三个标签对应的三个损失函数来训练卷积神经网络模型;通过该卷积神经网络模型基于用三个损失函数进行的训练,为多个图像中的每个图像生成核概率图和背景概率图;以及通过该数据处理系统提供核概率图和背景概率图。
7.在各种实施例中,提供了一种计算机实现的方法,该方法包括:通过数据处理系统访问一个或多个细胞的多个图像;通过该数据处理系统从多个图像中提取三个标签,其中三个标签是使用voronoi变换、局部聚类和应用repel代码来提取的;通过该数据处理系统的多任务调度器基于与三个标签对应的三个损失函数来训练卷积神经网络模型,其中该卷积神经网络模型包括多个模型参数;通过该卷积神经网络模型基于用三个损失函数进行的训练,为多个图像中的每个图像生成核概率图和背景概率图;通过该数据处理系统对核概率图和背景概率图与三个标签进行比较;通过该数据处理系统基于对核概率图和背景概率图与三个标签的比较来更新多个模型参数,以最小化三个损失函数;以及通过该数据处理系统为经训练的卷积神经网络模型提供更新的多个模型参数。
8.在一些实施例中,多个图像包括核点标签。
9.在一些实施例中,voronoi变换提取一个或多个细胞之间的脊线。
10.在一些实施例中,局部聚类包括应用k均值聚类算法以基于与距离变换特征相级联的rgb通道颜色特征来局部地提取背景簇和核簇,该距离变换特征是每个通过voronoi变换创建的细胞或多边形中的每个像素到核点标签的距离。
11.在一些实施例中,卷积神经网络模型包括修改的u-net模型。
12.在一些实施例中,训练包括:对于每次训练迭代,通过多任务调度器选择三个损失函数中的一个损失函数;以及通过该数据处理系统基于选择的损失函数的梯度来更新卷积神经网络模型的一个或多个权重。
13.在一些实施例中,损失函数通过多任务调度器基于以下来选择:如果“i%3=0”,则选择与voronoi标签相关联的损失函数;如果“i%3=1”,则选择与repel标签相关联的损失函数;以及如果“i%3=2”,则选择与局部簇标签相关联的损失函数,其中“i”是训练迭代的指数。
14.在一些实施例中,生成和提供核概率图和背景概率图包括在该核概率图和该背景概率图、分割二元掩膜、以及检测到的细胞的坐标上应用argmax函数和局部maxima函数。
15.在各种实施例中,提供了一种计算机实现的方法,该方法包括:通过数据处理系统获得一个或多个细胞的多个图像;将多个图像输入到卷积神经网络模型中,该卷积神经网络模型是使用与voronoi变换、局部聚类和应用repel代码对应的至少三个损失函数的组合而构建;通过该卷积神经网络模型为多个图像中的每个图像生成核概率图和背景概率图;以及通过该数据处理系统提供核概率图和背景概率图。
16.在一些实施例中,voronoi变换提取一个或多个细胞之间的脊线。
17.在一些实施例中,局部聚类包括应用k均值聚类算法以基于与距离变换特征相级联的rgb通道颜色特征来局部地提取背景簇和核簇,该距离变换特征是每个通过voronoi变换创建的细胞或多边形中的每个像素到核点标签的距离。
18.在一些实施例中,卷积神经网络模型包括修改的u-net模型。
19.在一些实施例中,卷积神经网络模型包括使用训练数据集识别的多个参数,该训
练数据集包括多个医学图像,该多个医学图像具有至少三个使用voronoi变换、局部聚类和应用repel代码提取的标签;并且该多个模型参数是使用该训练数据集基于最小化至少三个损失函数来识别的。
20.在一些实施例中,使用训练数据集包括:对于每次训练迭代,通过多任务调度器选择三个损失函数中的一个损失函数;以及通过该数据处理系统基于选择的损失函数的梯度来更新卷积神经网络模型的多个参数中一个或多个参数。
21.在一些实施例中,损失函数通过多任务调度器基于以下来选择:如果“i%3=0”,则选择与voronoi标签相关联的损失函数;如果“i%3=1”,则选择与repel标签相关联的损失函数;以及如果“i%3=2”,则选择与局部簇标签相关联的损失函数,其中“i”是训练迭代的指数。
22.在一些实施例中,生成和提供核概率图和背景概率图包括在该核概率图和该背景概率图、分割二元掩膜、以及检测到的细胞的坐标上应用argmax函数和局部maxima函数。
23.在一些实施方案中,提供了一种系统,其包括一个或多个数据处理器和非暂时性计算机可读存储介质,其包含指令,所述指令当在所述一个或多个数据处理器上执行时,促使所述一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部。
24.在一些实施方案中,提供了一种计算机程序产品,其有形地体现在非暂时性机器可读存储介质中,并且包括被配置为促使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部的指令。
25.已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施例和任选特征具体公开了所要求保护的本发明,但是本领域技术人员可以对本文公开的概念进行修改和变化,并且此类修改和变化被认为是在所附权利要求书所限定的本发明范围内
附图说明
26.结合附图描述本公开:
27.图1示出了根据各种实施例的用于自动化细胞分割和检测的示例性计算环境。
28.图2示出了根据各种实施例的提出的算法的概述。
29.图3示出了根据各种实施例的示例性u-net。
30.图4示出了根据各种实施例的提出的局部聚类算法相对于全局聚类算法的性能。
31.图5示出了根据各种实施例的分割性能,带有样品测试图像(左图)、基于不带crf的[1]中提出的算法的叠加分割掩膜(中图)以及基于当前算法的叠加分割掩膜(右图):(a)具有细长细胞的正常组织区域;(b)具有高度聚集细胞的滤泡内区域;(c)具有未染色细胞的正常组织区域;以及(d)具有弱染色和强染色的肿瘤区域。
具体实施方式
[0032]ⅰ.概述
[0033]
本公开描述了用于自动化细胞分割和检测的技术。更具体地,本公开的各种实施例提供了用于使用迁移学习和多任务调度器来分割和检测细胞的系统和方法。
[0034]
单细胞分割和检测是生物学图像中进行病理学分析的基本步骤。细胞的数量和密度、形态学信息和染色质量度量是可以从生物学样品(例如,组织载玻片)中分割和检测到的细胞中获得的信息的示例,用于诊断目的和/或染色质量测量。与颜色分离、光谱解混和颜色反卷积等传统图像处理方法相比,最近的基于深度学习方法的细胞分割的研究报告了更好的性能。与易于标记的对象(例如,汽车、树木、动物等)的分类和分割等任务相比,细胞检测和实例分割面临更多挑战。例如,染色的细胞与背景的对比度差异很大;高度聚集的细胞具有接触或重叠的边界,难以单独分割;并且最重要的是,针对细胞实例分割获得像素级的基准真值是非常劳动密集型的。
[0035]
为了解决这些限制和问题,本实施例的用于自动化单细胞分割和检测的技术包括使用一种用于自动化、端到端单细胞分割和检测的弱监督多任务学习算法。本公开的一个例示性实施例涉及一种方法,包括:访问一个或多个细胞的多个图像;从多个图像中提取三个标签,其中三个标签是使用voronoi变换、局部聚类和应用repel代码来提取的;通过多任务调度器基于与三个标签对应的三个损失函数来训练卷积神经网络模型;通过该卷积神经网络模型基于用三个损失函数进行的训练,为多个图像中的每个图像生成核概率图和背景概率图;以及提供核概率图和背景概率图。在某些实施例中,生成和提供核概率图和背景概率图包括在该核概率图和该背景概率图、分割二元掩膜、以及检测到的细胞的坐标上应用argmax函数和局部maxima函数。
[0036]
ii.定义
[0037]
如本文所用,当动作“基于”某物时,这意味着该动作至少部分地基于某物的至少一部分。
[0038]
如本文所用,术语“基本上”、“大约”和“约”被定义为在很大程度上但不必完全是所规定的(并且包括完全是所规定的),如本领域普通技术人员所理解的。在任何公开的实施方案中,术语“基本上”、“大约”或“约”可以用对于所指定的“在[某个百分比]内”替代,其中百分比包括0.1%、1%、5%和10%。
[0039]
iii.用于自动化细胞分割和检测的技术
[0040]
图像分割是一种分离图像的相似部分的过程,这些部分在形状、大小、颜色等不同特征上表现出相似性。细胞的分割允许对生物学样品中细胞的大小和位置进行可视化,也可以为分析细胞的染色吸收提供基础。长期以来,细胞分割的黄金标准是人工分割,费时费力,因而不适合大型研究。已经进行了大量研究以尝试使细胞分割的过程完全或部分自动化。例如,诸如阈值化、区域增长、模糊聚类、使用分水岭算法等的图像分割技术,已用于异常细胞(例如,癌细胞)与正常细胞(例如,淋巴细胞)的分离。尽管如此,由于细胞的形状、位置和大小的多样性,分割的过程仍然具有挑战性。
[0041]
多任务调度技术组合了来自使用voronoi变换、颜色簇标记和repel代码获得的像素级标签的信息,该技术可以帮助提高精准细胞分割和检测。
[0042]
本文描述的是一种并入了模型的端到端方法,该方法使用卷积神经网络(cnn)从图像(例如,染色的组织的图像)中分割和检测细胞。开发的模型计算量轻,并且旨在适应染色技术的可变性、癌细胞与正常细胞之间的极端不平衡以及输入图像的异质性。与常规算法相比,该模型提高了细胞分割和检测的性能,而无需增加注释工作。
[0043]
iii.a.示例计算环境
[0044]
图1示出了根据各种实施例的使用深度卷积神经网络进行细胞分割和检测的示例性计算环境100。计算环境100可以包括深度卷积神经网络(cnn)系统105,用以训练和执行cnn模型。更具体地,cnn系统105可以包括可以训练它们各自的cnn模型的分类器子系统110a-110n。在一些实施例中,与分类器子系统110a-110n对应的每个cnn模型基于输入图像元素115a-115n的集内的一个或多个图像(例如,来自生物学样品的载玻片上的视场(fov)的图像)而被单独训练。在一些实施例中,输入图像元素115a-115n的集中的每个输入图像元素可以包括描绘生物学样品内的细胞的一个或多个数字图像。输入图像元素115a-115n的集中的每个输入图像元素可以对应于单个对象和收集对应于图像的基础图像数据的一天。输入图像元素115a-115n的集可以包括一个或多个训练输入图像元素115a-115d、验证输入图像元素115e-115g和未标记的输入图像元素115h-115n。应当理解,与训练组、验证组和未标记组对应的输入图像元素不需要同时被访问。例如,可以首先访问初始训练和验证输入图像元素并将其用于训练模型,并且随后可以访问或接收未标记的输入图像元素(例如,在单个或多个后续时间)以测试该模型。
[0045]
在某些情况下,可以使用弱监督训练来训练cnn模型,并且训练输入图像元素115a-115d和验证输入图像元素115e-115g中的每个元素都可以与一个或多个识别细胞(例如,细胞的核的中心)的“正确”解释的标签相关联。可以使用训练输入图像元素115a-115d(和验证输入图像元素115e-115h以监测训练进度)、一个或多个损失函数和/或梯度下降方法来训练cnn模型。
[0046]
在一些实施例中,分类器子系统110a-110n包括特征提取器120、参数数据存储区125、分类器130和训练器135,它们共同用于基于训练数据(例如,训练输入图像元素115a-115d)并在弱监督训练期间优化cnn模型的参数来训练该cnn模型。在一些实施例中,分类器子系统110a-110n在输入层访问来自训练输入图像元素115a-115d的训练数据。特征提取器120可以预处理训练数据以提取训练输入图像元素115a-115d的相关特征(例如,边缘)。在各种实施例中,特征提取器120使用多任务调度器来实现,以在细胞点标签上应用至少三种变换和/或编码以提取细胞的特征或标签。至少三种变换和/或编码可以包括用于提取脊线的voronoi变换、用于提取核的像素级标签的局部聚类、以及应用repel代码作为增强的中心编码。分类器130可以接收提取的特征并根据与一个或多个cnn模型中的隐藏层的集相关联的权重将特征变换为一个或多个分割和检测一个或多个细胞的输出度量。训练器135可以使用与训练输入图像元素115a-115d对应的训练数据通过促进学习一个或多个参数来训练特征提取器120和/或分类器130。例如,训练器135可以使用反向传播技术来促进对与分类器130使用的cnn模型的隐藏层的集相关联的权重的学习。反向传播可以使用例如随机梯度下降(sgd)算法来使用来自voronoi特征、repel特征和颜色簇特征的损失中的一个或多个损失来累积更新隐藏层的参数。学习到的参数可以包括例如权重、偏差和/或其他隐藏层相关参数,这些参数可以存储在参数数据存储区125中。
[0047]
可以部署经训练的cnn模型或经训练的cnn模型的集合(“cnn集合”)来处理未标记的输入图像元素115h-115n以分割和检测一个或多个细胞。更具体地,经训练版本的特征提取器120可以生成未标记的输入图像元素的特征表示,然后可以由经训练版本的分类器130来处理该特征表示。在一些实施例中,可以基于对分类器子系统110a-110n中的cnn模型的膨胀进行最优化使用的一个或多个卷积块、卷积层、残差块或锥体层,从未标记的输入图像
元素115h-115n中提取图像特征。可以将这些特征组织在特征表示,例如图像的特征向量中。可以训练cnn模型以基于分类和隐藏层(包括cnn模型的全连接层)中参数的随后调整来学习特征类型。在一些实施例中,通过卷积块、卷积层、残差块或锥体层提取的图像特征包括特征图,这些特征图是表示图像的一个或多个部分的值的矩阵,在这些部分上已经执行了一个或多个图像处理操作(例如,边缘检测,锐化图像分辨率)。这些特征图可以被展平,以便由cnn模型的全连接层进行处理,该全连接层输出对应于与一个或多个细胞有关的预测的分割掩膜。
[0048]
例如,可以将输入图像元素馈送到cnn模型的输入层。输入层可以包括与特定像素对应的节点。第一隐藏层可以包括隐藏节点的集,该隐藏节点的集中的每个隐藏节点都连接到多个输入层节点。后续隐藏层中的节点可以类似地被配置为接收与多个像素或体素对应的信息。因此,隐藏层可以被配置为进行学习以检测跨越多个像素的特征。一个或多个隐藏层中的每个隐藏层可以包括卷积块、卷积层、残差块或锥体层。cnn模型可以进一步包括一个或多个全连接层(例如,softmax层)。
[0049]
训练输入图像元素115a-115d、验证输入图像元素115e-115g和/或未标记的输入图像元素115h-115n中的至少一部分元素可以包括使用一个或多个成像系统160收集和接收的数据,或者可以已经从该数据导出。成像系统160可以包括被配置为收集图像数据(例如,载玻片的fov图像)的系统。成像系统160可以包括显微镜。显微镜可以被配置为拍摄在诸如玻璃载片之类的介质上染色的组织和/或载玻片的图像。在一些实例中,与训练输入图像元素115a-115d和/或验证输入图像元素115e-115g相关联的细胞点标签可以是已经被接收到或者可以从从一个或多个供应商系统170接收到的数据中导出,这些供应商系统中的每个供应商系统都可以与(例如)与特定受试者相关联的医师、护士、医院、药剂师等相关联。接收到的数据可以包括(例如)与特定受试者对应的一个或多个医疗记录。医疗记录可以指示(例如)专业人员的诊断或特性描述,相对于与收集与受试者相关联的一个或多个输入图像元素的时间或随后定义的时间段相对应的时间段,该诊断或特性描述指示是否受试者患有肿瘤和/或受试者的肿瘤的进展阶段。接收到的数据可进一步包括与受试者相关联的一个或多个输入图像元素内的细胞或细胞核的中心的位置的像素。因此,医疗记录可以包括一个或多个细胞点标签或可以用于相对于每个训练/验证输入图像元素来识别这些细胞点标签。医疗记录可以进一步指示受试者已经接受的一种或多种治疗(例如,药物治疗)中的每种治疗以及受试者接受治疗的时间段。在一些情况下,输入到一个或多个分类器子系统的图像是从供应商系统170接收的。例如,供应商系统170可以从成像系统160接收图像,并且然后可以将图像(例如,连同受试者标识符和一个或多个标签)传输到cnn系统105。
[0050]
在一些实施例中,在成像系统160中的一个或多个成像系统处接收或收集的数据可以与供应商系统170中的一个或多个供应商系统处接收或收集的数据聚合。例如,cnn系统105可以识别受试者和/或时间段的对应标识符或相同标识符,以便将从成像系统160接收的图像数据与从供应商系统170接收的细胞点标签数据相关联。cnn系统105可以进一步使用元数据或自动化图像分析来处理数据,以确定将特定数据分量馈送到哪个分类器子系统。例如,从成像系统160接收的图像数据可以对应于多个载玻片和/或测定。对于每个图像,元数据、自动化对准和/或图像处理可以指示该图像对应于哪个载玻片和/或测定。
[0051]
在一些实施例中,计算环境100可进一步包括用户设备180,该用户设备可与请求
和/或协调cnn系统105的一次或多次迭代的执行(例如,其中每次迭代与模型的一次运行和/或模型的输出的一次产生相对应)的用户相关联。用户可以对应于医师、调查者(例如,与临床试验相关联)、受试者、医疗专业人员等。因此,应当理解,在一些情况下,供应商系统170可以包括和/或充当用户设备180。每次迭代可与特定的受试者(例如,人)相关联,该特定的受试者可以(但是不必)不是用户。对迭代的请求可以包括和/或伴随有关于特定受试者的信息(例如,受试者的姓名或其他标识符,诸如去识别的患者标识符)。对迭代的请求可以包括一个或多个其他系统的标识符,从这些系统收集数据,例如与受试者对应的输入图像数据。在一些情况下,来自用户设备180的通信包括特定受试者的集中的每个受试者的标识符,该标识符与对该集中所表示的每个受试者执行迭代的请求相对应。
[0052]
在接收到请求后,cnn系统105可以向一个或多个对应的成像系统160和/或供应商系统170发送对未标记的输入图像元素的请求(例如,包括受试者的标识符)。然后,经训练的cnn模型或cnn集合可以处理未标记的输入图像元素,以分割和检测一个或多个细胞。针对每个识别的受试者的结果可以包括或可以基于来自一个或多个由分类器子系统110a-110n部署的经训练的cnn模型的细胞分割和检测。例如,细胞分割和检测可以包括或可以基于由一个或多个经训练的cnn的全连接层生成的输出。在一些情况下,可使用(例如)softmax函数进一步处理此类输出。此外,然后可以使用聚合技术(例如,随机森林聚合)来聚合输出和/或进一步处理的输出,以生成一个或多个受试者特定的度量。一个或多个结果(例如,包括测定特定的输出和/或一个或多个受试者特定的输出和/或其处理的版本)可以被传输到和/或提供给用户设备180。在一些情况下,cnn系统105和用户设备180之间的一些或全部通信经由诸如网站之类的网络和接口发生。应当理解,cnn系统105可基于授权分析来选通对结果、数据和/或处理资源的访问。
[0053]
虽然未明确示出,但是应当理解,计算环境100可以还包括与开发者相关联的开发者装置。来自开发者设备的通信可以指示对于cnn系统105中的每个cnn模型要使用什么类型的输入图像元素、要使用的神经网络的数量、每个神经网络的配置(包括隐藏层的数量和超参数)、以及如何格式化数据请求和/或使用哪些训练数据(例如,以及如何访问训练数据)。
[0054]
iii.b.多任务调度器
[0055]
图2示出了预测算法的概述,包括:基于细胞点标签的像素级标签提取以及使用损失调度器并基于具有resnet编码器的u-net模型的多任务深度学习方法。在一些实施例中,输入图像205从图像源(例如,成像系统160或供应商系统170,如相对于图1所描述的)获得。图像可以被构造为像素值的一个或多个阵列或矩阵。给定的像素位置可以与(例如)一般强度值和/或强度值相关联,因为它与一个或多个灰度级和/或颜色(例如,rgb值)中的每一者有关。输入图像205可以用识别细胞的中心处或细胞的核的中心处的一个或多个像素的细胞点标签210来标记。
[0056]
在各种实施例中,在细胞点标签210上应用了三种变换/编码:(i)voronoi变换215、(ii)局部聚类220和(iii)repel代码225。voronoi变换215提取细胞之间的脊线并在每个细胞周围形成多边形。这些线有助于高度聚集的细胞不被合并在一起。局部聚类220基于点标签、输入图像205和voronoi标签提取核的像素级标签。对于每个提取的voronoi细胞(多边形),使用k均值聚类算法基于与距离变换特征相级联的rgb通道颜色特征来局部地提
取背景簇和核簇,该距离变换特征为voronoi细胞中每个像素到核点标签的距离。使用该局部k均值,提取核像素,这些像素位于点标签周围,并且与背景具有较高的局部颜色对比度。repel代码225用作细胞的增强中心编码(repel代码在h.liang等人的“enhanced center coding for cell detection with convolutional neural networks”arxiv预印本arxiv:1904.08864(2019)中有详细描述,改出版物并入本文用于所有目的)。提取的repel代码225可以乘以颜色簇掩膜以使背景像素具有零值。
[0057]
然后将三个提取的标签,即过滤repel标签、局部颜色簇标签和voronoi标签(见图2)与作为u-net模型230的两个输出通道的核和背景概率图进行比较。该比较是在训练过程中通过三个损失l
repel
、l
vor
和l
clust
来完成的。在某些情况下,交叉熵损失函数被用于二进制标签(voronoi簇和颜色簇),并且均方误差(mse)损失函数被用于repel代码标签,如本文中相对于实施例1详细描述的公式(1-3)中所定义。由于存在三个不同的损失,模型230基于这些损失被训练,因此需要组合这些损失并且在每次训练迭代中需要更新该模型的权重。多任务调度器235用于组合这些损失并更新模型230的权重。在某些情况下,在每次训练迭代中,选择三个损失(l
repel
、l
vor
和l
clust
)中的一个损失,并且根据该特定损失的梯度来更新该模型的权重。如果假设“i”是训练迭代的指数,如果“i%3=0”,则调度器235选择voronoi损失,如果“i%3=1”,则调度器235选择repel损失,并且如果“i%3=2”,则调度器235选择颜色簇损失,如本文相对于实施例1详细描述的等式(4)中所定义。
[0058]
iii.c.用于分割和检测的示例性u-net
[0059]
分割使用修改的u-net从输入图像中单独提取特征,其中编码器部分替换为resnet50的卷积层,resnet50在imagenet数据集上被预训练以生成核和背景概率图。如图3所示,u-net 300可以包括收缩路径305和扩展路径310,这使其具有u形架构。收缩路径305是包括卷积的重复应用(例如,3x3卷积(未填充的卷积))的cnn网络,每个卷积后跟修正线性单元(relu)和用于下采样的最大池化操作(例如,步长为2的2x2最大池化)。在每个下采样步骤或池化操作中,特征通道的数量可以加倍。在收缩期间,图像数据的空间信息减少,而特征信息增加。扩展路径310是组合来自收缩路径305的特征和空间信息(来自收缩路径305的特征图的上采样)的cnn网络。特征图的上采样后跟一系列将通道的数量减半的上卷积(上采样运算子)、与来自收缩路径305的相应裁剪的特征图的串接、每个之后跟有修正线性单元(relu)的卷积(例如,两个3x3卷积)的重复应用、以及最终卷积(例如,一个1x1卷积),以生成核和背景概率图。为了定位,来自收缩路径305的高分辨率特征与来自扩展路径310的上采样的输出相组合。u-net 300使用没有任何全连接层的每个卷积的有效部分,即核和背景概率图仅包含输入图像中完整上下文可用的像素,并使用跳跃连接对在收缩块中学习到的上下文特征和在扩展块中学习到的定位特征进行链接。
[0060]
iv.实例
[0061]
通过参考以下实施例可以更好地理解在各种实施方案中实现的系统和方法。
[0062]
iv.a.实施例1.

用于细胞检测和分割的弱监督多任务学习
[0063]
细胞检测和分割是数字病理图像的所有下游分析的基础。然而,针对单细胞分割获得像素级的基准真值是非常劳动密集型的。为了克服该挑战,开发了一种自动化、端到端深度学习单细胞检测和分割算法,开发方法如下:基于来自图像数据的可用点标签提取voronoi标签、repel标签和局部颜色簇标签;以及使用:voronoi标签、repel标签和局部颜
色簇标签以及迁移学习(在imagenet上预训练的resnet)来训练u-net模型。与常规的细胞分割和检测技术相比,该设计的算法在不增加注释工作量的情况下显示出细胞检测和分割的显著改进。
[0064]
iv.b.数据集
[0065]
该设计的算法在免疫组织化学(ihc)pms2染色的结直肠癌和扁桃体组织切片上进行了训练、验证和测试。数据集包括256个512
×
512图像,分辨率为0.5μm/像素,涵盖载玻片中的肿瘤区域、肿瘤周围区域、正常组织区域、滤泡内和滤泡间区域。该数据集具有用于检测和分割任务的多种核,例如不同形状和大小的阳性细胞(深褐色或浅褐色染色)和阴性细胞(蓝色染色),具有稀疏或高度聚集的空间分布。
[0066]
iv.c.预处理和扩充
[0067]
数据集分为训练(80%)、验证(10%)和测试(10%),确保每个集具有所有类型的组织区域(例如,肿瘤、肿瘤周围、正常组织等)。从原始图像中提取250
×
250像素的小块。为了增加训练集的大小,进行了数据扩充,包括水平和垂直翻转、随机调整大小、仿射变换、旋转和裁剪。这产生了~3000个小图像的训练集。作为最后的预处理步骤,训练集分别通过均值消减和除以rgb通道的标准差进行归一化。对验证集和测试集中的图像应用了相同的归一化。
[0068]
iv.d.标签提取
[0069]
为了克服实例细胞分割和检测的挑战,设计的算法以弱监督的方式进行了设计。例如,三种变换/编码被应用于细胞点标签(例如,fov内每个细胞的核的中心处的点标签):(i)voronoi变换、(ii)局部聚类和(iii)repel代码。图2示出了设计的算法的概述,包括:基于细胞点标签的像素级标签提取以及使用损失调度器并基于具有resnet编码器的u-net模型的多任务深度学习方法。voronoi变换提取细胞之间的脊线并在每个细胞周围形成多边形。这些线有助于高度聚集的细胞不被合并在一起。局部聚类基于点标签、输入图像和voronoi标签提取核的像素级标签。对于每个提取的voronoi细胞(多边形),使用k均值聚类算法基于与距离变换特征相级联的rgb通道颜色特征来局部地提取背景簇和核簇,该距离变换特征为voronoi细胞中每个像素到核点标签的距离。使用该局部k均值,提取核像素,这些像素位于点标签周围,并且与背景具有较高的局部颜色对比度。与常规的全局颜色聚类技术相比,局部聚类方法为弱染色核显著提高了颜色簇标签的质量。图4示出了局部聚类算法与常规的分割算法中使用的全局聚类算法相比的性能。如图所示,通过局部聚类方法可以很好地保留弱染色细胞,而全局聚类方法无法检测到大多数弱染色细胞。
[0070]
repel编码是一种细胞的增强中心编码(参见,例如,h.liang等人“enhanced center coding for cell detection with convolutional neural networks。”arxiv预印本arxiv:1904.08864(2019),该出版物并入本文用于所有目的),该编码定义了二维衰减函数,其峰值位于细胞中心点标签处。与常用的高斯和邻近编码相比,针对与相邻细胞距离较短的细胞,repel代码衰减更快。因此,在设计的算法中利用repel代码来促进分割任务中更好的细胞分离,同时更好地进行针对检测任务的中心定位。此外,为了促进更好的核边界描绘,提取的repel代码乘以局部像素聚类标签掩膜,以确保背景像素在repel代码图中具有零值,这在图2中称为“过滤repel”。
[0071]
iv.e.模型
[0072]
使用了u-net模型,其中编码器部分被替换为resnet50的卷积层,resnet50在imagenet数据集上进行了预训练。例如,参见o.ronneberger、p.fischer和t.brox.“u-net:convolutional networks for biomedical image segmentation”international conference on medical image computing and computer-assisted intervention.springer,cham,2015;k.he,等人的“deep residual learning for image recognition”proceedings of the ieee conference on computer vision and pattern recognition.2016;以及o.russakovsky等人的“imagenet large scale visual recognition challenge”international journal of computer vision 115.3(2015):211-252,这些出版物并入本文用于所有目的。
[0073]
iv.e.多任务调度器
[0074]
将三个提取的标签,即过滤repel标签、局部颜色簇标签和voronoi标签(见图2)与作为u-net模型的两个输出通道的核和背景概率图进行比较。该比较是在训练过程中通过三个损失完成的:交叉熵损失函数被用于二元标签(voronoi和颜色簇),并且均方误差(mse)损失函数被用于repel代码标签,如方程式(1-3)中所定义:
[0075][0076][0077][0078]
其中o是模型输出概率图,并且t是对应的目标,即voronoi标签、repel标签或局部像素簇标签。(2)中的忽略集中的像素在voronoi损失函数中被忽略(如图1中voronoi子区域内的黑色像素所示),因此只有红线(用作背景)和绿点(用作前景)指示的像素被包括在内。
[0079]
由于使用三种不同的损失来训练单个模型,因此需要一种策略将它们组合起来,以便在每次训练迭代中更新该模型的权重。对于多任务学习问题,朴素求和可能不是最佳方案,因为各种任务的性质可能非常不同。为了解决该问题,提出了一种多任务调度器。具体地,在每次训练迭代中,仅使用三个损失中的一个损失并使用以下规则来更新模型权重:假设“i”是训练迭代的指数,如果“i%3=0”,则调度器选择voronoi损失,如果“i%3=1”,则调度器选择repel损失,并且如果“i%3=2”,则调度器选择颜色簇损失,如下等式(4):
[0080][0081][0082]
其中是在第i
th
训练迭代中选择的损失,是指示函数,如果i∈a,该指示函数取值1,否则取值0。由于数据集是在每个时期提取小批量之前被随机打乱的,因此
每个数据点都有机会对所有三种类型的损失/任务做出贡献。与损失的常规朴素求和相比,该多任务调度器针对每个单独的任务显示出更好的性能,正如在下一节中讨论的那样。使用应用于输出概率图的argmax函数生成二元分割掩膜,该函数将像素值设为1,其中核的概率值高于背景,否则为0。此外,通过使用最大过滤器在核输出概率图中找到局部maxima的位置(最小距离为2.5μm)来检测细胞(参见,例如s.van der walt等人的“scikit-image:image processing in python”,peerj 2:e453(2014),该出版物并入本文用于所有目的)。
[0083]
iv.f.分割和检测结果
[0084]
为了执行分割和检测,使用了小批量的8,150个epoch和60900次总训练迭代在pytorch中对模型进行了训练(参见,例如,a.paszke等人,“automatic differentiation in pytorch”,nips autodiff workshop,2017,该出版物并入本文用于所有目的)。如l.wright,“new deep learning optimizer,ranger:synergistic combination of radam lookahead for the best of both”(2019)中描述的ranger优化器,该出版物并入本文用于所有目的,该优化器被用于更新参数并提高训练的性能。使用了0.001的学习率。对于repel代码,基于h.liang等人“enhanced center coding for cell detection with convolutional neural networks”arxiv预印本arxiv:1904.08864(2019)中的公式(4),使用了α=0.05和r=70。
[0085]
设计的算法的像素级准确率为92.9%,像素级f1分数为79.1%,对象级dice分数为0.784,对象级aggregated jacard index(aji)分数为0.599,检测精度为94.1%,检测召回率为92.5%,并且检测一致性相关系数(ccc,α=0.05,如i.lawrence和k.lin.“a concordance correlation coefficient to evaluate reproducibility”biometrics(1989):255-268中所定义,该出版物并入本文用于所有目的)为0.998。分割性能度量的使用如下定义:h.qu等人“weakly supervised deep nuclei segmentation using points annotation in histopathology images”international conference on medical imaging with deep learning(imdl),2019[1],该出版物并入本文用于所有目的。检测精度和召回度量分别定义为tp/(tp fp)和tp/(tp fn),其中tp,fp,和fn是真阳性细胞、假阳性细胞和假阴性细胞的数量。与在h.qu等人的“weakly supervised deep nuclei segmentation using points annotation in histopathology images”international conference on medical imaging with deep learning(imdl),2019中提出的算法相比,该设计的算法在细胞分割和检测方面显示出显著改进,而无需增加注释工作。相比之下,排除了条件随机场(crf)后处理步骤,该步骤被用在h.qu等人的“weakly supervised deep nuclei segmentation using points annotation in histopathology images”international conference on medical imaging with deep learning(imdl),2019。
[0086]
多任务调度器方法的性能单独与a.kendall、y.gal和r.cipolla.“multi-task learning using uncertainty to weigh losses for scene geometry and semantics”proceedings of the ieee conference on computer vision and pattern recognition.2018[2]中提出的使用不确定性的多任务学习方法进行了比较,该出版物并入本文用于所有目的。根据结果,与任务不确定性方法相比,多任务调度器方法显示出更好的性能,其中定义了具有可学习权重的附加损失层来组合三个损失。分割和检测的结果总结在下表1和表2中。
[0087]
图5示出了设计的算法与在以下出版物中提出的算法相比的实例分割性能:h.qu等人的“weakly supervised deep nuclei segmentation using points annotation in histopathology images”international conference
[0088]
表1.提出的算法与常规算法相比的分割性能。
[0089][0090]
表2.设计的算法与常规算法相比的检测性能。
[0091][0092]
on medical imaging with deep learning(imdl),2019,包括一些样品测试图像和叠加在原始图像上的分割掩膜。具体地,图5示出了:(a)具有细长细胞的对照区域;(b)具有阴性肿瘤细胞的对照区域;(c)具有高度聚集细胞的组织区域;和(d)具有弱和良好染色细胞的肿瘤区域。该算法在这些不同类型的细胞的分割中表现良好。
[0093]
v.其他注意事项
[0094]
本公开的一些实施方案包括一种系统,其包括一个或多个数据处理器。在一些实施例中,该系统包括包含指令的非暂时性计算机可读存储介质,所述指令在所述一个或多个数据处理器上被执行时使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。
[0095]
已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施方案和可选特
征具体地公开了所要求保护的本发明,但是本领域技术人员可以采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。
[0096]
随后的描述仅提供优选的示例性实施方案,并且不旨在限制本公开的范围、适用性或配置。相反,优选示例性实施例的随后描述将为本领域技术人员提供用于实现各种实施例的可行描述。应当理解,在不脱离所附权利要求中阐述的精神和范围的情况下,可以对元件的功能和布置进行各种改变。
[0097]
在以下描述中给出具体细节以提供对实施方案的透彻理解。然而,应当理解,可以在没有这些具体细节的情况下实践实施例。例如,电路、系统、网络、过程和其他组件可以以框图形式显示为部件,以免在不必要的细节中混淆实施例。在其他情况下,可以在没有不必要的细节的情况下示出众所周知的电路、过程、算法、结构和技术以避免混淆实施例。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献