一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于随机森林和卷积神经网络的细胞计数方法与流程

2022-02-22 04:28:23 来源:中国专利 TAG:


1.本发明涉及一种显微图像领域的细胞计数算法,尤其涉及一种基于随机森林和卷积神经网络的细胞计数方法。


背景技术:

2.传统的细胞计数方法大多都是依赖于细胞检测的手段,对单个细胞进行定位,然后计数。但是细胞检测的方法还有许多待解决的问题,比如杂质的干扰、背景的复杂性、灰度阈值法中阈值选取的不确定性、区域生长法中种子点选取的多样性等等。除此之外,还有一个很重要的问题——粘连细胞的分割。至今为止,尚未有一种方法能很好的实现粘连细胞的分割计数,因此,基于细胞形态检测的计数方法还存在一定的缺陷。如公开号为cn109102515a和cn112465745a的中国专利公开文本均对细胞计数方法进行了改进。
3.但基于估计像素级数量分布的细胞计数方法则是通过学习图像特征到细胞数量的映射关系,对新的图像进行估计,得到每个像素所表示的细胞个数,进而对密度矩阵目标区域的元素值求和,统计出细胞数量。虽然这种学习估计的方法避免了粘连细胞的计数问题,但其学习的效果很大程度上取决于供其学习特征的样本好坏,样本特征的质量决定了学习效果的上限。在对数据了解不全面的情况下,一般很难设计出合适的特征。
4.当细胞由于成像条件或染色等原因导致边缘较模糊时,在估计密度时,容易将边缘估计为背景密度,导致区域的密度值之和变小,出现细胞漏计的情况。
5.因此,如何有效解决粘连细胞的计数问题是本领域亟需解决的技术问题。


技术实现要素:

6.本发明的目的在于提供一种基于随机森林和卷积神经网络的细胞计数方法,该细胞计数方法能有效解决粘连的计数问题。
7.本发明通过以下技术方案来实现的:
8.一种基于随机森林和卷积神经网络的细胞计数方法,包括以下步骤:
9.(1)将细胞图像及其根据细胞的点标记生成真实的密度图作为数据集,并将数据集划分为训练集、验证集和测试集;
10.(2)将训练集输入到基于卷积神经网络的预训练模型,选择特定的特征图输出,作为提取的特征图;
11.(3)选择合适大小的窗口,在步骤(2)得到的特征图和步骤(1)得到的密度图上提取结构化数据,共同组成数据-标签训练数据;
12.(4)采用步骤(3)中的数据-标签训练数据,使用交叉验证法确定合适的随机森林超参数,得到训练后的随机森林模型;
13.(5)将待测细胞图像输入步骤(2)中的基于卷积神经网络的预训练模型选择特定的特征图输出,作为提取的特征图,然后输入到步骤(4)训练后的随机森林模型,输出估计的密度图;
14.(6)对步骤(5)估计的密度图的值求和,得到待测细胞图像所包含的细胞数量。
15.其中,训练集用于模型训练,验证集用于验证模型的性能,测试集用于测试模型在未知数据上的表现。
16.所述步骤(1)通过以下子步骤来实现:
17.(1.1)将每张细胞图像ii的标记点集合记为其中ci是第i张图像的细胞数量,根据公式(1)计算真实的密度图标签:
[0018][0019]
其中g
σ
是标准差为σ的高斯函数,*表示卷积运算。密度图上高斯函数重叠的部分,其值按照叠加后的结果计算。f(x)在整幅图像上的积分即为细胞计数结果;
[0020]
(1.2)对数据集进行划分:一部分数据集固定为训练集,剩下的随机划分为测试集和验证集用于交叉验证。
[0021]
优选的,所述步骤(2)中的预训练模型为vgg16,提取vgg16中第一个阶段的最后一组特征图输出,作为提取的特征图。根据权利要求1所述的基于随机森林和卷积神经网络的细胞计数方法,其特征在于,所述步骤二通过以下子步骤来实现:
[0022]
这里选择第一阶段的最后一组特征图,因为第一阶段尚未经过池化操作,特征图与输入图像大小一致,方便提取每个像素的特征。相比第一组特征图,最后一组特征图具有更少的噪声。最后一组特征图的元素和输入图像像素具有一一对应的关系,每个位置上多通道值就是该位置像素的特征向量。
[0023]
所述vgg16中第一个阶段包括:
[0024]
卷积层1,卷积核尺寸为3,通道数为128;
[0025]
卷积层2,卷积核尺寸为3,通道数为128。
[0026]
所述步骤(3)通过以下步骤来实现:
[0027]
假设窗口大小为p,该窗口内的特征记为p
in
,对应的密度集合为p
out
,随机森林的目的就是学习从p
in
到p
out
非线性映射:
[0028]
f:p
in

p
out
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0029]
最终的预测值是重叠窗口的值求平均得到:
[0030][0031]
其中是通过估计得到的密度图。
[0032]
优选的,所述步骤(5)中的随机森林超参数包括树的数量、树的最大深度、最小分离样本数和叶子结点最小样本数。
[0033]
所述步骤(6)中每张待测细胞图像所包含的细胞数量通过对估计的密度图积分得到:
[0034][0035]
优选的,所述细胞图像中含有粘连细胞。
[0036]
本发明假定细胞数量在空间上的密度服从高斯分布,通过学习细胞的像素特征和
密度值之间的映射关系,估计得到新的细胞图像在空间上的分布结果。具体为:首先在细胞中心处以一个点的形式对细胞进行标记。然后构建一个密度函数,作用在每个细胞的标记点上,以该点为中心得到对应的密度矩阵。密度矩阵中每个元素值的大小代表细胞以像素为单位的密度分布,对整个矩阵的元素求和,即得到细胞总数量。通过建立模型,学习原图像中每个像素点的特征向量和密度矩阵中对应元素值的关系,可以确定特征到密度的映射,因此,可由此映射关系,得到细胞数量的估计结果。该方法实现原理简单,能有效解决粘连的计数问题。
附图说明
[0037]
图1为vgg16网络模型结构示意图;
[0038]
图2为用于估计计数的细胞图像;
[0039]
图3为对应标记细胞图像;
[0040]
图4为经过高斯卷积之后的真实密度图;
[0041]
图5为估计得到的密度图。
具体实施方式
[0042]
下面根据附图详细说明本发明。
[0043]
本发明基于随机森林和卷积神经网络的细胞计数方法,包括以下步骤:
[0044]
步骤(1):将细胞图像及其根据细胞的点标记生成真实的密度图作为数据集,将数据集划分为训练集、验证集和测试集,其中,训练集用于模型训练,验证集用于验证模型的性能,测试集用于测试模型在未知数据上的表现;
[0045]
(1.1)将每张细胞图像ii的标记点集合记为其中ci是第i张图像的细胞数量,根据公式(1)计算真实的密度图标签:
[0046][0047]
其中g
σ
是标准差为σ的高斯函数,*表示卷积运算。密度图上高斯函数重叠的部分,其值按照叠加后的结果计算。f(x)在整幅图像上的积分即为细胞计数结果。
[0048]
(1.2)对数据集进行划分:一部分数据固定为训练集,剩下的随机划分为测试集和验证集用于交叉验证。
[0049]
在本实施例中,将图2中的细胞图像进行标记后的图像如图3所示,经步骤(1.1)得到如图4所示的真实密度图。
[0050]
步骤(2):将训练集输入到一个经典的卷积神经网络中,如图1中的vgg16,并加载预训练模型,选择特定的特征图输出,作为提取的特征。这里选择stage1的最后一组特征图,因为stage1尚未经过池化操作,特征图与输入图像大小一致,方便提取每个像素的特征。
[0051]
(2.1)构建vgg16的网络模型,并加载vgg16预训练模型参数,提取stage1的最后一组特征图。相比第一组特征图,最后一组特征图具有更少的噪声。最后一组特征图的元素和输入图像像素具有一一对应的关系,每个位置上多通道值就是该位置像素的特征向量。
[0052]
步骤(3):选择合适大小的窗口,在特征图和密度图上提取结构化数据,共同组成数据-标签训练数据;
[0053]
假设窗口大小为p,该窗口内的特征记为p
in
,对应的密度集合为p
out
,随机森林的目的就是学习从p
in
到p
out
非线性映射:
[0054]
f:p
in

p
out
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)最终的预测值是重叠窗口的值求平均得到:
[0055][0056]
其中是通过估计得到的密度图。
[0057]
步骤(4):使用交叉验证法确定合适的随机森林超参数,,得到训练后的随机森林模型;本发明中可调的超参数为树的数量、树的最大深度、最小分离样本数和叶子结点最小样本数;
[0058]
步骤(5):对待测细胞图像执行步骤(2)提取特征,然后输入到训练好的随机森林模型,得到估计的密度图,如图5所示;
[0059]
步骤(6):对估计的密度图的值求和,得到该待测细胞图像内所包含的细胞数量。
[0060]
其中,每张细胞图像所包含的细胞数量通过对估计的密度图积分得到:
[0061][0062]
经计算,图2表示的细胞图像,真实细胞数量为103,本发明估计数量为99,估计密度和真实密度的偏差为4。
[0063]
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献