一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于聚类信息熵的易区分图像选择方法与流程

2021-10-24 09:02:00 来源:中国专利 TAG:图像处理 区分 深度 图像 选择


1.本发明涉及深度学习和图像处理领域,具体是指一种基于聚类信息熵的易区分图像选择方法。


背景技术:

2.随着智能手机和社交媒体的普及,图像数据的产生速度越来越快,每天都有海量的图像数据被上传到公开网络上;对这些数据进行分析可以获得大量的有效信息,比如人们的饮食喜好,旅游喜好等等,具有重要的商用价值;但网络上的数据往往质量较差,内容杂乱,数据分析模型往往难以抓住重点,更可能导致模型训练过程中的崩溃;因此,在对海量数据进行分析之前,往往需要进行数据预处理;数据预处理的第一步就是筛出掉不合格的数据,选择质量好的数据往往是预处理的第一步。
3.图像搜索,数据匹配等操作都以数据的分类或聚类为基础操作,因此,选择出好的,适用于分类与聚类的图像样本是训练一个好的神经网络的必要操作。


技术实现要素:

4.基于以上问题,本发明提供了一种基于聚类信息熵的易区分图像选择方法,实现了对数据进行分类或聚类操作前,排除掉噪声大、质量差的数据样本。
5.为解决以上技术问题,本发明采用的技术方案如下:
6.一种基于聚类信息熵的易区分图像选择方法,包括如下步骤:
7.步骤一、构建图像数据集,将图像数据集划分为训练集和验证集,并对图像进行预处理;
8.步骤二、构建特征提取网络,特征提取网络包含特征提取部分以及特征提取部分之后连接一个全连接层和聚类层;
9.步骤三、将训练集输入构建好的特征提取网络中进行训练并输出每个样本属于各个类的概率分布矩阵p;
10.步骤四、根据概率分布矩阵p计算目标概率分布矩阵q;
11.步骤五、计算概率分布矩阵p和目标概率分布矩阵q的指数损失的变化率,若指数损失的变化率小于阈值,则停止网络训练保存模型,并进入步骤六,若指数损失的变化率大于阈值,则开始新一轮的网络训练,并进入步骤三;
12.步骤六、模型收敛后进行多项式函数拟合每一个类中样本的熵值分布,计算拟合函数导数,并设置导数突增点,输出导数突增点以下的样本集形成低熵样本集;
13.步骤七、利用低熵样本集训练一个分类或聚类模型,并用验证集对分类或聚类模型进行验证。
14.进一步,所述步骤一中,图像数据集为office

home,该图像数据集按照9:1的比例将所有图像划分为训练集和验证集。
15.进一步,所述步骤一中,图像预处理过程包括对图像进行上采样和下采样操作,其
中,上采样采用三次内插法,下采样根据采用目标尺寸以及原有尺寸隔行隔列采样,图像经过上采样和下采样处理后尺寸统一为299*299*3。
16.进一步,所述步骤二中,特征提取网络使用resnet50的第一层至倒数第二层作为特征提取部分对图像的特征表示进行提取,初始化参数选择alexnet参数,参数不冻结,所述全连接层的输出维度和图片类别数量相同,每个神经元均代表一个类,其输出为图像属于该类的可能性,所述聚类层的输出输入维度均为图像类别数量,用于将上一层所输出的样本类别概率做归一化并使其符合高斯分布。
17.进一步,所述全连接层的神经元数量为31。
18.进一步,所述聚类层使用k

means算法对提取的特征表示进行聚类,并用得到的类中心初始化聚类层,其中,采用不同的质心初始化值运行算法的次数为20。
19.进一步,所述步骤四中,目标概率分布矩阵q的计算公式为:
[0020][0021]
其中,p
ij
表示样本i属于类别j的概率,q
ij
是p
ij
的目标分布,用于计算神经网络参数更新值,共有n个样本和m个类,l表示分布向低熵分布的步幅大小且l=3。
[0022]
进一步,所述步骤六中,所述多项式函数中最高次项设置为10。
[0023]
进一步,所述步骤六中,所述导数突增点设置为10。
[0024]
与现有技术相比,本发明的有益效果是:其通过优化数据样本在聚类过程中,其类别可能性的熵的分布,使可信度较高的样本拥有更小的熵值,可信度低的样本拥有更大的熵值,后续通过使用多项式函数拟合各个簇中样本熵的分布,选择熵值突变点以下的样本提供给后续工作,排除了噪声大、质量差的数据样本。
附图说明
[0025]
图1为本实施例1的流程图。
具体实施方式
[0026]
下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。
[0027]
如图1所示的一种基于聚类信息熵的易区分图像选择方法,包括如下步骤:
[0028]
步骤一、构建图像数据集,将图像数据集划分为训练集和验证集,并对图像进行预处理。
[0029]
该步骤中,按照90%训练集,10%验证集将图像数据集分为训练集和验证集,同时,本实施例图像数据集为office

home。
[0030]
该步骤中,图像预处理包括对图像进行上采样和下采样操作,其中,上采样采用三次内插法,下采样根据采用目标尺寸以及原有尺寸隔行隔列采样,图像经过上采样和下采样处理后尺寸统一为299*299*3以适配resnet50网络的输入标准。
[0031]
步骤二、构建特征提取网络。
[0032]
该步骤中,特征提取网络包含特征提取部分以及特征提取部分之后连接一个全连
接层和聚类层。
[0033]
该步骤中,特征提取网络使用resnet50的第一层至倒数第二层作为特征提取部分对图像的特征表示进行提取,初始化参数选择alexnet参数,参数不冻结。
[0034]
该步骤中,全连接层的输出维度和图片类别数量相同,每个神经元均代表一个类,其输出为图像属于该类的可能性,同时,本实施例中,全连接层的神经元数量为31。
[0035]
该步骤中,聚类层的输出输入维度均为图像类别数量,用于将上一层所输出的样本类别概率做归一化并使其符合高斯分布,同时,本实施例中,聚类层使用k

means算法对提取的特征表示进行聚类,并用得到的类中心初始化聚类层,其中,采用不同的质心初始化值运行算法的次数为20。
[0036]
步骤三、将训练集输入构建好的特征提取网络中进行训练并输出每个样本属于各个类的概率分布矩阵p。
[0037]
步骤四、根据概率分布矩阵p计算目标概率分布矩阵q。
[0038]
该步骤中,目标概率分布矩阵q的计算公式为:
[0039][0040]
其中,p
ij
表示样本i属于类别j的概率,q
ij
是p
ij
的目标分布,用于计算神经网络参数更新值,共有n个样本和m个类,l表示分布向低熵分布的步幅大小且l=3。
[0041]
步骤五、计算概率分布矩阵p和目标概率分布矩阵q的指数损失的变化率,若指数损失的变化率小于阈值,则停止网络训练保存模型,并进入步骤六,若指数损失的变化率大于阈值,则开始新一轮的网络训练,并进入步骤三。
[0042]
该步骤中,先计算概率分布矩阵p和目标概率分布矩阵q的指数损失loss,并返回损失函数值,按照反向传播规则优化模型的参数,同时计算本次训练的损失和上一轮训练的损失的变化率,从而得到概率分布矩阵p和目标概率分布矩阵q的指数损失的变化率的损失的变化率,从而得到概率分布矩阵p和目标概率分布矩阵q的指数损失的变化率的公式为:
[0043][0044]
其中,loss
pre
表示上一轮训练的指数损失。
[0045]
该步骤中,的阈值设置为0.01,即指数损失的变化率小于0.01,则停止网络训练保存模型,并进入步骤六,若指数损失的变化率大于0.001,则开始新一轮的网络训练,并进入步骤三.
[0046]
步骤六、模型收敛后进行多项式函数拟合每一个类中样本的熵值分布,计算拟合函数导数,并设置导数突增点,输出导数突增点以下的样本集形成低熵样本集;
[0047]
该步骤中,多项式函数中最高次项设置为10。
[0048]
该步骤中,导数突增点设置为10,即选择小于导数突增点为10以下的样本集形成低熵样本集。
[0049]
步骤七、利用低熵样本集训练一个分类或聚类模型,并用验证集对分类或聚类模型进行验证。
[0050]
如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜