一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于近邻传播偏标签学习的脑影像数据分类模型建立方法

2022-11-14 13:59:16 来源:中国专利 TAG:


1.本发明属于脑影像分析领域和偏标签学习领域,特别涉及一种新的基于近邻传播偏标签学习的脑影像数据分类模型建立方法。


背景技术:

2.传统的精神疾病分类面临着多种疾病临床症状高度重叠、基于症状的诊断方法不完善等问题,因此亟待改善。
3.目前,精神疾病的分类主要基于患者对其症状的主观描述和临床医生或知情人对患者行为的观察。但是,很多精神疾病具有相似的临床症状,精神疾病患者常同时具有多种疾病的临床特征,并且,随着时间的推移,特定个体的主要临床症状还可能发生显著变化,这对精神疾病分类造成了极大的干扰。因此,仅通过医师评估或患者自我评估获得的临床分类结果往往因缺乏生物学证据而具有准确度不高的缺点。
4.利用脑影像数据可以提高精神疾病的分类准确性。然而,现有技术中的分类算法的理论前提是数据和其对应标签是可靠的。方法常从训练数据中学习信息并建立模型,再通过训练好的模型完成对新样本的类别分类。然而很多数据集都存在标签信息不完全准确的问题。人工标注工作需要标注者极高的专业素养,但现实情况下,这种标注要求往往难以达到,因此部分数据存在标签歧义问题。例如,在精神疾病领域,精神分裂症和双相情感障碍的症状重叠,医生很难对这两种疾病给出可靠的诊断,精神疾病患者的脑影像数据对应的疾病标签具有准确性不高的问题,所以传统分类方法并不适用于在精神疾病领域的脑影像分类工作。基于偏标签学习的分类是从不完全准确的标签信息中提取出有效信息的方法,更适用于脑影像数据分类。
5.因此,需要对现有技术中的分类模型建立方法进行改进,以得到准确性高的脑影像分类模型,提高分类模型的分类准确率。


技术实现要素:

6.本发明克服现有技术存在的不足,所要解决的技术问题为:提供一种基于近邻传播偏标签学习的脑影像数据分类模型建立方法。
7.为了解决上述技术问题,本发明采用的技术方案为:一种基于近邻传播偏标签学习的脑影像分类模型建立方法,包括以下步骤:
8.s1、获取训练数据集和对应的原始标签;在训练数据集的同一类别样本内计算各个样本间相似度矩阵以及度中心性,根据度中心性确定各个类别的典型样本;然后,将同一类别组内所有典型样本的均值作为该类别的初始类别中心;根据各个类别下的典型样本构成典型样本集,根据各个类别的初始类别中心构成类别中心集;
9.s2、确定训练数据集中样本的候选标签,构建候选标签集;
10.s3、通过训练数据集,利用k n近邻样本图建立分类模型,其具体包括:
11.s301、将典型样本和其k个近邻节点样本作为本层样本,确定其近邻节点样本的候
选标签;
12.s302、根据训练样本的典型样本集、类别中心和样本特征,构建本层样本的k n近邻样本图;所述k n近邻样本图包括k个近邻样本节点和n个近邻典型样本节点;
13.s303、通过典型样本对其近邻节点样本进行标签推理,确定其近邻节点样本的分类输出标签,然后,计算同一类别组内各个样本的度中心性,根据度中心性增加各个类别的典型样本数量,更新典型样本集、类别中心集以及候选标签集;
14.s304、判断是否全部样本标签确定,若否,则返回步骤s301;若是,则输出所有样本的最终分类输出标签,完成分类模型的建立。
15.所述脑影像数据包括:脑功能核磁共振成像、脑结构核磁共振数据、弥散张量成像数据、脑电数据、脑磁数据;
16.所述脑影像数据的特征包括:脑功能连接特征、脑灰质密度和体积特征、脑结构连接特征、脑电信号特征、脑影像多模态融合后的特征。
17.所述步骤s1中,所述相似度矩阵的矩阵元为相关系数,所述相关系数为皮尔逊相关系数、高斯核求解相关系数或回归求解相关系数。
18.所述步骤s303中,确定近邻样本的分类输出标签的方法为:
19.循环计算临时置信度矩阵和标签置信度矩阵f
(t)
,计算公式为:
[0020][0021][0022][0023]
其中,t表示传播次数;f
(0)
表示初始的标签置信度矩阵,取样本的候选标签集中候选标签个数的均值作为当前样本的初始标签置信度;α是权重,wk表示k近邻权重矩阵,wn表示n近邻权重矩阵;f
(t-1)
表示第t-1次传播时得到的标签置信度矩阵为临时置信度矩阵中的元素,中的元素,表示标签置信度矩阵f
(t)
中的元素;表示候选标签集中第i个样本的分类输出标签为类别l的临时置信度,y
l
表示类别l的标签,si表示候选标签集,n表示本层训练样本数量,q表示类别个数;
[0024]
当达到收敛条件时,停止循环,将标签置信度矩阵中最大置信度值对应的标签作为近邻样本的标签。
[0025]
所述步骤s1中,度中心性为样本相似度总和;
[0026]
确定各个类别的典型样本的方法为:将各个样本的度中心性值进行排序,选择同一类别组内度中心性排序靠前的a%的样本作为典型样本。
[0027]
所述步骤s303中,根据度中心性增加各个类别的典型样本数量的具体方法为:
[0028]
对同一类别组内各个样本的度中心性值进行排序,选择同一类别组内度中心性排序中前b%的非典型样本作为新的典型样本,加入典型样本集,其中b大于a。
[0029]
所述步骤s2中,确定训练集样本的候选标签的具体方法为:
[0030]
将典型样本的原始标签认定为分类输出标签;
[0031]
计算其余样本与各个类别中心的相似度,除原始标签外,选择相似度最高的一个类别中心对应的标签作为候选标签,将其与原始标签一起加入当前样本的候选标签集;最终确定所有训练样本的候选标签,生成候选标签集。
[0032]
所述步骤s302中,所述本层样本的k n近邻样本图结构的构建方法为:
[0033]
基于训练样本的典型样本集、类别中心和样本特征,构建训练样本的全连接原始图;
[0034]
对全连接原始图进行两次稀疏化,获得k近邻样本图和n近邻典型样本图;
[0035]
将k近邻样本图和n近邻典型样本图叠加,得到本层样本的k n近邻样本图。
[0036]
本发明提供了一种基于近邻传播偏标签学习的脑影像数据分类模型建立方法,不同于已有的分类算法,避免现今精神疾病诊断分类算法对于临床医生的诊断结果的过分依赖,结合图结构对样本标签传播,建立模型,与现有技术相比具有以下效果:
[0037]
1、本发明基于k n近邻样本图度量样本之间的关系,利用偏标签学习算法有效利用了标签更可信样本的信息,提高了样本分类的准确性。
[0038]
2、有关偏标签分类辅助精神疾病诊断的研究很少,偏标签算法默认初始标签为候选标签集中的任一标签,这种假设符合精神疾病因病症高度重叠导致病情难以精确诊断的现状。
[0039]
3、本发明所生成的k n近邻样本图中节点代表样本,权重边反映了一对样本之间的相似性。k n近邻样本图结构符合精神疾病数据的特征,适用于挖掘精神疾病数据的有效信息。
[0040]
4、与传统的偏标签算法相比,本发明分类准确度更高,因此本发明更具优势。
附图说明
[0041]
图1是使用本发明实施例提供的一种基于近邻传播偏标签学习的脑影像分类模型建立方法的流程图。
[0042]
图2是本发明提供的一种基于近邻传播的偏标签分类算法中k n近邻样本图生成流程示意图。
[0043]
图3是本发明提供的一种基于近邻传播的偏标签分类算法在五种数据集下与六种偏标签进行准确度性能评估结果图。
[0044]
图4是本发明提供的一种基于近邻传播的偏标签分类算法在五种数据集下与六种偏标签进行精确度性能评估结果图。
具体实施方式
[0045]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046]
如图1所示,本发明实施例提供了一种基于近邻传播偏标签学习的脑影像分类模型建立方法,其中最为核心的就是基于近邻传播偏标签分类算法。本发明的模型建立时,采用训练集样本训练分类模型,摆脱如今精神疾病诊断分类算法对于临床医生的诊断结果的
过分依赖的情况,重新确定训练集样本标签,并通过训练样本的准确度得到了一个准确度更高的k n近邻样本图模型,利用该模型,可以更加准确地预测与判断新样本的标签。
[0047]
s1、获取训练数据集和对应的原始标签,求解样本间相关系数和样本的度中心性,据此生成初始典型样本集和初始类别中心集。典型样本是指标签可信且特征明显的样本,因此本实施例选择每一个原始标签类别中度中心性高的部分样本作为典型样本。在训练数据集的同一类别样本内,计算样本间相关系数作为相似度,基于相似度矩阵求解度中心性,将样本按照度中心性进行排序,选择排在前a%的样本作为典型样本。然后,将同一类别组内所有典型样本的均值作为该类别的初始类别中心。根据原始类别的典型样本构成初始典型样本集,根据类别中心构成初始类别中心集。
[0048]
具体地,本实施例中,所述脑影像数据包括:脑功能核磁共振成像数据、脑结构核磁共振数据、弥散张量成像数据、脑电数据、脑磁数据。数据的标签为数据对应的精神疾病的类别。
[0049]
具体地,本实施例中,所述脑影像数据的特征包括:脑功能连接特征、脑灰质密度和体积、脑结构连接特征、脑电信号特征、脑影像多模态融合后的特征。
[0050]
具体地,本实施例中,在训练集中同一类别样本内,求解样本间相关系数作为相似度,并构成相似度矩阵求解度中心性。将样本相似度总和作为度中心性进行排序,选择类别组内度中心性排序中前a%的样本作为典型样本,再将类别组内所有典型样本的均值作为类别中心。根据原始类别的典型样本构成初始典型样本集,根据类别中心构成初始类别中心集。
[0051]
所述步骤s1中,所述相关系数为皮尔逊相关系数,高斯核求解相关系数或回归求解相关系数。
[0052]
s2、确定训练集中样本的候选标签,构建候选标签集si;所述步骤s2中,确定训练集中剩余样本的候选标签的具体方法为:
[0053]
典型样本是指标签可信且特征明显的样本,因此典型样本的原始标签认定为分类输出标签。典型样本的候选标签集不引入候选标签噪声,保持在候选标签集中标签的唯一确定性。除典型样本外,再对其余实例样本的候选标签进行确定,最终生成候选标签集。样本与各个类别中心的相似度表示该样本属于该标签的可能程度,计算当前样本与各个类别中心的相似度,除原始标签外,选择相似度较高的一个类别中心对应的标签作为候选标签,将其与原始标签一起加入当前样本的候选标签集。最终确定所有训练样本的候选标签,生成候选标签集。
[0054]
本实施例中,基于步骤s1中求解的类别中心和实例样本与类别中心相似度关系确定每个样本的候选标签,构建候选标签集si。实例样本与类别中心的相似度高,代表这种类别成为该样本的分类输出标签可能性更大。依照相似度关系,除初始标签外选择相似度最高的标签作为候选标签,构建当前样本的候选标签集,最终形成所有训练样本的候选标签集。
[0055]
s3、迭代地完成训练样本的k n近邻样本图模型的构建和训练样本的标签推理过程,k值表示k n近邻样本图结构中的近邻样本节点数,n值表示近邻典型样本节点数。k值与n值依据多个数据集实验结果和脑影像数据特征设定。具体地,本发明实施例中,k取值范围为8-30,n取值范围为3-8。
[0056]
所述迭代构建训练样本的k n近邻样本图模型:确定本层样本和它们的候选标签,建立本层样本的k n近邻样本图,对样本进行标签传播,消歧候选标签集,确定它们的分类输出标签。分层迭代地完成k n近邻样本图模型训练。具体操作方法为:
[0057]
s301、确定本层样本和它们的候选标签。本层样本是本次迭代过程中所涉及的所有样本,是标签已确定的样本和本层待传播样本的集合。本层待传播样本是指本次迭代中准备进行候选标签集消歧的样本,本实施例选择标签确定的样本的近邻节点样本作为待传播样本。确定本层样本后,从候选标签集中提取出来本层样本的候选标签,用于本层样本标签推理。
[0058]
s302、构建本层样本的k n近邻样本图。本实施例中,在构建k n近邻样本图时,对每个样本保留其与k个近邻样本节点的连接,同时保留其与n个近邻典型样本对应的节点的连接,将这两种连接叠加构成k n近邻样本图。
[0059]
如图2所示,本实施例中,s302所述本层样本的k n近邻样本图结构的构建方法为:
[0060]
首先基于训练样本的典型样本集、类别中心和样本特征,构建训练样本的全连接原始图。再对全连接原始图进行两次稀疏化,获得k近邻样本图和n近邻典型样本图;k近邻样本图是指通过保留原始图中每个节点与k个近邻节点之间的权重边进行稀疏化所生成的无向非对称图。n近邻典型样本图是指通过保留原始图中每个节点与n个典型样本节点之间的权重边进行稀疏化生成的无向非对称图。将k近邻样本图和n近邻典型样本图叠加,得到样本的k n近邻样本图。
[0061]
本发明在生成图结构时,不仅考虑了k个近邻节点的信息量,并且考虑了n个近邻典型样本信息量,使得样本在进行标签迭代过程中,尽可能吸收更多有效信息。本发明将这种图结果定义为k n近邻样本图结构。在k n近邻样本图中,节点代表样本,权重边反映了一对节点之间的相似性。使用k近邻权重矩阵记录每个节点与近邻节点的相似度关系,n表示本层样本数量。使用n近邻权重矩阵记录每个节点与近邻典型样本节点的相似度关系。本发明基于偏标签学习算法和k n近邻样本图结构重新度量被试之间的关系,对标签可信度不高的被试重新给予标签,可以提高样本标签匹配的准确性。nnpl分类模型k与n参数的选取基于数据以及先验知识设定。实例实验使用k=10和n=5值进行k n近邻样本图分类模型建立,用于测试集标签推理。
[0062]
s303、对本层样本进行标签推理,对候选标签进行消歧,确定它们的分类输出标签,更新典型样本集、类别中心集以及候选标签集。在此步骤中,根据当前的k n近邻样本图确定本层样本最终的标签。此外,确定本层样本最终的标签后,还需要更新典型样本集和类别中心集。本实施例中,选择同一类别组内度中心性排序中前b%的非典型样本作为新的典型样本,更新典型样本集,并将属于同一类的典型样本进行平均更新类别中心集。依据更新后的类别中心集,更新候选标签集未消歧样本的候选标签。
[0063]
本实施例中,s303所述迭代传播的具体操作步骤为:
[0064]
在确定本层样本后,对本层样本进行标签传播,消歧本层样本的候选标签集,确定本层样本的分类输出标签。本实施例中,选择同一类别组内度中心性排序中前b%的非典型样本作为新的典型样本,更新典型样本集,并将属于同一类的典型样本进行平均更新类别中心集。依据更新后的类别标签集,更新候选标签集未消歧样本的候选标签。
[0065]
本实施例中,s303所述标签传播确定本层样本的分类输出标签的具体操作步骤为:
[0066]
在生成本层样本的k n近邻样本图后,需要迭代进行标签传播,对所有的样本进行标签推理。通过标签传播的方式,借助k近邻样本图gk和n近邻典型样本图gn两种无向非对称图对候选标签集进行消歧,最终完成标签推理过程,确定候选标签集中样本的分类输出标签,完成候选标签集的消歧。
[0067]
确定好本层样本集以及k近邻样本图gk和n近邻典型样本图gn后,开始进行标签传播来完成标签集中所有样本的标签推理。标签推理通过确定标签置信度矩阵f=[f
i,c
]n×q达到。f是由样本的分类输出标签为各个类别的置信度构成的矩阵。f
i,c
表示第i个样本的分类输出标签为类别c的置信度,n表示本层样本数量,q表示类别个数。初始的标签置信度矩阵f
(0)
=[f
(0)i,c
]n×q,由公式(1)求解得到,其中yc表示类别c的标签。
[0068][0069]
标签置信度矩阵按照公式(2)进行迭代。t表示第t次传播,表示第t次传播得到的临时置信度矩阵,wk表示k近邻权重矩阵,wn表示n近邻权重矩阵。α∈(0,1)表示第t-1迭代的结果对第t次迭代的影响权重,(1-α)反应初始的标签置信度矩阵对第t次迭代的影响权重。
[0070][0071]
再将中通过公式(3)处理后,确保每个样本对应的置信度向量的元素之和仍为1。最终得到置信度矩阵f
(t)
,用于下一次迭代。
[0072][0073]
其中,t表示传播次数,f
(0)
表示初始的标签置信度矩阵,α是权重,wk表示k近邻权重矩阵,wn表示n近邻权重矩阵;f
(t-1)
表示第t-1次传播时得到的标签置信度矩阵;为临时置信度矩阵中的元素,表示标签置信度矩阵f
(t)
中的元素,表示候选标签集中第i个样本的分类输出标签为类别1的置信度,y
l
表示类别l的标签,si表示候选标签集,n表示本层训练样本数量,q表示类别个数。
[0074]
当达到收敛条件时停止循环,将置信度矩阵中最大置信度值对应的标签作为样本的标签。得到最终的置信度矩阵后,选择候选标签集中权重最大的标签作为当前样本的本次迭代最终标签,完成对此候选标签集的消歧。本实施例中,收敛条件是两次迭代间标签置信度差别度小于设定阈值。
[0075]
s304、判断全部训练样本是否迭代完成,若没有完成迭代,则继续进行s301到s303的迭代;若完成迭代则输出所有样本的最终分类输出标签,完成训练集分类模型建立。
[0076]
具体地,本实施例中,分类模型建立后,可以对新样本标签进行预测,具体方法为:针对新样本,基于训练样本和新样本构建k n近邻样本图模型,预测新样本标签。
[0077]
本实施例中,利用训练集数据得到k n近邻样本图模型后,可以通过k n近邻样本
图模型对新样本进行标签确定,完成测试集中新样本的标签预测与判断。具体方法为:获取新样本的数据,确定候选标签,生成候选标签集,生成方式根据步骤s2的方法。将新样本加入训练集生成的k n近邻样本图,生成新的k n近邻样本图,生成方式根据步骤s302的方法。最后,根据新得到的k n近邻样本图模型对新样本进行标签传播,完成对新样本标签的推理预测。
[0078]
算法性能评估阶段基于uci和其它数据集进行实验,并对六种偏标签学习方法进行全面的比较,以箱线图对十折实验的结果进行展示,总结本技术的基于近邻传播的偏标签学习算法nnpl(nearest neighbor propagation-based partial label learning method)与其它算法,例如:pl-knn(partial learning k-nearest neighbor classification)、ipal(an instance-based partial label learning)、clpl(convex loss for partial labels)、pl-leaf(partial label learning via feature-aware disambiguation)、m3pl(maximum margin partial label learning)和paloc(patial label learning via one-vs-one decomposition)在准确性和精确性两个性能的表现。通过分类性能评估,证实本技术的基于近邻传播的偏标签学习算法(nnpl)与其它方法相比普遍具有更好的分类效果。
[0079]
图3为不同数据集的各类算法准确度评估结果。图3中(a)、(b)和(c)三个子图显示了在三种uci数据集上各类算法的准确率评估结果,可见本发明的nnpl算法在十折评估结果中准确度总体处于较高水平。图3中(d)和(e)两个子图显示了在两个真实数据集测试的不同算法的准确度评估结果。可见本发明的nnpl算法在msrcv2数据集的表现更好,在lost数据集上的表现优于使用标签传播思想改进的其它两种偏标签学习算法pl-knn和ipal。
[0080]
图4为不同数据集的各类算法精确度评估结果。如图4(a)和(e)所示,在glass数据集和lost数据集上,本发明的nnpl算法的精确度评估结果略优于其它算法。如图4(b)和(d)显示,在seed数据集和msrcv2数据集上,本发明的nnpl算法的精确度显著优于其它算法。如图4(c)显示,在waveform数据集中,本发明的nnpl算法与大部分算法精确度评估结果类似。尽管本发明的nnpl并不在每一个数据集都具有最优的表现,但总体上本发明的nnpl算法的精确度处于高值。
[0081]
本发明提供了一种基于近邻传播偏标签学习的脑影像分类模型建立方法,不同于已有的分类算法,避免现今精神疾病诊断分类算法对于临床医生的诊断结果的过分依赖,结合图结构重新对样本标签传播,建立模型,本发明的特色和创新主要在于:
[0082]
1)本发明基于偏标签学习算法和k n近邻样本图结构重新度量被试之间的关系,对标签可信度不高的被试重新给标签,提高了样本标签分类的准确性。
[0083]
2)有关偏标签分类辅助精神疾病诊断的研究很少,在弱监督学习算法中初始默认标签只有一个标签,但偏标签算法默认初始标签为候选标签集中的任一个标签。这种候选标签集假设很符合精神疾病因病症高度重叠导致病情难以精确诊断的现状。
[0084]
3)本发明借鉴了图的半监督学习研究思路,生成的k n近邻样本图结构中节点代表样本,权重边反映了一对节点之间的相似性。结合构建图的结构信息,将标签信息从标记的样本传播到未标记的样本。不论是这种图结构还是流形假设甚至是相似性假设都很符合精神性疾病数据的特征,很适合用于挖掘这类数据的有效信息。
[0085]
4)与传统的偏标签算法相比,本发明分类准确度更好,更适用于训练数据标签不
够准确的应用条件,因此本发明更具优势。
[0086]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献