一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

分类模型构建方法及装置、电子设备、存储介质与流程

2022-02-21 09:10:17 来源:中国专利 TAG:


1.本技术涉及大数据处理技术领域,尤其涉及一种分类模型构建方法及装置、电子设备、计算机可读存储介质。


背景技术:

2.针对基因表达数据和癌症/疾病状态的关联关系的研究是在生物学和医疗任务中非常重要内容。将发生病变组织的基因表达数据和正常组织的基因表达数据进行对比研究,能够加深对病理学的理解,并识别不同的组织以及疾病类型。
3.目前,通过机器学习和深度学习方法对癌症/疾病的基因表达数据进行分类受到业界关注。但是,由于基因表达数据具有样本数量小,样本维度高的这两个特点,导致目前针对基因表达数据构建分类模型需要耗费大量的模型训练时间。


技术实现要素:

4.本技术提供了一种分类模型构建方法及装置、电子设备、计算机可读存储介质,能够提高分类模型的训练效率,缩短训练时间,降低计算开销。
5.第一方面,本技术提供一种分类模型构建方法,所述方法包括:
6.获取目标对象样本集,并提取所述目标对象样本集的目标特征信息;
7.确定所述目标特征信息的多个分裂属性;其中,所述分裂属性用于表征所述目标对象样本集中类别分裂节点的属性;
8.确定所述多个分裂属性分别对应的权重值,并从所述多个分裂属性中获取权重值最大的部分目标分裂属性;所述权重值用于表征分裂属性的类别区分度;
9.基于所述目标特征信息和所述目标分裂属性,构建目标对象的分类模型。
10.第二方面,本技术提供一种分类模型构建装置,所述装置包括:
11.特征提取单元,用于获取目标对象样本集,并提取所述目标对象样本集的目标特征信息;
12.分裂属性确定单元,用于确定所述目标特征信息的多个分裂属性;其中,所述分裂属性用于表征所述目标对象样本集中类别分裂节点的属性;
13.权重值确定单元,用于确定所述多个分裂属性分别对应的权重值,并从所述多个分裂属性中获取权重值最大的部分目标分裂属性;所述权重值用于表征分裂属性的类别区分度;
14.处理单元,用于基于所述目标特征信息和所述目标分裂属性,构建目标对象的分类模型。
15.第三方面,本技术提供一种电子设备,所述电子设备包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;
16.其中,所述处理器用于运行所述计算机程序时,执行如第一方面所述分类模型构建方法的步骤。
17.第四方面,本技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行实现第一方面所述分类模型构建方法的步骤。
18.本技术提供的分类模型构建方法及装置、电子设备、计算机存储介质,通过获取目标对象样本集,并提取目标对象样本集的目标特征信息,确定目标特征信息的多个分裂属性;接着确定多个分裂属性分别对应的权重值,并从多个分裂属性中获取权重值最大的部分目标分裂属性;权重值用于表征分裂属性的类别区分度;基于目标分裂属性和目标特征信息,构建目标对象的分类模型。这样,能够对目标对象样本集进行特征提取,降低原始的目标对象样本集的维度,同时从多个分裂属性中选取权重值最大(即区分度最高)的部分分裂属性进行模型构建可大大减少分类模型训练过程中的数据维度,缩短分类模型的学习时间。如此,通过提取特征后的目标特征信息和选取的部分分裂属性进行分类模型的构建,可大大减少分类模型训练过程中的数据维度,从而提高分类模型的训练效率,缩短训练时间,降低计算开销。
附图说明
19.图1为本技术实施例提供的一种分类模型构建方法的流程示意图1;
20.图2为本技术实施例提供的一种决策树的结构示意图1;
21.图3为本技术实施例提供的一种分类模型构建方法的流程示意图2;
22.图4为本技术实施例提供的一种分类模型构建方法的流程示意图3;
23.图5为本技术实施例提供的一种深度森林模型的结构示意图1;
24.图6为本技术实施例提供的一种分类模型构建方法的系统架构示意图;
25.图7为本技术实施例提供的一种分类模型构建装置的结构组成示意图;
26.图8为本技术实施例提供的一种电子设备的硬件结构组成示意图。
具体实施方式
27.为了能够更加详尽地了解本技术实施例的特点与技术内容,下面结合附图对本技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
28.早期由于技术手段的缺乏,人们对癌症/疾病的诊断只能通过临床实验观察、记录和分析。随着基因芯片技术和基因测序技术的出现,大量关于癌症/疾病组织的基因表达数据不断产生,为癌症/疾病的研究与诊断提供了一种新的途径。实际应用中,通过运用统计学和机器学习中的相关技术,对癌症/疾病的基因表达数据进行分类以及发掘出对癌症/疾病治疗与研究有帮助的特征基因。
29.目前,已有许多机器学习和深度学习方法应用于癌症/疾病的基因表达数据分类中。基于机器学习的癌症/疾病分类方法大致可分为四类:
30.(1)基于相似度的分类方法
31.基于相似度的分类方法主要是根据待分类基因表达数据样本与训练样本之间的相似度(如欧式距离)来确定待分类基因表达数据的类别。其中,基于相似度的分类方法代表的算法有两种:基于邻近算法(k-nearestneighbor,knn)和基于聚类算法。其中,基于knn算法的分类方法主要思想是通过相似度计算,获取与待分类基因表达数据最相似的训练样本,将选取出的训练样本的类别作为待分类基因表达数据的类别。另外,基于聚类算法的分
类方法主要思想是采用聚类算法,通过相似度计算,将较相似的一些样本聚到同一簇中;然后根据待分类基因表达数据所在簇中其它样本的类别实际情况,采用投票方式来决定待分类基因表达数据的类别。
32.但是,基于相似度的分类算法,缺点在于当待分类基因表达数据以及训练样本的维度较大时,计算每个待分类基因表达数据与训练样本集中每个训练样本的相似度需要花费大量时间,分类效率较低。
33.(2)基于最大间隔的分类方法
34.基于最大间隔的分类方法通过将样本基因表达数据进行线性组合,基于线性组合结果作出分类决策,其关键在于最大化分类间隔,分类间隔是指分类边界与离之最近的训练样本点之间的距离。基于最大间隔分类方法的代表算法有:支持向量机(support vector machine,svm)。该类方法的步骤是:找到一个能够分割不同类别样本的超平面;根据待分类基因表达数据位于超平面的哪一边来作出类别决策。
35.但是,基于最大间隔的分类方法对于线性可分的基因表达数据效果较好,但是对于一些非线性可分和含有噪声的数据,其分类效果并不准确。
36.(3)基于分布情况的分类方法
37.基于分布情况的分类方法主要是基于训练样本本身的分布情况,即由基因表达数据本身来决定最终分类情况。这类方法代表的算法有:费歇线性判别分析(fisher linear discriminant analysis,flda)算法、朴素贝叶斯算法等。例如,基于朴素贝叶斯算法的分类方法对于给出的待分类基因表达数据,求解在该基因表达数据出现的条件下各个类别出现的概率,哪个类别的概率最大,就认为待分类表达数据属于哪个类别。
38.然而,基于分布情况的分类方法存在两个问题,第一,基于分布情况的分类方法是假设基因之间是独立的,而实际上许多基因表达值之间是相关联的,这会忽视很多对分类效果或生物意义的关联基因。第二,基于分布情况的分类算法是在假设数据是成高斯分布的前提下进行的,而实际上有许多基因表达数据的分布情况并不符合,所以它只适应某些特定类型癌症/疾病的基因表达数据,很难适合所有类型癌症/疾病的基因表达数据。
39.(4)基于深度神经网络模型的方法
40.基于深度神经网络模型的癌症分类方法主要是受到深度模型在其它领域取得不错效果的启发。研究人员通过将自动编码器应用于癌症/疾病数据集的特征学习,然后将学习到的特征用于分类器进行分类。
41.但是,基于深度模型的分类方法可以在少量基因表达数据集上取得不错的效果,但是这种方法需要消耗大量的特征降维时间和模型训练时间,而且不能找出有潜在生物意义的特征基因。
42.为解决上述相关技术中出现的问题,本技术实施例提供一种分类模型构建方法,该分类模型构建方法的执行主体可以是本技术实施例提供的分类模型构建装置,或者集成了该分类模型构建装置的电子设备,这里的分类模型构建装置可以采用硬件或者软件的方式,其中,电子设备可以是智能手机、平板电脑、个人计算器、服务器或者工业计算器等,本技术实施例这里不做限定。
43.图1为本技术实施例提供的分类模型构建方法的流程示意图1,如图1所示,所述分类模型构建方法包括以下步骤:
44.步骤110、获取目标对象样本集,并提取目标对象样本集的目标特征信息。
45.在本技术提供的实施例中,目标对象可以是样本数量小和/或样本维度高的对象。基于目标对象样本集数量小以及维度高的特点,本技术实施例提供的分类模型建立方法,可以通过对获取到的目标对象样本集进行特征提取,得到目标特征信息;以消除原始目标对象样本集中存在的误差和噪声,去除与分类结果不相关的数据,达到降低原始目标对象样本集维度的效果。
46.在本技术的一些实施例中,目标对象可以是基因表达数据。具体地,基因表达数据是利用基因芯片技术在特定组织直接或间接测量得到的基因转录产物mrna在细胞中的丰度,基因表达数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基因的活动是如何受影响的。
47.在本技术提供的实施例中,基因表达数据样本集由多个基因表达数据样本构成。实际应用中,基因表达数据样本集通过m行、n列的矩阵来表达。参考表1,表1示出了基因表达数据样本集的一个例子;其中,表1中的每一行表示一个样本;每一行的样本可以表征组织,或者某种癌症/疾病的类型,或者某种癌症/疾病的亚型;(例如,情况1可以是人体正常组织,情况2可以是胃癌,情况m可以是肺癌等),每一列表示同一基因在不同情况下的表达值。通常n》》m。
[0048] 基因1基因2
……
基因n情况1219102.5
……
45情况2180117
……
89
…………………………
情况m4556
……
81
[0049]
在本技术提供的实施例中,在对基因表达数据进行分类或者基于基因表达数据样本集构建分类模型时,由于原始的基因表达数据存在误差和噪声,会导致分类的效果较差。并且,在某种类别的基因表达数据中,大多数基因的表达值与癌症/疾病的发生没有关系,所以就需要通过一些策略从基因表达数据中筛选出与癌症/疾病密切相关的基因表达数据。另外,基因表达数据的样本数量小,样本维度高,一般样本数量在几十到一百之间,而样本维度在几千到上万之间。
[0050]
基于以上原因,本技术实施例提供的分类模型建立方法,可以通过对获取到的基因表述数据样本集进行特征提取,得到目标特征信息;以消除原始基因表述数据中存在的误差和噪声,去除与癌症/疾病不相关的数据,达到降低原始基因表达数据样本集维度的效果。
[0051]
步骤120、确定目标特征信息的多个分裂属性;其中,分裂属性用于表征目标对象样本集中类别分裂节点的属性。
[0052]
下面,以目标对象为基因表达数据为例进行说明。
[0053]
参考表1所示的基因表达数据样本集,每一行为一个样本,每一列可以理解为是一个用于分类的属性字段。本技术需要解决的问题是,根据该基因表达数据样本集,建立一个癌症/疾病分类模型,该癌症/疾病分类模型可以为一棵决策树或者多棵决策树构成的随机森林。当研究人员在未来的某个时刻通过基因测序技术获取到某种组织的基因表达数据,则能够依据该决策树或者多棵决策树构成的随机森林对应的规则以及该组织中每个基因
的表达值属性,来预测该组织是否发生病变,以及病变的类型。
[0054]
实际应用中,分类模型构建装置在获取表1示出基因表达数据集,就可以构造出一棵或者多棵类似于图2所示的决策树,图2为决策树的一种结构示意图,如图2所示,该决策树共有8个节点,节点1为根节点,节点4、5、6、7、8为叶子节点,节点2和3为中间节点。其中,叶子节点(即节点4、5、6、7、8)不能够再进行属性分裂。中间节点(即节点2和3)以及根节点(即节点1)可以进行属性分裂,当某个节点可以按照某一属性分裂时,该属性称为分裂属性。
[0055]
在本技术实施例中,可以通过多种方法确定分裂属性,例如分类模型构建装置可以通过信息增益的方式确定目标特征信息的多个分裂数据,也可以通过统计学的方法确定目标特征信息的多个分裂数据。本技术实施例这里对确定分裂属性的方式不做限定。
[0056]
步骤130、确定多个分裂属性分别对应的权重值,并从多个分裂属性中获取权重值最大的部分目标分裂属性。
[0057]
其中,权重值用于表征分裂属性的类别区分度。分裂属性的区分度具体指的是,该分裂属性能够区分基因表达数据类别的程度。
[0058]
本技术提供的实施例中,分类模型构建装置可以将区分度进行量化,通过权重值来表征每个分裂属性的区分度。权重值越大,表明该分裂属性的区分度越高;反之,权重值越小,表明该分裂属性的区分度越低。
[0059]
示例性的,参考图2所示的一种决策树模型,节点2和节点3的属性都属于分裂属性,但是针对节点2进行属性分裂能够得到两个节点,针对节点3进行属性分裂能够得到三个节点。可见,节点3的分裂属性相对于节点2来说区分度更好,节点3的权重值大于节点2的权重值。
[0060]
进一步地,分类模型构建装置可以通过多种方法确定每个分裂属性的权重值。在本技术提供的实施例中,可以通过计算每个分裂属性的基尼系数得到每个分裂属性的权重值,或者通过计算每个分裂属性的信息增益得到每个分裂属性的权重值,又或者通过计算每个分裂属性的信息增益率来得到每个分裂属性对应的权重值。本技术实施例这里对确定分裂属性权重值的方式不做限定。
[0061]
在本技术提供的实施例中,在确定了每个分裂属性的权重值之后,可以对每个分裂属性的权重值按照从大到小进行排序,选取排序靠前的部分分裂属性作为目标分裂属性。
[0062]
这里,可以选取排序靠前的10~100个分裂属性作为目标分裂属性,也可以选取排名靠前的5%~10%的分裂属性作为目标分裂属性。本技术实施例这里对选取排名靠前的分裂属性的方式不做限定。
[0063]
需要说明的是,选取的分裂属性的个数与目标对象样本集相关,可以理解为,选取的基因分裂属性的个数可以根据目标对象样本集的不同而相应调整,目标对象样本集不同,对应选取的分裂属性的个数也不同。
[0064]
步骤140、基于目标特征信息和目标分裂属性,构建目标对象的分类模型。
[0065]
在本技术提供的实施例中,分类模型构建装置可以根据从多个分裂属性中选择出来的部分目标分裂属性,以及从目标对象样本集中提取的目标特征信息,来构建针对目标对象的分类模型。具体地,可以将目标特征信息和目标分裂属性作为分类模型的输入,对分
类模型进行训练,得到最终训练好的分类模型。这里的分类模型可以是基于决策树的分类模型,也可以是基于随机森林的分类模型,还可以是基于深度森林的分类模型。本技术实施例这里不做限定。
[0066]
可以理解的是,本技术实施例提供的分类模型构建方法,并不需要基于所有的分裂属性和原始的目标对象样本集来构建分类模型,而是对基因表述数据样本集进行特征提取得到目标特征信息;同时从多个分裂属性中选取权重值最大(即区分度最高)的部分分裂属性;并根据提取的目标特征信息和选取的部分分裂属性进行分类模型的构建,可大大减少分类模型训练过程中的数据维度,缩短分类模型的学习和训练的时间。
[0067]
由此可见,本技术实施例提供的分类模型构建方法,通过获取目标对象样本集,并提取目标对象样本集的目标特征信息,确定目标特征信息的多个分裂属性;确定多个分裂属性分别对应的权重值,并从多个分裂属性中获取权重值最大的部分目标分裂属性;接着,基于目标分裂属性和目标特征信息,构建目标对象的分类模型。这样,能够对目标对象样本集进行特征提取,降低原始的目标对象样本集的维度,同时从多个分裂属性中选取权重值最大(即区分度最高)的部分分裂属性进行模型构建可大大减少分类模型训练过程中的数据维度,缩短分类模型的学习时间。如此,通过提取特征后的目标特征信息和选取的部分分裂属性进行分类模型的构建,可大大减少分类模型训练过程中的数据维度,从而提高分类模型的训练效率,缩短训练时间,降低计算开销。
[0068]
基于上述实施例,本技术实施例提供的分类模型构建方法中,步骤140可以通过步骤1401和步骤1402实现,具体地,参考图3所示的分类模型构建方法流程示意图2,步骤140具体包括:
[0069]
步骤1401、将目标特征信息和目标分裂属性作为深度森林模型的输入,对深度森林模型中每一层级联森林进行训练和测试,得到训练好的深度森林模型。
[0070]
步骤1402、将训练好的深度森林模型作为目标对象的分类模型。
[0071]
在一种可能的实施方式中,本技术实施例所提及的分类模型是指深度森林模型。深度森林模型属于集成的森林模型,是传统随机森林模型在广度和深度上的一种集成。
[0072]
实际应用中,集成学习作为机器学习领域的一个主要研究方向,其思想主要是将多个基础学习器模型组合成一个强分类器,进而提升分类效果。根据相关研究可知,要想提高集成学习模型的准确性和泛化性,可以从两个方面着手。第一,要保证特征的多样性和代表性;第二,保证基础学习器的多样性。近年来,有人提出一种新的集成学习模型。这种模型借鉴了深度学习中多层提取特征的思想,将随机森林扩展为多层相连的森林模型来提升分类效果,该多层相连的森林模型也称为深度森林模型。在本技术提供的实施例中,将深度森林模型用于样本数量小,样本维度高的目标对象的分类问题中,例如癌症/相关的目标对象分类问题中,提升癌症/疾病分类的准确率。
[0073]
在本技术提供的实施例中,深度森林模型可以包括n层级联森林。其中,n为大于1的整数。深度森林模型的每一层级联森林包括m个随机森林,每个随机森林中包括l个决策树。
[0074]
具体地,分类模型构建装置可以预先配置深度森林模型超参数的初始值,超参数是指在分类模型进行训练之前设置值的参数,而不是通过训练得到的参数数据。在本技术提供的实施例中,深度森林模型的超参数至少包括级联森林的最大层数n,每一层级联森林
中随机森林个数m,以及每个随机森林的决策树个数l。
[0075]
在一种可能的实施方式中,将目标特征信息和目标分裂属性作为深度森林模型的输入之前,还包括以下步骤:
[0076]
步骤1400a、接收针对深度森林模型的配置信息;
[0077]
步骤1400b、基于配置信息确定深度森林模型中包括的级联森林的最大层数n,每一层级联森林的随机森林个数m,以及每个随机森林的决策树个数l。
[0078]
可以理解的是,分类模型构建装置可以接收用户输入的针对该深度森林模型的配置信息,或者其他第三方平台发送的深度森林模型的配置信息,根据配置信息对深度森林模型中包括的级联森林的最大层数,每一层级联森林的随机森林个数,以及每个随机森林的决策树个数进行配置。
[0079]
进一步地,在配置好深度森林模型超参数的初始值之后,将步骤110得到的目标特征信息,以及步骤130确定的目标分裂属性,作为深度森林模型的输入对所述深度森林模型进行训练和测试,得到训练好的深度森林模型。
[0080]
基于前述实施例,本技术实施例提供的分类模型构建方法中,步骤1401可以通过步骤1401a至步骤1401c实现,参考图4所示的分类模型构建方法示意图3,步骤1401具体包括以下步骤:
[0081]
步骤1401a、将目标特征信息输入至深度森林模型的第一层级联森林,对第一层级联森林进行训练和测试,得到第1类别向量;
[0082]
步骤1401b、将第i类别向量和目标分裂属性对应的分裂特征向量作为第i 1层级联森林的输入,对第i 1层级联森林进行训练和测试,得到第i 1类别向量;其中,分裂特征向量用于表征目标特征信息中划分至目标分裂属性的特征向量;
[0083]
步骤1401c、继续将第i 1类别向量和目标分裂属性对应的分裂特征向量作为第i 2层级联森林的输入,对第i 2层级联森林进行训练和测试,直到对第n层级联森林训练和测试完毕为止;其中i为大于等于1且小于n-1的整数。
[0084]
实际应用中,针对目标对象样本数据量小,样本维度高的特点,在简单的分类模型(例如knn分类模型,基于自编码器的分类模型等)下,分类效果差;并且在样本维度高的情况下,极容易陷入过拟合。
[0085]
基于此,本技术实施例综合考虑分类模型的复杂度与数据量及数据维度之间的关系,使得数据维度与模型复杂度相匹配。一般情况下,深度森林模型对于原始样本集会采用多粒度扫描策略,这种做法对于样本数据量充足,数据维度低的样本而言可能是有效的;但是,采用多粒度扫描策略对于样本数据量少以及样本维度就很高的目标对象来说就是“雪上加霜”;会加剧数据维度与模型复杂之间的不匹配性。因此,本技术实施例提供的分类模型构建方法,为了使得深度森林模型更适合目标对象的样本特点,仅保留深度森林模型的级联森林的特性,放弃深度深林模型的多粒度扫描的特性。
[0086]
另外,为了进一步提高精度,本技术实施例对于深度森林模型中级联森林之间的传递向量做出修改。下面结合图5所示的深度森林模型的结构示意图,对深度森林的训练过程进行详细描述。其中,图5示例性的示出了该深度森林模型的每一层级联森林包括四个随机森林,即随机森林1、随机森林2、随机森林3和随机森林4。
[0087]
具体地,参考图5,分类模型构建装置将目标特征向量输入至级联随机森林的第1
层级联森林501中。这样,第1层级联森林501中的每个随机森林通过计算在目标特征信息落入的节点处的不同类别的百分比,然后计算每个随机森林中的所有树平均值,以生成类别估计,被估计的类别分别形成第1类别向量502。
[0088]
接着,将第1层级联森林501输出的第1类别向量502,与从多个分裂属性中选择出来的目标分裂属性503对应的分裂特征向量504进行组合,作为第2层级联森林505的输入。进而,第2层级联森林505中的每个随机森林计算输入的数据落入的节点处的不同类别的百分比,然后计算每个随机森林中的所有树平均值,得到第2类别向量506。
[0089]
值得注意的是,目标分裂属性503对应的分裂特征向量504是指,目标特征信息中划分至该目标分裂属性下的所有特征的集合。这里,将第1层级联森林501输出的第1类别向量502与目标分裂属性503对应的分裂特征向量504进行组合,具体是指,将第1层级联森林501输出的第1类别向量502和目标分裂属性503对应的分裂特征向量504进行拼接。
[0090]
进一步,将第2类别向量506和目标分裂属性503对应的分裂特征向量504组合后的向量,作为第3层级联森林(图中未示出)的输入,以得到第3类别向量。继续将第3类别向量和目标分裂属性503对应的分裂特征向量504组合后的向量,对下一层级联森林进行训练和测试,直到对深度森林模型中的每一层级联森林训练和测试完毕为止;并将第n层得到的第n类别向量进行平均和取最大值处理,得到最终训练好的深度森林模型,用于预测目标对象的类别。
[0091]
可以理解为,分类模型构建装置对目标对象样本集的分裂属性按权重进行排序,选取最大的部分分裂属性与每一层级联森林输出的类别向量进行组合成新的向量,从而传递给下一层的级联森林。这样,只选取最大的部分分裂属性进行分类模型的训练可大大减少训练的数据维度,在一定程度上缓解训练的时间;并且,相比较原始目标对象集中一个样本包含几千和上万个特征基因,选取区分度更高的分裂属性对应的分裂特征信息,更有助于临床判断哪些基因与某种癌症相关,有助于发现有生物意义的特征基因。
[0092]
基于前述实施例,本技术实施例提供的分类模型构建方法中,步骤110获取目标对象样本集之后,还包括以下步骤:
[0093]
将目标对象样本集划分为k个互不相交的子集;
[0094]
从k个子集中选取k-1个作为训练样本集,选取剩余的子集作为测试样本集;
[0095]
对应的,步骤1401将目标特征信息和目标分裂属性作为深度森林模型的输入,对深度森林模型中每一层随机森林进行训练和测试,得到训练好的深度森林模型,包括以下步骤:
[0096]
通过训练样本集对应的目标特征信息和目标分裂属性,对深度森林模型的每一层级联森林进行训练,得到初始深度森林模型;
[0097]
通过测试样本集对应的目标特征信息和目标分裂属性,对初始深度森林模型的每一层级联森林进行测试和调整,得到训练好的深度森林模型。
[0098]
实际应用中,研究人员一般将原始数据集划分为训练集和测试集两部分。其中训练集用于训练模型,测试集用来评估模型的泛化能力,即模型对新鲜样本的适应能力。本技术实施例中,基于目标对象样本集的数据量小的特点,采用k折交叉测试原理来训练深度森林模型和测试深度森林模型。
[0099]
具体地,将目标对象样本集划分为k个互不相交的子集;从k个子集中选取k-1个作
为训练样本集,选取剩余的子集作为测试样本集。
[0100]
接着,通过训练样本集对应的目标特征信息和目标分裂属性,对深度森林模型的每一层级联森林进行训练,得到初始深度森林模型;进一步,通过测试样本集对应的目标特征信息和目标分裂属性,对初始深度森林模型的每一层级联森林进行测试和更新,得到训练好的深度森林模型。
[0101]
需要说明的是,对深度森林模型中每一层级联森林的训练和测试都与步骤1041a、步骤1041b以及步骤1041c的方式相同。这里不再赘述。
[0102]
基于前述实施例,本技术实施例中目标对象可以是基因表达数据。基于此,本技术实施例提供的分类模型构建方法,步骤110获取目标对象样本集之前,还包括以下步骤:
[0103]
步骤101、获取多个基因表达数据;
[0104]
步骤102、对多个基因表达数据进行预处理,得到目标对象样本集;其中,预处理包括:对基因表达数据进行空缺值处理和/或标准化处理。
[0105]
在本技术提供的实施例中,由基因芯片获取的基因表达数据存在空缺值,所以需要对空缺值进行处理。同时为了改善训练的分类模型产生过拟合的情况,一般需要对基因表达数据进行标准化处理。
[0106]
基于此,在获取到多个基因表达数据之后,分类模型构建装置需要对每个基因表达数据进行预处理;预处理主要包括:空缺值处理和/或标准化处理。其中,对于空缺值的处理,具体为:若空缺值数量大于预设阈值,则舍弃该基因表达数据样本;若空缺值数量少于预设阈值,则对该空缺值进行填充。这里,对空缺值进行填充的方式有多种。在一可行的实施方式中,可以将多个基因表达数据排列为表1所述的格式,计算该空缺值所在列的均值,并将得到的均值填充至该空缺位置处。
[0107]
另外,对于基因表达数据进行标准化处理,具体是将基因表达数据中的数值映射到(0,1)之间,也称为归一化处理。最后,将进行了预处理后的多个基因表达数据排列为表1所述的格式,得到目标对象样本集。
[0108]
在一种可行的实施方式中,步骤110中提取目标对象样本集的目标特征信息,具体包括:
[0109]
根据预设特征选择方法提取目标对象样本集的目标特征信息;其中,预设特征选择方法用于降低目标对象的维度。
[0110]
由于目标对象样本集的维度比较高,所以本技术实施例通过提取目标对象样本集的目标特征信息进行降维。
[0111]
具体地,预设特征选择方法包括以下至少之一:
[0112]
t检验方法,费歇fisher判别法,类别相关特征法,以及遗传算法。
[0113]
本技术实施例提供的分类模型构建方法,通过对目标对象样本集的分裂属性按权重进行排序,选取最大的部分分裂属性与每一层级联森林输出的类别向量进行组合成新的向量,从而传递给下一层的级联森林。这样,只选取最大的部分分裂属性进行分类模型的训练可大大减少训练的数据维度,在一定程度上缓解训练的时间;并且,相比较原始目标对象集中一个样本包含几千和上万个特征,选取区分度更高的分裂属性对应的分裂特征信息,提高分类的准确性。可以理解的是,当目标对象为基因表达数据时,采用本技术提供的分类模型构建方法更有助于临床判断哪些基因与某种疾病/癌症相关,有助于发现有生物意义
的特征基因。
[0114]
下面,结合具体场景对本技术实施例提供的分类模型构建方法进行详细描述。
[0115]
基于上述实施例,本技术实施例提供的分类模型构建方法可以应用于图6所示的系统架构示意图中。参考图6所示,本技术实施例提供的分类模型构建方法具体包括两个阶段,模型训练阶段和模型测试阶段。每个阶段包括5个步骤:基因表达数据预处理、k-折交叉测试划分、目标特征信息选择、分类模型训练(分类模型测试)、以及分类模型评估。下面详细介绍每个步骤具体内容。
[0116]
(1)基因表达数据预处理。
[0117]
由基因芯片获取的基因表达数据存在空缺值,所以需要对空缺值进行处理。同时为了改善训练模型过拟合的状况,一般需要对数据进行标准化。所以在对基因表达数据预处理包括:空缺值处理和标准化处理。对于空缺值的处理,采用空缺值所在特征列均值进行填充;对于空缺值过多的情况,则舍弃该样本。对于数据标准化,是将基因表达数据的数据值映射到(0,1)之间。
[0118]
(2)k-折交叉测试划分。交叉测试是一种基于统计学思想将数据样本切分为多个子集的方法。在一般数据挖掘和机器学习研究中,研究人员一般将原始数据集划分为训练集和测试集两部分。其中训练集用于训练模型,测试集用来评估模型的泛化能力。但是由于基因表达数据的样本小,这样划分往往导致结果并不准确,本技术实施例中,采用k折交叉测试原理来训练深度森林模型和测试深度森林模型。
[0119]
具体地,将基因表达数据样本集划分为k个互不相交的子集;
[0120]
从k个子集中选取k-1个作为训练样本集,选取剩余的子集作为测试样本集。
[0121]
(3)目标特征信息选择。
[0122]
由于基因表达数据样本的维度比较高,本技术实施例通过对基因表达数据样本集进行特征提取,得到目标特征信息的方式进行降维。
[0123]
(4)分类模型训练以及分类模型测试。
[0124]
在本技术提供的实施例中,针对分类模型训练过程,分类模型构建装置首先可以确定训练样本集对应的目标特征信息的多个分裂属性;接着确定测试样本集中每个裂属性分别对应的权重值;并从多个分裂属性中获取权重值最大的部分目标分裂属性;将训练样本集对应的目标特征信息和目标分裂属性输入到深度森林模型进行训练,得到初始深度森林模型;
[0125]
进一步,在得到初始深度森林模型之后,对该初始深度森林模型进行训练。这里,分类模型构建装置可以确定测试样本集对应的目标特征信息的多个分裂属性;接着确定测试样本集中每个分裂属性分别对应的权重值,并从多个分裂属性中获取权重值最大的部分目标分裂属性;将测试样本集中目标特征信息和目标分裂属性输入到初始深度森林模型进行,对初始深度森林的参数进行更新和调整,得到训练好的深度森林模型,并将该训练好的深度森林模型作为基因表达数据的分类模型。
[0126]
需要说明的是,对于训练样本集的训练过程和测试样本集的测试过程,都需要首先确定训练样本集合或者测试样本集对应的分裂属性,选取前x个属性与深度森林模型或者初始深度森林模型的每一级输出的类别向量进行组合成新的向量,从而传递给下一层的级联森林;从而完成对深度森林模型或初始深度森林模型中每一层级联森林的训练和测
试。这样可以在一定程度上缓解训练的时间,同时有助于发现有生物意义的特征基因。在本技术提供的实施例中,x可以取10~100之间的值,x的具体取值可以根据基因表达数据样本集的不同而相应调整,基因表达数据样本集不同,对应选取的分裂属性的个数也不同。
[0127]
需要说明的是,在训练之前要设定一些超参数的初始值。例如:每一层级联森林中随机森林的个数,每个随机森林里的决策树个数,以及深度森林模型的级联层数。由于改进之后的深度森林没有多粒度扫描操作,故这三个超参数最为重要。
[0128]
(5)分类模型评估。分类模型评估是用来评价分类模型的精度与可靠性的。常用的评价指标有分类预测的准确率、roc曲线下方的面积大小(area under curve,auc)值、混淆矩阵等。但是在癌症/疾病分类问题中,最常用的是分类的准确率和召回率。
[0129]
由此可见,本技术实施例提供的分类模型构建方法,通过获取基因表达数据样本集,并提取基因表达数据样本集的目标特征信息,接着确定目标特征信息的多个分裂属性;确定多个分裂属性分别对应的权重值,并从多个分裂属性中获取权重值最大的部分目标分裂属性;权重值用于表征分裂属性的类别区分度;基于目标分裂属性和目标特征信息,构建基因表达数据的分类模型。这样,能够对基因表述数据样本集进行特征提取,降低原始的基因表达数据样本集的维度,同时从多个分裂属性中选取权重值最大(即区分度最高)的部分分裂属性进行模型构建可大大减少分类模型训练过程中的数据维度,缩短分类模型的学习时间。如此,通过提取特征后的目标特征信息和选取的部分分裂属性进行分类模型的构建,可大大减少分类模型训练过程中的数据维度,从而提高分类模型的训练效率,缩短训练时间,降低计算开销。
[0130]
基于前述实施例,本技术实施例提供一种分类模型构建装置,如图7所示,所述装置包括:
[0131]
特征提取单元71,用于获取目标对象样本集,并提取所述目标对象样本集的目标特征信息;
[0132]
分裂属性确定单元72,用于确定所述目标特征信息的多个分裂属性;其中,所述分裂属性用于表征所述目标对象样本集中类别分裂节点的属性;
[0133]
权重值确定单元73,用于确定所述多个分裂属性分别对应的权重值,并从所述多个分裂属性中获取权重值最大的部分目标分裂属性;所述权重值用于表征分裂属性的类别区分度;
[0134]
处理单元74,用于基于所述目标分裂属性和所述目标特征信息,建立目标对象的分类模型。
[0135]
可选地,所述分类模型为深度森林模型,其中,所述深度森林模型包括n层级联森林;n为大于1的整数;
[0136]
所述处理单元74,具体用于将所述目标特征信息以及所述目标分裂属性,作为深度森林模型的输入,并对所述深度森林模型中每一层级联森林进行训练和测试,得到训练好的深度森林模型;将所述训练好的深度森林模型作为所述目标对象的分类模型。
[0137]
可选地,所述处理单元74,还用于将所述目标特征信息输入至深度森林模型的第一层级联森林,对所述第一层随机森林进行训练和测试,得到第1类别向量;将所述第i类别向量和所述目标分裂属性对应的分裂特征向量作为第i 1层级联森林的输入,对所述第i 1层级联森林进行训练和测试,得到第i 1类别向量;其中,所述分裂特征向量用于表征目标
特征信息中划分至目标分裂属性的特征向量;继续将所述第i 1类别向量和所述目标分裂属性对应的分裂特征向量作为第i 2层级联森林的输入,对所述第i 2层随机森林进行训练和测试,直到对第n层级联森林训练和测试完毕为止;其中i为大于等于1且小于n-1的整数。
[0138]
可选地,所述分类模型构建装置还包括,获取单元75,用于接收针对所述深度森林模型的配置信息;
[0139]
处理单元74,用于基于所述配置信息确定所述深度森林模型中包括的级联森林的最大层数n,每一层级联森林中随机森林的个数m,以及每个随机森林的决策树个数l。
[0140]
可选地,所述目标对象包括基因表达数据。
[0141]
可选地,所述获取单元75,还用于获取多个基因表达数据;
[0142]
所述处理单元74,还用于对所述多个基因表达数据进行预处理,得到所述目标对象样本集;所述预处理包括:对所述基因表达数据进行空缺值处理和/或标准化处理。
[0143]
可选地,特征提取单元71,用于根据预设特征选择方法提取所述目标对象样本集的目标特征信息;其中,所述预设特征选择方法用于降低所述目标对象的维度。
[0144]
可选地,述预设特征选择方法包括以下至少之一:
[0145]
t检验方法,费歇fisher判别法,类别相关特征法,以及遗传算法。
[0146]
可选地,所述处理单元74,用于将所述目标对象样本集划分为k个互不相交的子集;其中,k为大于1的整数;从所述k个子集中选取k-1个作为训练样本集,选取剩余的子集作为测试样本集;通过所述训练样本集对应的目标特征信息和目标分裂属性,对所述深度森林模型的每一层级联森林进行训练,得到初始深度森林模型;通过所述测试样本集对应的目标特征信息和目标分裂属性,对所述初始深度森林模型的每一层级联森林进行测试和更新,得到训练好的深度森林模型。
[0147]
由此可见,本技术实施例提供的分类模型构建装置,通过获取目标对象样本集,并提取目标对象样本集的目标特征信息,确定目标特征信息的多个分裂属性;确定多个分裂属性分别对应的权重值,并从多个分裂属性中获取权重值最大的部分目标分裂属性;权重值用于表征分裂属性的类别区分度;基于目标分裂属性和目标特征信息,构建目标对象的分类模型。这样,分类模型构建装置能够对基因表述数据样本集进行特征提取,降低原始的目标对象样本集的维度,同时从多个分裂属性中选取权重值最大(即区分度最高)的部分分裂属性进行模型构建可大大减少分类模型训练过程中的数据维度,缩短分类模型的学习时间。如此,通过提取特征后的目标特征信息和选取的部分分裂属性进行分类模型的构建,可大大减少分类模型训练过程中的数据维度,从而提高分类模型的训练效率,缩短训练时间,降低计算开销。
[0148]
基于上述图像分类装置中各单元的实现,为了实现本技术实施例提供的分类模型构建方法,本技术实施例还提供了一种电子设备,如图8所示,所述电子设备80包括:处理器81和配置为存储能够在处理器上运行的计算机程序的存储器82,
[0149]
其中,所述处理器81配置为运行所述计算机程序时,执行前述实施例中的方法步骤。
[0150]
当然,实际应用时,如图8所示,该电子设备80中的各个组件通过总线系统83耦合在一起。可理解,总线系统83用于实现这些组件之间的连接通信。总线系统83除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8将各种
总线都标为总线系统83。
[0151]
在示例性实施例中,本技术实施例还提供了一种计算机可读存储介质,例如包括图8所示的计算机程序的存储器82,上述计算机程序可由电子设备80的处理器81执行,以完成前述方法所述步骤。计算机可读存储介质可以是磁性随机存取存储器(fram,ferromagnetic random access memory)、只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory)、可擦除可编程只读存储器(eprom,erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom,electrically erasable programmable read-only memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory)等存储器。
[0152]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0153]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0154]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0155]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0156]
以上所述,仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献