一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

地质单元分类模型的训练方法、地质单元分类方法和装置

2022-06-05 03:40:42 来源:中国专利 TAG:


1.本公开涉及图像技术领域,可以应用于人工智能技术领域,更具体地涉及一种地质单元分类模型的训练方法、地质单元分类方法、装置、电子设备和存储介质。


背景技术:

2.在月球地质年代学的研究中,由于受月球实地勘察和获取月球样品十分有限的条件限制,利用撞击坑大小-频数分布方法(csfd)估算月表地质年龄成为了月球与行星科学领域广泛使用和认可的有效方法。应用csfd方法进行地质年龄估算首先要对地质单元进行划分,再对同一地质单元的撞击坑进行统计。
3.目前可公开使用的usgs 1∶500万地质图和hiesigner地质单元分类与划分不能满足利用csfd方法估算月表地质年龄进行月球年代学研究的要求,一方面由于usgs 1∶500万地质图完成于70年代,主要应用了lunar orbiter任务获取的影像图数据,限于当时可利用数据分辨率和种类的限制,以及地质图比例尺空间分辨率较低,难以对月表形貌的细节进行清晰的表达和综合,从而无法达到对月表地质单元更精细和准确的分类与划分;另一方面hiesigner划分的地质单元仅限于月海区域,覆盖范围受限不能支持开展全月范围的定年研究;地质单元的分类往往需要研究人员对研究区域进行人工主观判断,但由于月球地质单元类别的识别难度大,岩性识别不能只靠一种数据,需要多种数据才能确认,由于人眼分辨灰度图像的敏感度不同,地质单元的分类往往取决于研究人员的实践经验,不同的研究人员产生的结果各异,地质单元的分类结果受人为因素影响大、效率较低。


技术实现要素:

4.鉴于上述问题,本公开提供了一种地质单元分类模型的训练方法、地质单元分类方法、装置、设备、介质和程序产品。
5.根据本公开的第一个方面,提供了一种地质单元分类模型的训练方法,包括:响应于接收到控制指令,解析所述控制指令,得到与所述控制指令对应的解析结果;其中,所述控制指令是通过5g网络传输的;将所述解析结果发送至无人机,以使所述无人机执行所述控制指令,并回传数据信息;以及接收所述数据信息。
6.根据本公开的实施例,所述基于所述数据点矢量数据进行空间叠加运算,确定至少一个数据特征,包括以下操作中的一种或多种:基于所述样本数据点矢量数据进行空间叠加运算提取地质单元分类特征;基于所述样本数据点矢量数据进行空间叠加运算提取经度特征、纬度特征和灰度特征中的一种或多种;基于所述样本数据点矢量数据进行空间叠加运算提取高程特征、坡度特征和起伏度特征中的一种或多种;基于所述样本数据点矢量数据进行空间叠加运算提取tio2特征;以及基于所述样本数据点矢量数据进行空间叠加运算提取feo、斜辉石、橄榄石、斜长石、辉石、业微观金属铁和光学成熟度特征中的一种或多种。
7.根据本公开的实施例,所述基于所述图像数据生成像素格网矢量数据,并根据所
述像素格网矢量数据计算每个像素格网中心位置的经纬度坐标,得到数据点矢量数据,包括:基于所述图像数据以预设的距离范围为间隔进行取点,生成具有空间位置的像素格网矢量数据;以及根据所述像素格网矢量数据计算每个像素格网中心位置的经纬度坐标,得到数据点矢量数据。
8.根据本公开的实施例,所述基于所述至少一个数据特征确定待训练的地质单元分类模型的样本输入数据,包括:采用嵌入式法计算所述至少一个数据特征的重要性,得到至少一个重要性计算结果;以及基于所述至少一个重要性计算结果确定待训练的地质单元分类模型的样本输入数据。
9.根据本公开的实施例,所述方法还包括:采用标签编码方法对所述地质单元分类特征进行编码转换,得到所述地质单元分类特征的数字编码;以及将所述地质单元分类特征的数字编码作为待训练的地质单元分类模型的样本输入数据。
10.根据本公开的第二个方面,提供了一种地质单元分类模型的训练方法,包括:地质单元分类方法,包括:将目标图像输入地质单元分类模型,得到与所述目标图像对应的地质单元分类结果;其中,所述地质单元分类模型是根据本公开提供的方法训练的。
11.本公开的第三方面提供了一种地质单元分类模型的训练装置,包括:第一数据处理模块,用于根据月球地形图分幅规则选择目标区域,并确定所述目标区域的图像数据;第二数据处理模块,用于基于所述图像数据生成像素格网矢量数据,并根据所述像素格网矢量数据计算每个像素格网中心位置的经纬度坐标,得到数据点矢量数据;第三数据处理模块,用于基于所述数据点矢量数据进行空间叠加运算,确定至少一个数据特征;第四数据处理模块,用于基于所述至少一个数据特征确定待训练的地质单元分类模型的样本输入数据;以及训练模块,用于根据所述样本输入数据,采用机器学习算法训练所述待训练的地质单元分类模型。
12.本公开的第四方面提供了一种地质单元分类装置,包括:获得模块,用于将目标图像输入地质单元分类模型,得到与所述目标图像对应的地质单元分类结果;其中,所述地质单元分类模型是根据本公开提供的装置训练的。
13.本公开的第五方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述公开的方法。
14.本公开的第六方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述公开的方法。
附图说明
15.通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
16.图1示意性示出了根据本公开实施例的地质单元分类模型的训练方法的流程图;
17.图2示意性示出了根据本公开实施例的地质单元分类方法的流程图;
18.图3示意性示出了根据本公开实施例的地质单元分类模型的训练装置的结构框图;
19.图4示意性示出了根据本公开实施例的地质单元分类装置的结构框图;以及
20.图5示意性示出了根据本公开实施例的适于实现地质单元分类模型的训练方法和/或地质单元分类方法的电子设备的方框图。
具体实施方式
21.以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
22.在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
23.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
24.在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
25.本公开的实施例提供了一种地质单元分类模型的训练方法和装置,根据月球地形图分幅规则选择目标区域,并确定目标区域的图像数据;基于图像数据生成像素格网矢量数据,并根据像素格网矢量数据计算每个像素格网中心位置的经纬度坐标,得到数据点矢量数据;基于数据点矢量数据进行空间叠加运算,确定至少一个数据特征;基于至少一个数据特征确定待训练的地质单元分类模型的样本输入数据;以及根据样本输入数据,采用机器学习算法训练待训练的地质单元分类模型。
26.通过图1对公开实施例的地质单元分类模型的训练方法进行详细描述。
27.图1示意性示出了根据本公开实施例的地质单元分类模型的训练方法的流程图。
28.如图1所示,该实施例包括操作s101~操作s105,该基于地质单元分类模型的训练方法可以通过服务器执行。
29.在操作s101,根据月球地形图分幅规则选择目标区域,并确定目标区域的图像数据。
30.可以理解的,如根据月球地形图分幅规则选择研究区域,确定所选研究区域范围的影像数据底图作为目标区域的图像数据。其中,为了能够方便灵活地组织数据,避免全球数据量大处理数据困难的问题,本实施例可以将月球全球数据按照国家标准《月球基本比例尺地形图分幅和编号》(gb/t32521-2016)的分幅规则进行划分。
31.举例来说,可以将影像图数据按照国家标准《月球基本比例尺地形图分幅和编号》(gb/t 32521-2016)的分幅规则进行划分:如南北纬84
°
~90
°
的极区单独成幅,划分为2个图幅;在南北纬84
°
范围内,从赤道起算,按纬差14
°
划分为多个子投影带。每个子带从高纬度到赤道,分别选择45
°
、30
°
、24
°
、20
°
、18
°
作为分幅经差,将全月南北纬84
°
以内的区域划
分为186个图幅。按照该方法,全月影像数据共划分为188个图幅。从而在后续可以按照分幅规则进行研究区域范围选择开展区域或全月地质单元分类研究。
32.在操作s220,基于图像数据生成像素格网矢量数据,并根据像素格网矢量数据计算每个像素格网中心位置的经纬度坐标,得到数据点矢量数据。
33.可以理解的,如基于图像数据进行取点生成像素格网矢量数据;以及,根据像素格网矢量数据计算每个像素格网中心位置的经纬度坐标,得到数据点矢量数据。
34.在操作s230,基于数据点矢量数据进行空间叠加运算,确定至少一个数据特征。
35.可以理解的,可以首先获取其他数据,如usgs全月地质图数据、如嫦娥二号月球影像dom数据等;利用该其他数据对数据点矢量数据进行空间叠加运算;确定至少一个数据特征,如地质单元分类特征,如经纬度和灰度特征等。
36.在操作s240,基于至少一个数据特征确定待训练的地质单元分类模型的样本输入数据。
37.可以理解的,将多特征变量(即至少一个数据特征)作为待训练的地质单元分类模型的样本输入数据。
38.举例来说,基于至少一个数据特征进行特征优选,可以选择重要性较高的数据特征,并将选择后的数据集作为样本输入数据。
39.在操作s250,根据样本输入数据,采用机器学习算法训练待训练的地质单元分类模型。
40.可以理解的,本实施例采用机器学习算法训练待训练的地质单元分类模型,机器学习算法可以为kneighbors、decisiontree、randomforest、xgboost和bagging等。
41.举例来说,根据样本输入数据,划分为训练集、验证集和测试集。使用训练集和验证集对待训练的地质单元分类模型进行训练,通过不断迭代来验证改善地质单元分类模型,最后应用测试集进行分类预测得到地质单元分类结果。
42.本实施例通过选用多种机器学习算法构建不同的待训练的地质单元分类模型,首先使用训练集和验证集训练分类模型,通过不断的迭代来改善模型的性能、验证挑选出最优的分类模型,应用最优的分类模型对测试集进行分类预测,并通过测试结果评估模型的性能。
43.在本实施例中,采用机器学习算法训练待训练的地质单元分类模型的过程,可以包括分类结果评估:如通过测试结果评估模型的性能。例如采用混淆矩阵(g)、准确度(ac)、宏平均精确度(pr)、宏平均召回率(re)和宏平均f1分数(f1)等指标对地质单元分类的效能和分类结果进行性能评估。其中,准确度是对所有样本数据正确分类的判对率,宏平均精确度表示预测为正样本中正确的比例,宏平均召回率表示正样本中预测正确的比例,宏平均f1分数是宏平均精确度和宏平均召回率的调和平均值。
44.在本实施例中,采用机器学习算法训练待训练的地质单元分类模型的过程,可以包括分类结果优化:从调整待训练的地质单元分类模型的参数和特征变量选择两个方面对分类结果进行优化,取得更优的分类效果,直到分类精度达到预期值。
45.本实施例提供的地质单元分类模型的训练方法,能够基于机器学习融合数据多特征变量训练地质单元分类模型,经训练得到的地质单元分类模型可以实现高效、智能化的月表地质单元分类识别,可以克服人工识别对月表灰度图像不敏感而受到人为因素干扰、
以及效率较低的局限;还可用于月表地质单元岩性填图,通过对已知研究区域地质单元分类信息的学习与训练,有效地实现未知区域的地质单元分类,从而为月表地质单元岩性填图工作提供有效支撑。
46.基于数据点矢量数据进行空间叠加运算,确定至少一个数据特征,包括以下操作中的一种或多种:基于样本数据点矢量数据进行空间叠加运算提取地质单元分类特征;基于样本数据点矢量数据进行空间叠加运算提取经度特征、纬度特征和灰度特征中的一种或多种;基于样本数据点矢量数据进行空间叠加运算提取高程特征、坡度特征和起伏度特征中的一种或多种;基于样本数据点矢量数据进行空间叠加运算提取tio2特征;以及基于样本数据点矢量数据进行空间叠加运算提取feo、斜辉石、橄榄石、斜长石、辉石、亚微观金属铁和光学成熟度特征中的一种或多种。
47.例如,可以基于数据点矢量数据与usgs全月地质图数据进行空间叠加提取地质单元分类特征。如可以将点矢量数据与地质图矢量面数据按照位置进行相交运算,将相交位置点所在的矢量面的属性都赋值给样本矢量点,形成目标分类样本点。可以理解的,地质单元分类是usgs全月地质图中的地质单元基本组成元素,全月范围内共有49种地质单元分类。
48.例如,可以基于数据点矢量数据中的像素栅格格网与嫦娥二号月球影像dom数据进行空间叠加运算提取经度、纬度和灰度等特征。如可以按照影像数据对应位置的栅格行列号中取出相应的栅格属性值,将其赋值给样本矢量点。可以理解的,经度和纬度特征变量是像素中心点所在的空间位置信息,灰度特征变量是图像像素点的灰度值。
49.例如,可以基于数据点矢量数据中的像素栅格格网与嫦娥二号dem数据进行空间叠加运算提取高程、坡度和起伏度等特征,并赋值给样本矢量点。可以理解的,高程特征变量是指像素中心点所在位置对应的高程值;坡度特征变量是指地形数据中从一个像元到另一个像元的高程变化率;起伏度特征变量是指以该像素点为中心的八领域范围内所有像素点的最大高程值与最小高程值之差。
50.例如,可以基于数据点矢量数据与美国月球勘测轨道飞行器(lroc)系统的广角相机(wac)获得的数据进行空间叠加提取tio2特征变量。可以理解的,tio2特征变量是美国月球勘测轨道飞行器系统的广角相机获得的原始数据进行反演的tio2丰度数据例如,可以基于数据点矢量数据与日本月球探测器“月亮女神(kaguya)”多波段成像仪数据的反演数据进行空间叠加,提取feo、斜辉石、橄榄石、斜长石、辉石、亚微观金属铁和光学成熟度等特征变量。可以理解的,feo、斜辉石、橄榄石、斜长石、辉石、亚微观金属铁和光学成熟度等特征变量是利用月亮女神号多波段成像仪(mi)在紫外-可见光波段的5个波长位置(uvvis;415,750,900,950,1001nm)以及近红外波段的4个波长位置(nir;1000,1050,1100,1250nm)获取月球表面的多光谱图像数据,通过反演计算出的覆盖范围接近全月的feo含量、四种常见矿物含量(斜辉石、橄榄石、斜长石、辉石)、亚微观金属铁(smfe)丰度、以及光学成熟度(omat)数据。
51.本实施例提供的地质单元分类模型的训练方法,可以通过融合全月高分辨率月球影像、地形和光谱反演数据,实现了基于月表形貌、矿物组分和元素含量等多维特征变量的月表地质单元的自动化分类与划分,不受限于数据分辨率低、数据特征单一、数据覆盖范围不够的局限。
52.基于图像数据生成像素格网矢量数据,并根据像素格网矢量数据计算每个像素格网中心位置的经纬度坐标,得到数据点矢量数据,包括:基于图像数据以预设的距离范围为间隔进行取点,生成具有空间位置的像素格网矢量数据;以及根据像素格网矢量数据计算每个像素格网中心位置的经纬度坐标,得到数据点矢量数据。
53.可以理解的,预设的距离范围可以为500m,可以为1km,可以为3km等;例如以预设的距离范围(如500m,1km,3km,5km等)为间隔进行取点生成具有空间位置的像素格网矢量数据,计算每个像素网格中心位置的经纬度坐标生成样本数据点矢量文件。
54.基于至少一个数据特征确定待训练的地质单元分类模型的样本输入数据,包括:采用嵌入式法计算至少一个数据特征的重要性,得到至少一个重要性计算结果;以及基于至少一个重要性计算结果确定待训练的地质单元分类模型的样本输入数据。
55.可以理解的,应用嵌入式(embedded)方式对数据特征的重要性进行计算,根据重要性影响因子排序做出特征选择。选择的嵌入式方法可以包括决策树(decisiontree)、随机森林(random forests)和极端梯度提升(xgboost)等机器学习算法,根据机器学习算法的计算结果优选出最重要的预设个数个特征,如四个排名最靠前的特征。
56.地质单元分类模型的训练方法,还包括:采用标签编码方法对地质单元分类特征进行编码转换,得到地质单元分类特征的数字编码;以及将地质单元分类特征的数字编码作为待训练的地质单元分类模型的样本输入数据。
57.可以理解的,针对地质单元分类特征进行特征变换,如采用标签编码方法对特征地质单元分类进行编码转换,将字符型的地质单元分类转换为数字编码。
58.进一步的,将将地质单元分类特征的数字编码作为待训练的地质单元分类模型的样本输入数据,并采用机器学习算法训练待训练的地质单元分类模型。
59.举例来说,可以根据特征重要性度量结果综合优选出影响因子较高的四个特征变量组成数据集合x,将编码转换后的地质单元分类组成预测目标集合y,x和y为最终进行地质单元分类的样本数据集,x与y中元素具有一一对应关系。将x和y切分为训练集、验证集和测试集,具体可以为:第一步、先按照一定的比例(如取70%和30%,或80%和20%)将x和y的数据随机切分为训练集和测试集;第二步、再按照同样的比例将划分出的训练集随机再分为训练集和验证集。使用训练集和验证集对分类模型进行训练,通过不断的迭代来验证改善模型,最后应用测试集进行分类预测得出分类结果。
60.通过图2对公开实施例的地质单元分类方法进行详细描述。
61.图2示意性示出了根据本公开实施例的地质单元分类方法的流程图。
62.如图2所示,该实施例包括操作s201,该地质单元分类方法可以通过服务器执行。
63.在操作s201,将目标图像输入地质单元分类模型,得到与目标图像对应的地质单元分类结果。
64.例如,地质单元分类模型是根据本公开提供的方法训练的。
65.例如,地质单元分类模型是根据本公开提供的方法100训练的。
66.本实施例提供的地质单元分类方法,可以高效、快速的得到与目标图像对应的地质单元分类结果,避免人为因素干扰。
67.为了更好的理解本公开,下面结合实施例进一步阐述本公开的内容,但本公开不仅仅局限于下面实施例。
68.举例来说:为了能够方便灵活地组织数据,避免全球数据量大处理数据困难的问题,本公开将月球全球数据按照国家标准《月球基本比例尺地形图分幅和编号》(gb/t32521-2016)的分幅规则进行划分。将影像图数据按照国家标准《月球基本比例尺地形图分幅和编号》(gb/t 32521-2016)的分幅规则进行划分:南北纬84
°
~90
°
的极区单独成幅,划分为2个图幅;在南北纬84
°
范围内,从赤道起算,按纬差14
°
划分为多个子投影带。每个子带从高纬度到赤道,分别选择45
°
、30
°
、24
°
、20
°
、18
°
作为分幅经差,将全月南北纬84
°
以内的区域划分为186个图幅。按照该方法,全月影像数据共划分为188个图幅。后续可以按照分幅规则进行研究区域范围选择开展区域或全月地质单元分类研究。
69.例如,以嫦娥二号7米高分辨率影像数据为底图,按照自定义的尺寸范围(如500m,1km,3km,5km等)为间隔进行取点生成具有空间位置的像素格网矢量数据,计算每个像素网格中心位置的经纬度坐标生成样本数据点矢量文件,并提取像素点的经度、纬度和灰度属性值,具体步骤为:
70.1)、根据自定义尺寸范围(如500m,1km,3km,5km等),在全月影像数据范围(纬度-180~180度,经度-90~90度),利用arcmap,fishnet工具,生成相应间隔的像素格网矢量数据;
71.2)、基于1)生成的具有经纬度坐标的像素格网矢量数据,提取每个格子经纬度最小(longtitudelow_left,latitudelow_left)和最大(longtitudehigh_right,latitudehigh_right)角点坐标。
72.3)、则每个像素格子的中央点位置经纬度坐标计算公式为:
73.long=(longtitudelow_left longtitudehigh_right)/2
74.lat=(latitudelow_left latitudehigh_right)/2
75.即为所需的像素格子对应的经纬度坐标,同时利用arcmap feature to point工具,生成像素格子矢量点文件。
76.4)、基于3)生成的像素格子矢量点文件,在嫦娥二号7m分辨率影像数据上,利用arcmap identify工具,即可查找对应点像素,得到像素的灰度值。
77.例如,基于上述生成的样本点矢量数据,以地质图数据为底图按照像素点位置进行空间相交运算,将相交位置点所在的矢量面的地质单元分类属性赋值给像素矢量点。
78.其中,获取地质单元分类的具体步骤如下:
79.步骤1、根据自定义尺寸范围(如500m,1km,3km,5km等),在全月影像数据范围(纬度-180~180度,经度-90~90度),利用arcmap,fishnet工具,生成相应间隔的像素格网矢量数据;
80.步骤2、基于步骤1生成的具有经纬度坐标的像素格网矢量数据,提取每个格子经纬度最小(longtitudelow_left,latitudelow_left)和最大(longtitudehigh_right,latitudehigh_right)角点坐标。
81.步骤3、则每个像素格子的中央点位置经纬度坐标计算公式为:
82.long=(longtitudelow_left longtitudehigh_right)/2
83.lat=(latitudelow_left latitudehigh_right)/2
84.即为所需的像素格子对应的经纬度坐标,同时利用arcmap feature to point工具,生成像素格子矢量点文件(即样本点)。
85.步骤4、基于步骤3生成的像素格子矢量点文件和usgs全月地质图矢量面数据,利用arcmap intersect工具,进行空间相交运算,得到结果也是矢量点文件,而且usgs全月地质图矢量面数据自带的地质分类数据会自动赋值给该矢量点文件,从而得到每个像素格子矢量点(即样本点)对应的地质分类数据。
86.例如,以地形数据为底图,叠加经纬格网和像素格网进行空间叠加运算,从地形数据每个像素点对应位置的栅格行列号中取出各个像素点的高程、坡度和起伏度等属性值。
87.像素点的高程表示所在的高程值,根据像素点的地理坐标从地形数据中对应的行列中直接获取。公式如下:
[0088][0089]
在式(1)中,lon为像素点经度,lat为像素点纬度,orilon为影像左上角经度,orilat为影像左上角纬度,dx,dy为影像横向和纵向的分辨率,round为取整函数,pixel为根据行列数取像素值函数。
[0090]
坡度是地形数据中从一个像元到另一个像元的高程变化率,令p为坡度,分别表示x、y方向的偏导数,则:
[0091][0092]
像素点的起伏度是以该像素点为中心八领域范围内所有像素点的最大高程值与最小高程值之差。地势起伏度计算表达式为:
[0093]
δh=h
max-h
min
ꢀꢀꢀ
式(3);
[0094]
在式(3)中,h
max
代表八邻域范围内最高的像元高程值;h
min
代表八邻域范围内最低的像元高程值,δh即为像素点八邻域范围内的高差。本方法采用的八邻域范围为3*3大小。
[0095]
例如,以tio2丰度图数据为底图,叠加经纬格网和像素格网进行spatial join空间叠加运算,从tio2丰度图中每个像素点对应位置的栅格行列号中取出各个像素点的tio2丰度属性值。公式如下:
[0096][0097]
在式(4)中,lon为像素点经度,lat为像素点纬度,orilon为影像左上角经度,orilat为影像左上角纬度,dx,dy为影像横向和纵向的分辨率,round为取整函数,pixel为根据行列数取像素值函数。
[0098]
例如,通过日本月球探测器“月亮女神(kaguya)”多波段成像仪获取的橄榄石矿物含量反演数据,与生成的样本点矢量数据进行空间叠加运算,提取出橄榄石含量百分比数据。公式如下:
[0099][0100]
在式(5)中,lon为像素点经度,lat为像素点纬度,orilon为影像左上角经度,orilat为影像左上角纬度,dx,dy为影像横向和纵向的分辨率,round为取整函数,pixel为根据行列数取像素值函数。
[0101]
本实施例提供的方法可以包括以下步骤:步骤1,数据获取;步骤2,特征变量提取;
步骤3,特征变换;步骤4,特征重要性度量;步骤5,数据集构建;步骤6,数据切分;步骤7,分类模型构建与预测;步骤8,分类结果评估;步骤9,分类结果优化。具体地:
[0102]
步骤1:数据获取,按照全月分幅规则选择研究范围,基于研究区域的影像数据按照自定义的间隔距离进行栅格格网分割,每个小格代表一个图像像素点,构成样本数据点。
[0103]
步骤2:多特征变量提取,从usgs全月地质图、嫦娥二号影像数据、嫦娥二号地形数据、wac tio2丰度图数据、kaguya多波段成像仪数据进行像素分割提取出地质单元分类、经度、纬度、灰度、高程、坡度、起伏度、tio2丰度、feo含量、斜辉石含量、橄榄石含量、斜长石含量、辉石含量、亚微观金属铁含量和光学成熟度等15个特征变量。将地质单元分类特征单独组成目标集合y0,其余14种特征组合为初始特征集合x0。
[0104]
步骤3:特征变换,采用标签编码方法对集合y0进行特征编码转换,将所有的地质单元分类从字符型转换为数字型编码。
[0105]
步骤4:特征重要性度量,应用决策树(decisiontree)、随机森林(random forests)和xgboost三种机器学习算法对数据特征的重要性进行评分计算,也即对每个特征在机器学习算法中的每棵树上做出的贡献进行估算,取平均值后对特征之间的贡献大小进行排序,根据重要性影响排序做出特征选择。本发明中采用了基尼指数(gini index)作为三种机器学习算法的评价指标对特征重要性进行衡量。
[0106]
将gini指数用gi来表示,用vim表示特征变量重要性评分,14个特征x1,x2,x3,...,x14,计算出每个特征xj的gini指数评分即第j个特征在机器学习算法的所有决策树中节点分裂不纯度的平均该变量。
[0107]
gini指数的计算公式为:
[0108][0109]
其中,k表示有k个类别,p
mk
表示节点m中类别k所占的比例。
[0110]
特征xj在节点m的重要性,即节点m分枝前后的gini指数变化量为:
[0111][0112]
其中,gi
l
和gir分别表示分枝后两个新节点的gini指数。
[0113]
如果,特征xj在决策树i中出现的节点为集合m,那么xj在第i棵树的重要性为:
[0114][0115]
假设rf中共有n棵树,那么:
[0116][0117]
最后,把所有求得的重要性评分做归一化处理,根据排序进行特征选择。
[0118][0119]
步骤5:数据集构建,根据特征重要性度量结果综合优选出影响因子较高的四个特征变量组成数据集合x,将编码转换后的地质单元分类组成预测目标集合y,x和y为最终进行地质单元分类的样本数据集,x与y中元素具有一一对应关系。
[0120]
步骤6:数据切分,将x和y切分为训练集、验证集和测试集,具体包括:第一步先按
照70%和30%的比例将x和y的数据随机切分为训练集和测试集,第二步再按照同样的比例将划分出的训练集随机再分为训练集和验证集。使用训练集和验证集对分类模型进行训练,通过不断的迭代来验证改善模型,最后应用测试集进行分类预测得出分类结果。
[0121]
步骤7:分类模型构建与预测,应用机器学习分类算法构建模型对地质单元进行分类预测,可选择的机器学习算法有decisiontree、randomforest、xgboost和bagging等分类器。通过对样本训练集和验证集的训练、不断迭代与验证改善,四种分类器模型在测试集上均表现出了优异的分类效果,其中xgboost算法分类模型的分类结果精度最高,可作为优先选择的分类模型。xgboost是基于gbdt(gradient boosting decision tree)改进而来的集成学习算法,其算法主流程为输入是训练集样本i={(x1,y1),(x2,y2),..(xm,ym)},最大迭代次数t,损失函数l,正则化系数λ,γ,输出是强学习器f(x)。对迭代轮数t=1,2,...,t有:
[0122]
1)计算第i个样本(i-1,2,...,m)在当前轮损失函数l基于f
t-1
(xi)的一阶导数g
ti
,二阶导数h
ti
,计算所有样本的一阶导数和和二阶导数和
[0123]
2)基于当前节点尝试分裂决策树,默认分数score=0,g和h为当前需要分裂的节点的一阶二阶导数之和。
[0124]
对特征序号k=1,2...k:
[0125]
a)gl=0,hl=0
[0126]
b.1)将样本按特征k从小到大排列,依次取出第i个样本,依次计算当前样本放入左子树后,左右子树一阶和二阶导数和:
[0127]
gl=gl gti,gr=g-gl
[0128]
hl=hl hti,hr=h-hl
[0129]
b.2)试更新最大的分数:
[0130][0131]
3)基于最大score对应的划分特征和特征值分裂子树。
[0132]
4)如果最大score为0,则当前决策树建立完毕,计算所有叶子区域的w
tj
,得到弱学习器h
t
(x),更新强学习器f
t
(x),进入下一轮弱学习器迭代。如果最大score不是0,则转到第2)步继续尝试分裂决策树。
[0133]
步骤8:分类结果评估,通过测试结果评估模型的性能。本发明采用混淆矩阵(g)、准确度(ac)、宏平均精确度(pr)、宏平均召回率(re)和宏平均f1分数(f1)等指标对地质单元分类的效能和分类结果进行性能评估。其中,准确度是对所有样本数据正确分类的判对率,宏平均精确度表示预测为正样本中正确的比例,宏平均召回率表示正样本中预测正确的比例,宏平均f1分数是宏平均精确度和宏平均召回率的调和平均值。
[0134]
假设混淆矩阵g:
[0135]
[0136]
其中,k为地质单元分类种类数。在混淆矩阵g中准确度(ac)、宏平均精确度(pr)、宏平均召回率(re)和宏平均f1分数(f1)的计算公式:
[0137][0138][0139][0140][0141]
其中,gaa表示a类地质单元预测正确的数量;gab表示a类地质单元预测为b类的数量。
[0142]
步骤9:分类结果优化,从调整分类算法模型参数和特征变量选择两个方面对分类结果进行优化,取得更优的分类效果,直到分类精度达到预期值。分类算法模型参数的调优可以利用贝叶斯优化算法进行自动优化调参,也可以进行手动调参。对于xgboost分类算法来说,其可调整的参数主要有:learning_rate、n_estimators、max_depth、min_child_weight、gamma、subsample、colsample_bytree、objective、num_class和seed。特征变量选择进行优化则是适当增加和减少特征变量形成由不同特征变量组成的新的样本数据集,基于新的样本数据集再重新进行分类预测以达到更好的分类效果。通常,特征变量选择的方式对分类结果优化的效果更有效,能够取得显著的效果。
[0143]
图3示意性示出了根据本公开实施例的地质单元分类模型的训练装置的结构框图。
[0144]
如图3所示,该实施例的地质单元分类模型的训练装置300包括第一数据模块310、第二数据处理模块320、第三数据处理模块330、第四数据处理模块340和训练模块350。
[0145]
第一数据处理模块310,用于根据月球地形图分幅规则选择目标区域,并确定所述目标区域的图像数据;第二数据处理模块320,用于基于所述图像数据生成像素格网矢量数据,并根据所述像素格网矢量数据计算每个像素格网中心位置的经纬度坐标,得到数据点矢量数据;第三数据处理模块330,用于基于所述数据点矢量数据进行空间叠加运算,确定至少一个数据特征;第四数据处理模块340,用于基于所述至少一个数据特征确定待训练的地质单元分类模型的样本输入数据;以及训练模块350,用于根据所述样本输入数据,采用机器学习算法训练所述待训练的地质单元分类模型。
[0146]
在一些实施例中,所述第三数据处理模块,包括以下操作中的一种或多种:基于所述样本数据点矢量数据进行空间叠加运算提取地质单元分类特征;基于所述样本数据点矢量数据进行空间叠加运算提取经度特征、纬度特征和灰度特征中的一种或多种;基于所述样本数据点矢量数据进行空间叠加运算提取高程特征、坡度特征和起伏度特征中的一种或多种;基于所述样本数据点矢量数据进行空间叠加运算提取tio2特征;以及基于所述样本
数据点矢量数据进行空间叠加运算提取feo、斜辉石、橄榄石、斜长石、辉石、亚微观金属铁和光学成熟度特征中的一种或多种。
[0147]
在一些实施例中,所述第二数据处理模块,用于:基于所述图像数据以预设的距离范围为间隔进行取点,生成具有空间位置的像素格网矢量数据;以及根据所述像素格网矢量数据计算每个像素格网中心位置的经纬度坐标,得到数据点矢量数据。
[0148]
在一些实施例中,所述第四数据处理模块,用于:采用嵌入式法计算所述至少一个数据特征的重要性,得到至少一个重要性计算结果;以及基于所述至少一个重要性计算结果确定待训练的地质单元分类模型的样本输入数据。
[0149]
在一些实施例中,所述装置还包括:编码转换模块,用于采用标签编码方法对所述地质单元分类特征进行编码转换,得到所述地质单元分类特征的数字编码;以及将所述地质单元分类特征的数字编码作为待训练的地质单元分类模型的样本输入数据。
[0150]
根据本公开的实施例,第一数据处理模块310、第二数据处理模块320、第三数据处理模块330、第四数据处理模块340和训练模块350中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一数据处理模块310、第二数据处理模块320、第三数据处理模块330、第四数据处理模块340和训练模块350中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一数据处理模块310、第二数据处理模块320、第三数据处理模块330、第四数据处理模块340和训练模块350中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0151]
图4示意性示出了根据本公开实施例的地质单元分类装置的结构框图。
[0152]
如图4所示,该实施例的地质单元分类装置400包括获得模块410。
[0153]
获得模块410,用于将目标图像输入地质单元分类模型,得到与所述目标图像对应的地质单元分类结果。
[0154]
例如,所述地质单元分类模型是根据本公开提供的装置训练的。
[0155]
根据本公开的实施例,获得模块410中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,获得模块410中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获得模块410中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0156]
图5示意性示出了根据本公开实施例的适于实现地质单元分类模型的训练方法和/或地质单元分类方法的电子设备的方框图。
[0157]
如图5所示,根据本公开实施例的电子设备500包括处理器501,其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic))等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0158]
在ram 503中,存储有电子设备500操作所需的各种程序和数据。处理器501、rom502以及ram 503通过总线504彼此相连。处理器501通过执行rom 502和/或ram 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 502和ram 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0159]
根据本公开的实施例,电子设备500还可以包括输入/输出(i/o)接口505,输入/输出(i/o)接口505也连接至总线504。电子设备500还可以包括连接至i/o接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
[0160]
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
[0161]
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom 502和/或ram 503和/或rom 502和ram 503以外的一个或多个存储器。
[0162]
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的物品推荐方法。
[0163]
在该计算机程序被处理器501执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0164]
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分509被下载和安装,和/或从可拆卸介质511被安装。该计算机程序包含
的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0165]
在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0166]
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java,c ,python,“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0167]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0168]
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0169]
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献