一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于机器学习的黄蜂迁移预测方法、系统、设备和介质

2022-07-10 07:33:06 来源:中国专利 TAG:


1.本发明属于机器学习技术领域,涉及一种基于机器学习的黄蜂迁移预测方法、系统、设备和介质。


背景技术:

2.随着机器学习技术的不断发展,其在生物物种入侵事件中的应用已逐步拓展,日益成为地区生物物种入侵分析预测的重要技术手段。其中,大黄蜂入侵的某些产地外地区,对当地的蜜蜂产业而言大黄蜂属于害虫,会给当地的养蜂产业造成经济损失,此外由于大黄蜂的强大攻击性,也会对当地居民人身安全造成威胁,因此分析和预测大黄蜂出现的区域,对于当地社会而言是防范黄蜂危害的重要课题。
3.为了评估入侵物种在某一地区出现的可能性,人们已经提出了多种基于统计数据的生长-扩散模型,其对于大量的种群可以获得相对准确的结果,而对于小规模的种群可能无法获得较好的结果。此外,随着时间推移,人们还提出了一种基于个体对环境驱动变量的生理反应的种群动态机制模型,该模型被定义为基于生理学的人口统计学模型(pbdms),其在已知信息足够(微分方程的初值)时,该模型甚至可以准确地评估变化对地理空间和时间中种群动态的影响。
4.然而,在实现本发明的过程中,发明人发现上述传统的分析预测方法,在面对黄蜂迁移预测问题上,存在着预测性能较差的技术问题。


技术实现要素:

5.针对上述传统方法中存在的问题,本发明提出了一种黄蜂迁移预测性能较强的基于机器学习的黄蜂迁移预测方法、一种基于机器学习的黄蜂迁移预测系统、一种计算机设备和一种计算机可读存储介质。
6.为了实现上述目的,本发明实施例采用以下技术方案:
7.一方面,提供一种基于机器学习的黄蜂迁移预测方法,包括步骤:
8.获取目标地区的气候数据和历史报告数据;气候数据包括目标地区的温度数据和湿度数据,历史报告数据包括目标地区内各地点报告的疑似大黄蜂图像;
9.利用检测和分类系统对历史报告数据进行大黄蜂检测,将识别为大黄蜂的黄蜂图像添加至黄蜂数据集;
10.将气候数据和黄蜂数据集输入构建的蜂后迁移预测模型,输出目标地区预测的黄蜂分布地图并计算地图区域的黄蜂值;
11.其中,蜂后迁移预测模型基于蒙特卡罗计算构建,蜂后迁移预测模型中设定蜂后向适合黄蜂生存的方向移动的概率最大且每个蜂巢中蜂后数量受环境随机因子约束,黄蜂值用于指示大黄蜂出现相应地区的概率。
12.另一方面,还提供一种基于机器学习的黄蜂迁移预测系统,包括:
13.数据获取模块,用于获取目标地区的气候数据和历史报告数据;气候数据包括目
标地区的温度数据和湿度数据,历史报告数据包括目标地区内各地点报告的疑似大黄蜂图像;
14.检测分类模块,用于利用检测和分类系统对历史报告数据进行大黄蜂检测,将识别为大黄蜂的黄蜂图像添加至黄蜂数据集;
15.预测输出模块,用于将气候数据和黄蜂数据集输入构建的蜂后迁移预测模型,输出目标地区预测的黄蜂分布地图并计算地图区域的黄蜂值;
16.其中,蜂后迁移预测模型基于蒙特卡罗计算构建,蜂后迁移预测模型中设定蜂后向适合黄蜂生存的方向移动的概率最大且每个蜂巢中蜂后数量受环境随机因子约束,黄蜂值用于指示大黄蜂出现相应地区的概率。
17.又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述基于机器学习的黄蜂迁移预测方法的步骤。
18.再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述基于机器学习的黄蜂迁移预测方法的步骤。
19.上述技术方案中的一个技术方案具有如下优点和有益效果:
20.上述基于机器学习的黄蜂迁移预测方法、系统、设备和介质,通过利用基于蒙特卡罗计算构建的蜂后迁移预测模型,使用目标地区的气候数据和历史报告数据,将历史报告数据检测并分类出黄蜂数据后,与该地区的气候数据一并提供给蜂后迁移预测模型进行蒙特卡罗计算,快速得到该地区相对于历史时间而言未来的黄蜂分布预测结果,从而获知该地区内大黄蜂将会出现的迁移分布情况,以辅助对该地区内大黄蜂可能出现的地点进行资源分配。相比于传统的分析预测方法,结合实践验证结果,上述方案充分考虑了大黄蜂的繁殖方法、繁殖范围和环境影响对飞行的影响,使用概率模型 蒙特卡罗模拟来模拟大黄蜂蜂后的迁移,其结果具有较强的鲁棒性。检测和分类系统充分丰富了没有标签的数据,其中通过引入检测器,分类的性能也得到了有效的提高,从而达到显著增强黄蜂迁移预测性能的效果。
附图说明
21.图1为一个实施例中基于机器学习的黄蜂迁移预测方法的流程示意图;
22.图2为一个实施例中蜂后的迁移趋势和区域影响示意图;其中,(a)为蜂后在一定环境条件下的迁移趋势,(b)为新生大黄蜂群对其区域和邻近区域的影响;
23.图3为一个实施例中蜂后的分布和移动趋势的示意图;其中,(a)为蜂后的分布和移动趋势,(b)为(a)的3d版本示意图;
24.图4为一个实施例中目标检测与分类的流程示意图;
25.图5为一个实施例中检测和分类系统的缩略结构示意图;
26.图6为一个实施例中黄蜂实际出现的地点与预测区域的示意图;
27.图7为一个实施例中基于机器学习的黄蜂迁移预测系统的模块结构示意图。
具体实施方式
28.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不
用于限定本技术。
29.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
30.大黄蜂是世界上最大的黄蜂物种,其工蜂长度从25毫米到40毫米不等,蜂后的长度可以超过45毫米。雄性表面上与雌性相似,但没有毒刺。大黄蜂区分容易:它们的色彩鲜艳,头部黄色,胸部黑色,腹部有黄色、黑色或棕色条纹。大黄蜂的生存习惯主要如下:
31.大黄蜂是每年筑一次新巢的物种。
32.通常在地下筑巢,因此找到大黄蜂的巢穴将非常困难。
33.在冬天,除了越冬的蜂后,整个蜂群都会死亡,而新蜂群将在明年春天出现并建立一个新巢。
34.新蜂后将在大约30公里的范围内建造新巢。
35.蜂后在9月开始生产雄性黄蜂和蜂后,雄性黄蜂和蜂后将在10月和11月初离开巢穴进行交配。
36.高达65%的蜂后不会被受精。受精和未受精的蜂后都会越冬,但只有受精的蜂后会在第二年找到新的巢穴。
37.工蜂通常会飞到离巢穴一到两公里的地方,尽管它们能够在半径长达8公里的地方觅食。
38.亚洲大黄蜂,是世界上最大的大黄蜂,原产于亚洲。然而,大黄蜂是蜜蜂的一种害虫,其会给当地的养蜂人造成经济损失并且也会对附近居民带来人身安全的威胁。大黄蜂是一种群居昆虫,有一个很大的群体,包括一个蜂后和众多工蜂。由于大黄蜂筑巢群居所带来的危险性,被入侵地区的政府部门已采取行动对大黄蜂迁移蔓延进行防范,例如鼓励居民目击上报与调配公共资源前往处理等。
39.为了评估某一地区出现的可能性,通常需要估计大黄蜂在受入侵地区中各地的分布。在现有研究中,有利用基于野外昆虫调查的统计分布数据,拟合了昆虫分布模型。一般来说,扩散有两种类型:n=a bf(x)和n=exp(a bxc),其中,x为到扩散源的距离,n为昆虫数量,a,b,c均为待拟合的参数。该扩散模型分析了昆虫从传播源中的分布情况。理论上,由于扩散模型是基于统计数据的,大量的种群可以获得相对准确的结果,而小规模的种群可能无法获得较好的结果。此外,扩散模型没有考虑到昆虫种群的增长。
40.此外,扩散模型在建模时没有考虑环境因素,而且在存在明显吸引或威胁昆虫的区域时也表现不佳。生长-扩散模型则充分考虑了种群增长对扩散的影响,提出了12种可能的统一生长-扩散模型,其中包括指数增长(减少)模型、逻辑增长模型和威布尔增长模型,以及功率衰减模型、指数衰减模型和随机扩散模型。同时,这些模型可以独立地描述一个单一的生长或扩散过程。然而,生长-扩散模型对环境的考虑还不够仔细。
41.自20世纪70年代以来,人们提出了一种基于个体对环境驱动变量的生理反应的种群动态机制模型。这类模型被定义为基于生理学的人口统计学模型(pbdms)。与建立人口疾病传播模型类似,pbdms根据人口的生长特征、传播特征、人口发展规律以及相关的环境因素,建立了一个能够反映传播动态特征的数学模型。基于建模在微分方程中,模型中都考虑
了生态系统的每个元素。近年来,pbdms的发展逐渐得到了改善。在已知信息足够(微分方程的初值)时,这类模型甚至可以准确地评估变化对地理空间和时间中种群动态的影响。
42.但前述这些传统模型在面对大黄蜂迁移预测问题时,其预测性能较差,主要体现在以下三个方面,使之难以直接解决大黄蜂迁移预测的问题:
43.其一,传统的模型假设每个个体都能产生后代,而在本技术的实例中,只有蜂后是可生育的。在黄蜂种群中,只有少数可育的蜂后,所以传统的模型会导致高估的问题。
44.其二,传统模型在建立分布规则预测种群时通常能得到更好的结果。例如,现有文献认为昆虫的扩散依赖于其相应的扩散函数,扩散函数具有特征,从调查结果中总结。也就是说,传统的模型是一个具有大数据统计规则的模型。对于刚刚在域外地区站稳脚跟、尚未形成规模和分布的黄蜂蜂群来说,其数据量较小,难以保证传统模型的良好效果。
45.其三,在本技术研究的问题中,由于大黄峰巢的隐蔽性,导致很难根据目前发现的大黄峰的数量来准确估计当前大黄峰的数量。而微分方程模型和生长-扩散模型等传统模型对种群初始值的精度有较高的要求,因此难以应用于本技术研究的问题中。
46.在现有的应对方式中,大量地区居民在发现疑似大黄蜂的昆虫后,将目击事件拍照交给地区政府,这会给地区政府造成大量的资源浪费。一方面,大黄蜂的防范问题还没有得到解决;另一方面,很难处理在短时间内出现的大量可能误判的目击照片,而且安排在众多不同地方的现场调查也具有挑战性。
47.因此,为了分析和预测大黄蜂出现的区域,帮助地区政府预测黄蜂的传播,本技术基于蒙特卡罗的构思,提出了一个基于大黄蜂生活和繁殖习惯的蜂后迁移模型,该模型可以预测黄蜂巢的数量和分布范围。在本技术的研究中,预测的核心是基于大黄蜂独特的生物学特征和历史数据,也是基于生物体倾向于适应生活环境筑巢的原则进行迁移预测,能够预测黄蜂出现的可能性。同时,定义了黄蜂值用于预测大黄蜂出现在某一区域的可能性,并且采用蒙特卡罗方法对整个过程进行了模拟。根据模拟中新巢的分布,预测了各地区出现蜂的可能性。随后,利用近年的历史数据,通过提出的模型预测了最近一年大黄蜂的分布,准确率达到87.5%,可以有效帮助地区政府合理地将资源分配给黄蜂值较大的地区,以进行有效的防范。
48.此外,地区政府在处理疑似大黄蜂的图片时,通常使用的是人工处理的方法,不仅耗时且消耗大量资源。人工智能的不断发展使得大黄蜂的自动分类和识别成为可能。然而目前面临的问题是没有足够的大黄蜂图片样本,而且还有更多未经验证的样本。因此,在深度学习和半监督学习相结合的基础上,本技术设计了一套大黄蜂检测和分类模型来克服这一挑战。该模型由检测器、分类器和手动处理模块组成。其中,检测器首先定位、识别和分割的所报告的图片,再将分割后的图像提交给分类器,然后由基于半监督支持向量机的分类器对图片进行分类。一些更复杂的难以处理的图片则将被交给手动处理模块进行进一步的分析和判断。通过充分利用未经验证的数据和少量的标记信息,该大黄蜂检测和分类模型的性能会越来越好,特别是对分类测试集的综合性能已超过70%。通过该大黄蜂检测和分类模型对现有的蜜蜂和大黄蜂等图片进行预处理,可以构建支持向量机(svm)的大黄蜂数据集,用于自动化丰富上述预测模型的输入数据集,确保预测性能的显著提升。
49.下面将结合本发明实施例图中的附图,对本发明实施方式进行详细说明。
50.首先,本文方法中可能出现的参量及其定义如下表1所示:
51.表1
[0052][0053]
基本假设:
[0054]
忽略了蜂后迁徙的天气偶然性。在本技术的模型中,主要考虑了两个环境因素:温度和湿度。在模拟中,以温度和湿度为常数。
[0055]
假设两个蜂后进入同一个细胞不会改变,因为相互作用会影响下一个迁移。
[0056]
假设大黄蜂不会被自然灾害或人类的行动所摧毁,也不会大规模迁徙。
[0057]
请参阅图1,本技术实施例提供了一种基于机器学习的黄蜂迁移预测方法,包括以下步骤s12至s16:
[0058]
s12,获取目标地区的气候数据和历史报告数据;气候数据包括目标地区的温度数据和湿度数据,历史报告数据包括目标地区内各地点报告的疑似大黄蜂图像。
[0059]
可以理解,目标地区是指遭遇大黄蜂(外来物种)入侵的地区。目标地区的温度数据和湿度数据,可以但不限于通过调取目标地区气象台或者气象数据库的相关历史气象数据得到,或者联网在线爬取。历史报告数据可以但不限于通过主管单位的目击报告网站或者其他图像数据来源下载获取。气候数据和历史报告数据所选的历史时段相同,该历史时段可以但不限于是最近一年、过去某一年或者某几年,只要能够提供预测所需的基础输入数据即可,具体可以根据预测精度和计算资源限制等灵活选取。
[0060]
s14,利用检测和分类系统对历史报告数据进行大黄蜂检测,将识别为大黄蜂的黄蜂图像添加至黄蜂数据集。
[0061]
可以理解,检测和分类系统是采用预先建立的黄蜂数据集训练好的目标检测与分类系统,用于针对疑似大黄蜂的输入图像进行目标检测与分类,从而自动准确地从原始数据中找到包含大黄蜂的图像,进而确定这些图像对应的上报地点有大黄蜂出现。在系统训练阶段中,黄蜂数据集可以根据地区报告的图像数据建立,其中可以包含图像和/或视频,还可以包含被识别为大黄蜂的图像、被识别为非大黄蜂的图像和身份不明(暂无法确定是否为大黄蜂的图像)图像中的至少两种。利用该黄蜂数据集来预先训练检测和分类系统,以使其达到能够准确识别和分类大黄蜂的预期性能。
[0062]
在实际预测应用中,使用的黄蜂数据集则可以由目标地区选定的历史时段内报告的图像数据建立,从而确保预测结果与目标地区相对应。因此,在获取目标地区的气候数据和历史报告数据后,可以将检测分类到的黄蜂图像加入黄蜂数据集,作为当前次预测所输入的图像数据集。
[0063]
s16,将气候数据和黄蜂数据集输入构建的蜂后迁移预测模型,输出目标地区预测
的黄蜂分布地图并计算地图区域的黄蜂值;
[0064]
其中,蜂后迁移预测模型基于蒙特卡罗计算构建,蜂后迁移预测模型中设定蜂后向适合黄蜂生存的方向移动的概率最大且每个蜂巢中蜂后数量受环境随机因子约束,黄蜂值用于指示大黄蜂出现相应地区的概率。
[0065]
可以理解,由于黄蜂蜂群的扩散只取决于蜂后的迁移,因此在模型中只考虑蜂后的迁移。昆虫在自然界,尤其是蜜蜂通常有强烈的位置环境,但在真正的迁移过程中,由于人类的影响,如建筑和其他因素,蜂后的迁移有一定的方向性,但最终位置是不确定的。
[0066]
这种不确定性为本技术研究的方法设计带来了灵感。为了模拟裂变材料的随机中子扩散,科学家开发了一种称为蒙特卡罗的统计方法,该方法通过一个简单的随机数发生器模拟了数千个虚拟中子,并得到了中子扩散模型。与本技术研究的问题类似,中子在扩散过程中会不断与其他核子碰撞,新的中子会被激发,中子的运动方向通常是一定的方向,但还没有完全确定。受蒙特卡罗思想的启发,本技术建立了一个基于蒙特卡罗计算的预测模型,可以模拟大黄蜂的扩散。
[0067]
为了简化这个扩散过程,假设大黄蜂的移动过程可以归结为随机游走过程。此外,根据假设,可以蜂后的发现为起点,画一个60x60平方公里的网格,每个网格大小为1x1平方公里。然后假设蜂后只能向四个方向中的一个移动,而一次只能移动一公里。蜂后第30次移动的移动点被作为新巢的点。前面讨论的是单个蜂后的迁移模型,还需要从中考虑以下两个环境客观条件来使这个模型更加现实。需要说明的是该网格的大小并非是唯一固定的,本领域技术人员可以根据实际应用场景的需要进行延伸或缩减,只要能够更好地适应目标地区的实际情况即可。
[0068]
其一:蜂后向适合大黄蜂生存的方向移动的概率将大于其他方向的概率。在这里,考虑了环境对大黄蜂的吸引力。现有报告指出,23℃-30℃是最适合大黄蜂户外活动的温度,当温度小于18℃或大于35℃时,其活动会下降;当相对湿度在60%至70%之间时,通常适合其活动。当下雨时,大黄蜂就不会外出活动了。自然,蜂后很少进入不适合生活和筑巢的环境。(如图2中的(a)所示)
[0069]
图2中,(a)描述了蜂后在一定环境条件下的运动趋势,the queen表示蜂后。左侧深色区域代表不太适合黄蜂居住的区域,而右侧深色区域代表更适合居住。(a)中的交叉圆点代表蜂后的位置,四个箭头分别代表蜂后在四个方向上的运动趋势。箭头的厚度表示蜂后向这个方向移动的概率。例如,如果右边的箭头是最厚的,那么蜂后最有可能向右移动。(b)描述了新生大黄蜂群对其区域和邻近区域的影响,nest表示新巢。六角形星表示新的蜂巢的位置,即新的大黄蜂种群的位置。内圈深色区域代表v
t
1,外圈次深色区域代表v
t
0.5。
[0070]
每个巢中的蜂后数量为n0=205
×
(35% ε),其中,ε为环境随机因子。据现有报告估计,每个蜂群将产生大约212只雄性和205只新蜂后,其中约65%的蜂后不能受精(即这些蜂后将无法建立新巢)。现有文献指出,环境对昆虫特别是大黄蜂的受精和受精卵的孵化都有影响。在本技术的上述模型中,将环境影响因素添加作为环境随机因素。环境影响因素:ε对蜂后的生育率有一定的影响并认为该影响小于10%,即ε《10%。
[0071]
上述两个条件的加入使得蜂后迁移预测模型趋于完备。为了估计未来大黄蜂的潜在范围,需要考虑估计蜂巢周围大黄蜂的范围。据现有相关数据显示:在觅食时,野蜂通常会飞离巢穴一到两公里,尽管其能够在半径长达8公里的范围觅食。
[0072]
此处,定义了黄蜂值来测量t时刻坐标(x,y)上大黄蜂的存在,记为v
t
(x,y)。黄蜂值v
t
(x,y)的值越高,大黄蜂就越有可能出现在位置(x,y)处。根据以上对大黄蜂活动范围的研究,可以得出结论,大黄蜂在直接距离巢穴1公里的范围内被发现的可能性几乎相等。基于此,在上述蜂后迁移预测模型中,如果一个蜂后选择巢点(x,y),那么v
t
(x,y)需要增加1,四个最近的点(x,y)的黄蜂值也增加1,每16个最近的点的v
t
值从第五到最接近(x,y)的第21位增加了0.5(如图2中(b)所示)。例如,如果16个蜂后在迁移过程中选择在(32,44)点筑巢,那么v1(32,44)=16。在得到相应指标后,根据蜂巢的分布进一步估计该区域大黄蜂的分布。
[0073]
然后,对该蜂后迁移预测模型进行了蒙特卡罗仿真:首先,用计算机生成随机数。虽然生成的该随机数(序列)在数学上是一个周期固定的伪随机数,但是这个伪随机序列的周期比实验的次数要大得多,所以可以作为一个“真正的”随机数。同时,定义了生成的随机数与蜂后的运动方向之间的关系,即一旦每个随机数生成,蜂后就会移动。因此,模拟了蜂后在30公里飞行过程中的概率选择方向的过程后,多次取仿真结果的平均值,即得到仿真结果。
[0074]
蒙特卡罗仿真示例:模拟蜂后迁移三个巢并设置初始巢的坐标分别为(10,10)、(17,20)和(27,10),设置200个蜂后在每个蜂巢,模拟1000年蒙特卡罗迁移方法并认为环境中遇到蜂后的迁移相同,得到的模拟结果如图3所示。
[0075]
图3中,(a)显示了蜂后的分布和移动趋势。这个面积为3600平方公里的目标区域,在该区域中设置了3个原始的巢穴。通过使用上述建立的预测模型,可以得到该图(a)中的分布。v1描述了在某个地方的大黄蜂的数量。从这张图片中清楚地做出了预测,可以容易地得到蜂后可能所在的位置。图3中,(b)图是(a)图的3d版本,可以清楚地得到相对于其他地方的预测数字。
[0076]
上述示例模拟了蜂后的扩散,得到了蜂后繁殖后周围区域的黄蜂值(如图3所示)。将黄蜂值定义为衡量大黄蜂出现在该地区的概率或频率的数量,即该地区的黄蜂值越大,群众就越有可能在该地区遇到大黄蜂。假设主管单位同时收到了来自不同地点的群众的三个报告(见图3(a))。据报道,当地人称其目击了大黄蜂。结合上述预测模型,可以从图3图中分别得到黄蜂值的大小。
[0077]
然后,根据上述预测模型可知,a点被报告的区域具有一个更大的黄蜂值。因此,可以相信,与b和c相比,a点更有可能遇到大黄蜂,图3(a)中从左至右的三个十字星分别对应为a、b和c点。因此,在战略安排方面,可以优先投入资源进行a点的调查,而对于c点则可以不急于投入过多资源。
[0078]
上述基于机器学习的黄蜂迁移预测方法,通过利用基于蒙特卡罗计算构建的蜂后迁移预测模型,使用目标地区的气候数据和历史报告数据,将历史报告数据检测并分类出黄蜂数据后,与该地区的气候数据一并提供给蜂后迁移预测模型进行蒙特卡罗计算,快速得到该地区相对于历史时间而言未来的黄蜂分布预测结果,从而获知该地区内大黄蜂将会出现的迁移分布情况,以辅助对该地区内大黄蜂可能出现的地点进行资源分配。相比于传统的分析预测方法,结合实践验证结果,上述方案充分考虑了大黄蜂的繁殖方法、繁殖范围和环境影响对飞行的影响,使用概率模型 蒙特卡罗模拟来模拟大黄蜂蜂后的迁移,其结果具有较强的鲁棒性。检测和分类系统充分丰富了没有标签的数据,其中通过引入检测器,分
类的性能也得到了有效的提高,从而达到显著增强黄蜂迁移预测性能的效果。
[0079]
在一个实施例中,如图4所示,关于上述步骤s14中利用检测和分类系统对历史报告数据进行大黄蜂检测的过程,具体可以包括如下处理步骤s142和s144:
[0080]
s142,利用单镜头多盒检测器对历史报告数据进行目标检测,识别并分割出包含昆虫的检测图像;
[0081]
s144,利用训练好的半监督支持向量机对检测图像进行分类,输出识别为大黄蜂的黄蜂图像。
[0082]
可以理解,大量的图片是难以手工处理完成的,因此本技术中采用单镜头多盒检测器(ssd)对前述数据进行预处理,再采用分类器(半监督支持向量机)进行分类处理。
[0083]
为更易于理解上述步骤,下面从数据集建立和分类器训练的角度进行介绍说明。近年来,机器学习和深度学习的发展为图像识别技术带来了质性上的飞跃。因此,在本实施例中,通过深度学习目标检测方法,可以自动识别大黄蜂,这不仅可以减少误报造成的资源浪费,也可使主管单位节省更多的劳动力成本。然而,传统的深度学习目标检测算法需要大量的图像作为训练素材才能获得良好的检测效果。也就是说,即使采用此类传统的深度学习算法,构建的黄蜂检测方法也不会最好。
[0084]
注意到通常可获得的现有图像中包含少量未经证实的图像和大量被证实不是黄蜂的图像,为了充分利用这些图像的信息,特别是未经验证的图像,本实施例考虑采用半监督学习的图像分类算法。半监督学习考虑了有监督学习和无监督学习的优点,适用于图像分类问题。利用少数标记信息样本和大量未标记样本提供的分布信息,帮助训练分类器,提高分类器的分类精度和泛化能力。为了提升半监督学习方法的效果,还需要从公众报告的黄蜂的图像中生成一个合格的数据集。
[0085]
未经预处理的原始黄蜂数据集中,包含大黄蜂的图像上通常大黄蜂在其中只占整个图像的一小部分,而有些图片中没有疑似蜜蜂或大黄蜂的物品,同时一些图片中可能包含了多个蜜蜂或大黄蜂,因此需要对这些图像进行预处理,以去除其中大量的干扰信息。因此,当前的任务是从含有大黄蜂的目标图像中提取一小部分大黄蜂并裁剪出来。因此,需要一个具有高精度小目标的目标检测模型。ssd是由w.liu等人于提出的,是深度学习时代的第二个一期检测器。在ssd中,介绍了多参考和多分辨率的检测技术。ssd通过卷积层提取出不同尺度的特征图进行检测,大尺度特征图可用于检测小对象,而小尺度特征图可用于检测大对象,这会大大提高该ssd对小目标的检测精度。
[0086]
ssd在检测速度和准确性方面都有优势,可以直接使用训练好的ssd检测模型进行目标检测(该模型已预先在pascalvoc、coco和ilsvrc等数据集,以及其他包含大量类别的图像数据集上训练,所有这些数据类别均包括昆虫类别),也即使用训练好的ssd目标检测模型对之前获得的图像进行检测并切割出检测出为昆虫的部分。经过目标检测和裁剪,可得到被识别为大黄蜂的图像且每张图像只包含大黄蜂的本体。将检测获得的图像作为阳性样本(黄蜂图像)添加到黄蜂数据集中。同时,为了使黄蜂数据集中的阳性样本和阴性样本(非黄蜂图像)更加平衡,从剪切后的阴性样本中选择多张图像(略高于阳性样本的数量即可)作为该数据集的阴性样本。
[0087]
此外,ssd从未被识别为大黄蜂的图像中裁剪出多张大黄蜂的图像,将其作为未标记的样本添加到前述数据集中。然后,将训练集(用于训练分类器)和测试集(用于测试分类
器)进行分割,例如以7个阳性样本和10个阴性样本作为测试集,并从数据集中随机抽取这些测试集。
[0088]
在一个实施例中,半监督支持向量机的训练过程,包括:
[0089]
采用定向梯度直方图方法对输入图像进行特征提取;
[0090]
采用主成分分析法对提取的特征向量进行降维处理。
[0091]
可以理解,上述实施例中关于检测和分类系统的训练可以不考虑进行特征提取,而在本实施例中,为了获得更好性能的半监督支持向量机,考虑进行特征提取。
[0092]
具体的,采用hog(定向梯度直方图)特征提取的方法对图片进行了预处理。hog特征是计算机视觉和图像处理中用于目标检测的一种特征描述符。计算和统计图像局部区域梯度方向的直方图,形成特征。hog的主要思想是在图像中局部物体的外观和形状可以很好地描述为梯度或边缘的方向密度分布。hog特征提取算法的实现过程如下:
[0093]
首先,将图像转换为灰度图像,用伽玛校正方法对图像的颜色空间进行归一化,以减少图像局部阴影和光线变化的影响。
[0094]
然后,计算图像的水平坐标和垂直坐标的第一步度,并相应地计算每个像素位置的梯度方向值。
[0095]
进而,将图像分割为多个单元,然后将单元中所有像素的一维梯度直方图或边缘方向添加到单元之中。将基本的方向直方图映射到一个固定的角度上,形成细胞单元的梯度方向直方图。
[0096]
再然后,单元分组为大块,梯度直方图在块内归一化。通常,一个单元格单元将被不同的块共享,但它们是基于不同的块进行标准化的。因此,一个单元的特征将在最终特征向量中多次出现,得到不同的结果。
[0097]
最后,收集了图像中所有重叠块的hog特征并将其合并到最终的特征向量中进行分类。
[0098]
hog特征通常具有较高的维数。为了避免维度灾难,需要对其进行限制,即通过使用适当的方法来降维。
[0099]
主成分分析(pca)是一种简化数据结构的方法。pca主要研究如何将具有一定相关性的多个变量转换为少数综合变量,这些综合变量可以反映原始变量的大部分信息。通常的处理方法是将原始的p变量进行线性组合并使它们成为新的复合变量。在信号处理中,认为信号的方差较大,而噪声的方差较小。为了尽可能多地保留关于原始变量的信息,有必要确保生成的复合变量的方差最大并尽可能接近原始变量的方差之和。
[0100]
当pca降维完成时,得到的向量是从相应的图像中提取的特征。
[0101]
在一个实施例中,半监督支持向量机在训练过程中引入核函数。
[0102]
可以理解,支持向量机(svm)在机器学习中得到了广泛的应用,其常用于人像识别、文本分类、手写字体识别和生物信息学等领域。传统的支持向量机只针对线性可分二分法问题,对于线性不可分割的数据,需要使用非线性支持向量机进行分类。在此介绍一下核函数:假设x是输入空间,h是希尔伯特空间,如果有一个从h到映射,那么所有的x,z∈χ并且有:表示内积。称这个函数k(x,z)是核函数。
[0103]
svm引入核函数的意义是通过选择一个非线性变换从输入空间到特征空间,输入
空间的超曲面分类器对应于特征空间的超平面分类器,然后使用线性支持向量机分类样本的特征空间。换句话说,核函数的引入大大改进了支持向量机在非线性数据上的精度。常见的核函数可以包括:线性核、高斯核(rbf)、西格玛德核和拉普拉斯核等。
[0104]
大量的事实表明,在小样本量和少类别的情况下,svm的分类能力与小神经网络没有太大的区别,半监督支持向量机是从具有已有标签的数据集(训练集)中训练一个支持向量机,在无标签的数据集(测试集)中进行测试,将测试结果中最可靠的部分与分类标签相结合,然后将其添加到原始数据集中,重复该过程,将得到训练好的半监督支持向量机。
[0105]
然而,在具体的理论中,半监督支持向量机相对复杂,相应的理论可以在现有公开文献中找到,在本说明书中不再展开赘述。在实践中,可使用交叉验证来评估前述训练好的分类器的性能。
[0106]
在一个实施例中,如图5所示,关于上述步骤s14中利用检测和分类系统对历史报告数据进行大黄蜂检测的过程,具体还可以包括如下处理:
[0107]
将未检测到昆虫的历史报告数据输出至手动操作端;
[0108]
获取手动操作端返回的手动检测结果;手动检测结果为包含大黄蜂的检测图像或不包含大黄蜂的无效图像。
[0109]
可以理解,在上文中引入了检测器对输入图像进行目标检测,然后用半监督支持向量机模型来对疑似大黄蜂的图像进行分类。因此,检测和分类系统实际可以分为检测器和分类器两个主要部分,而在本实施例中,还可以设置有手动操作端,如图5所示的是整个检测和分类系统的缩略图,其具有检测器、分类器和手动操作的一致性,手动操作端可以是人机交互终端或者应用接口。
[0110]
在一个实施例中,如图5所示,关于上述步骤s144中利用训练好的半监督支持向量机对检测图像进行分类的过程,具体还可以包括如下处理步骤:
[0111]
将半监督支持向量机对检测图像分类得到的黄蜂图像输出至手动操作端;
[0112]
获取手动操作端返回的检查结果;检查结果用于指示黄蜂图像上的昆虫为大黄蜂或非大黄蜂。
[0113]
可以理解,由于建立的训练集需要裁剪一次,为了确保未来的数据尽可能与训练集一致,并且提高分类器的效率,在分类器的前面设置了一个检测器。检测器检测到的失败图像(如不确定是否有大黄蜂的图像)将被发送给手动操作端进行人工检测。同时,为了减少分类器可能出现的分类错误造成的资源浪费,在输出黄蜂图像的分类器之后添加了人工操作部分。
[0114]
在一个实施例中,为更全面清晰且易于理解地说明上述发明方案,下面提供了应用上述方法的预测模拟示例:
[0115]
需要说明的是,本领域技术人员可以理解,上述模拟示例仅为上述方法的其中一种模拟应用示例,而非对本技术技术方案的限制。
[0116]
选择某地区春季的平均温度作为蜂后迁移的模拟温度,选择该地春季的平均湿度作为模拟湿度。如上所述,大黄蜂在室外温度为23℃-30℃时更活跃,在室外温度低于18℃和高于35℃时活动较少。当相对湿度在60%到70%之间时,黄蜂表现活跃,而黄蜂在雨天停止外出。按照上述提出的方法将气候数据添加到蜂后迁移预测模型中。
[0117]
使用2019年的公开报告(即历史报告数据),将黄蜂的分布插入上述蜂后迁移预测
模型,得到了2020年黄蜂的分布地图;同时还绘制了2020年公开报告中该地区内黄蜂的实际发生情况,如图6所示,发现上述方法预测的结果与实际发生的结果几乎一致。图6中,圆点表示2020年黄蜂实际出现的位置,深色圈起来的封闭区域即为上述方法预测的预测区域,其形状包含了大部分的实际出现位置。
[0118]
在2020年,模拟的该地区中公众报道黄蜂出现的地点共有8个,其中7个地区大黄蜂预计更有可能出现,点的分布和预测区的形状也有一些相似之处。其中一个地点落在预测区之外,可能是因为2019年缺乏在该地区目击大黄蜂的报道,也可能是一只或多只蜂后走得更远,形成了一个新的蜂群。
[0119]
因此,蜂后迁移预测模型的精度可以定义如下:
[0120][0121]
其中,d1是进入预测的黄蜂值不为0的区域的点数,r1是公众报告的确实看到和疑似看到的总点数。如上,并非所有的大黄蜂地点均会被公众报告,也并非所有未被判定为大黄蜂的地点都是错误的。上述方法只根据可用的数据进行预测,以确认必须是黄蜂的点。可见,上述蜂后迁移预测模型在预测2020年大黄蜂的分布方面还是取得了相当好的效果(pr=87.5%),这表明上述方法非常适合于大黄蜂的迁移预测。
[0122]
对于模型的更新,当获得每一年的大黄蜂报告数据时,将清除原始的预测结果,并从报告数据中选择那些被判断为新的大黄蜂巢点的点。可以再次模拟这些大黄蜂繁殖过程中春季的温度和湿度,更新模型,预测下一年大黄蜂的分布。
[0123]
此外,如果经过上述预测后发现该目标地区内所有点的黄蜂值都是0,那么意味着黄蜂在该目标地区内已经灭绝。这种灭绝不仅指的是该目标地区内的大黄蜂的生物灭绝,而更准确地指的是大黄蜂很少影响到该目标地区内居民的生活。
[0124]
应该理解的是,虽然图1和图4流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1和图4的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0125]
请参阅图7,在一个实施例中,还提供一种基于机器学习的黄蜂迁移预测系统100,包括数据获取模块11、检测分类模块13和预测输出模块15。其中,数据获取模块11用于获取目标地区的气候数据和历史报告数据;气候数据包括目标地区的温度数据和湿度数据,历史报告数据包括目标地区内各地点报告的疑似大黄蜂图像。检测分类模块13用于利用检测和分类系统对历史报告数据进行大黄蜂检测,将识别为大黄蜂的黄蜂图像添加至黄蜂数据集。预测输出模块15用于将气候数据和黄蜂数据集输入构建的蜂后迁移预测模型,输出目标地区预测的黄蜂分布地图并计算地图区域的黄蜂值。其中,蜂后迁移预测模型基于蒙特卡罗计算构建,蜂后迁移预测模型中设定蜂后向适合黄蜂生存的方向移动的概率最大且每个蜂巢中蜂后数量受环境随机因子约束,黄蜂值用于指示大黄蜂出现相应地区的概率。
[0126]
上述基于机器学习的黄蜂迁移预测系统100,通过各模块的协作,利用基于蒙特卡
罗计算构建的蜂后迁移预测模型,使用目标地区的气候数据和历史报告数据,将历史报告数据检测并分类出黄蜂数据后,与该地区的气候数据一并提供给蜂后迁移预测模型进行蒙特卡罗计算,快速得到该地区相对于历史时间而言未来的黄蜂分布预测结果,从而获知该地区内大黄蜂将会出现的迁移分布情况,以辅助对该地区内大黄蜂可能出现的地点进行资源分配。相比于传统的分析预测方法,结合实践验证结果,上述方案充分考虑了大黄蜂的繁殖方法、繁殖范围和环境影响对飞行的影响,使用概率模型 蒙特卡罗模拟来模拟大黄蜂蜂后的迁移,其结果具有较强的鲁棒性。检测和分类系统充分丰富了没有标签的数据,其中通过引入检测器,分类的性能也得到了有效的提高,从而达到显著增强黄蜂迁移预测性能的效果。
[0127]
在一个实施例中,检测和分类系统包括单镜头多盒检测器和分类器。分类器为半监督支持向量机。单镜头多盒检测器用于对历史报告数据进行目标检测,识别并分割出包含昆虫的检测图像。分类器用于对检测图像进行分类,输出识别为大黄蜂的黄蜂图像。
[0128]
关于基于机器学习的黄蜂迁移预测系统100的具体限定及其他说明,可以参见上文中基于机器学习的黄蜂迁移预测方法的相应限定,在此不再赘述。上述基于机器学习的黄蜂迁移预测系统100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领域已有的各型计算分析设备。
[0129]
又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如下处理步骤:获取目标地区的气候数据和历史报告数据;利用检测和分类系统对历史报告数据进行大黄蜂检测,将识别为大黄蜂的黄蜂图像添加至黄蜂数据集;将气候数据和黄蜂数据集输入构建的蜂后迁移预测模型,输出目标地区预测的黄蜂分布地图并计算地图区域的黄蜂值。其中,气候数据包括目标地区的温度数据和湿度数据,历史报告数据包括目标地区内各地点报告的疑似大黄蜂图像。蜂后迁移预测模型基于蒙特卡罗计算构建,蜂后迁移预测模型中设定蜂后向适合黄蜂生存的方向移动的概率最大且每个蜂巢中蜂后数量受环境随机因子约束,黄蜂值用于指示大黄蜂出现相应地区的概率。
[0130]
在一个实施例中,处理器执行计算机程序时还可以实现上述基于机器学习的黄蜂迁移预测方法各实施例中增加的步骤或者子步骤。
[0131]
再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如下处理步骤:获取目标地区的气候数据和历史报告数据;利用检测和分类系统对历史报告数据进行大黄蜂检测,将识别为大黄蜂的黄蜂图像添加至黄蜂数据集;将气候数据和黄蜂数据集输入构建的蜂后迁移预测模型,输出目标地区预测的黄蜂分布地图并计算地图区域的黄蜂值。其中,气候数据包括目标地区的温度数据和湿度数据,历史报告数据包括目标地区内各地点报告的疑似大黄蜂图像。蜂后迁移预测模型基于蒙特卡罗计算构建,蜂后迁移预测模型中设定蜂后向适合黄蜂生存的方向移动的概率最大且每个蜂巢中蜂后数量受环境随机因子约束,黄蜂值用于指示大黄蜂出现相应地区的概率。
[0132]
在一个实施例中,计算机程序被处理器执行时,还可以实现上述基于机器学习的
黄蜂迁移预测方法各实施例中增加的步骤或者子步骤。
[0133]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线式动态随机存储器(rambus dram,简称rdram)以及接口动态随机存储器(drdram)等。
[0134]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0135]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可做出若干变形和改进,都属于本技术保护范围。因此本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献