一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于移一交叉验证法的模型筛选方法与流程

2022-03-02 02:07:09 来源:中国专利 TAG:


1.本发明属于代理模型技术领域,具体涉及一种基于移一交叉验证法的新型模型筛选方法。


背景技术:

2.传统的工程优化设计与分析研究通常利用物理实验获得少量实验数据,探究工程系统运行规律,存在设计周期长、实验成本高等不可忽视的缺点。随着数值计算方法飞速发展,计算机技术显著提高,数值仿真技术被逐渐应用到工程实际中,且因其强大的计算推导能力、可靠性、准确性,将逐步替代物理实验。然而,计算机仿真技术也无法跳出其自身的局限性。尽管,随着中央处理器和内存的不断更新换代,计算机的运算能力突飞猛进,但是为了保证工程优化设计优化与分析结果的可靠性与准确性,所需的仿真模型越来越精细,模型的保真度与复杂度同时稳步提高,导致快速发展的计算机技术仍不能满足优化设计与分析时所需的高昂计算资源与时间。因此,为了减少高保真度仿真模型高昂的计算成本,针对工程优化设计与分析问题的复杂性,基于少量数据的数值分析计算方法——代理模型技术应运而生。但是,学者们指出没有一种代理模型可以完美解决所有问题,在实际工程问题中,往往需要模型筛选技术从多种代理模型中筛选出较为精确的模型。交叉验证方法可在不产生多余测试点的前提下进行模型筛选,因而被广泛应用在工程实际中。交叉验证方法一般可以分为两种:留一交叉验证法和自荐法,其中留一交叉验证法与k-折交叉验证法类似,自荐法与蒙特卡洛交叉验证法相似。但是,据文献研究,交叉验证方法在样本量较小的情况下性能很不可靠,无法准确地剔除掉较差模型或者筛选出较好的模型。其原因在于交叉验证方法将训练点分为训练集和验证集,在计算交叉验证误差时验证集包含的信息全部被剔除,而该验证集对不同的代理模型重要性可能不同。因此,为了尽可能地保留验证集的信息,提高模型筛选精度,有必要提出一种更为可靠的模型筛选策略,以便弥补经典交叉验证方法的缺陷。


技术实现要素:

3.针对现有交叉验证方法存在的问题,本发明提供一种基于移一交叉验证法的新型模型筛选方法,借用留一交叉验证方法的思想,通过将验证集中的样本点沿随机正态分布进行移动而不是剔除掉验证点(称为移一交叉验证方法),并通过计算移一交叉验证误差进行代理模型的筛选。
4.本发明采用的技术方案如下:
5.本发明一种基于移一交叉验证法的模型筛选方法,主要包括以下步骤:
6.根据包含n个样本点的样本集(x,y)={(x1,y1),...,(xj,yj),...,(xn,yn)},构建初始代理模型s0;然后,计算样本集(x,y)中各样本点之间的欧氏距离,将最小的距离设为d
min
;接着,逐个选择样本集(x,y)中的样本点(xj,yj)作为验证集(xv,yv),剩下n-1个样本点作为初始训练集(x
tr
,y
tr
),进行如下操作:
7.(1)以均值μ等于xj,构建正态分布n(μ,σ2),在距离均值μ一个σ的分布圆上随机选择一个虚拟验证点,将验证集中的样本点(xj,yj)沿着随机正态分布n=(μ,σ)移动虚拟验证点上,其中,方差σ=0.02d
min
;然后,将虚拟验证点的输入代入初始代理模型s0中得到初始代理模型s0在处的虚拟响应从而得到初始代理模型s0所预测的虚拟样本点
8.(2)用虚拟样本点替换样本集(x,y)中的样本点(xj,yj),得到更新后的虚拟训练集并构建虚拟代理模型s1,计算虚拟代理模型s1的移一交叉验证局部误差:
[0009][0010]
当j从1遍历到n后,最后对各个移一交叉验证局部误差求均值,计算得到移一交叉验证全局误差。
[0011]
优选地,利用拉丁超立方取样方法抽取n个样本点,得到样本集。
[0012]
优选地,以决定系数r2为评价标准,来评价移一交叉验证全局误差的计算精度。
[0013]
本发明具有的有益效果:
[0014]
本发明区别于经典留一交叉验证方法,通过将验证点沿随机正态分布进行移动而不是剔除掉验证点,极大限度保留了验证集信息,缓解了验证集信息缺失对交叉验证误差造成的不良影响,从而提高误差计算精度与模型筛选准确度。
附图说明
[0015]
图1为本发明的流程图。
[0016]
图2为本发明针对一个实例的模型筛选过程示意图。
[0017]
图3为本发明与留一交叉验证法的模型筛选正确率对比图。
具体实施方式
[0018]
留一法交叉验证方法一般用在模型选择中,但是在没有足够多的样本点时,不一定总能挑选到最好或最坏的模型。在使用留一法交叉验证方法的时候,样本点被分为训练集和验证集,训练集用来构建模型,验证集用来评估所构建模型的精度。本发明基于留一法交叉验证方法,提出了移一法交叉验证方法,将样本点分为初始训练集和验证集,同时将验证集随多元正态分布进行移动,形成新的验证集,最终用来构建模型的训练集是初始训练集和更新后验证集的合集。
[0019]
以下结合附图和具体实施步骤,进一步阐述本发明。
[0020]
本发明设计的一种基于移一交叉验证法的模型筛选方法,见图1,主要流程如下:
[0021]
含有n个样本点的样本集如下:(x,y)={(x1,y1),...,(xj,yj),...,(xn,yn)},遍历样本集中的各个样本点,每次遍历时进行如下操作:选择样本点(xj,yj)作为验证集(xv,yv),1≤j≤n,剩下n-1个样本点作为初始训练集(x
tr
,y
tr
);然后,以均值μ等于xj,构建正态
分布n(μ,σ2),在距离均值μ一个σ的分布圆上随机选择一个虚拟验证点,将验证集中的样本点(xj,yj)移动到虚拟验证点上;其中,方差σ2等于(ωd
min
)2,d
min
是样本集中各样本点间最小的距离,ω是经验参数,设置为0.02;将虚拟验证点的输入代入根据样本集(x,y)构建的代理模型中,得到代理模型在处的预测值从而得到根据样本集(x,y)构建的代理模型所预测的虚拟验证点最后,用虚拟样本点替换样本集(x,y)中的样本点(xj,yj),得到更新后的虚拟训练集并构建虚拟代理模型,计算虚拟代理模型的移一交叉验证局部误差:
[0022][0023]
当j从1遍历到n后,最后对各个移一交叉验证局部误差求均值,计算得到移一交叉验证全局误差moa-cverror。
[0024]
以一个一维测试函数(如式(2))为例,阐述本发明的求解过程。
[0025][0026]
随机生成5个样本点,得到样本集,建立克里金初始代理模型(krg模型),基于克里金初始代理模型,通过移一交叉验证方法生成5个样本点对应的5个虚拟验证点,如图2所示。图2中a)显示每个样本点(实心原点)都围绕正态分布移动,图2中b)到f)描述了在5次迭代中获得移一交叉验证局部误差error(1)-error(5)的过程,最后通过平均5个局部误差来计算移一交叉验证全局误差moa-cverror。
[0027]
为测试本发明的实际性能,利用14个测试函数与留一交叉验证法性能进行了对比研究。为了直观地对比筛选性能,对14个测试函数分别建立多项式拟合曲面(prs)、多拟合曲面径向基函数(rbf-mq)、薄板样条曲线径向基函数(rbf-tps)、克里金(krg)四种代理模型,以决定系数r2为评价标准,如果某代理模型的r2越高,证明该代理模型预测性能越好,理想状态下该代理模型的移一交叉验证误差和留一交叉验证误差应该越小,反之亦然,以此来判断两种方法模型筛选的可靠性与准确性。图3为本发明和留一交叉验证法模型筛选正确率对比结果,横坐标为测试函数,纵坐标为模型筛选正确率,其值越高越好。从图3中可以看出,14个测试函数中,针对大多数函数,本发明在模型筛选正确率上优于留一交叉验证方法,表明本发明所设计的一种基于交叉验证方法的新型模型筛选策略更能够提供可靠、精确的误差计算结果。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献