一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于随机森林与决策树的整车静动态干涉的测评方法与流程

2021-10-19 23:50:00 来源:中国专利 TAG:整车 干涉 测评 汽车制造 随机


1.本发明涉及汽车制造技术领域,具体设计一种基于随机森林与决策树的整车静动态干涉的测评方法。


背景技术:

2.首先,整车静动态干涉评价试验,其目的是对于车辆产品开发设计阶段,确认试验样车静动态下的线束、管子,各零件的间隙是否得当及有无干涉。对于整车而言,各个零件间的间隙及布置如果存在过小的情况,将会对车辆可靠性、整车性能产生显著的影响。如果零部件之间存在干涉,将极易造成整车零部件的损坏。基于此,在车辆产品开发阶段需要在整车静动态的情况下,对零部件的干涉情况进行评价,确认有无设计缺陷。
3.其次,由于设计阶段与实际制造阶段,各个零部件尺寸公差及制造情况都存在误差,容易导致设计阶段的零部件干涉情况与实际生产出来的产品干涉情况存在差异。所以,进入量产阶段,质量部门也需要对整车静动态干涉进行评价和确认。
4.然而,无论是产品开发阶段,还是制造阶段,由于整车零部件数量众多、总布置结构复杂多变,容易引起干涉的部位数量复杂。如何评价一台设计试制整车,亦或是一批次量产车辆静动态干涉的水平是否达到相关要求和标准,成为该实验实施的难题。其次,对于给定的零部件布置设计方案,是否与工厂及制造部门生产水平相吻合,如何给出下一步生产能力及水平的预测,缺乏相关的方法。
5.随机森林分类算法可用以整车静动态干涉评价试验。目前,随机森林分类算法主要存在特征属性划分问题、泛化误差估计问题、存在白噪声情况下算法稳定性差等难点问题。
6.特征属性划分问题在高维数据中,很大一部分特征可能与对象的类别无关,或者因其包含较少的数据信息而干扰真实的特征凸显,从而导致算法数据判别的“失真效应”,并在特征间产生依赖性。因此,特征筛选的处理方式十分重要。
7.特征属性筛选异质化数据筛选问题主要存在两个方面:1、由于大规模数据计算复杂程度高,高维空间或具有大量特征属性的情况下进行学习可能会变得很困难,这使得高维数据分析变得很困难。
8.2、由于在实际生产生活过程中,特殊属性对于一个问题的影响往往是不一样的,在原有随机生了又放回随机取样的规则下,往往默认各个特殊属性“同等重要”。所产生的结果往往与实际问题不符合。但过度的对重要的特征属性进行“强信息化”又会导致特征子集的多样性造成破坏!算法误差问题在传统随机森林算法学习过程中,存在容易忽略少类数据样本、算法产生方差较高或偏差较大等问题。这些误差会严重影响到算法的泛化能力和推广性,造成错误的判断。
其改进方面基于算法模型的角度,改进方面主要是决策树分类强度和森林整体性上进行调整和改进。
9.整车静动态干涉评价试验整车静动态干涉评价试验,目前来说,是在开发试制整车或量产整车库中,随机挑选一台或若干台样车,在整车静动态下,观察和测量相关零部件的干涉情况和间隙,这种做法主要存在以下缺陷和问题:(1)试验缺乏对开发阶段总布置设计方案整体评价的方法。
10.(2)试验缺乏对量产阶段制造能力的整体评价方法。
11.(3)试验缺乏对整车零部件干涉性能的预测。


技术实现要素:

12.本发明提出一种基于随机森林与决策树的整车静动态干涉的测评方法,以解决上述提到的技术问题。
13.本发明的上述技术问题是通过以下技术方案得以实现的:一种基于随机森林与决策树的整车静动态干涉的测评方法,包括以下步骤:步骤1,根据整车静动态干涉试验规范要求,对开发阶段的试制样车进行试验及数据记录;步骤2,对步骤1中记录的数据进行预处理;步骤3,步骤2中预处理后的数据进行模型训练,生成决策树模型;步骤4,将多个决策树模型组合构建形成随机森林决策模型;步骤5,随机不放回抽取不同批次、不同时间的量产样车进行相同的数据测量试验,并对试验结果进行数据记录;步骤6,对步骤5中记录的数据进行预处理;步骤7,将步骤6预处理后的数据导入步骤4生成的随机森林决策模型;步骤8,输出整车静动态干涉的试验与评价结果。
14.进一步地,步骤3中的决策树模型用于对新的数据集进行分类,分类过程包括以下步骤:步骤31,由根节点进行特征属性测试得到叶子节点和非叶子节点;步骤32,继续由非叶子节点进行特征属性测试得到叶子节点;其中,根节点为整体样本数据集,叶子节点为决策结果,非叶子节点对应不同的特征属性测试。
15.进一步地,步骤4中的随机森林决策模型的构建过程包括以下步骤:步骤41,通过对总体样本数据集中用boostrapping随机抽取特征属性来建立分类决策树,没有被抽取到的属性转变为“箱外属性”,各个单科决策树的“箱外属性”用于对随机森林整体分类能力的评估;步骤42,重复步骤41,分别建立各个相互独立的分类决策树;步骤43,通过多个独立的分类决策树共同组合构建了整个随机森林决策模型。
16.进一步地,步骤8中的整车静动态干涉的试验与评价结果包括:判断生产设计相符合性,和对生产制造一致性做出预测和判断。
17.进一步地,在随机森林决策模型中,单个决策树模型的训练集都是利用bagging算法随机抽取建立;通过bootstrapping算法随机选择整车静动态干涉的特征属性。
18.进一步地,可根据各类车型的不同情况,选定不同类型的特征属性作为干涉随机森林决策评价模型的研究指标。
19.进一步地,步骤2和步骤6中的对数据预处理主要用于将数据标准化处理,剔除失真的数据,判断数据是否处于0~1之间,处于0~1之间的保留,不处于0~1之间的剔除。
20.本发明的有益效果为:1、本发明所采用的新型整车静动态干涉评价方法,能够系统、全面、整体反应整车各个零部件的静动态干涉水平。
21.2、本发明在原始随机森林模型与决策树模型的基础上从采样方式及特征属性加权两方面进行改进,提出一种新型的随机森林和改进决策树,其目的是能够改善特征属性划分问题、降低算法模型误差、提升模型鲁棒性和容错适应性。
22.3、基于新型随机森林与改进决策树的模型判断下,能够对整体制造水平进行评价;并对制造性能保证及质量稳定性预期做出合理预测。
23.4、基于模型测算结果,能够对质量提升和开发方案调整指明方向并提供指导。
24.5、随机森林算法具有更高的稳定性,相对于ann、回归树以及svm等算法,其分类准确性较高。随机森林算法对于大样本数据集具有快速性、高效性。能够很快适应高维数据的情况,有效避免过拟合的问题。简单易懂、便于实现,同时可以进行并行化处理。
附图说明
25.图1为一种基于随机森林与决策树的整车静动态干涉的测评方法步骤流程图;图2为决策树模型步骤流程图;图3为随机森林决策模型步骤流程图;图4为对数据进行预处理的判断过程图;图5为决策树模型原理简图;图6为随机森林决策模型原理简图;图7为对试制样车进行试验的数据图;图8为决策树“剪枝”后的判别过程图;图9为决策树分类器性能分析结果;图10为本发明方法与原始随机森林算法的准确度对比图。
具体实施方式
26.为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
27.如图1

9所示,本发明提出一种基于随机森林与决策树的整车静动态干涉的测评方法,包括以下步骤:步骤1,根据整车静动态干涉试验规范要求,对开发阶段的试制样车进行试验及数
据记录;步骤2,对步骤1中记录的数据进行预处理;步骤3,步骤2中预处理后的数据进行模型训练,生成决策树模型;步骤4,将多个决策树模型组合构建形成随机森林决策模型;步骤5,随机不放回抽取不同批次、不同时间的量产样车进行相同的数据测量试验,并对试验结果进行数据记录;步骤6,对步骤5中记录的数据进行预处理;步骤7,将步骤6预处理后的数据导入步骤4生成的随机森林决策模型;步骤8,输出整车静动态干涉的试验与评价结果。
28.具体地,步骤3中的决策树模型用于对新的数据集进行分类,分类过程包括以下步骤:步骤31,由根节点进行特征属性测试得到叶子节点和非叶子节点;步骤32,继续由非叶子节点进行特征属性测试得到叶子节点;其中,根节点为整体样本数据集,叶子节点为决策结果,非叶子节点对应不同的特征属性测试。
29.具体地,步骤4中的随机森林决策模型的构建过程包括以下步骤:步骤41,通过对总体样本数据集中用boostrapping随机抽取特征属性来建立分类决策树,没有被抽取到的属性转变为“箱外属性”,各个单科决策树的“箱外属性”用于对随机森林整体分类能力的评估;步骤42,重复步骤41,分别建立各个相互独立的分类决策树;步骤43,通过多个独立的分类决策树共同组合构建了整个随机森林决策模型。
30.具体地,步骤8中的整车静动态干涉的试验与评价结果包括:判断生产设计相符合性,和对生产制造一致性做出预测和判断。
31.具体地,在随机森林决策模型中,单个决策树模型的训练集都是利用bagging算法随机抽取建立;通过bootstrapping算法随机选择整车静动态干涉的特征属性。
32.具体地,可根据各类车型的不同情况,选定不同类型的特征属性作为干涉随机森林决策评价模型的研究指标。
33.具体地,步骤2和步骤6中的对数据预处理主要用于将数据标准化处理,剔除失真的数据,判断数据是否处于0~1之间,处于0~1之间的保留,不处于0~1之间的剔除。
34.更加具体地说,如图7所示,根据试验规范进行试验后收集到的部分试验数据,其中第一列为样本编号,第二列为试验结果的判别(类别1为合格;类别2为不合格),后续的列为各个属性试验结果(加权后),数值越大表征该特征间隙特征差。根据各类车型的不同情况,选定不同类型的特种属性作为干涉评价模型的研究指标。本实施例选取32个对整车间隙影响较为重要属性作为研究指标。再如图8所示,将量产车型的试验结果导入改进后的决策树算法当中,生成决策树;决策树最终导出的结果如图9所示;但是该决策树过于复杂,需要简化决策流程,对决策树进行“剪枝”,“剪枝”后的决策树判别规则如图10所示,通过图10可知,针对提取的32个试验属性,该决策树判别方式为:1、首先看8号属性,是否大于0.052175这个数值权值,若大于,则不合格。
35.2、看22号属性,是否大于23.74这个数值权值,若大于,则看6号属性,若小于,则看
13号属性。
36.3、看13号属性,是否大于4.206这个数值权值,若大于,则不合格。
37.4、看6号属性,是否大于0.12835这个数值权值,若小于,则不合格;若大于则看6号属性。
38.5、看6号属性,是否大于0.14965这个数值权值,若大于,则不合格。
39.基于上述建立的单个决策树模型。利用bagging算法随机抽取建立数据集;根据前文bootstrapping算法随机选择的特征属性,建立随机森林模型。在数据集中再随机抽取一定比例的数据,按照gini指数进行决策树的生长(相关公式如下:;,其中h(x)表示信息熵,通常作为决策树中衡量样本数据纯度的一种常见的指标;p(xi)和pk表示每种类别出现的概率。通常gini值也小,说明划分属性后数据集的纯度越高)。最终产生出“叶子节点”决策树,通过算法程序后,产生的最终测试结果如下:样本总数:480,合格:447,不合格:33,不合格产品率:6.8%;训练集样本总数:400,合格:382,不合格:18;测试集样本总数:80,合格:65,不合格:15;合格样本认定:42,误判:12,准确率p1=77.7778%;不合格样本认定:11,误判:4,准确率p2=73.3333%;预测合格率:79.24%,不合格率:20.7%。
40.基于上述模型判断,评价该批次样车对于整车静动态干涉试验这项性能不合格产品率约为6.8%;在当前生产制造条件下,预测未来合格产品率仅为79.24%,远低于行业平均水平,预测准确率对于合格率为77.7778%,对于不合格率预测的准确率为73.3333%。
41.基于上述结果判断,该批次样车整车间隙试验评价结果不合格,需要对相关问题特征属性设计方案进行调整,或对生产制造过程进行管控和能力提升。
42.需要说明的是,在本实施例中没有对数据进行如图4所示预处理过程,且特征属性测试中选取了32个对整车间隙影响较为重要属性作为研究指标,这并不代表本发明中的方法受此限制。本发明中在需要时,比如在数据相差过大时,会影响到模式运行时需要对数据进行归一化、标准化,此时需要对失真的数据进行剔除,即:保留处于0~1之间的数据,剔除不在0~1之间的数据,而步骤2和步骤6就是实现该作用的过程。在本发明中特征属性测试中的特征属性在做特定测评时可以自行设定;在其他情况也可进行随机选取。
43.需要说明的是,如图5所示,决策树模型中整体样本数据集为根节点,经过特征属性判断测试后,生成非叶子节点和叶子节点;叶子节点为之前一步特征属性的判断结果(yes为合格,no为不合格),非叶子节点为剩余特征属性,在经过接下一步的特征属性判断测试继续生成判断结果的叶子节点和剩余特征属性的非叶子节点,经过多步特征属性判断测试而生成整个完整的决策树模型。
44.如图6所示,随机森林决策模型是在生成多个决策树模型的基础上,采用“双重随机性”,即:“属性划分随机性”和“数据集随机性”,全部训练样本d经过随机性的bagging算法得到自动样本集d1、自动样本集di、自动样本集dn等等,根据bootstrapping算法随机划分属性形成决策树分类器f1、决策树分类器fi、决策树分类器fn等等,在随机森林决策模型
中产生多棵决策树模型各自对样本进行分类。最后以“选举”的方式决定最终的分类结果,即:每个决策树模型分别得到结果,各种结果中数量最多的将被决定为最终的结果。
45.需要说明的是,传统随机森林投票常用的投票规则为众数投票法。通过建立多棵决策树来对某一样本输出自己的分类结果,然后统计每一棵分类决策树的分类结果。在确定最终结果时需要考虑的是如何判定最终的分类,通常是以得票数最高的作为最终结果,或者半数以上同意,半数以上不同意便不通过即为最终结果。这种投票&采样方式,忽略了每一个决策树的泛化能力,在随机森林建立过程中随机地对样本和特征指标属性进行采样,并为此优化决策树分类算法的投票机制,需要改变决策树的权重。加权方法为,在gini指数函数中映入属性加权变量,不妨设总样本数为mj,然后设错误分类的样本数个数为ej,那么加权后的加权值可视为:;其中,

为加权调节系数,可以根据不同属性划分的具体情况进行设定。
46.由于在实际生产生活过程中,特殊属性对于一个问题的影响往往是不一样的,在原有随机生了又放回随机取样的规则下,往往默认各个特殊属性“同等重要”。所产生的结果往往与实际问题不符合。但过度的对重要的特征属性进行“强信息化”又会导致特征子集的多样性造成破坏!所以本算法首次引入“两次随机分类”思想对属性进行加权,第一次随机分类法,目的在于,确定原始数据各个属性的重要程度,并对该特征进行加权,加权方法为:若随机树节点利用特征fi 划分数据,样本特征划分后左右两侧的特征数分别为ki、kj,那么该特征的加权系数则定义为:wi=(ki kj)/ki第二次随机分类则采用新的加权数据集,可表示为date.new:date.new=date*wi第一次随机分类确认各个特征属性的加权值后,第二次随机分类则进行结果输出。
47.改进算法验证效果如图10所示:为了验证算法效果,本文选取三种数据集:wdbc/wobc/seer对算法进行验证,根据精度进行对比,在加权子集及决策树的加持下,相较于原始随机森林算法,准确度高出约1.2%~5.4%,虽然加权方式的可靠性提升不会太明显,算法效率存在降低的风险,但保证较高的分类准确率前提下,能有效降低整体泛化误差,使得整体效果更为明显,进一步说明结合加权特征选择的改进随机森林的集成算法能更好的拟合数据,有效解决分类模型的数据处理与泛化误差问题。
48.综上所述,本发明制定了一套完整的新型整车静动态干涉试验规范及流程,针对原始决策树与随机森林算法的相关缺陷及问题,进行改进,基于算法运行结果对开发总布置设计方法做出评价;对整体制造水平进行评价;并对制造性能保证及质量稳定性预期做出合理预测。
49.应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何
修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜