一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

散粮集装箱物流运输环境异常检测的关键特征识别方法与流程

2021-11-03 20:56:00 来源:中国专利 TAG:


1.本发明涉及特征识别技术领域,主要涉及一种散粮集装箱物流运输环境异常检测的关键特征识别方法。


背景技术:

[0002]“北粮南运”散粮集装箱物流实际业务流程包括购销公司收购散粮后,经集装箱从产地港口运输到销地港口的整个过程。集装箱多式联运综合水路、铁路和公路等多种运输方式,实现各种运输方式间的无缝衔接,提高了运输效率,降低了运输成本。同时集装箱物流对货物包装要求低、安全系数较高,大幅度减少货损。由于散粮的品质在运输过程容易受到运输环境的影响,所以为了实现散粮集装箱物流的全过程追溯,针对在途状态智能感知与异常识别研究具有现实意义,且十分迫切和必要。
[0003]
针对散粮被购销公司收购后利用集装箱物流从产地供应商的存储仓库到产地港口到销地港口运输的过程,散粮品质可能会发生变化,所以对集装箱物流运输环境的检测至关重要。集装箱物流运输环境异常主要包括箱内环境和箱外环境。箱内环境是指散粮所处的大气环境,应保证箱内环境在货物要求的范围内。箱外环境是指集装箱所处当地位置的大气环境。
[0004]
集装箱多式联运运输方式复杂、物流节点众多、运输距离长,因此影响集装箱物流运输环境的不安全因素多,任何一个因素的异常都可能诱发风险导致散粮品质的下降。为了有效避免集装箱内散粮品质发生下降或者变质,必要对集装箱物流的运输环境状态进行智能感知与异常识别。智能感知是通过收集运输环境相关的感知特征参数来实现的。感知特征的数目越多,对运输环境状态的描述就越具体,越能够保证集装箱物流运输环境状态的可靠性。由于散粮集装箱物流运输过程可能涉及到多种异常状态,包括运输线路异常,箱体完整性异常,运输环境异常,运行状态异常等。影响不同异常类型直接关联的特征是不同的,对于运输环境异常需要从多个直接关联的参数中选取最能反映运输环境异常的“关键特征”作为所选取的特征参数。
[0005]
目前,国内外用于物流运输安全评价的方法主要包括定性方法、定量方法和定性定量相结合的方法。当状态特征参数无法量化时采用定性方法,其准确性与分析者的直觉和经验有很大关系,应用效果不好,已逐渐被定量方法取代。然而由于实际中特征参数的选取比较模糊,故完全定量计算也并不现实。识别散粮集装箱物流运输环境异常的“关键特征”在机器学习领域可以看作是一种特征选择问题,即从收集到的与散粮集装箱联运物流相关的多个特征参数中选取最能提现运输环境状态的“关键特征”。目前的特征选择方法主要有:过滤法(filter):按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。封装法(wrapper):根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。相对于过滤法方法,封装法方法找到的特征子集分类性能通常更好。
[0006]
线性支持向量机递归特征消除(svm

rfe)是guyon等人提出的包装器算法。它通过
训练线性svm模型得到权值向量,并递归地消除得分最低的权值系数对应的特征,重复此过程,直到数据集中的特征只剩一个为止。由于其在微阵列分类中的成功应用,svm

rfe获得了极大的欢迎,并被公认为最有效的特征选择方法之一。假设线性svm

rfe方法每次迭代删除得分最低的权值系数对应的特征后,线性svm模型在剩余特征子集训练得到的分类间隔为a。消除其他任意的特征后线性svm模型在剩余特征子集训练得到的分类间隔为b。递归特征消除的目标是获得最大化的分类间隔,即a>b,而使用线性svm

rfe方法得到的a<b,所以线性svm

rfe的递归特征消除策略并不合理。


技术实现要素:

[0007]
发明目的:针对背景技术中存在的问题,本发明提供了一种散粮集装箱物流运输环境异常检测的关键特征识别方法,使用递归特征消除方法每次迭代删除得分最高的权值系数对应的特征,使线性svm模型在剩余特征子集上训练得到的间隔最大化,同时能够快速识别散粮集装箱物流运输环境状态相关的“关键特征”,并得到所有特征对散粮集装箱物流运输环境状态影响的排名。
[0008]
技术方案:为实现上述目的,本发明采用的技术方案为:
[0009]
一种散粮集装箱物流运输环境异常检测的关键特征识别方法,包括以下步骤:
[0010]
步骤s1、构建散粮集装箱物流运输环境异常识别的数据样本集x、关键特征排序集r;初始化特征集合指标集s=[1,2,

,d],其中d表示因素特征的总数;数据样本集x如下所示:
[0011][0012]
其中x
i
∈r
d
,代表第i个样本对应的d维特征,t
i
∈{

1,1},表示类别,1表示散粮集装箱物流运输环境出现异常,

1表示散粮集装箱物流运输环境处于正常状态;r
d
表示每个样本包含d个特征,n为数据样本的个数;
[0013]
步骤s2、构建训练样本集x0;
[0014]
从数据样本集x的所有因素特征中选取集合s中的因素特征,构成训练样本集x0如下:
[0015]
x0=x(:,s)
[0016]
步骤s3、训练线性分类模型svm

train,得到拉格朗日乘子α;删除训练样本集x0中指标集s第i个指标对应的因素特征,作为所述线性分类模型的输入;
[0017]
步骤s4、计算权值向量w如下:
[0018][0019]
其中,α
k
为拉郎朗日乘子,x
k
为步骤s3中删除训练样本集x0中指标集s第i个指标对应的因素特征后得到的样本特征集,t
k
为样本的类别标签;
[0020]
步骤s5、计算指标集s中第i个指标对应特征的排序系数c(i);
[0021]
步骤s6、获取排序系数最大的特征f如下:
[0022]
f=argmax(c)
[0023]
步骤s7、从s中消除s(f),更新特征集s;
[0024]
步骤s8、更新关键特征排序集r如下:
[0025]
r=[s(f),r]
[0026]
即:在关键因素特征排序表r的第一个元素之前加入因素特征f在表s中对应的s(f);
[0027]
步骤s9、当特征集合指标集s不为空集时,重复上述步骤s2

s8;当特征集合指标集s为空集时,则停止上述迭代过程,输出关键特征排序集r。
[0028]
进一步地,步骤s3中训练线性分类模型svm

train的具体步骤包括:
[0029]
步骤s3.1、选取惩罚参数c;
[0030]
步骤s3.2、求解二次规划问题,得到拉格朗日乘子α=[α1,

,α
n
]
[0031][0032][0033]
其中,x
i
和x
j
即为述线性分类模型的输入。
[0034]
进一步地,步骤s3.1中惩罚参数c的取值范围为集合{2
‑9,2
‑8,...,20,...,2
14
,2
15
}。
[0035]
进一步地,所述步骤s5中计算指标集s中第i个指标对应的特征的排序系数如下:
[0036]
c(i)=(w
i
)2。
[0037]
有益效果:
[0038]
(1)、本发明使用递归特征消除方法每次迭代删除得分最高的权值系数对应的特征,使线性svm模型在剩余特征子集上训练得到的间隔最大化;
[0039]
(2)、本发明能够快速识别散粮集装箱物流运输环境状态相关的“关键特征”,并得到所有特征对散粮集装箱物流运输环境状态影响的排名。
[0040]
相比于传统的特征选择方法,本发明识别的关键特征子集,能够提升散粮集装箱物流运输环境异常状态的识别精度,适合散粮集装箱物流多式联运运输过程的监控和报警,避免粮食在运输过程发生变质或者损坏问题。
附图说明
[0041]
图1是本发明提供的散粮集装箱物流运输环境异常检测的关键特征识别方法流程图。
具体实施方式
[0042]
本发明基于最大化分类间隔的线性svm

rfe方法利用线性svm模型在数据集上训练得到的权重向量对特征进行排序。在每一次循环中,具有最大排序系数的特征将被移除,然后线性svm对剩余的特征子集组成的训练集重新训练以获取新的排序系数。通过迭代执行这一过程,最后得到一个特征排序表。利用该排序列表,可以定义若干个嵌套的特征子集
[0043]
下面先对线性svm模型进行介绍。
[0044]
步骤a,给定训练样本集(x
i
,t
i
),i=1,...,n,其中x
i
∈r
d
,t
i
∈{

1,1}。根据经验风
险最小化原则,同时最大化分类间隔和最小化训练错误,求解svm的优化问题:
[0045][0046]
s.t.y
i
(w
·
x
i
b)≥1

ξ
i
,i=1,...,n
[0047]
ξ
i
≥0,i=1,...,n
[0048]
式中,c为用户需要调节的参数,作用是调节分类间隔和训练错误两者的权重,w为权值向量。
[0049]
步骤b,将线性svm的原始优化问题转化为对偶问题求解:
[0050][0051][0052]
得到最优解α
*
,α
i
为非负拉格朗日乘子,每个拉格朗日乘子α
i
对应着每个训练样本(x
i
,t
i
)。参数c的取值为在集合{2
‑9,2
‑8,...,20,...,2
14
,2
15
}中选取一个合适的值。
[0053]
步骤c、求解法向量w
*
和偏置b
*
。其中
[0054]
步骤d、根据步骤c得到的法向量w
*
和偏置b
*
,得到支持向量机分类模型f(x):
[0055][0056]
步骤e、利用支持向量机分类模型f(x)对测试样本进行预测。
[0057]
为了克服传统线性svm

rfe在特征选取过程中存在的不合理的问题,本发明提出的基于最大分类间隔线性svm

rfe的散粮集装箱物流运输环境异常检测的关键特征识别技术,首先收集散粮集装箱物流运输状态的数据样本集,包括训练样本集测试样本集其中x
i
∈r
d
为粮食作物病害的相关特征,主要包括箱内环境特征和箱外环境特征,如箱内温度、湿度、可燃气体浓度、箱外天气温度、湿度等。t
i
∈{

1,1}为类别,其中

1代表运输环境正常,1代表运输环境异常。下面结合附图1对本发明作更进一步的说明。
[0058]
步骤s1、构建散粮集装箱物流运输环境异常识别的数据样本集x、关键特征排序集r;初始化特征集合指标集s=[1,2,

,d],其中d表示因素特征的总数;数据样本集x如下所示:
[0059][0060]
其中x
i
∈r
d
,代表第i个样本对应的d维特征,t
i
∈{

1,1},表示类别,1表示散粮集装箱物流运输环境出现异常,

1表示散粮集装箱物流运输环境处于正常状态;r
d
表示每个样本包含d个特征,n为数据样本的个数。
[0061]
步骤s2、构建训练样本集x0;
[0062]
从数据样本集x的所有因素特征中选取集合s中的因素特征,构成训练样本集x0如下:
[0063]
x0=x(:,s)
[0064]
步骤s3、训练线性分类模型svm

train,得到拉格朗日乘子α;删除训练样本集x0中指标集s第i个指标对应的因素特征,作为所述线性分类模型的输入。具体地,
[0065]
步骤s3.1、选取惩罚参数c,取值范围为集合{2
‑9,2
‑8,...,20,...,2
14
,2
15
}中的任意值。
[0066]
步骤s3.2、求解二次规划问题,得到拉格朗日乘子α=[α1,...,α
n
]
[0067][0068][0069]
其中,x
i
和x
j
即为述线性分类模型的输入。
[0070]
步骤s4、计算权值向量w如下:
[0071][0072]
其中,α
k
为拉郎朗日乘子,x
k
为步骤s3中删除训练样本集x0中指标集s第i个指标对应的因素特征后得到的样本特征集,t
k
为样本的类别标签。
[0073]
步骤s5、计算指标集s中第i个指标对应特征的排序系数c(i);
[0074]
步骤s6、获取排序系数最大的特征f如下:
[0075]
f=argmax(c)
[0076]
步骤s7、从s中消除s(f),更新特征集s;
[0077]
步骤s8、更新关键特征排序集r如下:
[0078]
r=[s(f),r]
[0079]
即:在关键因素特征排序表r的第一个元素之前加入因素特征f在表s中对应的s(f)。
[0080]
步骤s9、当特征集合指标集s不为空集时,重复上述步骤s2

s8;当特征集合指标集s为空集时,则停止上述迭代过程,输出关键特征排序集r。
[0081]
下面通过收集“北粮南运”散粮集装箱物流运输状态数据,对传统的线性svm

rfe和本发明的基于最大分类间隔线性svm

rfe两种算法进行实验,并对它们的结果进行比较。散粮集装箱物流运输状态样本数据训练样本集x包括70条数据,测试样本集v包括200条数据,每条样本包括13个特征。分别选取特征排序表的前3,5,8,10,13个特征作为嵌套子集来预测测试样本集的精度。
[0082]
对传统的svm

rfe和本发明的lselm

rfe两种算法的对比结果如下表1所示。
[0083]
表1 不同嵌套子集测试精度比较表(%)
[0084][0085]
从表1可以看出,传统线性svm

rfe在嵌套子集的特征为13时首先达到最高的测试精度78%,而基于最大分类间隔的svm

rfe在嵌套子集的特征为11时达到最高的测试精度80.5%,相比svm

rfe高出2.5%。可以看出,本发明的方法识别出的特征更有效。
[0086]
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献