一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于局部离群因子与符号回归的自动断点检测方法与流程

2022-11-13 11:35:31 来源:中国专利 TAG:

技术特征:
1.一种基于局部离群因子与符号回归的自动断点检测方法,其特征在于,步骤如下:(1)对于给定数据集,设定基本参数,生成初始断点与对应初始数据集对于给定的二维数据集d={(x0,y0),(x1,y1),...,(x
n
,y
n
)},其中x为自变量,y为因变量;设置三个基本参数:带宽bandwidth、0<bandwidth<1,离群比例outlier、0<outlier<bandwidth/2,和阈值threshold、0≤threshold≤1;计算二维数据集的长度n,设定计数器i初始值为0;令初始断点bp
i
=x[n*bandwidth/2 i],对应初始数据集d
i
=d[i:n*(bandwidth/2 outlier) i];(2)根据生成的初始数据集与lof算法返回候选断点将初始数据集d
i
作为lof算法的输入,lof算法的输出将正常数据点标记为1,离群点标记为-1;计算lof算法输出结果res中,后n*outlier中值为-1的个数与n*outlier的比值,记为score,即score=sum(res[-n*outlier:]==-1)/n*outlier;对score进行判断,若score≥threshlod,判断断点bp
i
为候选断点;以此类推,令i=i 1,直至i=n-n*(bandwidth/2 outlier),计算完所有断点;(3)根据候选断点生成符号回归数据集计算候选断点的数量num
bp
,将候选断点的数量按照从1至num
bp
进行排列组合,生成候选断点组bp
candidate
;根据每一个候选断点组对原始二维数据集d进行切分,生成对应的切分数据集d
kj
,其中,{k∈r|1≤k≤len(bp
candidate
)},{j∈r|0≤j≤num
bp
};其中,k为排列组合后,候选断点组中每个候选断点下标,j为数据集被候选断点切分后,每个切分数据集的下标;根据符号回归输出结果,返回拟合优度最小的候选断点与其对应函数利用sr算法分别对切分数据集d
kj
中每一段切分数据进行拟合,拟合优度和拟合方程分别记为fit
kj
,function
kj
;选择切分数据集d
kj
平均拟合优度最小的值对应的索引,记为index,即则最优断点bp与其对应拟合函数function为指标index对应的bp_candidate与function
kj
,即bp=bp_candidate[index],function=function
kj
[index]。

技术总结
本发明属于不连续函数回归技术领域,涉及一种基于局部离群因子与符号回归的自动断点检测方法,首先利用局部离群因子方法确定数据集中的候选断点个数位置,然后根据候选断点生成候选断点组,最后基于符号回归算法对候选断点组进行拟合,选择拟合度最高的断点作为输出结果。本发明的方法能自动识别断点个数和位置。通过构造候选断点与切分数据集,利用LOF算法的异常值检测功能,可全面精准地识别数据集中存在的断点,可拟合复杂分布数据。基于符号回归算法进行拟合,实现数据分布假设、解释性强、拟合度高的数据建模。计算速度快。基于LOF算法的断点检测过程,只需将数据集的每个点遍历一次,无冗余计算过程。无冗余计算过程。无冗余计算过程。


技术研发人员:杨光飞 李文丽 钱翔宇 关晓微
受保护的技术使用者:大连凌空数据科技有限公司
技术研发日:2022.08.17
技术公布日:2022/11/11
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献