一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于改进Apriori算法的相似模型检索方法与流程

2022-04-09 10:38:31 来源:中国专利 TAG:

技术特征:
1.一种基于改进apriori算法的相似模型检索方法,其特征在于,包括以下步骤:s1、选取模型数据集d,对模型数据集d进行去重、排序,创建一项候选集c1;s2、扫描数据集d,计算一项候选集c1在数据集d中的支持度,判断支持度是否大于最小支持度minsupport,大于最小支持度minsupport的项集形成一项频繁集l1;s3、根据l1进行组合计算,得到所有可能的候选项集c2,计算二项候选集c2在数据集d中的支持度,大于最小支持度minsupport的项集形成二项频繁集l2,迭代执行此步,得到k项频繁集lk;s4、通过频繁项集lk递归计算可信度,记录可信度大于最小可信度minconf的集合,生成关联规则;s5、新增数据集dn,使用apriori增量快速更新算法生成新的频繁项集lk,再递归计算可信度,通过可信度计数生成关联规则;s6、更新最小支持度minsupport,使用apriori阈值快速更新算法生成新的频繁项集lk,再递归计算可信度,通过可信度计数生成关联规则;s7、使用余弦相似度算法计算s6中关联规则的相似度,对余弦相似度设定阈值剔除非潜在相似模型,得到潜在相似模型。2.如权利要求1所述的方法,其特征在于,所述apriori增量快速更新算法是在数据集d有新增dn的情况下,只遍历计算新增候选集的支持度计数,原有候选集不再遍历计算其支持度计数,候选集再根据支持度阈值得出频繁集。3.如权利要求1所述的方法,其特征在于,所述apriori增量快速更新算法的具体实现流程如下:首先,apriori增量快速更新算法每一次遍历计算候选集的支持度计数后,都将该支持度计数存储起来,然后,当数据集有新增候选集时,遍历计算新增候选集的支持度计数,再读取原有候选集的支持度计数,将原有候选集的支持度计数与新增候选集的支持度计数相加,最后,将合并后的候选集的支持度计数除以更新后的数据集总长度,得出更新后的数据集中各候选集的支持度,候选集再根据支持度阈值得出频繁集。4.如权利要求3所述的方法,其特征在于,所述数据集的更新模型中,设sscnt为支持度,lenold为原数据集长度,lennew为插入新增数据集后的新数据集长度,通过公式newcnt=sscnt/(lenold lennew),重新计算原有频繁项集支持度,原有非频繁项集与新增候选集组成并集计算支持度,将原有频繁项集支持度与并集计算支持度相加再作阈值判断得到新频繁项集。5.如权利要求1所述的方法,其特征在于,所述apriori阈值快速更新算法是在支持度阈值更新后,只遍历计算因阈值更新而产生的新的候选集,原本满足支持度阈值的候选集不再做遍历计算,候选集再根据新的支持度阈值得出频繁集。6.如权利要求5所述的方法,其特征在于,支持度阈值更新包括两种情况:情况一,新支持度阈值比原支持度阈值大,此时利用频繁项集的支持度计数,通过遍历之间删除不满足newsupport的频繁项集;情况二,新支持度阈值比原支持度阈值小,此时重新计算频繁项集newl1,得到新增频繁项集l1

=newl1-l1,将满足新最小支持度newsupport的频繁项集lk分为三类:

第一类频繁集lk1:候选集通过apriori_gen(lk
1-1)得出;

第二类频繁集lk2:候选集通过apriori_gen(lk
2-1

)得出;

第三类频繁集lk3:候选集通过apriori_gen(lk
3-1,lk
3-1

)得出;分别针对这三类频繁集,进行处理,其中apriori_gen()函数用于计算频繁项集组合而成所有可能的候选集。7.如权利要求6所述的方法,其特征在于,对于类型

,通过apriori_gen(lk
1-1)-lk1的方式修剪这部分候选集,并计算剩余候选数据集在数据集d中的支持度。8.如权利要求6所述的方法,其特征在于,对于类型

,直接计算候选集apriori_gen(lk
2-1

)在数据集d中的支持度。9.如权利要求6所述的方法,其特征在于,对于类型

,拼接第一类频繁集lk1和第二类频繁集lk2,并通过“频繁项集任一子集必是频繁项集”原则检测候选集的子集是否为频繁项集,不是则修剪这部分候选集。10.一种如权利要求1至9中任一项所述方法在相似性检索技术领域中的应用。

技术总结
本发明涉及一种基于改进Apriori算法的相似模型检索方法,属于相似性检索技术领域。本发明为提高Apriori关联规则挖掘效率,采用改进Apriori算法实现增量快速更新与阈值快速更新,根据“频繁项集任一子集必是频繁项集”原则,利用现有频繁项集,对新增候选项集进行剪枝,接着生成新频繁项集,然后通过频繁项集计算关联规则。最后,使用余弦相似度算法挖掘潜在相似模型。本发明为相似算法模型检索提供了高效的技术方案,具有重要的现实应用价值。具有重要的现实应用价值。具有重要的现实应用价值。


技术研发人员:陈晓东 马小乐 黄家辉 魏向元 王成欢 黄腾 王韫泽 秦天浩
受保护的技术使用者:航天科工智能运筹与信息安全研究院(武汉)有限公司
技术研发日:2021.12.28
技术公布日:2022/4/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献