一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据库关联规则挖掘方法及系统

2022-09-02 22:44:05 来源:中国专利 TAG:


1.本发明属于数据库扫描领域,具体涉及一种数据库关联规则挖掘方法及系统。


背景技术:

2.20世纪90年代以来,数据库技术发生了翻天覆地的变化,数据库可以进行管理并处理如文字、声音、图像、视频等各种类型的复杂数据,如今的数据库为我们提供大量丰富的信息,但不可避免的,海量信息也会给我们造成诸多消极、负面的影响,最主要的就是难以提取有价值的信息。过多冗余的、低价值的信息导致处理信息效率不高,产生信息距离、丢失有价值信息,陷入“数据海量而知识匮乏”的窘境。在此背景下,诞生了数据挖掘技术,并在短期内快速发展,该技术近年来发展愈渐成熟,为此人们的生产生活也受益匪浅。
3.关联规则是数据挖掘中,相对而言较为广泛的一个功能。关联规则最初是为了对消费者的行为数据进行分析,通过获取销售数据间的联系,得到能够反应或描述消费者购物方式的一些规则和联系,从而调整运营策略及营销方式,包括但不限于仓库进货、商品摆放、货架整理等,使相关商品更容易出售,获取更大利益。在大规模的数据挖掘中,关联规则的应用十分广泛,涉及保险业、医药、交通业、气象领域、通讯领域等方面;但是现有的关联规则技术中,运算过程繁琐,同时运输的数据多,导致运算时间长。


技术实现要素:

4.本发明的目的在于提供一种数据库关联规则挖掘方法及系统,减少对数据库的扫描次数和运行时间。
5.为达到上述目的,本发明所采用的技术方案是:
6.本发明第一方面提供了一种数据库关联规则挖掘方法,包括:
7.扫描事务数据库中的每一条事务记录,获得事务数据库的事务项t和数据项种类;以事务项t为列,以数据项种类为行,构建布尔矩阵td;
8.利用与运算原则计算单个数据项种类和多个数据项种类结合的种类组的支持度sup,通过支持度sup筛选出关联性最强的种类组;
9.根据关联性最强的种类组内包含的数据项种类,获得数据项种类之间关联规则。
10.优选的,构建布尔矩阵td的方法包括:所述事务项t中记录的信息出现该数据项种类,则标识为1;若所述事务项t中记录的信息未出现该数据项种类,则标识为0。
11.优选的,利用与运算原则计算单个数据项种类和多个数据项种类结合的种类组的支持度sup,通过支持度sup筛选出关联性最强的种类组的方法包括:
12.步骤a,计算布尔矩阵td中单个数据项种类的支持度sup1,删除支持度sup1小于设定的支持度阈值minsup的数据项种类,获得频繁事务矩阵l;
13.步骤b,将频繁事务矩阵l中的两列之间进行与运算,获得k个数据项种类结合的种类组的支持度supk;删除支持度supk小于设定的支持度阈值minsup的种类组,并更新频繁事务矩阵l;
14.步骤c,当支持度supk大于设定的支持度阈值minsup的种类组数量大于或等于数值k 1,继续执行步骤b;当支持度supk大于设定的支持度阈值minsup的种类组数量小于数值k 1,输出k个数据项种类结合的对应种类组,作为关联性最强的种类组。
15.优选的,所述与运算原则的表达公式为:
[0016][0017]
公式中,p
t1
表示为事务项t1在该数据项种类或种类组中的标记;p
t2
表示为事务项t2在该数据项种类或种类组中的标记;p
t1
#p
t2
表示为标记p
t1
与标记p
t2
结合。
[0018]
优选的,计算支持度sup的表达公式为:
[0019][0020]
公式中,e表示为在该数据项种类或种类组中事务项t标记为1的数量,r表示为事务项t总数量。
[0021]
优选的,所述获得数据项种类之间关联规则包括:关联性最强的种类组内包含的各数据项种类之间的关联规则、关联性最强的种类组内一部分数据项种类结合与另一部分数据项种类结合的关联规则
[0022]
本发明第二方面提供了一种数据库关联规则挖掘系统,包括:
[0023]
扫描模块,用于扫描事务数据库中的每一条事务记录,获得事务数据库的事务项t和数据项种类;
[0024]
计算分析模块,用于以事务项t为列,以数据项种类为行,构建布尔矩阵td,利用与运算原则计算单个数据项种类和多个数据项种类结合的种类组的支持度sup;
[0025]
筛选模块,用于通过支持度sup筛选出关联性最强的种类组;
[0026]
输出模块,用于根据关联性最强的种类组内包含的数据项种类,获得数据项种类之间关联规则。
[0027]
本发明第三方面提供了计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述数据库关联规则挖掘方法的步骤。
[0028]
与现有技术相比,本发明的有益效果:
[0029]
本发明利用与运算原则计算单个数据项种类和多个数据项种类结合的种类组的支持度sup,通过支持度sup筛选出关联性最强的种类组;根据关联性最强的种类组内包含的数据项种类,获得数据项种类之间关联规则;与现有技术相比可以有效的减少扫描次数,降低运算时间。
附图说明
[0030]
图1是本发明实施例提供的一种数据库关联规则挖掘方法的流程图;
[0031]
图2是在不同支持度阈值下本发明改进算法与传统apriori算法的运算时间对比图;
[0032]
图3是在设置不同数据记录条数下本发明改进算法与传统apriori算法的运算时
间对比图。
具体实施方式
[0033]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0034]
实施例一
[0035]
如图1所示,一种数据库关联规则挖掘方法,包括:
[0036]
扫描事务数据库中的每一条事务记录,获得事务数据库的事务项t和数据项种类;事务项t与数据项种类的对应表,如表1所示:
[0037]
表1事务项t与数据项种类
[0038][0039][0040]
所述事务项t中记录的信息出现该数据项种类,则标识为1;若所述事务项t中记录的信息未出现该数据项种类,则标识为0;以事务项t为列,以数据项种类为行,构建布尔矩阵td;
[0041]
表2布尔矩阵
[0053][0054]
步骤c,当支持度sup2大于设定的支持度阈值minsup的种类组数量大于数值2 1,继续执行步骤b;将频繁事务矩阵l2中的两列之间进行与运算,获得三个数据项种类结合的种类组的支持度sup3;删除支持度sup3小于设定的支持度阈值minsup的种类组,并更新为频繁事务矩阵l3,如表4所示;
[0055]
表4频繁事务矩阵l3[0056][0057]
步骤d,当支持度sup3大于设定的支持度阈值minsup的种类组数量小于数值3 1,即为数据记录条数,输出3个数据项种类结合的对应种类组,作为关联性最强的种类组;判断数值设置为k 1的原因是:频繁事务矩阵l
k 1
有k 1个k项子集,且都是频繁的,所以如果lk个数小于k,说明无法推出lk 1,因此算法终止。
[0058]
根据关联性最强的种类组内包含的数据项种类,获得数据项种类之间关联规则;所述获得数据项种类之间关联规则包括:关联性最强的种类组内包含的各数据项种类之间
的关联规则、关联性最强的种类组内一部分数据项种类结合与另一部分数据项种类结合的关联规则,例如abe结合的类型组对应关联规则为e

a、e

b、a&e

b、b&e

a和e

a&b;将支持度阈值minsup设置为2获得关联规则、支持度和置信度的关系表,如表5所示。
[0059]
表5关联规则、支持度和置信度的关系表
[0060][0061][0062]
实施例二
[0063]
一种数据库关联规则挖掘系统,本系统可以应用实施例一所述数据库关联规则挖掘方法,所述数据库关联规则挖掘系统包括:
[0064]
扫描模块,用于扫描事务数据库中的每一条事务记录,获得事务数据库的事务项t和数据项种类;
[0065]
计算分析模块,用于以事务项t为列,以数据项种类为行,构建布尔矩阵td,利用与运算原则计算单个数据项种类和多个数据项种类结合的种类组的支持度sup;
[0066]
筛选模块,用于通过支持度sup筛选出关联性最强的种类组;
[0067]
输出模块,用于根据关联性最强的种类组内包含的数据项种类,获得数据项种类之间关联规则。
[0068]
实施例三
[0069]
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述数据库关联规则挖掘方法的步骤。
[0070]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产
品的形式。
[0071]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0072]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0073]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0074]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献