基于数据立方体的维内关联规则挖掘算法

基于数据立方体的维内关联规则挖掘算法

ID:37383252

大小:304.53 KB

页数:4页

时间:2019-05-22

基于数据立方体的维内关联规则挖掘算法_第1页
基于数据立方体的维内关联规则挖掘算法_第2页
基于数据立方体的维内关联规则挖掘算法_第3页
基于数据立方体的维内关联规则挖掘算法_第4页
资源描述:

《基于数据立方体的维内关联规则挖掘算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、25卷第1期北京Vol.25No.120032JournalofUniversityofScienceandTechnologyBeijingFeb.2003基于数据立方体的维内关联规则挖掘算法1)2)杨学兵蔡庆生1)安徽工业大学计算机科学系马鞍山2430022)中国科技大学计算机科学系合肥230027摘要针对数据立方体的结构特点结合联机分析处理技术提出了两种基于数据立方体的维内关联规则挖掘算法以合肥农河超市实际数据作为测试数据给出了两种算法的实验结果结果表明两种算法在不同支持度情况下执行效率存在明显差异分别适合在高支持度和低支持度情况下进行关联规则挖掘

2、关键词知识发现;数据挖掘;关联规则;数据仓库;数据立方体;多维分析分类号TP311;TP132.3数据库中知识发现(KnowledgeDiscoveryin形如A1A2AiB1B2Bj,(4%70%)意味Databases,简称KDD)是目前人工智能和数据库相着目标数据中客体B1,B2,,Bj倾向于同客体交叉的一个热门研究领域已经受到越来越多的A1,A2,,Ai一起出现其中4%为关联规则的支持[1,2]关注数据挖掘(DataMining,简称DM)是KDD度70%为关联规则的信任度的一个十分重要的步骤其内容涉及各种知识模1.2Apriori性质[3]Ap

3、riori算法[1]式的提取算法关联规则是数据库中存在的一采用的是迭代方法需要多遍种知识模式其挖掘算法已得到了广泛的重视扫描事务数据库为了提高频繁项目集的产生效并取得了较大的进展数据仓库技术DataWare-率可利用一个重要的Apriori性质来减少项目搜houseTechniques联机分析处理(OnlineAnaly-索空间ticalProcessing,简称OLAP)和多维数据立方体定理1(Apriori性质)一个频繁项目集的所Muti-DimensionalDataCube等也是近年来涌现[6]有非空子集必需也是频繁项目集这一性质是出的一些更有效

4、地对数据进行组织存贮分析由Agrawal和Srikant提出并得以证明的[1]和处理的新方法维内关联规则是指在数据立根据这一性质进行第k次扫描之前可先方体中同一属性维内各项目之间存在的关联规产生候选集CkCk可以分两步来产生设前一次则通过对传统关联规则挖掘算法进行改进给(第k1次已生成k频繁集Lk则首先可以通过出基于数据立方体的多维关联规则挖掘算法由对Lk1中的成员进行联接来产生候选Lk1中的两于现有的OLAP技术已容许构建数据立方体且个成员必需满足在两个成员的项目中有k2个[4]数据立方体内已有各项目出现次数的统计因项目是相同的这个条件方可联接即此可通

5、过读取其统计数据来确定频繁项目集使Lk1Lk1=ABA,BLk1,AB=k2挖掘过程效率大大提高接着再从Ck中删除所有包含不是频繁的k1子集的成员项目集即可1相关概念1.3数据立方体数据立方体是指含有多维属性的统计实体1.1关联规则设为n维每维共有di+1个值其中di是指第i维[5]关联规则概念首先由Agrawal等提出所谓中互不相同的属性值每维中再加上一个"Any"关联规则是指客体之间的相互关系关联规则[4,7,8]值共di+1个不同值收稿日期2001–01–04杨学兵男35岁副教授假设存在一个n维空间则由每一维中各取国家自然科学基金项目资助No.60

6、075015和安徽省教育一个具体的属性值则可对应一个n维空间中的厅科研经费资助No.2002KJ046•84•20031点这个点称为方格每个方格内存贮了与其对itemset的候选集C1及1-itemset频繁集L1,k=k+1应的各属性的值同时出现的次数用count表示步骤3,重复利用频繁Lk1生成中k-itemset候选集三维数据立方体如图1所示Ck,再利用Ck生成k-itemsets频繁集Lk,直至Lk=.(1)利用Lk1产生候选集Ck的子过程输入Lk1Any623597ts输出CkcudCarryBag302050步骤1先置Crok=步骤2利用Ap

7、riori性质PAnyTents321547West重复对Lk1中的长度为k2且有k3个项目相同nSouthatioCloodPoorAnyLoc的频繁集进行两两连接连接结果加入CkProfit(2)利用候选集Ck产生频繁集Lk的子过程图1数据立方体示意图输入k,CkFig.1Sketchmapofthedatacube输出Lk步骤1,先置Lk=步骤2,重复对候选集Ck2算法描述中的每个候选通过OLAP引擎取得其对应的计维内关联规则是指在一个维内存在的关联数值检查其是否满足最小支持度若满足则加[8]入L规则这个维称为项目维项目维内的项目通过k另外一个维来

8、分组形成一个个的事务这另外(3)算法分析的一个维称为事务维因此维内关联规则涉及算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。