欢迎来到天天文库
浏览记录
ID:39126723
大小:128.27 KB
页数:7页
时间:2019-06-25
《基于闭项目集的Apriori算法改进》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、首都师范大学信息工程学院2013-2014学年第二学期2013硕士研究生计算机应用技术专业期末考试试卷课程名称数据挖掘考试形式撰写学术论文考试时间2014.4.21考试对象2013级研究生姓名李燕学号2131002053任课教师利民成绩基于闭项目集的Apriori算法李燕(首都师范大学信息工程学院,北京100089)摘要:本文针对Apriori算法中需要不断扫描原始事务项集问题,介绍了在某些情况下,可以大大减少扫描次数的close算法,同时对此算法给出了改进的想法和简单实现。关键字:关联规则Apriori算法频繁闭项集、close算法AnimprovedApriorialgorithmA
2、bstract:ThisarticleinviewoftheApriorialgorithmneedtoconstantlyscantheoriginaltransactionitemsets,Introducedinsomecases,cangreatlyreducethenumberofscanningthecloseofthealgorithm,atthesametime,thisalgorithmgivestheimprovementideasandsimpleimplementation.Keywords:AssociationRules AprioriAlgorithm Fr
3、equentClosedItemSetcloseAlgorithm0前言 信息技术的不断推广应用,将企业带入了一个信息爆炸的时代。如何充分利用这些数据信息为企业决策者提供决策支持成为一个十分迫切的又棘手的问题,人们除了利用现有的关系数据库标准查询语句得到一般的直观的信息以外,必须挖掘其内含的、未知的却又实际存在的数据关系。著名的Apriori算法是一种挖掘关联规则的算法。本文利用事务集闭项集来在一定程度上减少数据事务集的扫描次数来减少Apriori算法的瓶颈。这有利于提高挖掘的速度和减少数据库的I/O操作时间的开销。1关联规则挖掘理论和基本概念 数据挖掘(DataMining)利用统计与
4、人工智能的算法,从庞大的企业历史资料中,找出隐藏的规律并建立准确的模型,用以预测未来。其中关联规则(AssociationRules)的挖掘是数据挖掘中的一个重要问题。关联规则(AssocationRule)最由Agarwal等提出,用于交易数据库。关联规则是数据挖掘领域的一个热点,它发现交易数据库中不同商品(项)之间的联系,即关联规则。关联规则一般用以发现交易数据库中不同商品(项)之间的联系,用这些规则找出顾客的购买行为模式,比如购买了某一种商品对购买其他商品的影响,这种规则可以应用于超市商品货架设计、货物摆放以及根据购买模式对用户进行分类等。进而引伸至寻找一个变量间不同选择之间的关系
5、,或寻找不同变量间的关系。关联规则中的基本概念主要包括:定义1.1:k-项集一个商品或者一个属性称为一个项目。多个项目的集合称为项集。设i为数据库D中全体项目的集合,集合x={il,i2,⋯,ik}(x∈i且IXI=k),称为k-项集。定义1.2:事务一条事务,或者说一条记录,是形如{tid,X)的二元组,其中tid称为事务标识符,它唯一标识该条记录,X为项目集。要挖掘的数据集或者数据库D是N条事务的集合,一条事务也称为一条记录,N为数据集D的记录总数。若事务t包含项目集X中的所有项目,则称事务t支持或包含项目集X。定义1.3:支持度计数和支持度数据库TDB中包含(支持)项集X的事务的数
6、目称为项集X的支持度计数,记为count(X),support(X)=count(X)/N称为项集X的支持度,其中N为数据库中记录总数。定义1.3:支持度计数和支持度数据库TDB中包含(支持)项集X的事务的数目称为项集X的支持度计数,记为count(X),support(X)=count(X)/N称为项集X的支持度,其中N为数据库中记录总数。定义1.4:频繁项目集.支持度不小于用户给定的最小支持度阈值(minsup)的项集称为频繁项目集,或者大项目集。所有的频繁1-项集记为Ll定义1.5:关联规则关联规则是形如X=>Y的蕴涵式,X称为关联规则的前件或前提,Y称为关联规则的后件或结论。项集
7、XUY的支持度称为关联规则的支持度。定义1.6:置信度关联规则X=>Y的置信度。确定Y在包含X的事务中出现的频繁程度。confidence(X=>Y)=support(X∪Y)support(X)×100%支持度和置信度是描述关联规则的两个重要概念,前者用于衡量关联规则在整个数据集中的统计重要性,后者用于衡量关联规则的可信程度。一般来说,只有支持度和置信度均较高的关联规则才可能是用户感兴趣、有用的关联规则。Agrawal等人建立了用
此文档下载收益归作者所有