apriori算法关联规则挖掘技术研究

apriori算法关联规则挖掘技术研究

ID:9303679

大小:37.00 KB

页数:13页

时间:2018-04-27

apriori算法关联规则挖掘技术研究_第1页
apriori算法关联规则挖掘技术研究_第2页
apriori算法关联规则挖掘技术研究_第3页
apriori算法关联规则挖掘技术研究_第4页
apriori算法关联规则挖掘技术研究_第5页
资源描述:

《apriori算法关联规则挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、---------------------------------------------------------------范文最新推荐------------------------------------------------------Apriori算法关联规则挖掘技术研究1.113/13---------------------------------------------------------------范文最新推荐------------------------------------------------------Apriori算法关联规则挖掘技术研究1.1

2、13/13---------------------------------------------------------------范文最新推荐------------------------------------------------------Apriori算法关联规则挖掘技术研究1.113/13---------------------------------------------------------------范文最新推荐------------------------------------------------------关联规则挖掘产生原因啤酒和尿布的购

3、买有关系吗?答案是肯定的,跟尿布一起购买最多的商品就是啤酒。据沃尔玛的分析调查,美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。对于隐藏在啤酒和尿布这类表面上风马牛不相及的商品背后的关联,如果不通过数据挖掘的技术,是没有办法靠拍脑袋的办法想出来的。这就是关联规则挖掘中最经典的例子。10031世间万物的事情发生多多少少会有一些关联。一件事情的发生,很可能也会引起另外一件事情的发生。或者说,这两件事情在很多时候很大程度上是会一起发生的。那么人们通过发现这个关联的规则,可以由一件事情的发生,来推测另外一件事情的发生,从而更好地了解和掌握事物的发

4、展、动向等等。这就是数据挖掘。数据挖掘,又称数据库中的知识发现,在最近几年里已被数据库界所广泛研究,其中关联规则的挖掘是一个重要的问题。关联规则是发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。例如:研究发现43%购买了雀巢速溶咖啡的顾客都会购买雀巢咖啡伴侣。基于这个规则,在实体超市中,应当把这两种产品放到相近的地方,而在网上超市中,如果顾客购买了雀巢速溶咖啡却没有购买咖啡伴侣,则可以在关联商品栏目中添加相应的推荐。现在很多企业已经认识到详细的原

5、始购买记录的重要性,并且建立了规范的数据仓库,这些都为关联规则挖掘技术的应用奠定了良好的基础。于是关联规则挖掘技术应运而生。1.2关联规则挖掘的发展13/13---------------------------------------------------------------范文最新推荐------------------------------------------------------给定一个数据集合,Apriori算法需要通过初始扫描整个数据集合产生一个支持度不小于指定最小值的项目集合。生成该项目集合(称为1-候选集合)之后,再形成下一个候选集合(称为2-候选集合)

6、。再次扫描数据库来计算2-候选集合的支持度。所有支持度小于最小值的集合将被剪裁掉。当不再生成新的候选集合时算法终止,得到k-候选集合。该算法基于频繁项目集合的性质,即一个频繁集合的任何子集都是频繁集合;如果一个项目集合不是频繁集合,其所有超集均不是频繁集合。之后又产生了一些Apriori算法的变型,如AprioriTID和AprioriHybrid。AprioriTID的工作原来与Apriori类似,所不同的是它通过用生成的项目集合来计算支持度,从而取代了Apriori算法中通过数据库扫描计算支持度的方法。据了解,只有当AprioriTID生成的项目集合能够放在内存时,Apriori

7、TID才比Apriori效率更高。AprioriHybrid是Apriori和AprioriTID的混合体。该算法用Apriori进行初始扫描,一旦认为生成的集合能够与内存匹配则切换到AprioriTID算法。在大多数情况下AprioriHybrid算法比Apriori算法效率高,但是当进行到最后一次扫描时是个例外。这是因为它花费了过高的代价获取无意义的项目。Apriori算法比SETM和AIS算法更为高效。1.2.3随机采样和并行挖掘思想的引入虽然Apr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。