超市事务数据库中的关联规则的探讨论文

超市事务数据库中的关联规则的探讨论文

ID:25552878

大小:50.00 KB

页数:4页

时间:2018-11-21

超市事务数据库中的关联规则的探讨论文_第1页
超市事务数据库中的关联规则的探讨论文_第2页
超市事务数据库中的关联规则的探讨论文_第3页
超市事务数据库中的关联规则的探讨论文_第4页
资源描述:

《超市事务数据库中的关联规则的探讨论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、超市事务数据库中的关联规则的探讨论文摘要:现在全球经济发展正在进入信息经济时代,各种形式的信息大量地产生和收集导致了信息爆炸,如何采用基于关联规则的数据挖掘技术发现超市事务数据库中的关联规则是本文所研究和探讨的重点。关键词:数据挖掘电子商务关联规则1引言目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注。我们可以利用数据挖掘技术从海量数据中发现有用信息,帮助商家了解客户以往的需求趋势,并预测未来,从而给商家带来巨大的利润。在数据挖掘领域.freeladenResearchCenter的R

2、abeshAgra,指事务中的内容,比如,面包、牛奶等都是项目)之间是否存在某种关联关系。通过这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。2关联规则描述目前关联规则挖掘主要考虑支持度和置信度两个阈值。设X是项集,T是数据库DB中的任意一个记录。X的支持度是指支持X的记录数与全体记录数的比,Support(X)=

3、{T

4、TX,T∈DB}

5、/

6、DB

7、。蕴涵关系X==Y在数据库DB中的置信度是指同时支持X和

8、Y的记录数与支持X的记录数之比,即:Confidence(X==Y)=

9、{T

10、TXY,.freelin_supp和最小置信度min_conf。事实上,第一步的任务是迅速高效地找出超市事务数据库DB中全部频繁项集,数据挖掘所面临的最大的挑战是计算效率问题,解决这一问题的途径是产生高效的数据挖掘算法,但从超市事务数据库中产生频繁项集即费时又占用空间,所以说第一步是关联规则挖掘的核心问题,是衡量关联规则挖掘算法的标准。当找到所有的频繁项集后,相应的关联规则将很容易生成,目前大多数的关联规则挖掘算法研究是针对

11、第一步而提出的,本文重点讨论第一个问题。4由超市事务数据库发现关联规则的总体设计在现有的不少关联规则发现算法中,最著名的仍然是R.Agrawal本人在他们自己的AIS算法基础上于1994年提出的Apriori算法,Apriori算法的基本思想是:利用“频繁项集的所有非空子集都必须也是频繁的”这一定理对事务数据库进行多遍扫描。众所周知,对数据库的扫描伴随繁重的磁盘I/O任务,Apriori算法中,扫描次数较多,这样就大大限制了挖掘算法的速度。因此,在实际的应用中,减少对事务数据库的扫描次数,有效地减少数

12、据的吞吐,将会有效提高算法的效率。为了高效率的由超市事务数据库中发现关联规则,本系统在Apriori算法的基础上采用基于划分的算法。该算法只对事务数据库DB扫描两次,大大减少了I/O操作,从而提高了算法的效率。通过划分方法进行数据挖掘的过程如下图所示:本系统的总体设计包含三部分:(1)在服务器端第一次扫描超市事务数据库中的表,按照超市事务数据库中不同项集的数量,以及兼顾客户端计算机硬件配置,对其进行数据分块,分块的大小选择要使得每个分块可以被放入主存。(2)在各个客户端计算机上,利用并行技术分别访问服

13、务器上的数据分块,求出各数据分块所对应的局部频繁项集,并将所求局部频繁项集存入服务器的一个指定表中。(3)在服务器端,汇总各个分块数据生成的局部频繁项集,第二次扫描超市事务数据库中的总表,最终生成全局频繁项集。系统的总体设计可以如下图2应用程序总体设计所示。一旦由超市事务数据库DB中的事务找出频繁项集,由它们产生强关联规则是直截了当的。所谓的强关联规则是指满足最小支持度和最小置信度的规则。5结论随着计算机硬件的降价,利用并行处理的思想,划分的数据块分给多个处理机并行计算各数据块的局部频繁项集,然后各分

14、块所求的局部频繁项集汇总到服务器上,再次扫描数据库最终求出全局频繁项集。这种将关联规则挖掘算法与并行处理相结合的方式能更大的提高算法的效率。今后,如何能够更有效的提高关联规则算法执行的效率,怎样设计更有效、更实用的算法,是我们进一步需要思考的问题。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。