关联规则数据挖掘算法的分析及应用.doc

关联规则数据挖掘算法的分析及应用.doc

ID:61767181

大小:32.50 KB

页数:6页

时间:2021-03-19

关联规则数据挖掘算法的分析及应用.doc_第1页
关联规则数据挖掘算法的分析及应用.doc_第2页
关联规则数据挖掘算法的分析及应用.doc_第3页
关联规则数据挖掘算法的分析及应用.doc_第4页
关联规则数据挖掘算法的分析及应用.doc_第5页
资源描述:

《关联规则数据挖掘算法的分析及应用.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、关联规则数据挖掘算法的分析及应用摘要:数据挖掘就是从大量的数据中挖掘出有用的信息。数据挖掘与传统的数据分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。文章分析了数据挖掘算法的关联规则特性,对其在股票市场中的应用进行了重点,以便更好的应用在更多的领域。关键词:关联规则;数据挖掘算法;股票1关联规则1.1关联规则概述6学海无涯数据关联是数据库中存在的一类重要的可被发现的知识。如果两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网,关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。近些年来,很多业界人士

2、对关联规则挖掘进行了详细的探讨,关联规则挖掘已经成为数据挖掘中的一个非常重要的课题。关联规则概念是Agrawal等人在1993年首先提出的,与此同时还给出了一种性能相对较差的挖掘算法AIS。1994年,由于项目集格空间理论的建立,他们在以往定理的基础上提出了著名的Apriori算法,这种算法目前仍作为关联规则挖掘的经典算法引起了人们的广泛研究和讨论。一开始,关联规则的产生主要是针对购物篮分析问题。对于分店经理来说,如何更详细更清楚的了解顾客的购物习惯,尤其是想了解顾客可能会在一次购物时同时购买哪些商品?为此,我们对商店的顾客购物零售数量进行购物篮分析。而顾客的购物习

3、惯就可通过他们放入“购物篮”中的不同商品之间的关联进行分析,零售商也可以通过这种关联分析了解哪些商品频繁的被顾客同时购买,进而有助于他们设计出更好的营销方案。与此同时,一些知名的电子商务站点也可以从具有强大功能的关联规则挖掘中获得很大好处。通过使用关联规则对数据进行分析,这些电子购物网站可以设置用户有可能会同时购买捆绑包,也有很多购物网站设置了相应的交叉销售,具体是指顾客在购买一种产品时会看到与该类产品相关的另外一种产品的广告。但是目前我国商业银行在数据大集中之后,普遍面临着“数据海量,信息缺乏”的窘迫情况。目前,在金融业所采用的数据库中,大多数数据库的功能层次都很

4、低,只能够简单的实现数据的录入、统计、查询等,根本发现不了数据中蕴含的大量有实用价值的信息。综上所述,可以说在关联规则挖掘技术方面,我国所进行的应用研究并不是很广泛,而且也不够深入。1.2Apriori算法6学海无涯使用关联规则对数据进行挖掘主要分两个阶段:第一阶段必须先从原始资料集合中找出所有的高频项目组,第二阶段再由这些高频项目组中产生关联规则。关联规则挖掘的第一阶段中高频的意思是指在所有记录中某一项目组出现的频率必须相对达到某一水平。这一项目组出现的频率称为支持度。关联规则挖掘的第二阶段是利用前一步骤的高频k-项目组来产生关联规则,在最小信赖度的条件门槛下,要

5、称之为关联规则一规则所求得的信赖度满足最小信赖度。Apriori算法是关联规则挖掘频繁项集的一种原创性算法。Apriori算法使用的是迭代方法。Apriori算法的核心算法思想是:该算法中有连接步和剪枝步两个关键步骤。对于连接步来说,为了能够找出Lk,即频繁k项集,而通过Lk-1与自身相连接,产生候选k项集Ck;其中Lk-1的元素是能够连接的。对于剪枝步来说,Ck是Lk的超集,也就是说Ck的元素可以是频繁的也可以不是频繁的,但是所有的频繁项集都包含在Ck中。对数据库进行扫描,将Ck中的每一个候选的计数加以确定,从而确定Lk。如果Ck很大,就会导致涉及的计算量变得很大

6、。为了能够压缩Ck,通常会使用Apriori性质。Apriori算法,使用逐层迭代找出频繁项集。输入:事务数据库D;最小支持度阈值min_sup。输出:D中的频繁项集L。1)L1=find_frequent_1_itemset(sD);2)for(k=2;k++){3)Ck=aproiri_gen(Lk-1,min_sup);4)foreachtransactiontD{//扫描D用于计数5)Ct=subse(tCk,t);//得到t的子集,它们是候选6)foreachcandidate错误!未找到引用源。Ct7)c.count++;8)}9)Lk={Ck

7、c.co

8、unt≥min_sup}10)}11)returnL=错误!未找到引用源。Lk;Procedureapriori_gen(Lk-1:frequent(k-1)-itemsets)重复,返回Ck。1.3Apriori算法评价和改进基于频繁项集的Apriori算法采用了逐层搜索的迭代方法,该算法没有复杂的理论推导过程,简单易懂,并且很容易实现。但是仍然存在一些不可避免的不足:扫描数据库的次数过多。在Apriori算法的描述中,每生成一个候选项集,都要进行一次全面的数据库搜索。如果要生成的频繁项集的最大长度为N,那么就要扫描N次数据库。在有限的内存容量下,如果数据库中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。