资源描述:
《关联规则基础上数据挖掘最新算法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、课程设计报告名称:数据仓库与数据挖掘题目:数据挖掘中关联规则的发展趋势院系:经济管理系班级:信管1201学号:201206040109学生姓名:韩智强指导教师:温磊成绩:9日期:2015年5月目录一、引 言3二、基于复杂数据组织形式的关联规则算法3(一)并行数据库3(二)数据仓库3(三)时间连续数据库4(四)增量式更新数据库4三、新研究方法的引入5(一)模糊集5(二)概念格5(三)其他研究方法5四、前沿研究5(一)时间-空间数据库5(二)Web挖掘6(三)多媒体数据库6(四)可视化挖掘6五、总结与展望79数据挖掘中关联规则的发展
2、趋势一、引 言目前,越来越多的行业都存在巨量数据处理的问题,结构简明的关联规则凭借简单易懂的规则表达形式较其他数据挖掘方法更容易被接受,其广泛的应用前景也被学术界所认同。理论体系的逐渐完善和实际应用的巨大成功使关联规则一度成为数据挖掘的重要研究方向。但随着现代数据库技术的发展和应用领域的拓宽,数据存储形式甚至数据格式都发生了巨大变化,关联规则研究也面临着前所未有的挑战。为了明确关联规则研究的现实意义和未来发展趋势,笔者考察了近几年国内外相关的研究成果和最新动态。在对复杂数据组织形式的关联规则挖掘详细描述的基础上,探讨了其他学科领
3、域对关联规则的理解及相应的研究方法,最后提出了关联规则的前沿研究问题和未来的发展趋势。二、基于复杂数据组织形式的关联规则算法9 随着并行和分布式数据库系统、数据仓库、联机分析处理(OLAP)和数据立方体等数据组织、存储、分析和处理技术的出现和成熟,使关联规则挖掘在并行数据库、数据仓库、时间连续数据库和增量更新数据库等复杂数据组织形式中的应用成为可能,相应地产生了一系列新的关联规则算法。(一)并行数据库对于并行数据库而言,一般具有多个可以同时独立运行的处理器(结点),并通过网络交换信息。由于并行体系结构计算能力强,数据处理量大,
4、因而基于并行体系结构的关联规则算法明显优于基于单处理器的顺序算法。并行数据库可以分为无共享体系(share-nothing)结构和内存共享体系(shared-memory)结构。关联规则并行算法的设计主要从数据合理分配、减少I/O操作、负载平衡、减少结点间的通信和同步以及减少计算冗余等方面权衡考虑。无共享体系结构中,数据库分布在各个结点(即分布式数据库),各结点间有网络连接,每个结点可独立处理子数据库。主要算法都是将原有的顺序算法并行化,如Agrawal,R.等(1996)的Countdistribu2tion,DataDist
5、ribution和CandidateDistribution[1];Park,J.S.等(1995)的PDM[2];Cheung,D.W.等(1996)的FDM[3]和Cheung,D.W.等(1996)的DMA[4],以及Za2ki,M.J.等(1997)的ParEclat[5]等算法。在内存共享体系结构中多个结点共用内存和数据库,各结点通过共享变量通信。这类算法采用了异步候选集生成,比宽度优先算法的扫描次数少。但各结点可独立访问数据库,因此需要解决I/O通道共享和并发访问数据库时I/O占用问题。由于这类并行数据库较少使用,相
6、关的研究也不多,有代表性的算法是APM[6]。(二)数据仓库目前,数据仓库已经成为标准的数据存储和组织形式。在数据仓库中各种数据以多维形式组织,即数据立方体。而采用OLAP技术驱动的数据仓库具有数据质量高、相关数据环境好和实时分析等优点。因此相应的算法就直接针对数据立方体设计,并由OLAP技术实现。这类算法多是已有的多维关联规则算法的推广和优化。较为简单的算法是建立在频繁谓词集上的,把谓词作为项,谓词的出现次数作为支持度,不考虑谓词出现的强度。如Apriori-Cube算法[7](高学东等(2003))直接在数据立方体上搜索频繁
7、谓词集。而考虑概念层次的算法较复杂,如Adaptive-FP算法[8]和FP-Growth[9]类似,但是先对项加入概念层次编码后再建立FP-tree,采用同一支持度挖掘同一概念层次的维间和维内频繁集,采用可变支持度挖掘不同维或者同维不同概念层次的频繁集,贺琼等(2004)在Adaptive-FP的基础上进一步利用概念层次信息优化了FP-tree的建立过程[10]。9(三)时间连续数据库时间连续数据库包含了随时间延续而变化的事务数据或事件记录。这类数据的特点是具有明显的时间顺序,且呈现一定的规律性或者周期性。这方面的研究主要集中
8、在连续时间的事务数据集和多个时间序列中的关联规则挖掘。连续时间的事务数据集中的关联规则挖掘类似具有时间维度的多维关联规则挖掘,但直接将时间效应引入算法,增加算法的适应性和可扩展性。施平安等(2001)认为事务的出现频率和时间段有关。因此先定义频繁集的高频适用期和