关联规则挖掘算法分析与其应用

关联规则挖掘算法分析与其应用

ID:33735760

大小:479.18 KB

页数:39页

时间:2019-02-28

关联规则挖掘算法分析与其应用_第1页
关联规则挖掘算法分析与其应用_第2页
关联规则挖掘算法分析与其应用_第3页
关联规则挖掘算法分析与其应用_第4页
关联规则挖掘算法分析与其应用_第5页
资源描述:

《关联规则挖掘算法分析与其应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中南民族大学硕士学位论文第1章绪论1.1课题的目的及意义随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。人们希望将这些数据转换成有用的信息和知识,以便更好地利用这些数据,用于决策。当前的数据库系统可以高效地实现海量数据的录入、查询、统计等功能,但无法发现海量数据背后隐藏的具有决策意义的知识,如关系和模式,无法根据现有的数据预测未来的发展趋势。由于缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。面对“被数据淹没,却饥饿于知识”的挑战,一门新兴的自动信息提取技术:数据挖掘和知识发现(DataMiningan

2、dKnowledgeDiscoveryinDatabases)正是在这样的需求背景下应运而生了。关联规则挖掘是数据挖掘研究的一个重要分支,关联规则是数据挖掘的众多知识类型中最为典型的一种。关联规则挖掘可以发现存在于数据库中的项目(Items)或属性(Attributes)间的有趣关系,这些关系是预先未知的和被隐藏的,也就是说不能通过数据库的逻辑操作(如:表的联接)或统计的方法得出。这说明它们不是基于数据自身的固有属性(例如函数依赖关系),而是基于数据项目的同时出现特征,所发现的关联规则可以辅助人们进行市场运作,决策支持及商业管理,网站设计等。关联规则是由

3、R.Agrawal等人首先提出的,它的一个典型例子就是:90%的客户在购买面包的同时也会购买牛奶,其直观意义为顾客在购买某些商品的时候有多大的倾向会购买另外一些商品。数据挖掘是一个非常广泛的研究领域,包含方方面面的不同内容。本文只是选择了其中几个比较重要的也是作者比较感兴趣的问题进行研究论述,主要旨在做如下工作。(1)在国内外大量相关文献资料的基础上,对数据挖掘和关联规则挖掘的基本概念、研究现状及所面临的挑战等问题进行了归纳总结。1关联规则挖掘算法研究及其应用(2)研究了几种典型的关联规则挖掘算法,并比较了它们各自的优缺点及适用范围。(3)对现有的关联规

4、则挖掘算法,提出改进方法,并证明。1.2国内外研究现状及进展关联规则(AssociationRule)的概念最早是由IBMAlmadenResearchCenter的[3]Agrawal于1993年提出的,现在它的研究己经成为数据挖掘领域最重要的研究方向。[1]关联规则挖掘问题分为2个子问题:第一个子问题是找出数据库中所有的频繁项集(Frequentitemsets)。第二个子问题是用获得的频繁项集产生所有的满足用户给定的最小可信度的关联规则。由于关联规则挖掘的整体性能由第一个子问题的性能所决定,因此,目前对关联规则算法的研究主要集中的频繁项集的挖掘处理

5、上。1.2.1国外研究现状1993年AgrawalR等人首先提出了关联规则的问题,并于1994年提出了挖掘关联规则的经典算法Apriori算法,这个算法奠定了关联规则挖掘算法的基础,之后不少国内外学者、机构对关联规则挖掘进行了大量的研究。因此,国外对挖掘频繁项集的算法研究比较深入和成功。例如,IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统。关联规则挖掘首先由Agrawal,Imielinski和Swami提出。Apriori算法由Agrawal和Srika

6、nt提出,后来人们又在此基础上对Apriori算法进行了一系列的改进,比较著名的包括使用hash表提高关联规则挖掘效率,采用事务压缩技术对所扫描的事务集进行压缩,采用划分技术对事务集进行分割,采用选样技术来进行挖掘以及采用动态项集计数的方法等。数据挖掘广泛用于下列领域:科学研究、市场营销、金融投资、风险评估、欺诈识别、产品制造、通信网络管理、医学应用、网络应用、语音合成。2中南民族大学硕士学位论文1.2.2国内研究现状今天,数据挖掘的研究正方兴未艾,焦点将会集中在研究专门用于知识发现的数据挖掘语言,可能会同SQL语言一样走向形式化和标准化,寻求数据挖掘过

7、程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程的人机交互;研究在网络环境下的数据挖掘技术,尤其是在Internet上建立的数据挖掘服务器,与数据库服务器配合实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据及多媒体数据上。关联规则算法方面的研究已经取得了很大的成绩,并且已经被集成在一些系统中,如:IBM的Quest项目,SimonFarse大学的DBMiner等。具体的内容有经典的频繁集算法,对原算法的优化、扩展等。北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代

8、数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。