欢迎来到天天文库
浏览记录
ID:21124150
大小:26.55 KB
页数:7页
时间:2018-10-19
《关于关联规则挖掘综述》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、关联规则挖掘综述潮娇娇摘要:关联规则挖掘是数据挖掘中的一个很重要的研究内容之一,近年来很多国内外研究人员对其进行了大量的研究。为了更进一步的了解关联规则挖掘技术,并掌握其发展方向和目前的研究现状。本文对关联规则挖掘技术进行了相关综述。首先介绍了关联规则的基本概念,其次分析了近年来一些经典关联规则算法的改进,并概述了相关算法在实际中的应用。最后对关联规则挖掘技术未来的发展趋势进行了讨论。关键字:关联规则;算法;数据挖掘;Abstract:associationruleminingisoneoftheimportantdataminingresea
2、rchcontentsinthisyear,manydomesticandforeignresearchershavedonealotofresearchonit.Inordertounderstandfurthertheassociationruleminingtechnology,andgraspthedevelopmentstatusanddirectionofresearchatpresent.Thisarticleofassociationruleminingtechnologyrelatedreview.Firstlyintrodu
3、cesthebasicconceptsofassociationrules,thenanalyzestheimprovementofsomeclassicalalgorithmofassociationrulesinrecentyears,andsummarizestheapplicationofrelatedalgorithmsinpractice.Attheendoftheassociationruleminingtechnologydevelopmenttrendinthefuturearediscussed.Keywords:assoc
4、iationrules;algorithms;datamining;引言随着计算机技术与数据库技术的飞速地发展,数据资源越来越多。但巨大的数据,依然没有解决我们的信息需求问题,针对这种情况,产生了数据库的数据挖掘。与传统技术相比,数据挖掘技术是一种新型的信息处理技术,能够自动和智能地把位置数据或者大量数据中潜在信息转换成人们需要的信息和知识的技术。它可以从数据库提取有用的知识、规律以及更高层次的信息,对这些进行分析,帮助人们更有效的利用海量数据中存在的价值。目前对数据挖掘的发展趋势及研究方向主要集中在数据挖掘的数据总结、分类、聚类、关联规则等方
5、面。而关联规则挖掘作为数据挖掘的核心内容之一,进来得到了很快的发展。并已经成为当今数据挖掘的热点。为此,对关联挖掘技术的研究具有重要的意义。本文将重点介绍关联规则挖掘技术的相关研究。主要对近年来关联规则挖掘技术的算法改进进行综述以及未来的发展方向。1、关联规则基本概念1.1相关介绍关联规则作为数据挖掘的核心研究内容之一,它是大量数据中发现信息之间可能存在的某种关联或者相关联系。通过分析这些挖掘出的数据联系,可以在现实中帮助我们预测或决定某些事情将会发生。有效的提高了我们制定出准确的决策。目前,关联规则挖掘技术广泛应用于金融、互联网、医学等多个领
6、域。最早的关联挖掘是未来发现交易数据库中不同商品之间的联系,通过分析这种联系获得有关购买者的一般的购买模式。从而有助于商家合理地安排进货、库存及货架设计,更好的制定发展计划和规避风险。1.2相关定义关联规则是通过形如X→Y的一种蕴涵式表达的,其中X和Y是不相关的项集,(X,Y)∈I,并且有X∩Y=NULL成立。关联规则强度可用通过支持度和置信度进行度量。支持度确定规则可以用于给定数据集的频繁程度,而置信度确定Y在包含X的事物中出现的频繁程度。支持度和置信度两个关键的相关形式定义[1]如下:(1)规则X→Y的支持度:规则X→Y在交易数据库D中的支
7、持度(support)是指交易集中包含X和Y的交易数与所有交易数之比,记为support(X→Y),即:support(X→Y)=
8、X∩Y
9、/
10、D
11、。(2)规则X→Y置信度(confidence):是指规则X→Y在交易集中的同时包含X和Y的交易数与只包含X的交易数之比,记为confidence(X→Y),即:confidence(X→Y)=
12、X∩Y
13、/
14、X
15、。规则的支持度和置信度是两个不同的量化标准。2、关联规则算法2.1典型的关联规则算法Apriori算法是最著名的关联规则挖掘算法,它是一种以概率为基础的关联规则算法。通过迭代检索方法找出数据
16、库中的项集,该项集的支持度要不低于用户设定的阀值。最后将这些项集合成得到所有数据库的频繁项集,利用这个构造出满足用户最小置信度的规则。但随着数据的增大
此文档下载收益归作者所有