欢迎来到天天文库
浏览记录
ID:5228677
大小:87.00 KB
页数:4页
时间:2017-12-06
《数据挖掘课程论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、《数据挖掘》课程论文数据挖掘中常用的关联规则挖掘算法计算机科学与通信工程学院,模式识别与智能系统专业摘要:文中首先介绍了数据挖掘中关联规则的经典算法—Apriori算法。再从宽度、深度、划分、采样、增量式更新等几个角度对关联规则挖掘进行了分类讨论。然后运用文献查询和比较分析的方法对常见的关联规则挖掘算法进行了概述,主要包括FP-growth算法、DHP算法、Partition算法、FUP算法、CD等算法。最后对关联规则挖掘的发展远景进行了展望。关键词:数据挖掘;关联规则;频繁项集;挖掘算法Comm
2、onAlgorithmsofAssociationRulesMininginDataMiningComputerScienceandCommunicationEngineering,PatternRecognitionandIntelligentSystemsAbstract:Thispaperfirstintroducesthedataminingassociationrulesintheclassicalalgorithm-Apriorialgorithm.Againfromthedepth,
3、widthanddivision,sampling,incrementalupdatingaspectsofassociationrulesminingareclassifieddiscussions.Thenusetheliteraturesearchandthemethodofcomparisontothecommonalgorithmforminingassociationrulesaresummarized,includingtheFP-growthalgorithm,Partitiona
4、lgorithm,thealgorithm,DHP,FUPalgorithm,CD.Theassociationrulesminingdevelopmentprospectisdiscussed.Keywords:Datamining;Associationrule;Frequentitemsets;Miningalgorithm第4页共4页《数据挖掘》课程论文1引言数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryInDatabase),是从大量的、不
5、完整的、有噪声的、模糊的、随机的大型数据中提取隐含在其中的、人们事先未知的、具有潜在价值的信息和知识的过程[1]。简单的说,数据挖掘就是从大量数据中提取或“挖掘”出人们有用的知识。面对当前“海量数据,微量信息”的现状,数据挖掘的重要研究分支—关联规则,作为一种高级和智能的数据处理和分析技术的研究正方兴未艾。通过关联规则挖掘,可以得到隐含于海量数据中具有潜在价值的有用信息。关联规则的目标是以有效的方式提取最有趣的模式。关联规则挖掘是数据挖掘领域一个重要的研究课题。关联规则一般可分为布尔型关联规则和多
6、值属性关联规则。Agrawal于1993年提出布尔型关联规则问题,之后提出了经典的Apriori和AprioriTID算法[2]。多值属性分为类别属性和数值属性,很多算法在解决多值属性关联规则挖掘时,都是将连续数值离散化,得到相应的模糊文字描述,然后其处理方法类似于布尔型关联规则挖掘。传统的关联挖掘算法认为数据库中各个项的重要程度相同,然而在现实中各个项的重要性往往不同。例如,决策者往往会优先考虑利润较高的项目,而忽略利润较低的项目。另外,时间的推移以及消费习惯的改变也会对关联规则产生影响,时间间
7、隔较短的事务所产生的关联规则尽管支持度不太高,却能很好地反映新的消费趋势,因此,在实际分析数据时,利用加权关联规则是有意义的。文献[2]提出布尔型属性加权关联规则的概念,并给出2种加权关联规则的挖掘算法:MINWAL(O)算法和MINWAL(W)算法,但前者的加权支持度可能大干I,后者的加权支持度不一定支持含有属性数多的加权关联规则,也不能很好地突出重点项目,文献[3]采用权重集归一化的思想对这2种算法做了改进。文献[4]提出了一种基于概率的加权关联规则算法。文献[5]提出了基于Apriori算法
8、的水平加权关联规则挖掘方法,较好地突出了权值的作用。2关联规则的基本概念设集合I={i1,i2,…,im},其中,ik(k=1,2,…,m)表示项。如果X∈I,集合X被称为项集。当
9、X
10、=k,则X被称为k-项集。事务二元组T=(tid,X),tid第4页共4页《数据挖掘》课程论文是事务唯一的标识符称为事务号。数据集D={t1,-t2,t3,…,tn}是由t1,t2,t3,…,tn事务组成的集合。关联规则可以描述为:形如A=>B的蕴涵式,其中A∈I,B∈I,并且A∩B=¢。项集X的支
此文档下载收益归作者所有