欢迎来到天天文库
浏览记录
ID:54018158
大小:982.92 KB
页数:6页
时间:2020-04-28
《基于关联规则的数据挖掘技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、研究与开发文章编号:1007-1423(2015)14-0018-05DOI:10.3969/j.issn.1007-1423.2015.14.005基于关联规则的数据挖掘技术研究万晓燕,陈姗(青岛酒店管理职业技术学院信息工程技术学院,青岛266100)摘要:由于信息技术领域的飞速发展,在我国数据挖掘技术已经被广泛应用于与生活息息相关的领域中,针对Apriori算法的关联规则的数据挖掘中所存在的诸多问题,介绍基于粒计算算法的关联规则数据挖掘技术,它是在传统算法上的优化改进。通过具体的实证分析,比较分析Ap
2、riori算法和基于粒计算算法的不同效果。因而得出结论,粒计算算法的关联规则数据挖掘技术在进行数据挖掘处理时更加可行直观且高效,构建一个良好的、开放式的数据挖掘平台。关键词:数据挖掘技术;Apriori算法;粒计算;关联规则;数据挖掘平台0引言在数据库当中的频繁项集。数据挖掘技术是在信息领域中发展最迅速的技1基于关联规则的数据挖掘基本方法术,许多领域内的专家,例如统计学家和数据库专家都需要准确尽快地获取自己所需信息,这都促进了数据关联规则的数据挖掘的数据集称作事务数据库,挖掘技术的不断进步。同时随着信息技
3、术的发展也带给定为D={t1,t2,…,tk,…,tn)。其中tk={i1,i2,…,im,ip)(k=动了采集方式和能力的不断高端化,使我们积累的数1,2,…,n)称为事务,im(m=1,2,…,p)称为项目。据快速膨胀。一方面,这些海量的数据为合理正确的决在实际的分析过程中,首先需要设定I=(i1,i2,…,策提供了基础条件,但如何从一堆数据中识别有用信im)属于数据库D,且在I中的每个随机的子集X都是息则需要耗费大量的人力物力。数据挖掘技术在发展D中的一个项目集,
4、X
5、=k表示为子集X的集合,同时进
6、步的过程中综合理论统计学知识等发展出了自动的属于k项目集。tk表示数据库D的事物,X表示数据库模式识别功能和数字人工智能,广泛应用到机器研究D的项目集。对于任意数据库D的事物tk有着唯一的和神经网络等专业领域。标示符,也称其为TID。X项目集的支持数在数据库D关联规则的数据挖掘方法的流程主要是:综合频中属于其事物数,表示为σ[3]x。因此可以求得项目集支繁项集,由频繁项集寻找强关联规则,发现在某一交易持度为:support(X)=σx×100%[6]。若support(X)≥数据库中各个不同项之间的联系,
7、所有这些关联规则D是对所需检测对象的某种特殊模式的反映[3]。但无论在support(X)min,则X为频繁项目集,也称作是频集;若商业零售领域还是金融电信等领域整个数据量是巨大support(X)8、现联规则为X圯Y,且X圯Y的决定因数为X、Y。趤趻现代计算机2015.05中研究与开发在描述关联规则时需要注意两个关键度,分别是支持度和置信度。一般将项目集X∪Y的支持度称作当前的普遍的串行算法表述中,AgrawalR.等人提是关联规则X圯Y的支持度,表示为:support(X圯Y)=出的Apriori算法是应用最为广泛的,以Apriori算法为support(X∪Y),同时也将其置信度表示为:confidence基础,衍生出更多的算法,其核心是最大限度的构建最(X圯Y)=support(X∪Y)×1,一9、般情况下用户挖掘需求小的候选项目集,再将频繁项目集的随机子集进行关support(X)联运算分析。指定最小置信度表示为minconfidence。Apriori算法以构建频繁项目集为主要方式来完成若support(X圯Y)minsupport且support(X圯Y)minconfidence项目集元素的数量,首先获得1-频繁项集L1,再获得,就称关联规则X圯Y为强规则,否则就称关联规则X圯Y为弱规则。2-频繁项集L2,如扩展结束,则整个算法停止。当第k挖掘数据集中的全部强规则,是关联规则挖掘中次循环时,10、需要首先产生k-候选项集,并且在集合ck的一个主要任务。强规则X圯Y对应的项目集(X∪Y)内,在经过数据库的支持度运算获取k-频繁项集Lk。为频集,则频集(X∪Y)导出的强关联规则X圯Y的置因此将Apriori算法归纳为三个步骤[7~9]:信度通过频集与X圯Y的支持度的计算结果得出。综首先是频繁k-1项集自连接获得长度为k的候选上所述,能够将基于关联规则的数据挖掘切割为两个k项集ck;子问题:一是通过minsupport发现数
8、现联规则为X圯Y,且X圯Y的决定因数为X、Y。趤趻现代计算机2015.05中研究与开发在描述关联规则时需要注意两个关键度,分别是支持度和置信度。一般将项目集X∪Y的支持度称作当前的普遍的串行算法表述中,AgrawalR.等人提是关联规则X圯Y的支持度,表示为:support(X圯Y)=出的Apriori算法是应用最为广泛的,以Apriori算法为support(X∪Y),同时也将其置信度表示为:confidence基础,衍生出更多的算法,其核心是最大限度的构建最(X圯Y)=support(X∪Y)×1,一
9、般情况下用户挖掘需求小的候选项目集,再将频繁项目集的随机子集进行关support(X)联运算分析。指定最小置信度表示为minconfidence。Apriori算法以构建频繁项目集为主要方式来完成若support(X圯Y)minsupport且support(X圯Y)minconfidence项目集元素的数量,首先获得1-频繁项集L1,再获得,就称关联规则X圯Y为强规则,否则就称关联规则X圯Y为弱规则。2-频繁项集L2,如扩展结束,则整个算法停止。当第k挖掘数据集中的全部强规则,是关联规则挖掘中次循环时,
10、需要首先产生k-候选项集,并且在集合ck的一个主要任务。强规则X圯Y对应的项目集(X∪Y)内,在经过数据库的支持度运算获取k-频繁项集Lk。为频集,则频集(X∪Y)导出的强关联规则X圯Y的置因此将Apriori算法归纳为三个步骤[7~9]:信度通过频集与X圯Y的支持度的计算结果得出。综首先是频繁k-1项集自连接获得长度为k的候选上所述,能够将基于关联规则的数据挖掘切割为两个k项集ck;子问题:一是通过minsupport发现数
此文档下载收益归作者所有