资源描述:
《数据挖掘 概念和技术3》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘:概念和技术—Chapter6—©张晓辉xiaohui@fudan.edu复旦大学(国际)数据库研究中心2001-11-61数据挖掘:概念和技术第6章:从大数据库中挖掘关联规则关联规则挖掘从交易数据库中挖掘一维的布尔形关联规则从交易数据库中挖掘多层次关联规则在交易数据库和数据仓库中挖掘多维关联规则从关联挖掘到相关性分析基于约束的关联挖掘小结2001-11-62数据挖掘:概念和技术多层关联规则项通常具有层次底层的项通常支持度也低某些特定层的规则可能更有意义交易数据库可以按照维或层编码可以进行共享的多维挖掘食品面包牛奶脱脂奶光明统一酸奶白黄200
2、1-11-63数据挖掘:概念和技术挖掘多层关联规则自上而下,深度优先的方法:先找高层的“强”规则:牛奶®面包[20%,60%].再找他们底层的“弱”规则:酸奶®黄面包[6%,50%].多层关联规则的变种层次交叉的关联规则:酸奶®复旦面包房黄面包不同种分层方法间的关联规则:酸奶®复旦面包房面包2001-11-64数据挖掘:概念和技术多层关联规则:支持度不变vs.支持度递减支持度不变:在各层之间使用统一的支持度+一个最小支持度阈值.如果一个项集的父项集不具有最小支持度,那他本身也不可能满足最小支持度。–底层项不会成为频繁集,如果支持度太高丢失底层关联规则
3、太低生成太多的高层关联规则支持度递减:随着层次的降低支持度递减4种搜索策略:层与层独立用k-项集跨层过滤用项跨层过滤用项进行可控跨层过滤2001-11-65数据挖掘:概念和技术支持度不变支持度不变多层挖掘牛奶[support=10%]酸奶[support=6%]脱脂奶[support=4%]层1min_sup=5%层2min_sup=5%2001-11-66数据挖掘:概念和技术支持度递减支持度递减多层挖掘酸奶[support=6%]脱脂奶[support=4%]层1min_sup=5%层2min_sup=3%牛奶[support=10%]2001-1
4、1-67数据挖掘:概念和技术多层关联:冗余过滤由于“祖先”关系的原因,有些规则可能是多余的。例子牛奶白面包[support=8%,confidence=70%]酸奶白面包[support=2%,confidence=72%]我们称第一个规则是第二个规则的祖先参考规则的祖先,如果他的支持度与我们“预期”的支持度近似的话,我们就说这条规则是冗余的。2001-11-68数据挖掘:概念和技术多层挖掘:深度优先自顶向下,深度优先的方法:先挖掘高层频繁项:牛奶(15%),面包(10%)再挖掘他们底层的相对较弱的频繁项:酸奶(5%),白面包(4%)跨层时对支持度
5、的不同处理方法,对应了不同的算法:层之间支持度不变:如果t的祖先是非频繁的,则不用考虑t支持度随层递减:则只考虑那些其祖先是频繁的/不可忽略的项2001-11-69数据挖掘:概念和技术数据挖掘查询的逐步精化为什么要逐步精化挖掘操作的代价可能高或低,结果可能细致或粗糙在速度和质量之间折衷:逐步精化超集覆盖特征:预存储所有正面答案—允许进一步正确性验证,而不必验证已经错误的2或多步挖掘:先执行粗糙的、容易的操作(超集覆盖)然后在减少后的候选集上进行计算量大的算法(Koperski&Han,SSD’95).2001-11-610数据挖掘:概念和技术逐步求精空
6、间关联规则挖掘空间关系的层次:“g_close_to”:邻近,接触,交叉,包含先搜索粗糙的关系然后再精化2001-11-611数据挖掘:概念和技术逐步求精空间关联规则挖掘(2)空间关联规则的两步算法:步骤1:粗糙空间计算(用于过滤)用MBR或R-tree做粗糙估计步骤2:细致空间算法(用于精化)只计算已经通过空间计算的对象2001-11-612数据挖掘:概念和技术第6章:从大数据库中挖掘关联规则关联规则挖掘从交易数据库中挖掘一维的布尔形关联规则从交易数据库中挖掘多层次关联规则在交易数据库和数据仓库中挖掘多维关联规则从关联挖掘到相关性分析基于约束的关联挖
7、掘小结2001-11-613数据挖掘:概念和技术多维关联规则:概念单维规则:buys(X,“milk”)buys(X,“bread”)多维规则:2个以上维/谓词维间关联规则(维词不重复)age(X,”19-25”)occupation(X,“student”)buys(X,“coke”)混合维关联规则(维词重复)age(X,”19-25”)buys(X,“popcorn”)buys(X,“coke”)类别属性有限个值,值之间无顺序关系数量属性数字的,值之间隐含了顺序关系2001-11-614数据挖掘:概念和技术挖掘多维关联的技术搜索频繁k-维
8、词集合:如:{age,occupation,buys}是一个3-维词集合。按照对age处理方式