资源描述:
《数据挖掘原语和挖掘语言》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、挖掘原语,语言和体系结构数据挖掘原语数据挖掘语言数据挖掘系统体系结构总结数据挖掘原语划分挖掘相关的数据挖掘的知识类型背景知识模式的兴趣度量结果的表示与可视化任务相关数据数据库(或数据仓库)名称例如:AllElectronics_db数据库表(或数据仓库的立方体)例如:表item,customer,purchase,items_sold数据选择条件例如:选取本年度加拿大地区购买商品的数据选取条件可能在概念上层次高于DB/DW的数据如:”type=homeentertainment”,DB/DW中数据{tv,cdplayer,vcr}有关的属性(或维)例如:item表的name,price属性
2、;customer表的income,age属性。系统应具备自动选取相关属性的机制,比如通过评估各属性与特定操作的相关程度。数据分组的标准例如:根据日期进行分组挖掘的知识类型描述(characterization)区别分析(discrimination)关联(association)分类/预测(classification/prediction)聚类(clustering)例:用户如果想发掘AllElectronics数据库中用户的购买习惯,可能会选择下面关联规则:P(X:customer,W)^Q(X,Y)=>buys(X,Z)X是customer表的主键,P,Q是谓词变量(在相关数据中定
3、义),W,Y,Z是目标变量。可能的挖掘结果是:age(X,”30…39”)^income(X,”40k…49k”)=>buys(X,”VCR”)[2.2%,60%]accupation(X,”student”)^age(X,”20…29”)=>buys(X,”computer”)[1.4%,70%]背景知识:概念层次概念层次模式层次(schemahierarchy)例:Street4、young,{40-59}=middle_aged基于操作层次(operation-derivedhierarchy)包括信息解码,复杂数据对象的信息提取,数据聚类,数据分布分析算法等例:emailaddress:login-name5、决策树规模大小确定性(certainty)如:confidence,P(A
6、B)=n(AandB)/n(B),classificationreliabilityoraccuracy(alsoknownasrulereliability,rulestrength,rulequality,certaintyfactor,discriminatingweight)等.有用性(utility)如:support(association),s(A=>B)=n(AndB)/n(all),noisethreshold(description)新颖程度(novelty)如:notpreviouslykno
7、wn,surprising(usedtoremoveredundantrules,e.g.,Canadavs.Vancouverruleimplicationsupportratio结果模式的可视化挖掘系统应能够用多种形式来显示发掘出来的模式如:规则,表,报表,图表,图,决策数和立方体挖掘系统应能够支持挖掘结果的多种操作如:drill-down,roll-up,slicing,dicing,rotation…挖掘原语,语言和体系结构数据挖掘原语数据挖掘语言数据挖掘系统体系结构总结DMQL——一个数据挖掘语言动机为了能提供交互式数据挖掘能力通过提供一个类似SQL的语言希望能像SQL语言一样成
8、为挖掘标准语言希望成为系统开发和演化(evolution)的基础希望促进信息交换,技术转移,商业化并获得广泛承认设计DMQL在前面介绍的挖掘原语基础之上进行设计任务相关数据的语法表示usedatabase,orusedatawarehousefromwhere[]inrelevancet