概念描述特征化和比较.ppt

概念描述特征化和比较.ppt

ID:52346689

大小:264.00 KB

页数:39页

时间:2020-04-04

概念描述特征化和比较.ppt_第1页
概念描述特征化和比较.ppt_第2页
概念描述特征化和比较.ppt_第3页
概念描述特征化和比较.ppt_第4页
概念描述特征化和比较.ppt_第5页
资源描述:

《概念描述特征化和比较.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、概念描述特征化和比较2021/10/31DataMining:ConceptsandTechniques概念描述:特征化和比较(定性与对比)什么是概念描述?数据概化和基于汇总的特征化分析特征化:分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量2021/10/32DataMining:ConceptsandTechniques什么是概念描述?数据挖掘:描述性vs.预测性描述性数据挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质预测性数据挖掘:分析数据,建立一个或一组

2、模型,并试图预测新数据集的行为概念描述:描述性数据挖掘的一种最简单的类型一个概念:对一个包含大量数据的数据集合总体情况的概述。概念描述(conceptdescription):对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述。概念/类描述:特征化和区分(定性与对比)概念描述的主要方法:特征化:对目标数据进行概述性的总结(通过数据泛化得到)。比较:对两个或以上数据集合概化后,进行对比并将对比结果进行概化。(以表格或对比规则形式给出)如一个大学中讲师、副教授的情况讲师:75%(papers<3)an

3、d(teachingcourses<2)副教授:66%(papers>=3)and(teachingcourses>=2)2021/10/34DataMining:ConceptsandTechniques概念描述和OLAP概念描述:能够处理复杂的数据类型和各种汇总方法更加自动化OLAP:(联机分析处理,on-lineanalyticalprocessing)只能限制于少量的维度和数据类型用户控制的流程2021/10/35DataMining:ConceptsandTechniques特征化和比较什么是概念描

4、述?数据概化和基于汇总的特征化分析特征化:分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量2021/10/36DataMining:ConceptsandTechniques数据概化和基于汇总的特征化数据概化(datageneralization)将大量的相关数据从一个较低的概念层次转化到一个比较高的层次比如:青年、中年、老年来替代底层实际的年龄数据值又如:右图方法:OLAP方法:面向属性的归纳countryprovincecitystreet2021/10/37DataM

5、ining:ConceptsandTechniquesOLAP方法在数据立方体上进行计算和存储结果优点效率高能够计算多种汇总如:count,average,sum,min,max还可以使用roll-down和roll-up操作限制只能处理非数值化数据和数值数据的简单汇总。只能分析,不能自动的选择哪些字段和相应的概念层次2021/10/38DataMining:ConceptsandTechniques面向属性的归纳KDDWorkshop(89)中提出不限制于种类字段和特定的汇总方法方法介绍:使用某一方法(如S

6、QL)收集相关数据通过数据删除和数据概化来实现概化聚集通过合并相等的广义元组,并累计他们对应的计数值进行和使用者之间交互式的呈现方式.2021/10/39DataMining:ConceptsandTechniques基本方法数据聚焦:选择和当前分析相关的数据,包括维。属性删除:如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。属性阈值控制:typical2-8,speci

7、fied/default.概化关系阈值控制:控制最终关系的大小基本算法InitialRel:得到相关数据,形成(与任务相关的)初始关系表PreGen:通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。PrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。结果的表示:概化关系、交叉表、3D立方体类特征化:示例PrimeGeneralizedRelationInitialRelation新增加概化结果的表示概化关系:一个表格,其中有属性字段,后附汇总方法。

8、交叉表:二维交叉表可视化方法:Piecharts,barcharts,curves,cubes,andothervisualforms.量化特征规则:带有量化信息的逻辑规则表达方式-概化关系2021/10/314DataMining:ConceptsandTechniques表达方式—交叉表(行列均为属性)销售额(百万美元)销售数量(千台)2021/10/315DataMining:Concepts

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。