欢迎来到天天文库
浏览记录
ID:53021555
大小:443.54 KB
页数:44页
时间:2020-04-15
《韩家炜-数据挖掘:概念与技术-第2章ppt.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章了解你的数据2014.10目录2.1数据对象和属性类型2.2数据的基本统计描述2.3数据可视化2.4衡量数据相似性和相异性2.5总结2.1DataObjectsandAttributeTypes2.1.1WhatisanAttribute?2.1.2NominalAttributes2.1.3BinaryAttributes2.1.4OrdinalAttributes2.1.5NumericAttributes2.1.6DiscreteversusContinuousAttributes2.2BasicStatisticalDe
2、sciptionsofData2.3DataVisualization2.4MeasuringDataSimilarityandDissimilarity2.5Summary2.1数据对象和属性类型数据集是由数据对象构成的。一个数据对象表示一个实体——在销售数据库中,对象可以是顾客、商品或者销售记录。在医学数据库中,数据对象可以是病人。在大学数据库中,数据对象可以是学生、教授和课程。数据对象用属性来描述。数据对象可以是一个抽样、举例、实例、数据点或者对象。如果数据对象存放在数据库中,它们是数据元组。即数据库中行对应数据对象,列对应于属
3、性。2.1.1什么是属性?一个属性是一个域,表示一个数据对象的一个特征。“属性”、“维度”、“特征”和“变量”这些词在语义上是可交换的。“维度”通常被用在数据仓库中,机器学习中倾向于使用“特征”;统计学倾向使用“变量”,数据挖掘和数据库经常使用“属性”。属性描述一个顾客对象,如:顾客ID,姓名,地址。对给定的属性的可观察值被称为观察。刻画一个给定对象的属性集合被称为属性向量(或特征向量)。包含单个属性的数据分布被称为单变量的分布;包含2个属性的被称为二变量的分布。属性的类型是有属性可取的值决定的,有名词、二进制型、顺序值或者数值类型。
4、2.1.2名词属性名词属性的值是事物的标号或者名称。每一个值表示类别、编码或者状态。因此名词属性被称为是分类。值没有次序信息。在计算机领域,也可以称为枚举型。举例如:发色和婚姻状态。发色可以是黑色,棕色,红色,灰色,白色。婚姻状态可以是单身、已婚、离异或者丧偶。这些都是名词属性。尽管名词属性是标号或者名称,但也可以是数值的表示形式。比如,发色,可以用0表示黑色,1表示棕色等。顾客ID可以是数字。但是,在这种情况,数字并不被当成数值来使用。因为名词属性不包含任何顺序信息也非数值型,所以不用终止或者平均数去衡量这类属性。可以使用属性最多出
5、现的值,“众数”来做中心性测量。2.1.2二进制属性二进制属性是只有两个类别或状态:0和1.0一般表示属性缺失,1表示存在。二进制属性也即bool型,两个状态表示真和假。举例。如,病人对象的吸烟属性,1表示吸烟,0表示不吸烟。再比如,病人的某个医学检查结果有两种情况。1表示结果为阳性,0表示为阴性。如果二进制属性的两个状态是同等有价值的具有相同的权重,则为对称的。2个属性被标为1或者0都可以,比如性别属性的两个值男和女。如果两个状态不是同等重要的,则为非对称的。比如HIV检查的结果呈阴性和阳性。通常,用1表示更重要的通常是更稀少的结果
6、,其他的用0表示。2.1.4次序属性次序属性具有次序或者级别的意义。但是相邻值的级别未知。举例:例如饮料尺寸,可以是“小杯”,“中杯”,“大杯”。值有顺序的意义,但是不能分辨中杯比大杯大多少。再比如,成绩等级A+,A,A-,B+职称:助理,副教授,教授次序属性被用来衡量无法客观衡量的属性,用主观的评估定质量。在调查中常用来排序。比如,参与者作为顾客,他们的满意度可以是:0:非常不满意,1有点不满意,2中立3满意4很满意把数值数据离散化,把它们按照值的范围分类,也可以得到次序属性的数据。次序属性的中心性可以用众数和中值来衡量,但是不能计
7、算平均数。名词属性、二进制属性和次序属性都是定性的。它们在描述一个对象的特征时不给出具体的尺寸和数量。值通常是一个词表示类别,即使以整数的方式表现,也不是表示数量。2.1.5数值型属性数值型属性是定量的,是可测量的数值,为整数或实数。分为间隔尺度和比例尺度。间隔尺度属性间隔尺度使用同等大小的单元来衡量。间隔尺度属性有大小,可以是正,0或者负值。除了能对属性值排序,还可以比较和衡量不同值的差值大小。举例:温度属性是间隔尺度。20摄氏度高于15摄氏度。日历也是间隔尺度,以及年份。Celsius和Fahrenhet是两个温度,没有绝对0点,
8、并且我们能计算温度的差值,但是不能说一个值是另一个值的多少倍,例如10摄氏度比5摄氏度温暖2倍。间隔尺度是数值型的,可以计算平均值,中值和众数。比例尺度比例尺度属性是数值型的,有固定的0值。如果一个测量是比例尺度,则可以
此文档下载收益归作者所有