数据挖掘——第二章认识数据

数据挖掘——第二章认识数据

ID:25257636

大小:1.18 MB

页数:112页

时间:2018-11-19

数据挖掘——第二章认识数据_第1页
数据挖掘——第二章认识数据_第2页
数据挖掘——第二章认识数据_第3页
数据挖掘——第二章认识数据_第4页
数据挖掘——第二章认识数据_第5页
资源描述:

《数据挖掘——第二章认识数据》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第2章认识数据数据对象数据集由数据对象构成一个数据对象代表一个实体例子:销售数据库salesdatabase:客户/顾客,商店物品,sales医学数据库:patients,treatments大学数据库:students,professors,courses又称为样本,事例,实例,数据点,对象,元组tuples.数据对象由属性来描述Databaserows->dataobjects;columns->attributes.属性属性Attribute(or维度,特征,变量):一个数据字段,表示一个数据对象的某个特征.E.g.,customer_ID,name,addres

2、s类型:名词性Nominal二元的数字的Numeric:数量的Interval-scaledRatio-scaled属性类型名词性Nominal:类别,状态,or“名目”Hair_color={auburn,black,blond,brown,grey,red,white}婚姻状态,职业occupation,IDnumbers,zipcodes二元只有2个状态的名词性属性(0and1)对称二元Symmetricbinary:同样重要的两相e.g.,gender非对称Asymmetricbinary:非同等重要e.g.,医疗检查(positivevs.negative)惯

3、例Convention:assign1tomostimportantoutcome(e.g.,HIVpositive)顺序的Ordinal值有一个有意义的顺序(排序)但连续值之间的大小未知.Size={small,medium,large},等级,军队排名数值属性的类型数量Quantity(integerorreal-valued)区间Interval在某个同等大小的一个尺度单位上Measuredonascaleofequal-sizedunits值有序E.g.,temperatureinC˚orF˚,calendardates没有真正的零点Ratio有真正的零点可以讲

4、值是被测量单位一个数量级(10K˚istwiceashighas5K˚).e.g.,温度在开尔文,长度,计数,货币的数量离散vs.连续属性DiscreteAttribute一个有限的或可数无限集值E.g.,zipcodes,thesetofwordsinacollectionofdocuments有时,表示为整数变量注:二元属性是离散属性的一个特殊情况ContinuousAttribute属性值为实数E.g.,temperature,height,orweight实际上,实值只能使用有限位数进行测量和代表连续属性通常表示为浮点变量数据概述数据的计量与类型数据的计量尺度数

5、据的类型数据的表现形式数据的计量尺度数据的计量尺度(LevelsofMeasurement)一般认为,数据是对客观现象计量的结果。按照对事物计量的精确程度,可将所采用的计量尺度由低级到高级分为四个层次:定类尺度(NominalLevel)定序尺度(OrdinalLevel)定距尺度(IntervalLevel)定比尺度(RatioLevel)定类尺度定类尺度(列名尺度):按照事物的某种属性对其进行平行的分类或分组。例:人口的性别(男、女);企业的所有制性质(国有、集体、私营等)计量层次最低对事物进行平行的分类各类别可以指定数字代码表示具有=或的数学特性数据表现为“类别

6、”定类尺度定类尺度只测度了事物之间的类别差,而对各类之间的其他差别却无法从中得知,因此各类地位相同,顺序可以任意改变。对定类尺度的计量结果,可以且只能计算每一类别中各元素个体出现的频数(frequency)。对事物进行分类时,必须符合穷尽(exhaustive)和互斥(mutuallyexclusive)要求。定序尺度定序尺度(顺序尺度):是对事物之间等级或顺序差别的一种测度。例:产品等级(一等品、二等品…);考试成绩(优、良、中、可、差)对事物分类的同时给出各类别的顺序比定类尺度精确不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序)数据表现为“类别”,但有

7、序定序尺度无法测出类别之间的准确差值该尺度的计量结果只能排序,不能进行算术运算。具有>或<的数学特性定距尺度定距尺度(间隔尺度):是对事物类别或次序之间间距的测度。例:100分制考试成绩;摄氏温度对不同地区温度的测量不仅能将事物区分为不同类型并进行排序,而且可准确指出类别之间的差距是多少比定序尺度精确定距尺度通常以自然或物理单位为计量尺度,因此数据表现为“数值”没有绝对零点;“0”是测量尺度上的一个测量点,并不代表“没有”计量结果可以进行加减运算,具有+或-的数学特性定比尺度定比尺度(比率尺度):是能够测算两个测度值之间比值的一种计量尺度

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。