欢迎来到天天文库
浏览记录
ID:61011776
大小:3.94 MB
页数:57页
时间:2021-01-19
《数据挖掘 第二章 认识数据.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章:认识数据数据对象和属性类型数据的基本统计描述数据可视化度量数据的相似性和相异性1数据对象DataObjects数据集由数据对象组成。一个数据对象代表一个实体(entity)。销售数据库:顾客,商品,销售医疗数据库:患者大学数据库:学生、教授、课程数据对象又称为样本、实例、数据点、或对象。数据对象用属性(attribute)描述。数据行对应数据对象;列对应属性。2属性Attributes属性(attribute)是一个数据字段,表示数据对象的一个特征。如:customer_ID,name,address类型:标称属性(nomin
2、al)二元属性(binary)序数属性(ordinal)数值属性(numeric)区间标度属性(interval-scaled)比率标度属性(ratio-scaled)3属性类型AttributeTypes标称属性(nominalattribute)其值是一些符号或者事物的名称。头发颜色={黑色,棕色,灰色,白色}二元属性(binaryattribute)是一种标称属性,只有两个状态:0或1。对称的(symmetric):两种状态具有同等价值,携带相同权重。如:性别非对称的(asymmetric):其状态的结果不是同样重要。如:艾滋病
3、毒的阳性和阴性结果。对重要的结果用1编码,另一个用0编码。4属性类型AttributeTypes序数属性(ordinalattribute)其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。成绩={优,良,中,差}其中心趋势可以用它的众数和中位数表示,但不能定义均值。注意标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。5属性类型AttributeTypes数值属性(numericattribute)区间标度(interval-scaled)属性使用相等的单位尺度度量。值有序,可
4、以评估值之间的差,不能评估倍数。没有绝对的零点。如:摄氏温度,华氏温度比率标度(ratio-scaled)属性具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。如:开式温温标(K),重量,高度,速度6属性类型AttributeTypes离散属性(discreteAttribute)具有有限或者无限可数个值。如:邮编、省份数目具有有限个值,customer_Id是无限可数的。可以用或者不用整数表示。连续属性(ContinuousAttribute)属性值为实数。一般用浮点变量表示。7第二章:认识数据数据对
5、象和属性类型数据的基本统计描述数据可视化度量数据的相似性和相异性小结8数据的基本统计描述目的更好地识别数据的性质,把握数据全貌:中心趋势度量,数据散布中心趋势度量(measuresofcentraltendency)均值、中位数、众数、中列数数据的散布(dispersionofthedata)极差、四分位数极差、五数概括、盒图数据可视化(graphicdisplaysofbasicstatisticaldescriptions)分位数图、分位数-分位数图、直方图、散点图9中心趋势度量均值(mean)加权算术平均:每i个xi与一个权重w
6、i相关联截尾均值:丢弃高低端极值中位数(median)有序数值的中间值数据集的中位数可以通过插值(interpolation)估算L1:中位数区间下界N:数据集中值的个数所有区间频率和中位数区间的频率width:中位数区间的宽度10习题2.3设给定的数据集已经分组到区间,这些区间和对应频率如图。计算该数据的近似中位数确定中位数所在组因此中位数在21~50组计算中位数11中心趋势度量众数(mode)数据集中出现频率最高的值最高频率对应多个峰值,分为单峰的(unimodal),双峰的(bimodal),三峰的(trimodal)经验公式:
7、中列数(midrange)最大数和最小数的平均值12对称数据和非对称数据对称、正倾斜、负倾斜数据的中位数、均值和众数13数据统计常识Quartiles,outliersandboxplots四分位数Quartiles:Q1(25thpercentile),Q3(75thpercentile)四位分数极差Inter-quartilerange:IQR=Q3–Q1五数概括Fivenumbersummary:min,Q1,median,Q3,max盒图Boxplot:分布直观表示,体现五数概括离群点Outlier:第三个四分位数之上或者第一
8、个四分位数之下至少1.5xIQR的值Varianceandstandarddeviation(sample:s,population:σ)方差Variance:标准差Standarddeviation方差的平方根14盒图
此文档下载收益归作者所有