最新数据挖掘-第二章-认识数据课件PPT.ppt

最新数据挖掘-第二章-认识数据课件PPT.ppt

ID:62137541

大小:4.32 MB

页数:78页

时间:2021-04-18

最新数据挖掘-第二章-认识数据课件PPT.ppt_第1页
最新数据挖掘-第二章-认识数据课件PPT.ppt_第2页
最新数据挖掘-第二章-认识数据课件PPT.ppt_第3页
最新数据挖掘-第二章-认识数据课件PPT.ppt_第4页
最新数据挖掘-第二章-认识数据课件PPT.ppt_第5页
资源描述:

《最新数据挖掘-第二章-认识数据课件PPT.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、进入夏天,少不了一个热字当头,电扇空调陆续登场,每逢此时,总会想起那一把蒲扇。蒲扇,是记忆中的农村,夏季经常用的一件物品。  记忆中的故乡,每逢进入夏天,集市上最常见的便是蒲扇、凉席,不论男女老少,个个手持一把,忽闪忽闪个不停,嘴里叨叨着“怎么这么热”,于是三五成群,聚在大树下,或站着,或随即坐在石头上,手持那把扇子,边唠嗑边乘凉。孩子们却在周围跑跑跳跳,热得满头大汗,不时听到“强子,别跑了,快来我给你扇扇”。孩子们才不听这一套,跑个没完,直到累气喘吁吁,这才一跑一踮地围过了,这时母亲总是,好似生气的样子,边扇边训,“你看热的,跑什

2、么?”此时这把蒲扇,是那么凉快,那么的温馨幸福,有母亲的味道!  蒲扇是中国传统工艺品,在我国已有三千年多年的历史。取材于棕榈树,制作简单,方便携带,且蒲扇的表面光滑,因而,古人常会在上面作画。古有棕扇、葵扇、蒲扇、蕉扇诸名,实即今日的蒲扇,江浙称之为芭蕉扇。六七十年代,人们最常用的就是这种,似圆非圆,轻巧又便宜的蒲扇。  蒲扇流传至今,我的记忆中,它跨越了半个世纪,也走过了我们的半个人生的轨迹,携带着特有的念想,一年年,一天天,流向长长的时间隧道,袅数据挖掘-第二章-认识数据数据对象DataObjects数据集由数据对象组成。一个

3、数据对象代表一个实体(entity)。销售数据库:顾客,商品,销售医疗数据库:患者大学数据库:学生、教授、课程数据对象又称为样本、实例、数据点、或对象。数据对象用属性(attribute)描述。数据行对应数据对象;列对应属性。2属性Attributes属性(attribute)是一个数据字段,表示数据对象的一个特征。如:customer_ID,name,address类型:标称属性(nominal)二元属性(binary)序数属性(ordinal)数值属性(numeric)区间标度属性(interval-scaled)比率标度属性(

4、ratio-scaled)3属性类型AttributeTypes离散属性(discreteAttribute)具有有限或者无限可数个值。如:邮编、省份数目具有有限个值,customer_Id是无限可数的。可以用或者不用整数表示。连续属性(ContinuousAttribute)属性值为实数。一般用浮点变量表示。7第二章:认识数据数据对象和属性类型数据的基本统计描述数据可视化度量数据的相似性和相异性小结8数据的基本统计描述目的更好地识别数据的性质,把握数据全貌:中心趋势度量,数据散布中心趋势度量(measuresofcentralte

5、ndency)均值、中位数、众数、中列数数据的散布(dispersionofthedata)极差、四分位数极差、五数概括、盒图数据可视化(graphicdisplaysofbasicstatisticaldescriptions)分位数图、分位数-分位数图、直方图、散点图9中心趋势度量均值(mean)加权算术平均:每i个xi与一个权重wi相关联截尾均值:丢弃高低端极值中位数(median)有序数值的中间值数据集的中位数可以通过插值(interpolation)估算L1:中位数区间下界N:数据集中值的个数所有区间频率和中位数区间的频率

6、width:中位数区间的宽度10习题2.3设给定的数据集已经分组到区间,这些区间和对应频率如图。计算该数据的近似中位数确定中位数所在组因此中位数在21~50组计算中位数11中心趋势度量众数(mode)数据集中出现频率最高的值最高频率对应多个峰值,分为单峰的(unimodal),双峰的(bimodal),三峰的(trimodal)经验公式:中列数(midrange)最大数和最小数的平均值12对称数据和非对称数据对称、正倾斜、负倾斜数据的中位数、均值和众数13数据统计常识Quartiles,outliersandboxplots四分位数

7、Quartiles:Q1(25thpercentile),Q3(75thpercentile)四位分数极差Inter-quartilerange:IQR=Q3–Q1五数概括Fivenumbersummary:min,Q1,median,Q3,max盒图Boxplot:分布直观表示,体现五数概括离群点Outlier:第三个四分位数之上或者第一个四分位数之下至少1.5xIQR的值Varianceandstandarddeviation(sample:s,population:σ)方差Variance:标准差Standarddeviati

8、on方差的平方根14盒图五数概括Minimum,Q1,Median,Q3,Maximum盒图盒的端点在四分位数上,使得盒长度为四分位数极差IQR中位数用盒内线标记盒外线延伸到最小和最大的观测值153-D盒图16基本统计图盒图Boxpl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。