数据探查与预处理.ppt

数据探查与预处理.ppt

ID:53051274

大小:1.86 MB

页数:44页

时间:2020-04-16

数据探查与预处理.ppt_第1页
数据探查与预处理.ppt_第2页
数据探查与预处理.ppt_第3页
数据探查与预处理.ppt_第4页
数据探查与预处理.ppt_第5页
资源描述:

《数据探查与预处理.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、数据探查张英05八月2021数据质量数据对应用的适合性:相关性、完备性、时效性数据的可用性:属性含义及其取值的可理解性数据集成程度数据的规模及抽样偏倚数据收集和测量问题收集问题测量问题05八月2021数据特征属性类型与测量水平定性与定量、分散与连续数据的粒度与单位缺失值与数据的稀疏性基本统计特征05八月2021数据对象(实例、记录、观测)属性(变量、维、特征)字符型(分类属性、定性属性)二元(BINARY)属性对称二元属性例如:性别不对称二元属性例如:是否欺诈,只关注非零值标称(NOMINAL)属性(类别属性)(定类

2、变量)取值无序例如:职业、专业、婚姻状况序数(ORDINAL)属性(定序变量)取值有序例如:职称、满意度05八月2021数值型(定量属性)区间(INTERVAL)属性(定距变量)例如:温度比率(RATIO)属性(定比变量)例如:成绩、收入、利润、人数05八月2021属性类型的不同操作特征05八月2021注意:每种类型拥有其上方类型的性质和操作缺失值和数据的稀疏性--排序的影响05八月2021基本统计描述属性取值的一般水平属性取值的离散程度分布的对称性与中心集中度属性间取值的相关性05八月2021数据的中心趋势数值属性

3、均值中位数截尾均值三均值字符属性众数05八月2021x8.08.08.08.08.08.08.019.08.08.08.0数据的离散程度数值属性极差、方差、标准差、平均绝对偏差四分位数与四分位极差QR=Q3-Q1变异系数字符属性取值个数05八月2021下截断点:Q1-1.5*QR上截断点:Q3+1.5*QR孤立点<下截断点或孤立点>上截断点CV=数据分布的对称性05八月2021偏度数据分布的中心集中度05八月2021峰度为负正态分布,峰度为0峰度为正属性间的相关性相关系数夹角余弦05八月2021A、B属性为标称属性或

4、二元属性,其取值个数分别为c,rOij:实际频数eij:期望频数自由度:(r-1)*(c-1)原假设:A和B独立性别与阅读兴趣相关?结论:性别与阅读兴趣相关05八月2021安斯库姆四重奏一二三四xyxyxyxy10.08.0410.09.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.

5、9614.08.1014.08.848.07.046.07.246.06.136.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.745.05.738.06.8905八月2021统计量数值x的均值9x的方差11y的均值7.50y的方差4.122或4.127x与y之间的相关系数0.816数据的图形表示分位数图直方图或柱形图盒形图茎叶图饼图散点

6、图、折线图05八月2021等高线图平行坐标系图形矩阵星型坐标图Chernoff脸图……分位数图05八月2021MQ1Q3MQ1Q3直方图(柱形图)05八月2021盒形图05八月2021中位数平均数Q1Q3上截断点或最大值下截断点或最小值孤立点散点图05八月2021多维图05八月2021平行坐标系Chernoff脸图星型坐标图客户信息数据问题举例部分属性值为空收入为0出生日期填写为1900.1.1不同地区的客户分散在不同的数据集中不同的属性分散在不同的数据集中客户数量太大、属性个数太多缺乏年龄属性收入分布偏斜地址对分析

7、目标而言太详细05八月2021数据预处理数据清洗数据集成数据消减数据转换复杂数据类型的预处理05八月2021数据质量分析方法需求数据清洗处理错误或不一致的数据处理缺失值识别处理孤立点平滑噪声数据05八月202105八月2021缺失值的处理忽略该条记录填补人工确定值或固定值均值(中位数)或众数同类别的均值(中位数)或众数预测值:利用分类预测技术推断出最大可能取值增加标识变量识别并处理孤立点识别常识统计规则聚类,…处理去除视为噪声,进行平滑05八月2021噪声平滑分箱聚类回归05八月202105八月2021分箱(Bin)

8、等高分箱:每箱数据个数相同等宽分箱:每箱的箱距相同排序确定箱数确定每箱数据个数确定箱距分配替换05八月2021等高分箱方法举例4,15,25,34,8,21,26,9,24,28,29,21(1)排序:4,8,9,15,21,21,24,25,26,28,29,34(2)将数据分割为等高的3箱,每箱4个数据项:-Bin1:4,8,9,15-Bi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。