欢迎来到天天文库
浏览记录
ID:40232788
大小:1.14 MB
页数:15页
时间:2019-07-27
《第3章大数据管理》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第3章大数据管理本章内容3.1大数据的清洗3.1.1数据质量3.1.2数据清洗的作用3.1.3数据清洗的方法和过程3.1.4数据清洗实例3.2数据类型和数据转换3.2.1数据类型3.2.2数据转换3.3大数据的提取和加载实验3数据处理3.1大数据的清洗大数据时代下,管理的关键依靠着数据,但随着信息量的不断增长、智慧工具的不断涌现,如何对数据进行有效清洗实现数据的真实性,有效性,唯一性变得十分具有挑战。为了使数据的记录更准确、一致,消除重复和异常记录就变得很重要,所以数据预处理工作是相当必要的。数据清洗作为数据预处理的一个重要环节,在大数据分析过程中
2、占据重要位置。3.1.1数据质量1.数据质量的四大要素在技术发展的不同阶段,对数据质量有不同的定义和标准。早期对数据质量的评价标准主要以数据准确性为出发点,随着信息系统功能和定位的不断延伸,用户关心的重点逐步由数据准确性扩展至合法性、一致性等方面。归纳起来,数据质量具有四大要素:①完整性②一致性③准确性④及时性2.数据质量管理的关键①制订规范的数据质量度量标准②建立有效的数据质量监管体系③建立完善的数据质量管理制度3.1.2数据清洗的作用数据清洗就是按照一定的规则把“脏数据”“洗掉”,过滤不符合要求的数据,主要包括不完整的数据、错误的数据、重复的数
3、据,然后将过滤的结果交给业务主管部门,确认是否过滤掉还是修正之后再进行提取。因此如何对数据进行有效的清理和转换,使之成为符合数据分析要求的数据源,是影响数据分析准确性的关键因素。3.1.3数据清洗的方法和过程1.数据清洗的方法①通过人工检查②通过专门编写的应用程序③针对特定应用领域的数据清理④针对与特定应用领域无关的数据清理3.1.3数据清洗的方法和过程2.数据清洗的过程第一阶段:数据分析、定义错误类型第二阶段:搜索、识别错误记录第三阶段:修正错误3.1.4数据清洗的实例DataEye原始数据源提供一组游戏下载时长数据集如果直接计算游戏平均下载时长
4、,得到的结果为23062.57秒,约6.4小时,与实际情况严重不符,说明这一数据集受到噪声数据的显著影响。3.1.4数据清洗的实例将数据集等分为240300个区间,找到数据集中区域[0,3266.376],对取值之间的数据做箱型图分析,对此区间外的数据剔除离群值,重新计算平均下载时长最后计算目标数据源的平均下载时长为192.93秒,约3.22分,符合实际情况。通过数据分布特征及箱型图的方法来识别、剔除噪声数据较为快捷且效果显著。3.2.1数据类型1.整理数据类型(1)INT(或INTEGER)数据类型;(2)SMALLINT数据类型(3)TINYI
5、NT数据类型;(4)BIGINT数据类型2.浮点数据类型(1)REAL数据类型;(2)FLOAT数据类型(3)DECIMAL数据类型;(4)NUMERIC数据类型3.二进制数据类型(1)BINARY数据类型;(2)VARBINARY数据类型3.2数据类型和数据转换3.2.1数据类型4.逻辑数据类型BIT数据类型5.字符数据类型(1)CHAR数据类型;(2)NCHAR数据类型(3)VARCHAR数据类型;(4)NVARCHAR数据类型6.文本和图像数据类型(1)TEXT数据类型;(2)NTEXT数据类型;(3)IMAGE数据类型7.日期和时间数据类型
6、DATETIME数据类型用于存储日期和时间3.2.2数据转换数据转换是将数据从一种表示形式变为另一种表示形式的过程。由于每一个软件后台数据库的构架与数据的存储形式都是不相同的,因此就需要对数据进行转换。例如,对两个操作数进行运算,当操作数的类型不同,而且不属于基本数据类型时,经常需要将操作数转换为所需要的类型,这个过程即为强制类型转换。强制类型转换有两种形式:显式强制类型转换和隐式强制类型转换。3.3大数据的提取和加载大数据的提取和加载是指将转换好的数据保存到数据仓库中去。大数据在加载时一般采用两种方式:①完全刷新加载从技术角度上说,完全刷新加载比
7、增量提取和加载要简单得多,它适用于数据量不大并且时间代价和条件代价较小的情况。②增量提取和加载如何精准快速地捕获变化的数据是实现数据增量加载的关键。(1)触发器方式;(2)时间戳方式;(3)全表比对方式(4)日志表方式;(5)系统日志分析方式谢谢!
此文档下载收益归作者所有