基于hadoop的分布式数据检测系统的设计与实现

基于hadoop的分布式数据检测系统的设计与实现

ID:35056971

大小:6.55 MB

页数:86页

时间:2019-03-17

基于hadoop的分布式数据检测系统的设计与实现_第1页
基于hadoop的分布式数据检测系统的设计与实现_第2页
基于hadoop的分布式数据检测系统的设计与实现_第3页
基于hadoop的分布式数据检测系统的设计与实现_第4页
基于hadoop的分布式数据检测系统的设计与实现_第5页
资源描述:

《基于hadoop的分布式数据检测系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级:公开学校代码:10004BEIJINGJIAOTONGUNIVERSITY硕±专业学位论文1r、?\I!基于Hadoop的分布式数据检测系统的i设计与实现户i^作者姓名胡志伟.工程领域软件工程f'<?^指导教师刘锋副教授培养院系软件学院乐;;;^-可:修i1;^心‘:絵SWI齡交衫e#硕i专业学位论文基于化doop的分布式数据检测系统的设计与实现DesignandImplementation

2、ofDistributedDataExaminationSst;emyBasedonHadoop作者:胡志伟导师:刘锋副教授北京交通大学2016年6月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编W供査阅和借阅。同意学校向国家有关部口或机构送交论文的复印件和磁盘。学校可为存在馆际合作关系的兄弟高校用户提供文

3、献传谨服务和交换服务。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:签字日期:又若年(^月么日签字日期:)<4年户月化日/学校代码:10004密级:公开北京交通大学硕古专业学位论文基于化doop的分布式数据检测系统的设计与实现DesinandImlementationofDis化ibutedDataExaminationSs化mgpyBasedonHadoop2601作者姓名:胡志伟学号:1411导师姓名:刘锋职称:副教授工程

4、硕±专业领域:软件工程学位级别;硕±北京交通大学2016年6月i致谢本论文的工作是在我的导师刘锋教授的悉也指导下完成的。刘绎老师在学习一、和工作方面,直对我关屯有加,尤其是在本论文的开题和撰写期间,给予了很多宝贵的意见。他严谨的治学态度和科学的工作方法给了我极大的帮助。在此,我衷也感谢刘锋老师这两年来对我的悉屯、指导和帮助。同村,我要感谢百度搜索测试部的技术指导老师王伟龙。在百度公司实习期间,企业导师王伟龙在工作和生活上都给予了我极大的关也和帮助。王伟龙导师指导我进行数据检测系统的

5、需求分析、设计、实现及测试工作,他的创新思维和全面的技术能力让我受益良多。,在整个项目周期还有姐内的同事杨效桐、赵智超、杨玲玲、张书豪等,他们辛勤的付出让项目顺利完成!,我在此向他们表示衷也的感谢另外也感谢我的家人、,他们的理解和支持使我能够在学校专屯完成学业。iii^摘要高速发展的互联网每天都在产生海量的数据,数据存储单位己经从GB、TB发展到PB、EB甚至ZB、YB,大数据时代也应运而生。数据意味着价值,然而不是每一份数据都拥有我们想要的价值,我们在利用数据之前需要对数据的质量进

6、行评估。传统的数据筛选方法由于耗费人力、不够全面、效率低下等弊端,已经一不适合大数据时代了。在不断有海里新数据产生的环境下,份数据的质虽除了一从准确性、完整性、致性、有效性、稳定性等方面评估^>1外,还特别需要考虑时效性。因此对于髙效的数据质虽保证技术的研巧与应用显得尤为重要。在百度实习期间,作者参与了基于Hadoo的分布式数据检测系统的开发工作,p依据软件工程的思想独立完成了数据体检、、数据对比和指标明细导出H大核屯功能的需求分析、设计、实现及测试工作。首先,作者通过与目标用户沟通和分析产品的

7、业务流程等方式对用户需求有了总体了解,并对核也功能的需求作了更详细的分析一。之后完成了系统用例分析工作,细化了系统的功能范围,进步明确了系统功能性需求和非功能性需求。然后根据需求进行了系统概要设计,包括系统架构设计、数据接口设计和数据库设计。最终利用Redis、Pthon、Java、HDFS、ym一MapReduce、HadoopStreain技术实现了个支持离并发任务执行和大数据量g等(大于1T)处理的商效的分布式数据检测系统。系统的Web端基于PHPYH框架、AngularJS、百度Echarts

8、图表库等技术,实现了数据体检结果指标(字段类型、字段概况、覆盖率、错误率)和数据对比结果指标(新增、缺失、不同、相同)可レ视化,用户可ッ直观地査看数据的质里评估,同时支持指标明细导出功能,便于一二用户进行问题追踪。系统还实现了套完整的探测系统,针对Table维表、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。