基于hadoop大数据应用开发平台设计

基于hadoop大数据应用开发平台设计

ID:20114075

大小:12.25 MB

页数:81页

时间:2018-10-09

基于hadoop大数据应用开发平台设计_第1页
基于hadoop大数据应用开发平台设计_第2页
基于hadoop大数据应用开发平台设计_第3页
基于hadoop大数据应用开发平台设计_第4页
基于hadoop大数据应用开发平台设计_第5页
资源描述:

《基于hadoop大数据应用开发平台设计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、密级:硕士学位论文基于Hadoop的大数据分析应用开发平台的设计与实现作者姓名:许茜指导教师:叶丹研究员大学软件研究所学位类别:工学硕士学科专业:计算机软件与理论培养单位:大学软件研究所2013年4月DesignandImplementationofHadoopBasedBigDataAnalysisPlatformADissertationSubmittedtoUniversityofChineseAcademyofSciencesInpartialfulfillmentoftherequirementFor

2、thedegreeofMasterofComputerSoftwareandTheoryInstituteofSoftwareUniversityofChineseAcademyofSciencesApril,2013独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明。签名:日期:关于论文使用授权的说明本人完全了解软件研究所有关

3、保留、使用学位论文的规定,即:软件研究所有权保留送交论文的复印件,允许论文被查阅和借阅;软件研究所可以公布论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:导师签名:日期:摘要基于Hadoop的大数据分析应用开发平台的设计与实现摘要随着信息化的深入推进,互联网、移动应用的迅速发展,数据产生的速度越来越快,累积的数据量越来越庞大。大数据一方面意味着更多的信息价值,另一方面也带来了技术上的挑战。得益于可扩展性、容错性和高可用性,Hadoop已经成为业界大数据处理的

4、事实标准。但相对于传统成熟的工具,基于Hadoop进行大数据分析仍存在多方面的困难,如接口不友好(需调用编程接口)、低效(业务无关的系统安装配置)和异构(分析工具分散独立且学习成本大)等。针对这些问题,论文设计与实现了基于Hadoop的大数据分析应用开发平台——Haflow,屏蔽Hadoop平台的编程与底层维护细节,支持数据分析人员交互式、可视化地开发大数据分析应用。设计与实现基于Hadoop的大数据分析应用开发平台,论文主要研究了以下关键技术。首先,本文提出了组件化、流程式大数据分析应用编程模型,定义了可扩展数据分

5、析组件模型,给出了基于Java注解的组件描述方法和基于继承的可扩展组件实现方法;定义了数据分析业务流程模型,提出了基于组件以及模型驱动的数据分析业务流程处理框架。其次,设计并实现了基于嵌套图识别与分层的从数据分析业务模型(数据流模型)到基于Oozie的并发执行模型(控制流模型)的转换算法;使用嵌套图识别算法,判定数据分析流程图是否可以直接翻译成基于Oozie的并发执行模型,对于不满足并发语义的业务模型,使用基于分层的模型转换算法提高流程的并发执行度。再次,提出了基于HDFS的异构中间数据统一管理方案,通过对中间数据的

6、分类建模,实现组件之间中间数据的自动匹配验证与自动存储。论文详细介绍了大数据分析应用开发平台Haflow的系统架构与关键实现技术,并通过河南省新农合医疗数据分析和互联网新闻标签云生成两个实际案例分析,介绍了Haflow的应用效果。关键词:大数据分析,数据挖掘,开发平台,组件,HadoopI摘要IAbstractDesignandImplementationofHadoopBasedBigDataAnalysisPlatformABSTRACTWiththerapiddevelopmentofinformationte

7、chnologies,web2.0andmobileapplications,datainorganizationskeepsonaccumulating.Bigdatabringsnotonlyvalue,butalsochallenges,leadingtoamajorshiftindatamanagement.Duetoitsscalability,fault-toleranceandavailability,Hadoophasbecomethedefactostandard.However,adoptingH

8、adoopisstillanon-trivialtask;difficulties,likeunfriendlyinterfaces,heterogeneousbutisolatedtools,makedataanalysisonHadoopatediouswork,Todealwiththesedifficulties,thisthesisi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。