开题报告大数据分析服务平台设计与实现

开题报告大数据分析服务平台设计与实现

ID:14809034

大小:219.51 KB

页数:14页

时间:2018-07-30

开题报告大数据分析服务平台设计与实现_第1页
开题报告大数据分析服务平台设计与实现_第2页
开题报告大数据分析服务平台设计与实现_第3页
开题报告大数据分析服务平台设计与实现_第4页
开题报告大数据分析服务平台设计与实现_第5页
资源描述:

《开题报告大数据分析服务平台设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、研究生学位论文开题报告报告题目大数据分析服务平台设计与实现学生姓名郑鹏学号201228015029046指导教师叶丹职称副研究员学位类别工学硕士学科专业计算机软件与理论研究方向网络分布式计算与软件工程培养单位软件研究所填表日期2014-6-20大学制填表说明1.本表内容须真实、完整、准确。2.“学位类别”名称填写:哲学博士、教育学博士、理学博士、工学博士、农学博士、医学博士、管理学博士,哲学硕士、经济学硕士、法学硕士、教育学硕士、文学硕士、理学硕士、工学硕士、农学硕士、医学硕士、管理学硕士等。3.“学科专业”名称填写:“二级学科

2、”全称。9目录一、选题的背景及意义4二、国内外本学科领域的发展现状与趋势51.数据挖掘平台现状52.分布式系统Hadoop现状63.流程执行引擎现状7三、课题的主要研究内容、预期目标81.主要的研究内容91.1基于流程的异构数据分析平台集成与协同框架91.2数据分析流程的执行优化101.3面向领域的数据分析组件的设计与应用案例研究112.预期目标11四、拟采用的研究方法、技术路线、实验方案及其可行性分析121.研究方法122.技术路线123.实验方案124.可行性分析12五、已有科研基础与所需的科研条件13六、研究工作计划与进度

3、安排13七、参考文献139一、选题的背景及意义随着互联网的快速发展,目前我们已处于数据、信息过载的海量信息时代。用户面对海量信息却很难找到自己真正感兴趣的内容。如何有效利用这些海量数据,从而产生实际的价值,已成为迫切需要解决的问题。数据挖掘就是一个能够把海量数据变成可被人类可直接利用的信息,是一个“把冰冷信息人性化”的强有力的工具。目前市场上已经有一些很成熟的数据挖掘平台,如Weka,Clementine,R等。它们都集成了大量成熟、优秀的挖掘算法。但是随着输入数据量的增加,这些工具显得力不从心。对于大数据量的挖掘,它们可以采用

4、先采样后挖掘的方法,但是这明显降低了挖掘结果的准确度。随着Hadoop掀起的分布式计算热潮,分布式数据挖掘算法库Mahout应运而生。虽然目前来看Mahout尚未十分成熟,但却已经引起了业界足够的关注。配合上MapReduce分布式计算在数据预处理上显示出的强大的优势,分布式的数据处理,分析和挖掘已经成为一种趋势。Hadoop生态系统中的分布式存储和计算能力,配合上Weka,R,Mahout等开源数据挖掘的分析能力,使得它们已成为很多公司和个人数据分析的有力工具。虽然这些开源工具的存在减轻了数据分析和挖掘的负担,但是这些工具的异

5、构性给数据分析工程师带来了新的困扰。在一个完整的数据分析(尤其是大量数据分析)流程中,难免会用到多种平台和工具。首先数据可能存储在不同的介质上,并且以不同的形式存储。其次,数据处理过程中,数据量可大可小,如果数据量较小,为了操作简单,执行速度较快,分析人员可能编写Java程序对数据进行预处理。如果数据量较大,简单的单机Java程序可能无法担此重任,此时用户可以编写MapReduce程序,分布式处理数据。如果数据量较大,但数据呈现明显的行列关系,则可以将数据导入到Hive中进行处理。此外,对于一般的数据挖掘操作,我们可以使用Wek

6、a或者R进行操作,因为他们都是十分成熟的挖掘工具,集成了很多挖掘算法。但是如果训练数据十分巨大的情况下,这些单机的挖掘工具可能会造成无法忍受的性能瓶颈。这时候在保证系统可用的前提下,工程师可能会选用Mahout作为挖掘工具。正是分析需求和分析工具的多样性,极大地增加了数据分析工程师的工作量。工程师不仅需要安装配置不同的分析工具,并且需要编写代码来协作这些工具。也就是说工程师做了很多分析逻辑以外的工作。为了将数据分析工程师从环境配置,数据处理,实验脚本编写等繁杂的工作中抽离出来,一个集成了异构分析工具的大数据分析服务平台是十分有必

7、要的。鉴于上面的种种问题,我们的目标是开发一个,以组件为设计单位的,具有拖拽式流程设计界面的,可以协同异构数据分析工具的,分布式的,服务化的,易用性高的,可扩展性强的,开放式的大数据分析服务平台。从前端来看,开发9人员通过拖拽和关联组件,完成整个分析流程的设计。开发人员还可以通过组件管理界面发布自定义的组件,或者导入一组面向领域的可复用组件。整个客户端体现很强的易用性和可扩展性。从后端来看,大数据服务平台构建在分布式集群上,并且集成多种数据处理,分析和挖掘工具,并发地调度执行各个分析任务。前端通过调用后端系统提供的Restful

8、API来完成前后台的通信。从数据分析工程师的角度来看。该平台可以屏蔽各个系统和工具的异构性,降低数据分析的难度,加快信息提取的速度。从企业成本的角度来看。首先,大数据分析平台可供多个用户同时向集群提交多个流程。通过对这些多个流程的调度,不仅可以降低流程的平均执行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。