欢迎来到天天文库
浏览记录
ID:31244578
大小:68.04 KB
页数:10页
时间:2019-01-07
《开题报告基于mapreduce的数据处理系统的性能优化技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、研究生学位论文开题报告报告题目基于MapReduce的数据处理系统的性能优化技术学生姓名王芳学号201028015029017指导教师许舒人职称副研究员学位类别工学硕士学科专业计算机软件与理论研究方向网络分布式计算和软件工程培养单位软件研究所填表日期2012-04-15研究生院制填表说明1.本表内容须真实、完整、准确。2•“学位类别”名称填写:哲学博士、教育学博士、理学博士、工学博士、农学博士、医学博士、管理学博士,哲学硕士、经济学硕士、法学硕士、教育学硕士、文学硕士、理学硕士、工学硕士、农学硕士、医学硕士、管
2、理学硕士等。3.“学科专业"名称填写:“二级学科"全称。报告提纲1.选题的背景及意义2.国内外本学科领域的发展现状与趋势3・课题主要研究内容、预期目标3.拟采用的研究方法、技术路线、实验方案及其可行性分析4.己有科研基础与所需的科研条件5.研究工作计划与进度安排6.参考文献1.选题的背景及意义数据处理在各行各业中广泛存在,它通常可以刻画为対一个或多个数据集进行多步数据处理操作的流程化处理过程。这些数据处理操作既包含一些通用的关系形式的操作,如:过滤,合并,分组,连接,计数等。我们将这个流程化的数据处理过程称为数
3、据处理流程。常见的数据处理流程应用包括数据仓库应用中的ETL过程,商业智能应用中的数据分析挖掘过程,科学计算领域的科学工作流,搜索引擎领域的大量分析处理过程等,这些典型的应用场景广泛出现在大型金业和科学研究领域屮。近年来,科学技术的迅猛发展和信息化的推进,使得人类社会所积累的数据量超过了过去五千年的总和,数据的釆集、存储、处理和传播的数量也打日俱增。普通开发者也而临处理海量数据的需求,比如在Google.冇度、Facebook等公司,开发者每天都要处理PB级別的数据。之前企业通常采用并行数据库管理系统,基于高性
4、能的服务器集群来执行大规模的数据处理任务,但这种系统的配置、管理、性能调优需要丰富的经验,并不适合普通开发人员来使用。因此Google提出了MapReduce编程模型,开发人员只需要编写单个节点的处理任务,由计算平台来提供任务的并行处理及维护,大大降低了并行编程的难度。这种计算平台通常建立在分布式文件系统之上,可以实现很好的可扩展性和容错性,逐渐成为云计算平台的重要组成部分。Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。
5、它很好的实现了Map-Reduce编程模型,并在企业,科研机构中得到了非常广泛的应用。但是目前对海量数据进行处理的ETLT-具的研究很有限。使用MapReduce计算模型來开发数据流程处理丁具可以帮助用户对海量数据进行可视化的开发,简化大规模的数据处理过程。因此我们的研究团体前期开发了一个基于MapReduce的数据处理流程原槊系统0恥曲丽FlewFi:eeesserC)nceDQ4Cloiid,它支持对各种数据库、文件、HDFS等数据源数据的抽取,同时具有连接、统计、分组等基本的流程组件。在数据处理开发中,用
6、八可以通过可视化的操作从异构数据源抽取数据加载到系统中去,然厉设计数据处理的逻辑模型来完成数据处理工作。这个系统屏蔽了底层复朵的编程,采用MapReduce数据并行计算模型,自动完成了从逻辑模型到物理模型的转换,生成可执行代码。它很好的实现了对各种异构数据源的捕取加载,支持大规模的海量数据处理过程,对一些通用的操作进行了组件级的封装,满足用户进行海量数据进行可视化处理的需求。但是这个系统还有很多优化的空间存在春以亠见伞问题:(1)任务调度算法需要改进。它采用的Hadoop集群作业调度算法,是采用FIFO算法调度
7、任务的。它将组成集群的TaskTracker考虑为静态的计算节点,并未考虑集群中的TaskTracker运行时状态。同时,数据处理流程屮的各个作业是具有一定相关性的,比如共亨同一组数据,或者逻辑相关性依赖等。因此迫切需要一个动态的基于数据处理流程特点的任务调度算法。(1)它没有提供给数据流程很好的监控和预测工具。以便于开发者随时获取最新的任务执行进度,也不能预测海量数据任务的执行时间。而海量数据处理是耗费的时间比较大的操作,大量作业在集群中的各个节点分布不均匀,适时的掌握数据处理的进度对用户实时的采取相应措施具
8、有很巫要的意义。(2)数据处理组件及流程执行效率有待提高。客现有的单个组件如过滤连接处理效率较低,需要对各组件的实现算法进•步优化,另外从流程执行层次组件间数据迁移代价还很高,需要研究新的技术支持组件数据跨节点快速传输。并且没存考虑濂程的执衽顺序的逻辑优化—因•此存必耍对单伞纠件和数据流程的逻辑模型进得优化片1.国内外本学科领域的发展现状与趋势面向Hadoop平台的数据密集型系统数据处
此文档下载收益归作者所有