基于dag模型的离线数据处理引擎的设计与实现

基于dag模型的离线数据处理引擎的设计与实现

ID:35056344

大小:2.89 MB

页数:82页

时间:2019-03-17

基于dag模型的离线数据处理引擎的设计与实现_第1页
基于dag模型的离线数据处理引擎的设计与实现_第2页
基于dag模型的离线数据处理引擎的设计与实现_第3页
基于dag模型的离线数据处理引擎的设计与实现_第4页
基于dag模型的离线数据处理引擎的设计与实现_第5页
资源描述:

《基于dag模型的离线数据处理引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文(工程硕士)基于DAG模型的离线数据处理引擎的设计与实现THEDESIGNANDIMPLEMENTATIONOFOFFLINEDATAPROCESSINGENGINEBASEDONDAGMODEL殷荣哈尔滨工业大学2016年6月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文基于DAG模型的离线数据处理引擎的设计与实现硕士研究生:殷荣导师:苏小红教授副导师:王坤朋申请学位:工程硕士学科:软件工程所在单位:软件学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学Classifi

2、edIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringTHEDESIGNANDIMPLEMENTATIONOFOFFLINEDATAPROCESSINGENGINEBASEDONDAGMODELCandidate:YinRongSupervisor:ProfessorSuXiaohongAssociateSupervisor:WangKunpengAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:

3、SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着经济和科学的快速发展,各行各业每天都会有大量的数据产生,其中有很多数据甚至是没有任何规律的。面对如此复杂而又庞大的数据,我们应该如何将他们利用起来,如何在较短的时间内从这些数据中挖掘出有意义的信息?本课题的目的是实现一个通用的、灵活的、高效的海量离线数据

4、处理引擎。基于目前大数据处理引擎不具有通用性的问题,本引擎提出了一种新的设计方案:采用DAG(有向无环图)模型进行应用场景建模。DAG模型能够满足用户根据自身需要灵活改变各个场景执行顺序的需求;DAG模型解决了本引擎允许用户自定义算子的问题;DAG模型有利于实现引擎的高扩展性、灵活性和通用性。为了提高引擎的处理速度,本引擎采用的是Spark计算框架。Spark的中间处理结果是存储在内存中的。在数据迭代处理过程中会减少大量的IO消耗。同时,Spark的内部设计模式决定了其具有高扩展性,这能够满足本引擎对扩展性、灵活性的需求。最后,Spark是

5、支持DAG的分布式计算框架,与本引擎选用的DAG模型相契合。本引擎中每个算子代表一种数据处理功能,本引擎提供一些算子,同时支持用户根据自身处理需求自定义算子。本引擎是对Spark的进一步封装,用户在自定义算子的时候不需要使用Spark的底层API。该引擎能够实现对接各种异构数据,能够从用户指定的不同数据源将数据拉到HDFS,能够处理不同类型的文件。本引擎已经投入使用,目前运行良好。本引擎解决了现有的大数据处理系统效率低、通用性差的技术问题。关键词:海量数据;离线数据处理;Spark;DAGI哈尔滨工业大学工程硕士学位论文AbstractWi

6、ththerapiddevelopmentofeconomyandscience,theamountofdatageneratedbyvariousindustrieseverydayismyriad.Thereareeveninnumerabledatawithoutanyrules.Facedwithsuchacomplexandcountlessdata,howshouldweusethem?Howdowedigoutthemeaningfulinformationfromthedatainashorterperiodoftime?T

7、hemainpurposeofthisprojectistoachieveacommon,flexibleandefficientmassofflinedataprocessingengine.Basedonanewdesignofthecurrentlargedataprocessingenginedoesnothavetheversatility,thisengineisproposed.Anewdesign:theuseofDAG(directedacyclicgraph)modeltoestablishscenarios.DAGmo

8、delcansatisfytheneedsofusersaccordingtotheirownneedstobeflexibletochangetheorderoftheimpl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。