欢迎来到天天文库
浏览记录
ID:34143220
大小:10.64 MB
页数:64页
时间:2019-03-03
《基于众包工作流的多用户协同what-if分析工具的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、隶.轫大·警.硕士学位论文万方数据基于众包工作流的多用户协同what_-f分析工具的研究和实现研究生姓名:盆邀万方数据ResearchandImplementationofawhat--ifAnalysisToolBasedonCollaborativelyCrowdsourcingAThesisSubmittedtoSoutheastUniversityFortheAcademicDegreeofMasterofEngineeringBYXUHuanSupervisedbyProfessorHEJie—yueDepartmentofComputerScience&
2、EngineeringSoutheastUniversity2014万方数据东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:呶日期:j驰出东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、
3、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权东南大学研究生院办理。研究生签名:导师签名日期:出多么万方数据摘要随着计算机网络与数据库技术的迅速发展和广泛应用,商业智能系统中的分析型处理(OLAP)在各种商业领域中扮演越来越重要的角色。随着数据处理技术在企业的成功应用,传统的OLAP数据分析操作(对数据进行聚集、汇总、切片和旋转等)已经不能适应当前大数据量、深度分析的需要,因而需要路径分析、时间序列分析、图分析、what-if分
4、析等复杂的统计分析模型。其中what-if分析是基于历史数据,对假设场景进行分析的重要手段,它可以为决策者提供重要的预测信息,是一种非常重要的决策支持分析过程,也是OLAP的深入应用之一。但是随着大数据时代的来临,传统OLAP技术遇到了前所未有的挑战,已经无法胜任大数据分析的要求。目前,大数据OLAP系统均是以MapReduce的计算模型为依托的,但MapReduce的优势在于以批处理模式处理大数据集,在实时响应需求方面效率仍有待提高。在what.if分析处理中,delta表合并算法是最关键的一步,但传统的delta表合并算法在这种新的计算模型下,时间和空间上都受到
5、严重制约。所以这种基于历史数据的应用场景假设分析需要更加有效的what.if数据视图生成机制的支持。同时,随着OLAP的不断发展和企业级业务的需求变化,what-if分析已经很难由单一的用户独立完成,而是需要不同部门、不同层次用户的协同处理,而且处理过程也可能是分阶段来进行的。因此,在what-if分析中就需要多用户的协同处理机制的支持,并通过不同用户之间的协同来完成企业级决策的假设分析。因此,本文针对大数据、多用户环境下what.if查询处理策略进行了研究,主要工作包括:(1)在传统的deha表合并算法的基础上,提出了基于BloomFilter和Distribut
6、edCache两种改进方法以提高在大数据OLAP系统中what-if数据视图的生成性能,从而提高what-if的查询处理能力。在标准SSB数据集上与Hive进行对比的实验表明,基于BloomFilter的what-if算法比在Hive上实现的效率提高了30%,而当delta表较小时,基于DistributedCache的what.if算法的性能提高幅度更大。(2)由于MapReduce本身适用于以批处理模式处理大数据集,过多的产生中间数据会增加磁盘Io的次数,影响了算法的效率。因此,本文将各what-if分析算法移植到Spark环境下,作为一个内存计算框架,Spar
7、k使用内存替代了HDFS存储中间结果,因此可以大大减少磁盘IO的次数,从而提升算法的效率。基于标准SSB测试数据集上的性能分析与实验结果表明,基于BloomFilter的算法和基于DistributedCache算法,在性能上较于MapReduce中都有了大幅度的提高。(3)针对what-if分析中需要多用户的协同处理,提出使用众包工作流的机制。为此提出了基于回溯式PDS的众包工作流算法和基于反馈式PDS的众包工作流算法。这两种算法都可以在不同用户之间的协作下对what.if分析目标进行业务上的分解,并采用预合并多版本假设数据更新的算法,将分解后的众多子deha
此文档下载收益归作者所有