基于mapreduce的结构化查询机制的设计与实现

基于mapreduce的结构化查询机制的设计与实现

ID:33962190

大小:1.83 MB

页数:105页

时间:2019-03-02

基于mapreduce的结构化查询机制的设计与实现_第1页
基于mapreduce的结构化查询机制的设计与实现_第2页
基于mapreduce的结构化查询机制的设计与实现_第3页
基于mapreduce的结构化查询机制的设计与实现_第4页
基于mapreduce的结构化查询机制的设计与实现_第5页
资源描述:

《基于mapreduce的结构化查询机制的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级UDC学位论文基于MapReduce的结构化查询机制的设计与实现(题名和副题名)范波(作者姓名)指导教师姓名段翰聪副教授电子科技大学成都(职务、职称、学位、单位名称及地址)申请学位级别硕士专业名称软件工程论文提交日期2010.03论文答辩日期2010.05学位授予单位和日期电子科技大学答辩委员会主席评阅人2011年月日注1注明《国际十进分类法UDC》的类号万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经

2、发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:范波日期:2011年3月24日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此

3、规定)签名:范波导师签名:段翰聪日期:2011年3月24日万方数据摘要摘要随着Web2.0网络应用和云计算服务的兴起和发展,海量数据的存储和处理是其主要的特性,新型互联网应用的新特性对传统的数据管理技术提出了新的挑战。传统的关系型数据管理系统在应对海量数据和急速增长的数据时,遇到了难以克服的难题,海量数据存储和超大规模计算的特点,使数据管理技术关注的重点从一致性C(Consistency)、可用性A(Availability)转向了可用性A(Availability)和分区耐受性P(PartitionTolerance),

4、即在扩展性和可用性方面提出了更高的要求。已有的新型数据管理系统很好的满足了这两方面的要求,相比关系型数据管理系统,它们只支持基于Key上的条件和范围查询,而基于多列的条件和范围查询是数据管理系统一个普遍的需求,而已有的系统主要是通过依靠MapReduce强大的运算能力来全表扫描来实现,使查询性能随着数据规模的增长而变得效率不高。针对多维查询效率低的情况,本文在设计与实现了一套大规模分布式结构化数据存储系统LDS3基础上,还设计了一种基于MapReduce的性能较高、可靠性较强的、低存储开销的分布式查询机制。整个分布式结构化

5、数据管理系统的所包括的基本工作和主要特色:1.在底层基于P2P的分布式存储系统的基础上,设计与实现了一套类BigTable的分布式结构化数据管理系统,主要包括:采用基于LinuxC++设计了一套MapReduce的分布式计算框架和建立在这个计算框架上的分布式结构化数据管理系统。2.通过将表数据的多个副本采用不同的存放格局来加速多维查询。初始创建表的时候需要指定行记录的主键,而在本系统中除了指定主键外,还支持在其他列上创建索引,然后将表记录按照主键和各索引列分别排序,并按照这个顺序进行物理存储。针对主键和索引列上的条件和范围

6、查询,首先通过子表服务器与子表的映射关系,将结果集的锁定在尽可能少的子表上,由于表的副本是按照主键和索引列有序存储,进而将结果集定位在子表的某一段连续的表记录,最大程度上减少了查询过程中的表数据的随机访问次数。结合基于MapReduce的分布式计算框架(DVCP),并行的在表数据的各副本并行进行过滤查询。I万方数据摘要3.通过设计与实现基于Bitcask的底层存储模型,相比基于MapFile的存储引擎,在效率和设计的复杂度方面具有明显的优势。关键字:MapReduce,副本不同存储格局,多维条件查询,Bitcask存储引擎

7、II万方数据ABSTRACTABSTRACTWiththerapiddevelopmentofWeb2.0applicationandCloudComputing,howtostoreandmanagethemassivedatahasbecomeoneoftheessentials.Tranditionaldatamanagementisnowfacingachallengetoadapttothetraitofnewwebapplication.TraditionalRDBMScannotdealwithincreas

8、inglymassivedataanymore.ThepivotofdatamanagementhasturnedtoavailabilityandPartitionTolerancefromconsistencyandavailabilityduetolargescalecomputingandmas

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。