基于列存储的数据复用研究与实现

基于列存储的数据复用研究与实现

ID:34038730

大小:2.68 MB

页数:70页

时间:2019-03-03

基于列存储的数据复用研究与实现_第1页
基于列存储的数据复用研究与实现_第2页
基于列存储的数据复用研究与实现_第3页
基于列存储的数据复用研究与实现_第4页
基于列存储的数据复用研究与实现_第5页
资源描述:

《基于列存储的数据复用研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10255学号-i2111485基于列存储的数据复用研究与实现ResearchandImplementationofDataReusingStrategyinColumn.storeDataWarehouse学科专业:计算机应用技术作者:周娇玲指导教师:王梅答辩日期:2014年1月东华大学计算机科学与技术学院SchoolofComputerScienceandTechnologyDonghuaUniversity东华大学学位论文原创性声日月f煳嬲本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已

2、明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。学位论文作者签名:同嘶铃日期:如怍年1月7日东华大学学位论文版权使用授权书学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口,在——年解密后适用本版权书。本学位论文属于不保密“学位论文作者签名

3、:同娇论日期:20陴年f月.7Et指导教师签名:寻桕日期:咖,以年,月7日基于列存储的数据复用研究与实现摘要随着互联网的兴起与飞速发展,大量的信息迎面而来,如何用科学的方法整理数据,从而从不同的视角对各方面信息进行准确判断,比以往更为迫切,更受关注。数据仓库作为数据集成的框架之一,是解决大数据环境下分析型应用问题的有效手段。数据集成中不同数据集之间存在较大的冗余,需要的存储较多,对查询响应速度的影响也较大。数据仓库往往需要采用数据复用策略使得分析大量数据的成本趋于合理。在传统的关系型数据仓库中,数据均是按行存储的。遗憾的是,由于不同数据集中关系表的模式在存储层次上往往不相同,

4、彼此之间的冗余度很小,导致按行存储的数据存储方式并不利于数据复用的实现。列存储数据仓库中,操作的对象变为列,属性之间的冗余度较大,从而消除了行存储数据仓库在数据复用领域的不利条件。为此,本文对如何将数据复用有效地融入到列存储数据仓库中进行了研究。1.首先,论文阐述了海量数据环境下数据复用的重要意义,并对数据复用技术的发展历程和国内;'t-N存储数据仓库中关于数据复用的现状进行了分析,总结了它们的特征和不足之处。2.然后,论文对列存储数据仓库中数据复用的核心元素进行了简单地介绍,其中包括数据复用策略的概述,可复用数据的定义,查询结果的等价原则等。T3.随后,本文深入研究了列存储

5、数据复用策略的结构设计,其数据复用策略主要由候选可复用数据发掘模块、可复用数据筛选模块、基于存储的数据复用实现模块和基于可复用数据的查询执行模块四个模块组成。其中,候选可复用数据发掘模块描述了海量数据中利用CM模式匹配算法快速寻找候选映射关系的合理方案;可复用数据筛选模块则根据映候选映射关系对属性值进行逐一匹配,得到确定的可复用数据,这是数据复用实现的必要保证;基于存储的数据复用实现模块则封装了具体复用的细节,并负责对外提供数据访问的统一接口;查询执行模块对传统查询执行流程进行了相应的改进,从而了在可复用数据的基础上实现SQL语句的直接查询。4.最后,本文以DWMS为平台,分

6、别以真实数据集和基准数据集为测试数据,具体实现了上述各项关键技术。通过对相关的性能测试结果进行对比分析,验证了本文所述内容的正确性和有效性。在处理海量数据时,数据复用在减少列存储数据仓库存储规模的同时,还进一步优化了系统的查询性能。关键词:数据集成;数据仓库;列存储;数据复用;可复用数据RESEARCHANDIM呼LEM哐NTATIoNoFDATAREUSINGSTRATEGⅣINCOLUM烈.STOREDATA、7I以眦HOUSEABSTRACTWiththehighdevelopmentoftheInternet,wearefacingthelargeamountofin

7、formationanddata.It、Surgenttointegratetheexistinginformation.Atthesametime,howtoorganizedatausingscientificmethodsandaccuratelyanalyzebusinessinformationfromdifferentperspectivesismoreurgentthanever.Asoneofthedataintegrationframeworks,datawarehousehasbro

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。