数据立方体优化技术的研究

数据立方体优化技术的研究

ID:33764686

大小:1.78 MB

页数:62页

时间:2019-03-01

数据立方体优化技术的研究_第1页
数据立方体优化技术的研究_第2页
数据立方体优化技术的研究_第3页
数据立方体优化技术的研究_第4页
数据立方体优化技术的研究_第5页
资源描述:

《数据立方体优化技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中南大学硕士学位论文数据立方体优化技术的研究姓名:吴杰申请学位级别:硕士专业:计算机应用技术指导教师:蒋外文20070516摘要数据立方体是数据仓库和联机分析处理的核心概念。为提高联机分析处理系统的查询性能,通常需要预先计算并保存数据立方体,然而完全的预计算必将导致数据立方体体积的爆炸。因此,降低磁盘空问成本和提高查询性能成为数据立方体研究两个重要却又相互制约的目标。为从根本上解决这些问题,需要探索有效的数据立方体组织方法。本文首先提出基于语义压缩的同基类数据立方体概念,它将由相同基本元组集聚集而来的立方体元组归为一类,称之为同基类,该类

2、中所有立方体元组的聚集值定然相同,仅从每类中选出一个代表进行实际物理存储,从而大大降低数据立方体的空间开销。另一方面,因为类中元组都是基于相同的基本元组集在不同的维集上进行聚集计算,所以这些元组也保存了原有数据立方体的语义信息。在此基础上,将同基类数据立方体中的元组按树状结构组织成同基类方体树,不但进一步减少了数据立方体的物理存储空间,也提高了其点查询性能。当前数据立方体在处理一个区域查询时,都是将其分解成大量点查询,对各点进行点查询后再汇总聚集得到结果,而一个区域查询分解成的点查询个数是查询条件中各维区间分解点数目的乘积,从而导致区域查

3、询效率较低。对此,本文提出一种基于集合运算的数据立方体结构,通过索引和集合的交并运算来加快区域查询,在查询条件为区域的维上,先对区间中各维值的基本元组索引集进行并运算,然后一次性的进行所有维集合的交运算,从而在保持较少的磁盘空间和较好的点查询响应速度的情况下,改善了区域查询的性能。关键词OLAP,数据立方体,同基类,方体树,集合运算ABSTRACTDatacubeisthekernelconceptionofdatawarehouseandon。lineanalyticalprocessing(OLAP).Itusuallyneedsto

4、pre—computeandsavethedatacubeindiskforspeedingupthequeries.Butthesizeofdatacubewillincreaseexplosivelywhentlleyarea11pre—computedandsaved.Todecreasediskcostandimprovequeriesperformanceareveryimportantbutcontradictivegoalsofdatacuberesearch.Forthesakeofresolvingtheseproble

5、ms,itneedstoexploretheeffectivedatacubestructures.AnewdatacubestructurenamedIso-BasictableCube(IBC)isproposedhere,whichiscompressedbasedonsemanticrelationsofcube.ItgroupsthecellsofcubeintoaclassnamedIso-BasictableClasswhichaggregatefromthesametuplesubsetofbasictableandhav

6、ethesameaggregatevalue.Soitonlyneedstosaveonecellofeachclassintodiskandreducesthesizeofthecuberemarkably.Meanwhile,theleftcellsinIBCpreservethesemanticrelationsbyvirtueofthecompressingmechanism.OrganizingthecellsoflBCusingatreestructurenamedIBCCuboidTreedecreasesthesizefa

7、rtherandspeedsupthepointquery.Theusualmodeofproceduretodealingwitharangequeryofcurrentdatacubestructuresisthatfirstlydecomposesarangequerytoalotofpointqueriesandthenperformsthemonebyoneandgathertheseresultslastly.Thenumberofpointqueriesdecomposedfromarangequeryistheproduc

8、tofallpointsnumberincludedineverydimensionrange.Sotheefficiencyofrangequeryisnothigh.Hereanother

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。