欢迎来到天天文库
浏览记录
ID:33751640
大小:677.51 KB
页数:5页
时间:2019-02-28
《海量结构化数据存储检索系统》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、计算机研究与发展ISSN1000-1239?CN11-1777?TPJournalofComputerResearchandDevelopment49(Suppl.):1-5,2012海量结构化数据存储检索系统吴广君1王树鹏1陈明2李超31(中国科学院计算技术研究所北京100190)2(北京邮电大学北京100876)3(国家计算机网络应急技术处理协调中心北京100029)(wuguangjun@software.ict.ac.cn)MassiveStructuredDataOrientedStorageandRetrieveSystem1,WangShupeng1,ChenMi
2、ng2,andLiChao3WuGuangjun1(InstituteofComputingTechnologyChineseAcademyofSciences,Beijing100190)2(BeijingUniversityofPostsandTelecommunications,Beijing100876)3(NationalComputerNetworkEmergencyResponseTechnicalTeam?CoordinationCenterofChina,Beijing100029)AbstractBigDatahasemergedasanewtypeofda
3、tainthecloudcomputing.ThetraditionalRDBMSisnolongerfittomanageBigDatainfaceofthelargestoragesizeandhighqueryefficiency.Currently,theNo-SQL(notonlySQL)DBcanprovidedistributedstorageenvironment,butitcannotsupportmulti-columnsqueries.WedesignandimplementdistributedMassiveDataStorageSystem(MDSS)
4、forstructureddatastorage.MDSSuseglobaldistributedB+treeandlocalindexingstructuretomanagedatasourcewithcolumn-basedstoragestructure.Thequeryplanningmechanismwasbuiltformulti-attributesquery,fuzzyqueryanddatastatisticsquerybasedonMDSS.Theexperimentresultsexposedthatthetechniquesfordistributeds
5、tructureddataandqueryplanningmethodscanimproveBigDataqueryefficiencysignificantly.MDSSissuitabletomanagemassivestructureddata,suchaslog-structureddata,streamingdataetc.Keywordsbigdata;Hadoop;dataquery;No-SQLDB;massivestorage摘要BigData是近年在云计算领域中出现的一种新型数据,传统关系型数据库系统在数据存储规模、检索效率等方面不再适用.目前的分布式No-
6、SQL数据库可以提供分布式数据存储环境,但是无法支持多列查询.设计并实现分布式海量结构化数据存储检索系统(MDSS).系统采用列存储结构,采用集中分布式B+Tree索引和局部索引相结合的方法提高检索效率.在此基础上讨论复杂查询条件的任务分解机制,支持大数据的多属性检索、模糊检索以及统计分析等查询功能.实验结果表明,提出的分布式结构化数据管理技术和查询任务分解机制可以显著提高分布式条件下大数据集的查询效率,适合应用在日志类数据、流记录数据等海量结构化数据的存储应用场合.关键词大数据;Hadoop;数据检索;No-SQL数据库;海量数据存储中图法分类号TP393收稿日期:2012-
7、01-04基金项目:国家自然科学基金项目(61003260);国家“八六三”高技术研究发展计划基金项目(2009AA01A403,2007AA010501,2007AA01Z467,2007AA01Z474)2计算机研究与发展2012,49(增刊)BigData是近年在云计算领域提出的对数据的个部分:加载机集群、查询机集群、元数据节点集群加载效率、存储规模以及数据的检索效率有很高要以及存储节点集群.求的应用场合,通常数据的加载效率在MBps甚至GBps量级,数据的存储规模在TB甚至PB规模.
此文档下载收益归作者所有