欢迎来到天天文库
浏览记录
ID:32717693
大小:2.00 MB
页数:62页
时间:2019-02-15
《基于hbase的rdf存储系统的研究与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、浙江大学硕士学位论文Ⅲ删㈨⋯删1111l洲㈨⋯洲Y1853113摘要随着语义W曲的发展,资源描述框架(ImF)得到了广泛的应用。然而传统集中式的RDF存储系统在日益增长的数据面前遭遇了难以跨越的存储与查询瓶颈。研究人员开始将目光投向分布式领域,以期利用分布式系统所具备的海量存储与并行计算能力来解决当前集中式ImF存储系统面临的各项问题。本文以ImF存储系统为研究对象,提出了采用分布式存储系统HBase存储ImF数据的方案,以及应用M印Reduce并行计算框架进行I①F查询处理的策略。首先,本文介绍了RDF存储系统的研究现状。本文介绍了ImF的概念背景、RDF标准查询语言
2、SPARQL的构成,简述了当前已有的部分分布式RDF存储系统实现以及当前基于Hadoop相关技术的RDF存储研究现状。接着,在深入分析ImF存储系统的各项特性后,本文提出采用分布式存储系统HBaSe来存储I①F数据的具体方案。RDF数据将被存储在SP0、POS、OSP三张表中。本文描述的方案充分利用了HBaSe的默认索引机制,在保证RDF查询性能的同时有效地减少了ImF数据的存储开销。然后,本文提出采用MapReduce并行计算框架处理SPARQL查询语言中BasicGraphPattem(BGP)的具体策略。本文在当前己有的MapReduce多路连接方法之上提出了一个
3、贪心的多路连接选择策略。本文提出在进行M即Reduce多路连接时优先处理具备高选择性的HplePattem子句,这样就可以在Map阶段提前过滤冗余数据,从而在保证MapReduce任务数目一定的情况下尽可能减少整个连接处理过程中的I/O操作开销。本文采用LUBM测试集对查询策略进行了实验,实验结果表明了本文提出的查询策略在大数据集下可以有效工作。最后,本文以HBase上的RDF存储方案与MapReduce连接处理策略为基础搭建了基于HBaSe的RDF存储系统原型。关键词:资源描述框架,分布式系统,HB2Lse,M印Reduce并行计算框架浙江大学硕士学位论文Abstra
4、ctSincether印iddeVelopmentofsemantic、ⅣebtecllIlologies,ResourceDescriptionFrameworkiswidelyusednowadays.However,thetraditionalcemralizedRDFstoreshaVelimitationsinIlaIldlinghugeImFdatasets.T.0resolVetheproblem,distributeda11dparallelsystemarenowbeiIltroducingimoImFstoragesystem.Inmispaper,
5、、ⅣeresearchedonRDFstoragesyStema11dproposedusingHBaSe,w11ichisadistributedcohulln—orienteddatabase,tostoreRDFdatasetsandusingMapReducetoaJls、)~,erImFqueries.First,weintroducedthebackgroulldknowledgeofmodemRDFstoragesystem,includingtheconceptofImFa11ds伽1(1ardRDFque巧languageSPARQL.Wet}leng
6、aVeanoVeⅣiewofexistingdis伍butedImFStoragesystemaIldt11ecu玎entresearchesonintegratingRDFstorewithHadooprelatedtechnologies.Then,witllade印a11alyticalunderstalldingofI①FStoragesystem,weproposeda11印proachtouseHBasetostoreImFd北lSet.ImFtriples谢llbestoredinthI。eeHBasetables,Ⅵ,hichareSPO、POSandO
7、SP.0ur印proachmal(esmlluSeoftlledefjallltindeXstructureproVidedbyHBase,w11ichpromisedtherespondtimeforqueD,wimreducedstoragespace.ARert11at,weproposedaMapReducestrategyforhaJldingSPARQLBaSicGra【phPattem(BGP).Wesuggestedthat11ighselectillgtriplepattemsaIldsmanintemediateres
此文档下载收益归作者所有