基于spark的rdf数据top-k查询计算研究

基于spark的rdf数据top-k查询计算研究

ID:35179106

大小:3.51 MB

页数:61页

时间:2019-03-20

基于spark的rdf数据top-k查询计算研究_第1页
基于spark的rdf数据top-k查询计算研究_第2页
基于spark的rdf数据top-k查询计算研究_第3页
基于spark的rdf数据top-k查询计算研究_第4页
基于spark的rdf数据top-k查询计算研究_第5页
资源描述:

《基于spark的rdf数据top-k查询计算研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、’f'‘-.'、‘-v;:护'’’.-巧抗而,vv.、."?’.,‘'-..’’.?V-.:.吁.’.:?、*'一>-.V.争‘V.气辛..*。-.--,〇?.’;片'\'X护?:一\V‘、-'‘、'一-,、.::;,心-.巧打心謂.‘'产-r,;人vVVV户把节、松'-'■"■‘-心?:>:,.非诉;W.’I...VV,Y;姻摇..''、■'..*卢-.-\二肿宁户t心;分类号TP18一,学号201313703014山姿.学校代码10488

2、/密级..售;'进身,八‘*''、.‘味:巧站';/秋诱?受義辕,诚繼—'.’主襄4猶我解把记績皆C.帮:占歌鱗咚姐矣潭海;,乂胃硕±学位论文胃—''-.咕./;費基于Spark的RDF数据化p-k查询£起n计算研究?、?-W'(.—,、?,.1、 ̄…J'’、...、、.心'护,.I.'。.年扣.':二,.',.,如,.^咕.托聲■’■‘J-I■-t^.-V:^一一.—‘如学位申请人:肖睁荣学科专业:

3、软件工程—分—^:,:V>一心严r::顾指导教师进广;U1.1:八::心1日:2016521曰答期年£辩月!茄C...-,.化’-‘H.'V'产,二'.诚....:.^记纖错紙巾1、\诉诗讓带碱媒V哨ADissertationSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterinEngineeringReseachonOptimizingTop-kJoinQueriesBasedon

4、SparkMasterCandidate:ZhengrongXiaoMajor:SoftwareEngineeringSupervisor:Prof.JinguangGuWuhanUniversityofScienceandTechnologyWuhan,Hubei430081,P.R.ChinaMay21,2016武汉科錶大学<骄発藻擎卷絶文鎖新锥声辩本入郑重齊嗎t攝盤变韶学輕途文是本入在导师鷄导T,鑛立潘巧硏究所取縛靡處1。rr定审B经注興哥用觀巧容或属合難研発共轉t藏敏I雜辨,本涂文不每含儘锦其鞭个A或簾誰己经

5、发襲或鱗写远酶作蟲成粟。猶本文廚礙究儀连靈要被献煎个入和藥雖,切哲在克牵巧f痛方式掠嚼。牵簿学位论文与資辩若宵不实么进?,皋人廣避镇掘关贵僅。:;谴交難箸盤名金兰泉全…目縷j.琴齋堯生学僮絶文赚毅使馬授较芦類奉叢文齡驟繁戚薬較遮毁轉技大学薪苟,其魏究內容不攝謎其趕孽t觀無义嚴褒。本人寃全了瓣武誤转技大学有关縣窗、ft强学隨t义錢撰定,轉鑛擎辕镶觀弊肉猶关離口C武獸羁技大学关于研究(按騷堯學擅论文收裁I:伟轉魏速!拱巧魄交论文韓變醇件郝电子厳私允薄论交被查鐵鄭簿讓,同愈学校蒋本絶义的全諫或識分巧容

6、编乂学毯诫巧饒讀蠢截关數据库造巧捡索蒋对舞服务。獲文作密纖;;M:霜导教輝難吟.一0攤:I摘要近年来,语义Web发展迅猛,RDF数据也得了广泛的支持与研究。随着RDF数据的规模越来越大,传统的集中式环境下针对RDF数据的查询研究越来越无法适应数据查询领域的需求,特别是针对RDF数据的top-k查询。随着分布式领域的逐步发展,具有海量存储能力以及并行计算能力的分布式系统逐渐成为解决这类问题的研究热点。而Spark分布式系统恰恰是其中的佼佼者。本文基于Spark分布式计算系统以及HBase分布式存储系统,对应用于大规

7、模RDF数据存储以及top-k查询算法进行了设计与研究。本文分析了传统RDF数据存储模式的优缺点,设计并实现了适用于top-k查询的基于HBase存储特点的RDF存储索引结构。基于这种存储模式并借鉴于传统top-k查询处理技术的特点,提出了一种分布式系统下的top-k查询方案STA查询算法,致力于减少算法运行过程中RDF数据的连接操作。在此基础上并根据Spark分布式系统数据的处理特点,本文改进STA算法提出了一种新的查询方案SSJA查询算法,致力于减少对中间数据的排序相关的操作。此外,本文还搭建了HBase分布式存储环境以及Spar

8、k分布式计算环境,实现了上述两种实验方案并进行了测试。实验结果证明,SSJA算法在性能以及适用性上都优于STA算法。关键词:Spark;Top-k查询;分布式;RDF数据IAbstractInrecentyears,th

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。