基于Hadoop平台的XML Twig查询处理方法-论文.pdf

基于Hadoop平台的XML Twig查询处理方法-论文.pdf

ID:57924236

大小:226.87 KB

页数:3页

时间:2020-04-14

基于Hadoop平台的XML Twig查询处理方法-论文.pdf_第1页
基于Hadoop平台的XML Twig查询处理方法-论文.pdf_第2页
基于Hadoop平台的XML Twig查询处理方法-论文.pdf_第3页
资源描述:

《基于Hadoop平台的XML Twig查询处理方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第25卷第1期北华航天工业学院学报Vo1.25No.12015年2月JournalofNorthChinaInstituteofAerospaceEngineerinFeb.2015基于Hadoop平台的XMLTwig查询处理方法何志学庄连英斯庆巴拉(北华航天工业学院计算机与遥感信息技术学院,河北廊坊065000)摘要:为解决半结构化XML大数据的处理分析问题,分析了Twig查询结构特点和Hadoop平台架构特征。基于Hadoop平台,通过对XML数据的水平切分,设计了XML数据在HDFS上的分布式存储策略;将

2、Twig查询分解为线性路径,实现了基于MapReduce编程模型的并行查询方法。最后通过实验验证了该方法的有效性。关键词:分布式计算,MapReduce模型,XML数据,Hadoop平台中图分类号:TP311文献标识码:A文章编号:1673—7938(2015)01—0024—030引言MapReduce编程框架为核心。云计算、物联网、移动互联网应用的日益增多和HDFS一般部署在普通的计算机组成的集群普及产生了海量的数据,这些数据与传统的管理信中,以Master/Slave架构对文件系统进行管理,其中息系统所产

3、生的关系型数据有很大的不同,其中的NameNode负责命名空间管理及数据与存储结点80%以上都是半结构化E结构化数据。XML是之间的映射,DataNode负责数据的存储、读写操作W3C提出的具有自描述性的标记语言,通过工业界的处理。HDFS中文件以块的概念存储,默认块的和学术界共同的研究、发展,已成为半结构化数据表大小为64MB,为了防止存储结点故障,采取多副本示的事实标准,被广泛应用于互联网多系统之间数策略,缺省值为3。MapReduce_5是Google海量数据处理的编程模据的表示、共享、传输等。XML数据

4、的查询语言XPath、XQuerv一般抽象表示为Twig模式树的形型,以“分而治之”的思想,将数据处理过程分为“Map"和“Reduce”两个阶段,数据处理格式定义为式,在单机小数据量情形下的查询处理已经有了较keyr/value格式,具体过程如下所示:多的研究,但如何处理较大数据量,如TB、PB级数Map—list();据,目前还没有较好的处理方法,一些典型的研究如Reduce一list().HadoopXML_1系统,基于HadooD设计并

5、实现了针MaD函数处理输入的key/value对,输出一系列对多Twig查询处理机制;ChuQL2扩展了XQuery的中间结果key/value对;Reduce函数以中间结果为语言,方便开发者在Hadoop平台上基于MapReduce输入,合并所有具有相同kev值的键值对,计算最终处理XML数据;MRQL_3]是一种类SQL的查询语输出。在Hadoop平台上,MapReduce的实现由一言,在MapReduce框架上处理XML数据,该语言扩个单独的MasterJobTracker和集群中多个计算结展了Hadoo

6、D中的XML输入格式,根据查询调整点SlaveTaskTracker组成。MapReduce任务数量。1.2XMLTwig查询1背景知识和相关定义XML数据一般表示为树的形式,结点之间关系1.1Hadoop平台表示表示元素一子元素、元素一值、属性一值之间的HadoopN]是Apache软件基金会下的一个开源结构关系。的分布式计算平台,以分布式文件系统HDFS和XML数据的查询语言XPath、XQuerv中的核心部分可以抽象表示为小枝模式,也即Twig查询,基金项目:北华航天工业学院科研基金项目(KY.2014.

7、09),廊该模式也是一棵树,“/”表示查询结点之间需要满足坊市科技支撑计划项目(2014011015),校级科技创新团队资助“父子关系”(PC),“//”表示需要满足“祖孙关系”项目(XJTD20140)(AD)。如图l所示,表示选取r结点的后裔结点a,收稿日期:2014—10—22作者简介:何志学(1982一),男,硕士,讲师,研究方向为数据且同时满足r有b孩子以及a有c、d两个孩子。库、分布式计算、软件工程。Twig模式查询的匹配定义为查询Q到XML一24—第1期何志学等:基于Hadoop平台的XMLTwi

8、g查询处理方法2015年2月文档树T的映射e,满足:(i)保持结点标记:对于查规膜海量数据进行处理。对于XMLTwig查询,本询Q中的某一结点n,label(n)=*或者label(n)=文提出的处理方法是将Twig查询分解为线性路径label(e(n)),这里“*”表示通配符;(ii)保持结构关查询,即分解后的子查询路径上没有分支结点。在系,如果Q中两个结点(n1,n2)满足PC关系

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。