欢迎来到天天文库
浏览记录
ID:34817903
大小:1.70 MB
页数:65页
时间:2019-03-11
《试析基于xml数据库的查询优化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Y937f120单位代码学号106352003106西南虫学硕士学位论文基于XML数据库的查询优化研究论文作者:陈善雄指导教师:余建桥学科专业:农业机械化工程研究方向:计算机应用提交论文日期:2006年5月17日论文答辩曰期:2006年6月5日学位授予单位:西南大学中国·重庆2006年5月西南大学硕士学位论文摘要Web技术的发展推动了Intemet及其应用的发展,尤其是动态网页技术和服务器与客服端的三层服务模式的应用推动了Web以令人惊异的速度发展。同时Web应用开发者开始体验到现有HTML的局限性,因为HTML并不具备_人规模Web应用所需的可扩
2、展性、结构化和数据验证等特性,而XML技术的出现则正是为了有效应剥上述问题。目前XML已经成为Internet以及电子商务中进行数据表示和数据交换事实上的标准。由于其丰富的表达能力和自描述性、灵活性等特点,XML已被,“泛应用于电子商棼、数字图书馆、智能Intemet检索等领域。然而由于XML数据的半结构化特性以及XML数据所特有的路径表达的在询方式不同1二现有的关系数据库查询,使得关系数据库系统对XML数据的管理功能受到极大限制。现在互联网上己经存在大量以文件形式存放的XML数据,这些数据包含了丰富的信息,如何高效准确地完成对XML数据的查询成为
3、当前的一个研究热点。XML以其数据和表现相分离的特性和强大的数据表达能力,已经成为互联网和数据库之间沟通的桥梁,它的出现使文本的互联网转变为数据的互联网——一个全球范围的分布式数据库。然而,xM'L不仅仅是互联网和数据库之闻的中间媒介,它完全可以做更多的事情。XML最大的优点是它强大的数据表达能力,不仅可以表达关系模型和对象模型的数据,而且还可以表达不规则的,易变的数据,它是典型的半结构化数据。既然XML包含着数据,那么就存在着如何查询,如何管理这些数据的问题,而目前应用最广泛的关系数据库管理系统并不适合管理半结构化数据。这是因为关系模型的二维表结
4、构在表达半结枸化数据上存在很_夫的困难.不但转化算法复杂,而且数据的冗余度很大。作为描述的标记语言,XML能够根据具体应用灵活地表现异构数据源中的各种信息,包括应用程序之间的数据交换、结构化和学结构化文档蚍及数据库中数据的输出。当前,随着XML应用领域的扩大,越来越多的信息开始采用XML进行存储、交换和表现,传统信息管理技术因为XML文档的出现而面临新的挑战。因此跨越不同数据源的基于xML信息的查询捡索能力变得日益重要。由于XML数据中具有自描述性的模式信息,数据节点的值的类型和大小是根灵活的,不能以固定的形式来处理他们。加上其本身的嵌套结构和模式
5、信惠不垒舶特赢使得其结构菲常复杂,对它的查询处理也比较困难。传统的基于树的遍历的方法是通过对树型结构的多次扫描,这在拥有大量数据的XML数据库中效率及低,不能满足复杂的处理要求,而XML西询表达式的计算实际上就是寻找树模式查询到文档树的映射的过程,或称之为树模式查询的距两南大学硕士学位论文摘要配。一般来说,树模式杏询匹配的效率是与树模式查询的规模赢接相关的,树模式查询规模越大,匹配效率就越低下,则在进行树模式的查询之前,要尽可能的简化树模式的查询。因此对XML数据库采用索引技术,简化查询刚的路径搜索,提高匹配效率;同时对其查询进行分解,把复杂查询分
6、解为多个简单查询,又要保证其查询结果的有效连接。基于XML数据的查询和关系数据序类似,都力图用简洁的查询语句商效准确的进行数据的查询。同时由于XML文档的树型结构有剐于关系数据库的记录,对树的遍历增加了查询的复杂性。本研究的日的是对XML文档建立索引,对其DTD文档进行编码优化,降低查询XML数据的复杂度,并对查询算法进行优化,减少查询中对结点的访问次数和连接次数。本文就基于树型结构的XML数据查询进行了研究,对XML查询的相关知识,查询机理,优化原理进行了分析,通过;l入多种优化理论和方法最终实现了降低查询复杂程度。主要内容如下:1-在对XML技
7、术及Native—XML数据库介绍下,对XML模式的规范化进行了讨论。着重阐述了XML函数依赖,X/vlL文档规范化规则。通过规范化实现了XML文档到Ⅺn范式的映射,从而实现对XML数据进行有效的存储和查询。2.研究ⅨML的两种索引技术即结点记录类索引、结构摘要索引。深入分析了XML数据的区间编码技术,利用编码技术使孩子与双亲节点,兄篱节点可以通过编码值获取,降低节点对树型结构的依赖程度,使得查询在执行表达式时不必遍历整个结构树;同时引入基于后缀树的索引构造技术,尽可能地合并相同标签路径的节点。所以,周游一条路径即可得到该标签路径下的所有节点,避免
8、了相同标签路径的重复访问的缺陷。3.在查询执行过程中。对查询表达式进行分解,把复杂查询分解为多个筒单查询,然后对查询中间结
此文档下载收益归作者所有