欢迎来到天天文库
浏览记录
ID:25366989
大小:52.50 KB
页数:6页
时间:2018-11-19
《native xml数据库存储研究与应用论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、Native XML数据库存储研究与应用论文.freelentCollections):支持集合(Collection)的概念,集合级别上的查询,修改操作都会反映到集合内的每个文档中。(2)查询语言(QueryLanguages):目前主流的是XPath,但其存在不能分组,排序和连接等缺陷,因此XQuery作为Xpath的替代品,有希望成为纯XML数据库的专用语言。(3)更新和删除(UpdatesandDeletes):NXD绝大多数产品在这方面仍是薄弱环节。(4)事务、锁定和并发(Transactions
2、,Locking,andConcurrency);支持事务处理。锁定通常是对整个文档的,所以多用户并发性相对较低。(5)纯XML数据库提供良好的编程接口。(6)能够高效而精确的还原XML文档。三、NXD数据存储结构1.物理存储将元数据、XML数据、索引和统计数据如何放置在物理磁盘上永远是一个挑战性的问题,因为底层的存储表达对上层的查询处理和优化有着重要的性能影响。纯XMl数据库在物理上存储XML文档主要有三种方案:(1)字节流方式:即将XML数据转换为字节流,这种方式将文档转换为字节流,然后将其存储在文件系
3、统的文本文件中或存储为数据库的BLOB字段中,然后在这些文件或字段上面加一些索引,通过这种方式来提供某些数据的功能,当存储和检索整个文档时,这种方式效率较高,并且能够精确地再现原来的XML文档,但缺点在于任何一次查询文档时都必须通过分析器处理后才能获得结构信息。(2)元模型方式:即按照某种物理模型存储XML文档,这里模型的不同,分为两种方案,一种是采用现有的关系数据库或面向对象数据库作为XML数据的存储库,在重组文档片段或不同文档时比较快,但在逻辑层和物理层的数据需要经过转换,因而会降低处理效率。另一种是为
4、XMl数据库设计专有的存储方案,如INFONYTEDB采用的PDOM方式就是首先将文档转化为DOM结构,然将其映射到一些特殊的文件中。这种方案能够以一种比较自然的方式来存储XML数据,避免物理层和逻辑层数据之间转换,但由于采用全新的存储方案,技术不够成熟。(3)混合型,这种方式又可以细分为两种类型:冗余型和杂交型。冗余型是指每份数据保持两份副本,一份基于文本方式存储,一份基于模型存储。这样可以同时利用两种方式的优点,但是两份数据很可能处于不一致的状态,且更新效率较低。杂交型存储方式中规定一个数据单元,粒度大
5、于数据单元的部分以元模型方式存储,否则以字节流方式存储。在实际的纯XML数据库中用的比较多的是基于元模型的方式和杂交方式。2.数据模式在传统的关系数据库中,模式严格地约束着数据的类型、操作和结构,数据完全对应于模式,数据的插入、查询、更新和存储都必须遵循模式的定义。而XML数据具有半结构化的特征,数据与模式信息之间并不具有完全对应的关系,此时模式仅仅是作为查询或者了解数据的一个说明,并不具有约束数据的功能。因此,如何在纯XML数据库中发挥XML模式的作用是一个需要研究的问题。3.存储粒度XML数据是一棵由各
6、种节点组成的树,常见的节点包括元素(Element)节点、属性(Attribute)节点和文本(Text)节点。但是NXD中,一条记录所对应的子树有多大、包含多少个什么样的节点,这是NXD的存储粒度问题。记录的粒度分为三种:(1)结点级:一个结点就是一条记录。(2)子树级:XML文档的一个片段(一个子树)对应一个记录。目前,有两种划分子树的方法:①根据物理块大小,使子树的大小与物理块大小相近,不需要文档模式信息的支持;②根据逻辑意义划分子树,使子树成为一个比较完整的逻辑单位,需要文档模式信息的支持。(3)文
7、档级:一个XML文档是一条记录,文档是作为一个整体来操作的,不需要有DTD或XMLSchema等模式信息的支持。不同的粒度对存储空间和查询的支持各不相同。对同一个XML文档来说,记录的粒度越小,记录的数目就越多,记录之间的指针就越多,存储空间需要的也越多,从而记录的存储效率较低,但小粒度的存储方法使每个元素和属性,包括文本都可以被单独查询、修改或删除,且对其他文档结构影响最小,具有最大的灵活性,也无须利用文档的模式信息。记录的粒度越大,为了读取某一个节点需要读进的节点数就越多,更新时效率就越低,但是大粒度的
8、存储方法不需要存储过多的逻辑指针和物理指针,能够节省存储空间,且重构整个文档会比较快一些。因此,根据查询的要求如何确定XML数据的存储粒度也是一个挑战性的问题。4.存储顺序如果NXD中存储XML文档的记录粒度是狭义的节点或者子树,那么这些记录在物理空间中的组织方式就是记录的存储顺序问题,存储顺序是指记录在物理上的相邻关系。记录的存储顺序一般有以下几种:(1)深度优先顺序存储,这是最常见的存储顺序。(2)广度优先顺
此文档下载收益归作者所有