基于符合celts-3标准的xml教育资源索引技术的研究

基于符合celts-3标准的xml教育资源索引技术的研究

ID:33531412

大小:1.64 MB

页数:44页

时间:2019-02-26

基于符合celts-3标准的xml教育资源索引技术的研究_第1页
基于符合celts-3标准的xml教育资源索引技术的研究_第2页
基于符合celts-3标准的xml教育资源索引技术的研究_第3页
基于符合celts-3标准的xml教育资源索引技术的研究_第4页
基于符合celts-3标准的xml教育资源索引技术的研究_第5页
资源描述:

《基于符合celts-3标准的xml教育资源索引技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于符合Celts.3标准的XML教育资源索引技术的研究XML作为SGML的子集,成为当前数据表示与交换的新标准,同时也被认为是用来定义半结构化数据最有效的手段,可用于建立多层Web应用、集成不同的信息源、根据用户个性化的特点将检索结果以多种方式显示等。这一切都说明,XML为智能代理、人工智能、数据挖掘等技术在信息检索领域的应用开辟了广阔的天地,XML将使信息检索系统更为智能和准确。《学习对象元数据》(CELTS.3)标准的发布使得对教育资源的描述具有了规范的结构并且实现了与XML进行规范化的绑定,这样我们就可以应用XML文档信息检索领域取得的研究

2、成果来研究解决教育资源库检索困难、应用效率低下的难题。1.2国内外研究现状XML(extensiblemarkuplanguage),即可扩展的标记语言,是一套定义语义标记的规范,其目标是能够定义计算机和人都能方便识别的数据类型。随着网络应用的快速发展,尤其是电子商务、Web服务等应用理念的进一步发展,使得XML类型的数据成为当前主流的数据形式。对XML数据的管理也成为研究的热点。自XML标准发布以来,国外的许多大学、研究机构和各种基金都己经或正在开展XML检索技术的研究,并且取得了一定的成果。XML文档检索技术的研究涉及到不同领域,可以按研究对象

3、、数据模型、索引模型、存储模式等分为几个方面。1.2.1研究对象根据被检索XML数据对象的不同,检索系统可以分为两类:以数据为中心(Data—Centric)和以文档为中心(Document—Centric)的XML信息检索系统。以数据为中心的XML文档的信息检索主要面对的是一些由机器自动产生信息或数据库信息的检索,其特点是数值占据主要部分,数据结构比较规整,这类问题与关系数据库中的SOL查询类似,检索结果比较确定,要么有,要么无。这方面的信息检索系统有:美国Pennsylvania大学的Deustch等人开发的基于关系型数据库系统和半结构化数据的

4、STORED;加拿大Tornoto大学研制的2内蒙古大学硕士学位论文与STORED类似的一个XML数据管理系统ToXin,该系统同时支持多种存储和索引方式,允许多种存储方式混合使用,同时也支持多种查询语言,比如Xpath,和XSLT;还有美国斯坦福大学的Lore系统等等。以文档为中心的XML数据主要是用来表示人类自然语言描述的数据,比如说:网页,使用文档,电子邮件、用户手册等等。这种文档的结构一般比较复杂,机器不能自动产生。从根本上来说,以文档为中心的数据检索是一种相关性检索,检索结果是近似和相关的文字数据信息片断,虽然可以借鉴传统信息检索技术中的

5、一些方法,但其与传统的信息检索仍存在很多不同之处。1.2.2数据模型XML文档结构的基础是数据模型。数据模型是描述数据、数据联系、数据语义以及一致性约束的概念工具的集合。国外大概从90年代中期就开始研究XML数据的模型,并取得了一定的成果。其中比较重要的两个数据模型是OEM模型和DOM模型。OEM(ObjectExchangeModel)模型是在1995年斯坦福大学提出的一个用于描述半结构化数据模型。后来又出现了许多该模型的变体,OEM己成为一个通用的、具有代表性的半结构化数据模型。DOM(DocumentObjectModel,文档对象模型)是一

6、种树状结构模型,或者说是一个抽象数据结构。它是W3C组织定义和推荐的API标准,DOM将XML数据映射到内存中的一棵结构树中,便于软件系统对文档元素的添加、删除、移动和查询,操作非常灵活和简便,但是由于要将整个文档装入内存,所以DOM相对来说要慢一些,而且对内存的要求比较大。1.2.3索引模型对半结构化的XML文档来说,索引技术对XML数据查询处理起着至关重要的作用,如果没有索引的支持将带来很大的I/0代价和语义支持方面的限制。索引不仅要能快速查找和定位文档,而且要同时保存文档的结构信息,索引结构直接关系着检索和存储的效率和性能。国内外许多研究提出

7、了多种不同的技术方案。基丁符合Celts.3标准的XML教育资源索引技术的研究文献[20]中提出的的BUS(BottomUpScheme)索引方法将整个文档映射为一棵完全K树,并使用虚节点(Virtualnode)来替代不存在的节点,用四元组<文档号,UID,层数,类型>来标识文档树中的节点。L.KPoola提出的SphinX[17】是最先利用XlVIL的文档类型定义DTD对XML文档进行索引的方法。此外,还有其它一些有效的索引模型,例如文[22]提出的层次索引模型,[24]中的XISS等等。1.2.4存储模式索引数据可以使用操作系统文件保存,例如

8、lucene和Nutch,也可以结合数据库管理系统来存储索引的内容。使用数据库存储,可以专门建造一个管理XML文档的数据库

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。