欢迎来到天天文库
浏览记录
ID:38492920
大小:94.50 KB
页数:3页
时间:2019-06-13
《情报检索论文》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、XML与网络信息检索XML的简单介绍XML(eXtensibleMarkupLanguage,可扩展标记语言)的出现,为如何在Web环境下开展文献信息的收集、分类、检索工作以及如何充分利用Web的海量信息资源问题,提供了一种解决方案。XML是从1995年开始有其雏形,并向W3C(万维网联盟)提案,而在1998年2月发布为W3C的标准(XML1.0)。XML的前身是SGML(TheStandardGeneralizedMarkupLanguage),是自IBM从1960年代就开始发展的GML(Genera
2、lizedMarkupLanguage)标准化后的名称。1978年,ANSI将GML加以整理规范,发布成为SGML,1986年起为ISO所采用(ISO8879),并且被广泛地运用在各种大型的文件计划中,但是SGML是一种非常严谨的文件描述法,导致过于庞大复杂(标准手册就有500多页),难以理解和学习,进而影响其推广与应用。同时W3C也发现到HTML的问题:l不能解决所有解释数据的问题-像是影音档或化学公式、音乐符号等其他形态的内容;l性能问题-需要下载整份文件,才能开始对文件做搜索。l扩充性、弹性、易读
3、性均不佳。为了解决以上问题,专家们使用SGML精简制作,并依照HTML的发展经验,产生出一套使用上规则严谨,但是简单的描述数据语言:XML。XML是在一个这样的背景下诞生的。XML作为专门应用于Web的标记语言,具有很多特点,较为显著地有:l简单。XML的语法非常简单,容易学习,便于应用。而且XML只有SGML20%的复杂性,同时又具有80%的功能与特点。l可扩展。相对于HTML的固定标签,XML允许用户创造自己的标签来描述Web中的数据与信息。而且基于内容与显示形式相分离的原则,XML的应用会越显突出
4、。l结构化。XML是采用严格的结构来描述数据的,将内容的显示格式分离出去,是的表达的数据有很好的使用效率和可重复使用性,从而方便用户对网络数据进行收集、检索及统计分析。其中的第三点正是XML能用于Web信息检索的重要原因之一。下面是一个用XML描述的例子:XML结构化的数据表示方式,不仅容易理解,而且对于计算机查找、检索等处理也极为方便。它可以准确地表示对象的结构,如文件、数据库表单以及任何可又定义单元组成的数据对象。XML不仅能描述信息的形式,更保存了信息本身的事迹含义,从而使浏览器等应用能对各类文档
5、方便地进行信息结构的分析,并对相应的结构对象进行分析。将XML结构化文档导入检索系统中,可方便、准确地提取其语义信息,根据信息项进行检索,缩小检索范围,使检索的准确性和响应性大为改善。下图中显示的是一个图书馆部分书籍的信息。从中可以清楚找到所需信息。XML的一些技术与XML相关的一些技术也为Web信息检索提供了很好的支持。比如说Xink、XPath、XQuery等等。Xlink是XML链接规范,它提供两类链接:简单链接和扩展链接。简单链接只能链接一个目标,而扩展链接允许把多个资源连接在一起,这些资源可以
6、被指定为在一个不是源文档的文档中。而且扩展链接提供了功能强大的选项,如双向链接和多项链接。双向链接可以使人在两个方向遍历,多项链接可以使人链接两个或多个目标。另外扩展链接有两种类型,内联扩展连接和外联扩展连接。内联扩展连接它是指可以将连接的内容作为自己拥有的资源。外联扩展连接,是指链接文档本身实际上已不存在。而是将这些链接存放在一个独立的链接文档中。例如我们有多个文档,没有文档中有简单链接,但它们通过保存在多个文档的外联连接而链接在一起。XPath即为XML路径语言(XMLPathLanguage),它
7、是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。而XQuery就是XMLQuery。XQuery相对于XML的关系就相当于SQl相当于数据库的关系。XQuery被设计用来查询XML数据-不仅仅限于XML文件,还包括任何可以XML形态呈现的数据,包括数据库。除此之外,还有很多其他技术,就不一一列举了。当然
8、这些技术还没有完全成熟,不过在Web日益发展的情况下,在以后的Web中这些技术必将起到重大作用。XML在情报检索中的应用对于XML文档,也可以直接采用情报检索技术进行处理和检索。XML文档可被看作是上面附加标记的文本文档。对于标记,有几种处理方法:第一,去除标记,这样处理比较简单,但同时也丢掉一些信息、降低检索效果。第二,抽取文档中重要的结构和组织信息,单独做索引。还有一种方法是对标记做标引,将它们作为索引词一样处理,最好对元素内容里的ta
此文档下载收益归作者所有