欢迎来到天天文库
浏览记录
ID:15748897
大小:117.00 KB
页数:36页
时间:2018-08-05
《web信息检索技术的探讨》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、科技情报开发与经济SCI-TECHINFORMATIONDEVELOPMENT&ECONOMY2010年第20卷第5期文章编号:1005-6033(2010)05-0105-05收稿日期:2010-01-07Web信息检索技术的探讨赵静,张鸿业(河海大学,江苏南京,210098)摘要:随着互联网技术的蓬勃发展,基于Web的信息成指数增长,如何在海量信息中获取自己真正需要的信息成为巨大挑战。因此,基于Web信息检索技术随之孕育产生。详细介绍了基于文本的和基于图像的检索技术,并对几种传统的文本检索模型进行了对比,指出了它们各自研究的焦点。关键词:Web信息检索技术;文本检索技
2、术;文本检索模型;图像检索技术中图分类号:G354文献标识码:A随着信息时代的到来,尤其是互联网技术的高速发展,网络中各种类型的Web网站数量成倍增长,这些Web信息形成了巨大的信息资源。但是随之也出现了许多问题,例如,低价值信息和高价值信息混杂在一起,大量重复性信息出现在不同网站中,大量不准确甚至是错误的、垃圾信息充斥在各个Web站点中。因此,如何快速有效地提取出人们所需要的信息,成为当前迫切需要解决的问题。在学术界,信息检索技术成为一门新兴学科,发展极为迅速。在产业界,当前各种信息搜索引擎也不断涌现,如百度、雅虎、Google等。Web信息资源大体可以分成两类:纯文本
3、格式的信息和多媒体(图像、影视频)信息,本文主要探讨基于文本检索的原理和相关技术、基于图像检索的一些关键技术等。1基于文本的检索技术1.1基于文本检索的工作流程在海量的信息中获取真正需要的信息,顺序搜索的响应时间将变得不可忍受。解决搜索响应时间的办法是对文本文档库中的文本进行预处理,为文本文档库建立一种便于搜索的数据结构————索引。基于索引的检索技术非常适用于大规模、稳定的或周期性变化的文本文档库,如今绝大部分搜索引擎采用的都是基于索引的检索技术。基于索引的检索过程见图1。文本文档库文档文本提取文本字符串文本预处理查询索引查询系统索引用户相关文档列表排序结果排序系统(1
4、)检索系统将所有的检索对象收集起来,构建集中的本地文本文档库,例如,对于Web搜索引擎,其检索对象主要是Web网页,因此搜索引擎需要从互联网上抓取尽可能多的网页保存到本地文本文档库中,一般这个过程由程序(网络爬虫)自动完成。(2)本地文本文档库构建完成之后,检索系统提取文本文档图1基于索引的检索技术库中文档的文本字符串,并进行文本预处理。文本提取过程主要是提取各种格式文档中的字符串。文本检索系统不仅面向互联网的Web网页,还面向各种文档类型,例如XML,PDF,MicrosoftWord或者Excel等类型的文档。(3)提取出文本字符串后,还需对文本字符串进行预处理以选择
5、合适的词来建立索引。对文本字符串的预处理包括分词(将文本中包含的词分析出来)、停用词删除(删除冠词、介词等)、词干提取、索引词的选择和建立词典等。(4)在有了文本预处理结果后,需要建立文档的索引。利用文档索引可以大大提高信息检索的速度。文档索引是一种便于用词检索的数据结构。(5)在建立文档索引后,就可以对文档库中文档进行检索。用户提交查询后,检索系统将直接访问索引。由于索引是一个可以便于搜索的数据结构,检索系统可以通过索引快速获得与查询相关的文档集合。(6)在获取与查询相关的文档后,由排序系统评价相关文档与查询的相关程度并对其排序,最后返回给用户。1.2文档索引的工作原理
6、文档索引是一种便于用词检索的数据结构。常见的索引数据结构有3种:倒排文件[1](invertedfile),后缀树[2](suffixtree)和签名文件[3]在(signaturefile)。倒排文件对词的搜索非常有效,大多数应用中比后缀树和签名文件的效果好,因此在文本检索中应用最为广泛。我们以倒排文件为例来探讨文档索引的工作原理。倒排文件,或称倒排索引、倒排表,是一种索引数据结构,用来提高查询速度。倒排文件一般由词汇表和词出现情况两部分组成(见图2)。词汇表一般采用特殊的数据结构(Hash技术、trie树或B-树)存储来提高词的查询速度。对于词汇表中的每个词,在词汇出
7、现情况中都有一个列表来记录词在所有文本中的出现位置。基于倒排文件的搜索一般分为如下3个步骤:(1)词汇表查询:将用户提交的查询语句分割成独立的词,在词汇表中查找这些词。(2)查找词出现情况:获取与查询串中所有词相关的出现情况列表。(3)词出现情况的操作:主要是通过对上一步中获取的词出现情况列表的操作来实现短语查询、近似查询和布尔查询等。每当本地文档库发生添加和删除时,检索系统也必须对文档索引进行相应的维护。当本地文档库中增加新的文档时,只需要对新文档建立一个倒排索引,并将新的倒排索引与原索引归赵静,张鸿业Web信息检索技术的探
此文档下载收益归作者所有