全文检索技术

全文检索技术

ID:24234503

大小:72.00 KB

页数:4页

时间:2018-11-13

全文检索技术_第1页
全文检索技术_第2页
全文检索技术_第3页
全文检索技术_第4页
资源描述:

《全文检索技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、全文检索技术1概述图书情报界对于检索语言的主流观点:自然语言检索是发展方向,信息检索要走fl然语言道路;人工语言不适应网络环境;目前自然语言检索技术虽有缺点,但人工智能发展可使其逐步达到完善,满足检索的要求。自然语言检索技术包括:(1)关键词索引及以关键词为检索标识的文献题录数据库;(2)全文数据库;(3)搜索引擎及由搜索引擎自动建立的网络资源数据库;(4)自动标弓I;(5)自动分类。在这5个主要方面中,只有关键词索引及数据库、企文检索、搜索引擎己经实现,但这3个方而的实质都是关键词检索,所以可以说自然语言检索目前仅在关键词检索的层次上

2、实现。0前关键词检索技术的最主要用途就是用来实现全文检索,它是全文检索的核心。并且关键词检索和全文检索是密不可分的。2基本概念所谓全文检索,是指直接以全文本信息作为主要处理对象,并根据数据资料的内容而不是外在特征来实现的信息检索手段。它的基本工作方式是能够将所有包含检索词的文献检索出來,不管这个词出现在文献的什么位置,或者说文献中的任意一个词都可以作为检索到该文献的条件。企文检索提供存取全文文本(指原始记录)的空间,文本中任何字符和字符串均可作为检索的入口点,全文检索是以原始记录中的检索词、字间的特定位置为对象的运算,对文献不作标引,故

3、没有标引用词。因此,全文检索是一种可以不依赖叙词表而直接使用自由词的检索方法。3实现条件要实现全文检索需要2个必要的条件:一是需要将最终信息本身输入到计算机里,这个问题看似简单,实际上它包含了极大的工作量;二是需要有相应的软件支持,全文信息不仅包括书刊的文字信息,而且包括图片、声咅、视频信息等各种信息资料,即使只将书刊及各种资料的文字信息输入计算机,其信息量就非常大了。因此,必须有专门的方法、专门的软件來支持这种“最终信息”的检索,这类软件就是全文检索软件。3.1全文检索的实现方式全文检索目前主要通过以下方式来实现:①采用自由指定的检索

4、项(如关键词、字符串等)直接与全文文本的一次数据高速对照,进行检索:②对文本内容中的每个检索项进行位置扫描,然后排序,建立以每个检索项的离散码为表目的倒排文档;③采用超文本模型建立全文数据库,实现超文本检索。3.2全文检索的核心技术全文检索的核心技术是将源文档屮所有的基本元素的出现信息记录到索引库屮。中文全文检索技术在原理上同丙文全文检索是一致的,但汉字本身的特点使中文系统的实现比两文系统更为复杂。在西文中,文档的基本元素是单词,可以以单词建立索引库,而且单词与单词之间有天然的间隔符空格,所以索引文件的建立相对简单。在中文系统中,基本元

5、素可以是单个汉字字符,也可以是词。因此,存在2种基本的索引方法,即“词索引”和“字索引”。3.2.1词索引“词索引”以能表达一定的意义的词为单位,通过事先内嵌的词典对原始数据作索引,以词为单位进行匹配。词索引适于大规模应用,索引库可以组织得比较小,检索速度也比较快,而且还可以实现同义词、反义词的概念检索,具有较高的查准率。但其难点在于中文自动分词,由于中文语言的复杂性使得计算机自动分词工作具有相当的难度,分词很容易出现歧义,从而导致在检索一些词时可以发生大量的漏检或错检,查全率不高。并且在当今社会,新的词汇层出不穷,对词表的更新也将是个

6、很大的工作量。3.2.2字索引“字索引”则以字为单位,把源文档中的每一个字的出现位罝记录到索引库中,索引库对每个不同的字符都保存了一个字表,记录同一个字在文档中的所有出现位置,无须词典即可对原始数据做索引,匹配的时候,以关键词中的每个汉字为单位向后匹配整个语料样本。4全文索引技术全文索引技术是目前搜索引擎的关键技术。原理是先定义一个词库,然后在文章屮查找每个词条出现的频率和位罝,把这样的频率和位罝信息按照词库的顺序归纳,这样就相当于对文件建立了一个以词库为0录的索引,这样查找某个词的时候就能很快的定位到该词出现的位置。问题是在处理英文文

7、档的时候显然这样的方式是非常好的,因为英文自然的被空格分成若干同,只要我们宥足够大的同汇库就能很好的处理。但是中文字符因为没有空格作为断词标志,所以就很难判断一个词,而且人们使用的词汇在不断的变化,而维护一个可扩展的词汇库的成本是很高的,所以问题出现了。解决出现这样的问题使“分词”成为全文索引的关键技术。目前有两种基本的方法:*二元法:它把所有有可能的每两两汉字的组合看为一个词组,这样就没有维护词库的开销。★词库法:它使使用词库中的词作为切分的标准,这样也出现了词库跟不上词汇发展的问题,除非你维护词库。实际上现在很多著名的搜索引擎都使用

8、了多种分词的办法,比如“正向最大匹配”+“逆向最大匹配”,基于统计学的新词识别,自动维护词库等技术,但是显然这样的技术还没有做到7匕夫o5分词算法中文全文检索技术的研发始于1987年左右,主要使用的是中文分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。