欢迎来到天天文库
浏览记录
ID:5933416
大小:31.00 KB
页数:9页
时间:2017-12-29
《全文检索技术探究和应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、全文检索技术探究和应用 摘要:本文对中文全文检索的有关技术进行了较为深入的研究。其重点放在了全文检索技术的应用上,介绍了一种全文检索引擎工具包一Lucerne。关键字:全文检索;倒排文件;Lucerne;全文数据库;自动分词中图分类号:[G257.5]文献标识码:A一、全文检索技术简介(一)什么是全文检索全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。总之,全文检索技术是现代信息检索
2、的一项重要技术。(二)全文检索需要解决的问题一套完整的全文检索一般包括:1对不同文本的统一处理;2索引的建立;3对汉语词语进行正确的切分;4检索问题;5排序问题5个问题进行分析与研究。二、建立索引库(一)索引文件分类91.顺排档结构顺排档文档是以Decide为主序的,每一文档下存放各自出现的词的ID及各词所出现的次数和具体位置信息,各数据项的存储长度固定。2.倒排档结构(1)一级索引:一级索引文件属于记录式文件,每一记录大小固定,共有三个数据项构成,WordID、文档数、第一个文档开始位置。其中WordID是词典中词条的ID,文档数是指这个词总共在多少个文档中出现,文档开始位置
3、是一个文件指针指向二级索引中出现当前词的文档集中的第一个文档存储位置,这个指针是一个长整形值相当于指明了是二级索引文件中的第几条记录,因为各记录长度也是固定大小。通过这个指向可以直接定位到二级索引文件读取位置,然后读取nDocs个记录即可,因为它们是存放在连续的地址空间上。(2)二级索引:二级索引也是一种记录式文件,每一记录有三个数据项组成,DocID、出现次数、第一个Hit位置。其中DocID是文档的ID,出现次数指的是当前文档中某一个词出现的次数,第一个Hit位置也是一个指针,指向Hits文件中的某一位置。通过这个指针就可以直接定位到Hits位置中的读取位置,这样连续读取n
4、Hits9个记录就可以将所有当前词在当前文档中的出现的位置信息都读入。这些文件将属于同一WordID下的所有文档记录按其词在整个文档的权值从大到小排列。(3)Hits位置信息文件:这些文件每一记录只有一个数据项,即Hit位置信息,只记录了各词在文档中出现的位置。将同一词在同一文档中的出现位置按出现的先后排列。这样在读取文档并提取摘要时只需对字符串从头到尾扫描一边即可,不需要来回扫描。(二)倒排索引压缩1.Lucerne压缩技术为了减小索引文件的大小,Lucene对索引也使用了压缩技术。首先,对词典文件中的关键词进行了压缩,关键词压缩为,例如:当前词为“阿拉伯语”,上一个词为“阿
5、拉伯”,那么“阿拉伯语”压缩为。其次大量用到的是对数字的压缩,数字只保存与上一个值的差值(这样可以减小数字的长度,进而减少保存该数字需要的字节数)。例如当前文章号是16389(不压缩要用3个字节保存),上一文章号是16382,压缩后保存7(只用一个字节)注意是”上一个词”。。由于词典词典是按顺序排列的,这种压缩方法的效果会非常显著。是按顺序排列的2.动态文本集的倒排索引压缩方案我们考虑文本集动态性时,9将文本内部的动态调整用两次文本层次的调整代替,即对一个文本作文字改动视为删除旧文本和增加新文本,因此一般只考虑文本层次的索引动态同步调整。位置序列记录的是某单词在一个文本内部的位
6、置,由于只考虑文本层次的增加、删除,所以该序列内部的值不会发生任何的改动,它是静态的,可以采用压缩率较高的任何压缩方法。与文档ID序列和词频序列相比,位置序列占用的索引空间往往多于二者,故而位置序列的压缩对整个倒排索引的压缩率起决定性作用。到目前为止,压缩率最高的首推二进制内插编码,虽然它的压缩与解压比较耗时,但与由压缩减少的I/O时间相比,可以忽略,因此我们可以对位置序列采用二进制内插编码。三、中文分词研究我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。(一)基于字典、词库匹配的分词方法9这种方法又叫做机械分词方
7、法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:1.最大正向匹配法 (MaximumMatchingMethod)通常简称为MM法2.逆向最大匹配法
此文档下载收益归作者所有