基于lucene的站内检索系统的设计与优化

基于lucene的站内检索系统的设计与优化

ID:32144671

大小:9.33 MB

页数:67页

时间:2019-01-31

基于lucene的站内检索系统的设计与优化_第1页
基于lucene的站内检索系统的设计与优化_第2页
基于lucene的站内检索系统的设计与优化_第3页
基于lucene的站内检索系统的设计与优化_第4页
基于lucene的站内检索系统的设计与优化_第5页
资源描述:

《基于lucene的站内检索系统的设计与优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据浙江工业大学硕士学位论文第1章绪论1.1课题研究背景及意义互联网的迅速发展深深地改变了人们的生活。在经历了三十多年的发展后,互联网已经从一个学科、政府性质的研究发展成为了一个覆盖全球的商业性网络,变成了众所周知的信息高速公路【l】。人们在信息的海洋中共享网络资源的同时,如何在海量的信息资源L{一准确的查询到自己所需要的信息成为目自i『面临的主要问题,全文检索技术正是解决这一问题的主要技术,它也是信息检索的核心技术【2J。信息检索是一种广泛应用的技术。其主要原理为:面对用户实际检索要求,基于某种特定的手段,对现有信息进行搜索、

2、核对,从而发现并返回给用户符合要求的信息。信息检索这个词最早是由CalvinN.Mooers于1948年在MIT的硕士论文中提出I3

3、。1954年,美国海军兵器中心利用IBM公司提供的计算机,实现了全球首个科技文献检索系统的构建,能够对单元词组进行检索,而检索结果仅为文献的编号【41。1958年,通用电气对这一检索系统进行了优化升级,对输出结果进行了扩充,增添了作者、题目等信息。介于历史原因,现有的很多应用系统也已具备了全文检索的功能,但是,当前大部分的系统都是基于数据库系统而设计,伴随着系统公文数量的增加,这种方式下的搜索速度逐渐

4、变得异常缓慢,并对数据库资源也造成了极大的浪费。因此,提供一个高效率的、符合用户使用要求的搜索引擎系统势在必行。按搜索引擎工作方式分析,其主要分为以下三类:全文搜索引擎(Full-textSearch)、目录索引类搜索引擎(SearchIndex/Directory)和元搜索引擎(MetadataSearch)【5J。全文检索系统是一种提供全文检索服务的软件系统,它是按照全文检索理论建立的,典型的全文搜索引擎有百度和谷歌。目录索引类搜索引擎主要是指根据不同目录建立检索服务的软件系统,典型的目录式搜索引擎有新浪和雅虎【6]。元搜索引擎

5、是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。以全文检索技术为核心的搜索引擎仅仅是信息检索的一个重要的领域。信息检索的定义很广泛,在学术领域信息检索(IR)的定义如下:信息检索是在大量的存储在计算机的数据集中,找到满足需要的非结构化格式的资料或文档[71。按检索方法的角度分析,全文检索可分为两类:第‘类是依据“字”的检索,第二类是依据“同”的检索。所谓按字检索是指通过对文章中的每一个字进行分析,再形成以字万方数据浙江工业大学硕士学位论文为单位的索引

6、,再根据此对原始全文资料来分析,以确定每个字在索引当中出现的具体位置的一种索引方式。所谓按词检索就是根据语义单位来建立索引。采用语义单位建立索引,是凶为它基于单词且具有以下三个优点:一是词可以完全忽略字符的算法而仅注意分词算法;二是词构成了所有语言的基本单位;三是词与词之间的界限有较为明显的分隔符(通常为空格)。在大部分西方语言里,足利用空白符进行词的切分的,由此基于词进行检索能够很好的实现分词处理。但对于汉语而言,要求能达到实现汉语语义的中文分词,以完成按此索引目标。目前,中文分词的主流技术为基于词表的匹配方法,其匹配算法的最大特

7、点是以“长词优先”为准则【8】,但很多时候依旧无法依赖于人们的语言习惯。从研究背景分析,全文检索系统在国内外的应用上存在着一定的差异,造成这些差异的原因包括:中西方文字存在的明显差异,语言特点方面汉语语言与英语语言存在着巨大的不同,中国汉语语言检索系统发展的历史性。从以上原因可以看出,国内外检索系统要从真正意义上实现全文检索是存在着很大差异的。中文全文检索技术由于起步稍晚于国外,在算法的智能化方面存在一定的差距。目前常见的中文信息检索技术是较为传统的顺序检索,或者是倒排文档与顺序检索相瓦结合的检索方法【91。而主目录或摘要信息内容主

8、要根据传统的人工赋词标引方法为主,导致处理效率和智能化程度较低。从研究意义分析,针对站内搜索引擎的研究,能有效解决当前各大网站站内搜索不够全面的问题。它与传统的检索相比较而言,难点主要在于:处理的信息为非结构化、多种类型的异构信息,如何对这些信息进行索引、分类、分割及过滤,从众多的信息中提取出用户所需要的那部分内容,并反馈给用户以满足需求,是一项极富挑战性的研究,并且具有明显的应用价值。1.2国内外研究现状随着网络中的资源日益_牛-富,在这其中查找相关数据就会相应的变得复杂。为帮助用户存网络资源中快速精准定位所关注的信息,对搜索引擎

9、与全文检索技术的研究显得尤为重要。1.2.1站内搜索研究现状搜索引擎的应运而生是因为当前信息搜索技术己成为达到获取有用信息的主要方式,像谷歌、百度、360搜索等公司在基于互联刚的搜索中给用户提供了方便的同时,公司本身也取得了巨大的成功

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。