基于lucene的web搜索引擎的研究

基于lucene的web搜索引擎的研究

ID:32985359

大小:1.84 MB

页数:50页

时间:2019-02-18

基于lucene的web搜索引擎的研究_第1页
基于lucene的web搜索引擎的研究_第2页
基于lucene的web搜索引擎的研究_第3页
基于lucene的web搜索引擎的研究_第4页
基于lucene的web搜索引擎的研究_第5页
资源描述:

《基于lucene的web搜索引擎的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、兰州理工大学硕士学位论文基于Lucene的Web搜索引擎的研究姓名:李建林申请学位级别:硕士专业:计算机应用技术指导教师:张永20100420硕士学位论文摘要随着网络信息量正不断地以指数规模增长,人类已步入信息爆炸时代。面对浩如烟海的网络信息,如何才能迅速、方便地获取有效信息,日益成为人们关心的问题。搜索引擎的出现极大地缓解了这一矛盾。搜索引擎是一种应用在Web上的软件系统,它以一定的策略在互联网中进行搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。在当前网络信息的大环境里,网络上出现了很多商业性的Web搜索引擎,如Google、

2、Baidu、Sougo等,他们极大地方便了网络用户。但由于他们的商业性质,其关键技术对于外界是保密的。为推进搜索引擎技术的发展,Apache基金会推出了一个开源的全文搜索引擎工具包Lucene。Lucene可以方便地嵌入到各种应用中,实现针对具体应用的全文检索功能,近些年来在世界各地被广泛应用。本文在现有搜索引擎理论的基础上,以Lucene为基础,并结合XML数据存储的思想,从不同层次研究了以Lucene为核心的搜索引擎的构建。本文的主要工作体现在以下三个方面:1.分析了当前搜索引擎的工作机制和关键技术,特别深刻地剖析了Lucene的索引引擎机制和搜索引擎机制,并在此基础上设计

3、了基于Lucene的Web搜索引擎架构。2.对于编写要求不严谨的HTML实现的网页要真正做到高效准确的挖掘数据非常困难。相对于HTML,XML可以更好地实现Web中的信息共享与交换。本文提出了XML数据抽取模块的设计思想,采用XML文件存储准备被索引的文件,可以有效地提高建立索引的速度和减小存储索引的空间,并能有效地提高数据挖掘的准确性。3.针对Lucene原基础排序算法查询精确度较低并且只考虑关键词和文档的相关度,忽略了网页本身的重要性的缺点,本文对Lucene排序算法进行了改进,改进后算法的最大特点是通过调整权重系数提高网页排名的合理性和查询的精确度。关键词:Lucene;

4、XML数据抽取模块;排序算法优化;搜索引擎基于Lucene的Web搜索引擎的研究AbstractWiththeamountofwebinformationisincreasinginexponentialrate,mankindhasenteredtheeraofinformationexplosion.Facedwithabroadarrayofnetworkinformation,thepeoplehaveincreasinglyconcernshowtoquicklyandeasilyobtainthevalidinformation.Theemergenceofsear

5、chenginegreatlyalleviatesthiscontradiction.Searchengineisawebapplicationsoftwaresystem.Withacertaindegreeofstrategyintheinternet,searchenginecancollect,findinformationandunderstand,extract,organize,dealwithinformation,andprovideretrievalservice,SOitplayanimportantroleofinformationnavigation.

6、Inthisnetworkenvironment,therearemanycommercialwebsearchengineinthenetwork,suchasGoogle,Baidu,Sougoete,whichareconvenientforwebusers.However,duetothenatureoftheirbusiness,thekeytechnologyfortheoutsideworldiskeptconfidential.Toadvancingthedevelopmentforsearchenginetechnology,ApacheFoundationi

7、ntroducedafull—textopensourcesearchenginetoolkitLucene.Inrecentyears,Luceneiswidelyusedaroundtheworld,whichcaneasilyembedinavarietyofapplicationsandachievethefulltextsearchfunctionforspecificapplication.Thispaperintegratestheexistingtheoryofsearche

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。