欢迎来到天天文库
浏览记录
ID:32985359
大小:1.84 MB
页数:50页
时间:2019-02-18
《基于lucene的web搜索引擎的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、兰州理工大学硕士学位论文基于Lucene的Web搜索引擎的研究姓名:李建林申请学位级别:硕士专业:计算机应用技术指导教师:张永20100420硕士学位论文摘要随着网络信息量正不断地以指数规模增长,人类已步入信息爆炸时代。面对浩如烟海的网络信息,如何才能迅速、方便地获取有效信息,日益成为人们关心的问题。搜索引擎的出现极大地缓解了这一矛盾。搜索引擎是一种应用在Web上的软件系统,它以一定的策略在互联网中进行搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。在当前网络信息的大环境里,网络上出现了很多商业性的Web搜索引擎,如Google、
2、Baidu、Sougo等,他们极大地方便了网络用户。但由于他们的商业性质,其关键技术对于外界是保密的。为推进搜索引擎技术的发展,Apache基金会推出了一个开源的全文搜索引擎工具包Lucene。Lucene可以方便地嵌入到各种应用中,实现针对具体应用的全文检索功能,近些年来在世界各地被广泛应用。本文在现有搜索引擎理论的基础上,以Lucene为基础,并结合XML数据存储的思想,从不同层次研究了以Lucene为核心的搜索引擎的构建。本文的主要工作体现在以下三个方面:1.分析了当前搜索引擎的工作机制和关键技术,特别深刻地剖析了Lucene的索引引擎机制和搜索引擎机制,并在此基础上设计
3、了基于Lucene的Web搜索引擎架构。2.对于编写要求不严谨的HTML实现的网页要真正做到高效准确的挖掘数据非常困难。相对于HTML,XML可以更好地实现Web中的信息共享与交换。本文提出了XML数据抽取模块的设计思想,采用XML文件存储准备被索引的文件,可以有效地提高建立索引的速度和减小存储索引的空间,并能有效地提高数据挖掘的准确性。3.针对Lucene原基础排序算法查询精确度较低并且只考虑关键词和文档的相关度,忽略了网页本身的重要性的缺点,本文对Lucene排序算法进行了改进,改进后算法的最大特点是通过调整权重系数提高网页排名的合理性和查询的精确度。关键词:Lucene;
4、XML数据抽取模块;排序算法优化;搜索引擎基于Lucene的Web搜索引擎的研究AbstractWiththeamountofwebinformationisincreasinginexponentialrate,mankindhasenteredtheeraofinformationexplosion.Facedwithabroadarrayofnetworkinformation,thepeoplehaveincreasinglyconcernshowtoquicklyandeasilyobtainthevalidinformation.Theemergenceofsear
5、chenginegreatlyalleviatesthiscontradiction.Searchengineisawebapplicationsoftwaresystem.Withacertaindegreeofstrategyintheinternet,searchenginecancollect,findinformationandunderstand,extract,organize,dealwithinformation,andprovideretrievalservice,SOitplayanimportantroleofinformationnavigation.
6、Inthisnetworkenvironment,therearemanycommercialwebsearchengineinthenetwork,suchasGoogle,Baidu,Sougoete,whichareconvenientforwebusers.However,duetothenatureoftheirbusiness,thekeytechnologyfortheoutsideworldiskeptconfidential.Toadvancingthedevelopmentforsearchenginetechnology,ApacheFoundationi
7、ntroducedafull—textopensourcesearchenginetoolkitLucene.Inrecentyears,Luceneiswidelyusedaroundtheworld,whichcaneasilyembedinavarietyofapplicationsandachievethefulltextsearchfunctionforspecificapplication.Thispaperintegratestheexistingtheoryofsearche
此文档下载收益归作者所有