欢迎来到天天文库
浏览记录
ID:32031907
大小:2.34 MB
页数:86页
时间:2019-01-30
《【硕士论文】基于LUCENE的搜索引擎研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、武汉理工大学硕士学位论文基于LUCENE的搜索引擎研究与实现姓名:高磊申请学位级别:硕士专业:计算机应用技术指导教师:徐东平20070501武汉理工大学硕士学位论文摘要随着信息技术的不断发展,互联网技术也得到了迅猛发展,而在互联网上大家每天用的频率最高的就是搜索引擎,人们已经把它当作日常学习、工作、休闲不可缺少的一个工具。大家都知道用搜索引擎可以快速的找到自己想找的资料或信息,那么到底什么是搜索引擎呢?网络上通常说的搜索引擎指的是收集了因特网上几十亿到上百亿个网页,并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中
2、包含了该关键词的网页都会作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列,呈现给用户。本文首先介绍了搜索引擎的发展现状,在上世纪九十年代以后以互联网为基础的信息化进程中,面对浩瀚的网络信息资源,人们寻找自己需要的信息变得越来越困难,大多数人很大程度上是依赖搜索引擎来帮助自己获得有用信息,因此搜索引擎技术作为最典型的web信息获取技术,其发展水平高低直接影响人们获取信息的质量。接着介绍了搜索引擎的特点和分类,并对搜索引擎的原理及网络机器人等技术进行了探讨,对google主流搜索引擎系统结构进行了分析研究。在此基础上对开源代码项目Lu
3、cene的历史,应用,特点,系统结构,Lucene索引文件格式进行了论述。然后对搜索引擎中的关键技术进行了研究。由于Web站点上的页面频繁更新,随着时间的推移,将会有许多页面过时或者不存在,通过对网络机器人页面抓取过程进行分析,提出了递增式的网络机器人页面变化模型。最后对中文分词的常见算法及中文分词岐义和末登录词进行了相关分析论述。关键字:搜索引擎,Lecene,网络机器人,中文分词武汉理工大学硕士学位论文AbstractA10ngwiththeinformationtechnologyunceasingdevelopment,theIntemettechnologyisalso
4、developingswiftly,butthemosthi曲frequencytoolwhicheverybodynseseverydayontheIntemetisthesearchengine,thepeoplealreadyIreateditasanessenfialtoolforstudy,work,theleisureactivities.Everybodyknowswiththesearchengineonemaygetthematerialorinformationthathewantstofind,andthenwhatisthesearchengine?Oen
5、arallywereferredthesearchengineontheInternetasithascollectedfromseveralbillionsto10billionswebPages.andindexeachword(namelykeyword)ofthewholewebpages,estabfishedthefull-textsearchengincoftheindexdatabase.Afterthenscl"enteringthekeyword,allthePagescontainingthekeywordsWOuldbefindoutasthesearch
6、results.Aftersortingaccordingtocomplexalgorithm,theseresultswillbepresentedtOtheusersbasedonthecorrelationdegreetothekeywords.Firstofall,thethesisintroducespresentsituationofthedevelopmentofsearchengine.After1990’S。whenfacingvastnetworkinformationresources,itbecomemoreandmoredi街cultforpeoplet
7、oseekinformationtheyneedintheprocessofinformationizationbasedOiltheInternet.n地majoritieswillrelyonthesearchenginetohelD也emselvestoobtaintheusefulinformationtoagreatextend.Therefore,thedevelopmentofthesearchenginetechnologiesasatypicalwebinfor
此文档下载收益归作者所有