基于lucene的搜索引擎的研究与实现

基于lucene的搜索引擎的研究与实现

ID:35057643

大小:3.28 MB

页数:61页

时间:2019-03-17

基于lucene的搜索引擎的研究与实现_第1页
基于lucene的搜索引擎的研究与实现_第2页
基于lucene的搜索引擎的研究与实现_第3页
基于lucene的搜索引擎的研究与实现_第4页
基于lucene的搜索引擎的研究与实现_第5页
资源描述:

《基于lucene的搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、专业学位硕士学位论文基于Lucene的搜索引擎的研究与实现ResearchandImplementationofSearchEngineBasedonLucene作者姓名:宏朴3工程领域:软件工程3学号:414173534指导教师:雷逢春4完成日期:2016年9月1日6大连理工大学DalianUniversityofTechnology大连理工大学专业学位硕士学位论文摘要最近这些年,有一门新兴的技术正越来越多的引起人们的广泛注意,它就是垂直搜索引擎。垂直搜索引擎建造价格便宜,而且它是一种相对有效的搜索方式。用户可从相关网页上,根据输入的关键字搜索需要的消息,又可以浏览这些检索出的界面。检索

2、界面可以被用户打开,进行信息的浏览。结果包含所有相关网页在通用搜索引擎中是不可能实现的,即使雅虎公司的搜索结果覆盖率也不到50%。通过这些数据可以表明,很大一部分网页并没有被搜索引擎检测到,所以就无法对其中包含的信息加以利用。大量的信息无法为人们所有,造成了信息资源的浪费。尽管有些搜索引擎设置了一些功能使得一些没有检测到的信息得到一个可以检测的出口,即身份验证,但还是无法使这种现象得以改善。系统使用Eclipse和Dreamweaver作为开发环境。系统后台的信息是由某网站提供的,经过分析网站内容,准备好Heritrix的抓取清单,然后提交给Heritrix处理。网页抓取到后使用HTMLP

3、arser解析,将详细信息插入MySQL数据库,然后建立用来检索关键字的词库和Lucene的索引,最后搭建一个Web平台,采用JSP技术对建立的索引和数据库进行整合,为用户提供真正的搜索服务。关键词:垂直搜索;引擎;网络爬虫-I-基于Lucene的搜索引擎的研究与实现AbstractInrecentyears,thereisanemergingtechnologywhichismoreandmorearousedbypeople'swidespreadattention,andthenameofitistheverticalsearchengine.Verticalsearchengine

4、buildscheap,anditisarelativelyeffectivewayofsearching.Theusercanfromtherelevantwebpages,accordingtotheneedofinputkeywordsearchandbrowsetheretrievaloftheinterface.Theretrievalinterfacecanbeopenedbyusers,forinformationbrowsing.Resultsincludealltherelevantwebpagesinthegeneralsearchengineisnotpossible

5、,evenifyahoosearchresultscoveragelessthan50%ofthecompany.Throughthedatacanbeshowedthatasignificantportionofthewebpagehasnotbeendetected,searchenginesocontainsinformationcannotbetreatedinuse.Alotofinformationcan'tallforpeople,causingthewasteofinformationresources.Althoughsomesearchenginestosettingu

6、pthefunctionallowssomeinformationisnotdetectedacandetectexports,namelyauthentication,butstillcan'ttoimprovethisphenomenon.ThesystemisdevelopedbyEclipseandDreamweaverenvironment.Inthissysteminformationisprovidedbyawebsite.Heritrixcrawllistispreparedthroughanalyzingwebsite,andthensubmittedtodealwith

7、Heritrix.PagesareanalyzedwithHTMLParseraftercrawled,anddetailedinformationwillbeinsertedintotheMySQLdatabase.ThenLuceneindexandthethesauruswhatisusedaskeywordsareestablished.Finally,aWebplatformwillbesetuptointeg

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。