欢迎来到天天文库
浏览记录
ID:35057643
大小:3.28 MB
页数:61页
时间:2019-03-17
《基于lucene的搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、专业学位硕士学位论文基于Lucene的搜索引擎的研究与实现ResearchandImplementationofSearchEngineBasedonLucene作者姓名:宏朴3工程领域:软件工程3学号:414173534指导教师:雷逢春4完成日期:2016年9月1日6大连理工大学DalianUniversityofTechnology大连理工大学专业学位硕士学位论文摘要最近这些年,有一门新兴的技术正越来越多的引起人们的广泛注意,它就是垂直搜索引擎。垂直搜索引擎建造价格便宜,而且它是一种相对有效的搜索方式。用户可从相关网页上,根据输入的关键字搜索需要的消息,又可以浏览这些检索出的界面。检索
2、界面可以被用户打开,进行信息的浏览。结果包含所有相关网页在通用搜索引擎中是不可能实现的,即使雅虎公司的搜索结果覆盖率也不到50%。通过这些数据可以表明,很大一部分网页并没有被搜索引擎检测到,所以就无法对其中包含的信息加以利用。大量的信息无法为人们所有,造成了信息资源的浪费。尽管有些搜索引擎设置了一些功能使得一些没有检测到的信息得到一个可以检测的出口,即身份验证,但还是无法使这种现象得以改善。系统使用Eclipse和Dreamweaver作为开发环境。系统后台的信息是由某网站提供的,经过分析网站内容,准备好Heritrix的抓取清单,然后提交给Heritrix处理。网页抓取到后使用HTMLP
3、arser解析,将详细信息插入MySQL数据库,然后建立用来检索关键字的词库和Lucene的索引,最后搭建一个Web平台,采用JSP技术对建立的索引和数据库进行整合,为用户提供真正的搜索服务。关键词:垂直搜索;引擎;网络爬虫-I-基于Lucene的搜索引擎的研究与实现AbstractInrecentyears,thereisanemergingtechnologywhichismoreandmorearousedbypeople'swidespreadattention,andthenameofitistheverticalsearchengine.Verticalsearchengine
4、buildscheap,anditisarelativelyeffectivewayofsearching.Theusercanfromtherelevantwebpages,accordingtotheneedofinputkeywordsearchandbrowsetheretrievaloftheinterface.Theretrievalinterfacecanbeopenedbyusers,forinformationbrowsing.Resultsincludealltherelevantwebpagesinthegeneralsearchengineisnotpossible
5、,evenifyahoosearchresultscoveragelessthan50%ofthecompany.Throughthedatacanbeshowedthatasignificantportionofthewebpagehasnotbeendetected,searchenginesocontainsinformationcannotbetreatedinuse.Alotofinformationcan'tallforpeople,causingthewasteofinformationresources.Althoughsomesearchenginestosettingu
6、pthefunctionallowssomeinformationisnotdetectedacandetectexports,namelyauthentication,butstillcan'ttoimprovethisphenomenon.ThesystemisdevelopedbyEclipseandDreamweaverenvironment.Inthissysteminformationisprovidedbyawebsite.Heritrixcrawllistispreparedthroughanalyzingwebsite,andthensubmittedtodealwith
7、Heritrix.PagesareanalyzedwithHTMLParseraftercrawled,anddetailedinformationwillbeinsertedintotheMySQLdatabase.ThenLuceneindexandthethesauruswhatisusedaskeywordsareestablished.Finally,aWebplatformwillbesetuptointeg
此文档下载收益归作者所有