欢迎来到天天文库
浏览记录
ID:36804215
大小:3.87 MB
页数:70页
时间:2019-05-15
《基于Lucene垂直搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、西安科技大学硕士学位论文基于Lucene垂直搜索引擎的研究与实现姓名:徐海申请学位级别:硕士专业:计算机应用技术指导教师:李军民20090422论文题目:基于Lucene垂直搜索引擎的研究与实现专业:计算机应用技术硕士生:徐海(签名)盏盆三蜀指导教师:李军民(签名)李狁z摘要随着Internet和WWW的迅速发展,Intemet上的资源同趋丰富,人们也越来越多地依赖网络进行学习和研究。为了帮助人们在浩如烟海的网络中得到有用的信息,基于Intemet的各类搜索引擎应运而生并得到了迅速发展。目前,人们在网络上搜索信息主要利用百度,Google等通用搜索引擎,这类搜索引擎功能已经十分强大,基
2、本可以满足用户的需求,但是当用户搜索一些专业信息时,这类搜索引擎往往显得力不从心。垂直搜索引擎的出现,正是为了解决此类问题。首先,本文论述了垂直搜索引擎的研究意义及体系结构,并深入研究了垂直搜索引擎的核心技术,包括主题相关度的判断,中文分词技术,网页排名技术等。其次,本文对Lucene开发包进行深入的学习研究,对比了其本身的中文分词方法及KTDictSeg分词方法,采用对中文分词效果较好的KTDictSeg分词方法对所提取的内容进行分词。最后,本文设计并实现了威客任务信息垂直搜索引擎系统,包括主题蜘蛛模块,信息提取模块,索引与检索模块。在主题蜘蛛模块采用SharkSearch算法来对未
3、处理的URL进行分析,提高了对主题信息采集的准确度;在信息提取模块,采用HtmlParser文档解析方法对采集的页面进行信息提取;在索引与检索模块,针对Lucene中的得分算法没有很好的体现网页在网站中的位置信息这一不足,设计了一种改进的解决方案,将文档的基本得分与文档在网页中的位置信息以及文档本身的特点很好的结合起来,以提高对搜索结果排序的准确度,由此增强了搜索的精确度。关键词:垂直搜索引擎;主题蜘蛛;Lucene;信息检索;中文分词研究类型:应用研究SubjectSpecialty:TheResearchandDesignonVerticalSearchEngineBasedonL
4、ucene:ComputerApplicationTechnologyName:XuHaiInstructor:LiJunMinABSTRACT(Signature)WiththerapiddevelopmentofInternetandWWW:resourcesontheInternetbecomemore肌dmorea_bulldant.AndpeopleareincreasinglydependentontheInternettostudyandresearch,InordertohelppeoplegetusefulinformationinabroadarrayofInter
5、netinformation’v撕ouSIntemet.basedinformationretrievalservicescanleintobeingandhavebeendeVelopedrapidly.Currently,peoplesearchforinformationontheIntemetprimarily恤DugnBalDu.Googleandothergeneralsearchengines.Thefunctionofthesesearchengineshayebeens.咖ngandtheycallmeetmostusers’needs.However,弱forpro
6、fessionalthemes,sucnsearchengineswillbeinsufficient.TheemergenceofverticalsearchenginesISspecificallYforsolvingthisproblem.First.inthispaper,wediscussthesignificance,architectureoftheverticalsearchen91neandstudytheverticalengines’coretechnologyincludingsubjectrelevancyJudgments,ChineseWordSegmen
7、tationtechnology,webrankingtechnologyandSOon·Second.Lucenepackageisstudieddeeplyinthispaper,andcomparetheChineseWordSe田:TlentationwhichLueeneuseswithKTDictSeg,thenUSeKTDictSegwhichperformsbetterthantheformermethodtosegmentwo
此文档下载收益归作者所有