【硕士论文】面向汽车主题的垂直搜索引擎研究与实现

【硕士论文】面向汽车主题的垂直搜索引擎研究与实现

ID:34530294

大小:4.30 MB

页数:83页

时间:2019-03-07

【硕士论文】面向汽车主题的垂直搜索引擎研究与实现_第1页
【硕士论文】面向汽车主题的垂直搜索引擎研究与实现_第2页
【硕士论文】面向汽车主题的垂直搜索引擎研究与实现_第3页
【硕士论文】面向汽车主题的垂直搜索引擎研究与实现_第4页
【硕士论文】面向汽车主题的垂直搜索引擎研究与实现_第5页
资源描述:

《【硕士论文】面向汽车主题的垂直搜索引擎研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、西南交通大学硕士研究生学位论文第l页摘要互联网已经成为一个巨大的海量信息空间,人们在互联网上搜索信息主要利用百度等通用搜索引擎,这类搜索引擎功能已经十分强大,基本可以满足用户的需求,但是当用户搜索一些面向主题的信息时,这类搜索引擎往往显得力不从心。垂直搜索引擎的出现,正是为了解决此类问题。本文首先介绍了垂直搜索引擎的特点及工作原理,然后详细分析了开源网络爬虫Heritrix的系统结构。在此基础上,提出了设计特定的解析器,解析特定网站,以及扩展Heritrix的链接处理器,抓取特定链接,来实现定制抓取的

2、目的;然后通过消除robots.txt对个别处理器的影响,以及引入哈希算法,实现了高效、多线程抓取的目的。本文采用Lucene作为全文检索引擎,首先深入剖析了Lucene的系统结构,并详细阐述了Lucene的倒排索引技术和索引结构,然后通过分析Lucene原有排序算法,得知其只考虑网页内容本身,不能反映出网页的重要性的不足,通过引入基于链接分析的PageRank算法,改进了Lucene原有排序算法,排序结果更加符合用户预期。本文在上述研究的基础上,根据汽车爱好者查询汽车信息的一般要求,建立了一个面向汽

3、车主题的垂直搜索引擎,设计了各个子系统,并实现了改进的爬虫和排序算法。最后,本文在建立的垂直搜索引擎系统上,首先通过查询实验,验证了垂直搜索引擎相对通用搜索引擎的直观优势,然后通过对改进前后的爬虫抓取网页速度对比,以及对改进后爬虫在不同线程数、不同运行时间的条件下抓取网页速度的分析,验证了改进后的爬虫性能有了较明显的提高,最后通过对比排序算法改进前后的排序结果,验证了改进后的排序算法在符合用户预期查询结果方面,得到了较好的改善。关键词:垂直搜索引擎、网络爬虫、Lucene、PageRank西南交通大学

4、硕士研究生学位论文第¨页AbstractIntemethasbeenaspacewithhugeinformation.PeoplemainlyusegeneralsearchenginesuchasBaidutosearchinformationintheintemet,althoughthiskindofsearchengineisstrongenoughtomeetpeople’Sbasicrequirement,itdoesn’thavethegoodabilityofprovidingthe

5、informationorientedonsubjectforsearchengineusers.Theappearanceofverticalsearchenginehasbeenputforwardtosolvethiskindofproblem.,nlisarticlefirstlyintroducesthefeatureofverticalsearchengine,anditsworkprinciple,thenitdeeplyanalyzesthesystemconstructureofoD

6、ensourcewebcrawlercalledHeritrix.Basingontheaboveanalysis,thisarticleputsforwardtodesignspecificextractortoextractspecificWebsiteandexpandthelinkprocessorofHeritrixtocrawlspecificlinks.SOastorealizethecustomizedcrawl;thenitputsforwardtoeliminatetheeffec

7、twhichrobots.txthasmadetosomeprocessorsandaddhashalgorithm.SOastorealizethecrawlwi吐lllighefficiecyThisarticleusesLuceneasthefulltextsearchengine,缸firstlyanalyzesthesystemconstmctureofLucene,andfullyexpoundsthereverseindexandindexstructureofLucene.Thenit

8、leadsUStoknowthattheLuceneoriginalsequencealgorithmjustthinksaboutthecontentofwebpages,whichcannotindicatetheimportanceofwebpages,SOitaddsPageRankalgorithmwhichisbasedonthelinkanalysis,whichhasimprovedtheorginalsequencealgorithmo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。