【硕士论文】垂直搜索引擎的研究与设计(1)

【硕士论文】垂直搜索引擎的研究与设计(1)

ID:34416760

大小:2.93 MB

页数:61页

时间:2019-03-05

【硕士论文】垂直搜索引擎的研究与设计(1)_第1页
【硕士论文】垂直搜索引擎的研究与设计(1)_第2页
【硕士论文】垂直搜索引擎的研究与设计(1)_第3页
【硕士论文】垂直搜索引擎的研究与设计(1)_第4页
【硕士论文】垂直搜索引擎的研究与设计(1)_第5页
资源描述:

《【硕士论文】垂直搜索引擎的研究与设计(1)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中文摘要互联网的快速发展,导致网络信息资源呈指数级增长,通用搜索引擎面临信息采集、存储等方面更大的挑战。此外,工作频率不断加快的现代商务人群对通用搜索页面中的大量非目标源信息感到不满,开始对专业领域的搜索精确性产生了强烈的需求,因此面向专业领域的搜索引擎即垂直搜索引擎应运而生。相对于通用搜索引擎的查询不准确、深度不够等局限性,垂直搜索引擎能给特定用户提供某一领域的更专业的信息和服务。本文首先对垂直搜索引擎中的几个关键技术进行论述,主要包括网络爬虫、网页预处理、中文分词和索引建立等。最后以相关理论知识为依托,对网络爬虫这一模块进行了分析设计与实

2、现。在垂直搜索引擎中,网络爬虫在信息采集方面如何以更有效的方式对网络中的数据进行搜索,是这几年来垂直搜索引擎研究中的热点问题之一,而本人也在这方面进行了大量的学习与研究。首先对专业网络爬虫各个组成部分所要用到的算法进行了深入的学习。对基于网页内容和基于链接结构分析这两种搜索策略计算页面相关性方面,主要探讨了常用的Fish—Search算法、Shark-Search算法、PageRank算法和HITS算法,并对以上算法在效率和性能方面进了比较。在此基础上,提出了自己的改进算法,即将网页内容和链接结构分析相结合的搜索策略,从分析网页内容相似性的角

3、度分析相关性需求,从网页链接分析的角度解决权威性需求。通过对算法进行分析与改进,本文设计了一个网络爬虫系统:VSE—Spider,该系统能够对指定的查询主题进行多线程数据抓取,其中在计算主题相关性网页方面使用了本人提出的改进的搜索算法。为了验证改进的算法具有更高的查准率,文中还对VSE-Spider进行了实验测试,得出了实验结果,根据实验数据,对改进的算法和原始算法在所抓取相关页面的查准率上进行了比较,最终得出本文中改进的算法确实是可行有效的。最后,对索引建立中常用的倒排索引技术进行了详细的分析与研究,并结合开源软件Lucene给出了文本格式

4、的文件索引建立的流程和实现。关键词:搜索引擎,垂直搜索引擎,网络爬虫,搜索策略,主题相关性AbstractWiththehighspeedofIntemetdevelopment,thelargeamountsofinformationblanketsearchenginewillfacethemore扣『eincreasingdramaticall%Thus,thesuchdifficuItchallenges,whicharecausedbytheinformationcollecting、memorizingaspects.Additi

5、onally,theformallargemountofnon—targetinformationsearchedbygeneralsearchingwebsitecannotsatisfythemodembussinesspeople,thosewhoneedmolespecialandfastersearching.Duetotheabovesituation,anurgentneedforwasbeingdeveloped.Thus,anewacidrateprofessionalinformationsearchingvertical

6、searchengine,whichfacetotheprofessionalregionsearchengineare】ustsearchen缪nescameout.Comparingwiththegeneral·purposesearchengines,verticalgalls01vemostoftheproblemsthatgeneralsearchenginesCall’tsolve.Theyfocusonofpeopleandspecificrequirements·specificfields、specificgroupsear

7、chengme,Thispaperfirstlydiscussesseveralkeytechnologiesaboutverticalwordsegmentationandindexingincludingwebspider,webpretreatment,Chineseandimplementamodelandso0n.Finally,onthebasisoftheabovetheory,wedesignofspideLdatafromthewebhasIntheverticalsearchengines,howthespiderscap

8、turehavedonebecomeone0fthehotstudyissuesinrecentyears,Inthisrespect,wealsoalotofan

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。