欢迎来到天天文库
浏览记录
ID:32024383
大小:2.40 MB
页数:43页
时间:2019-01-30
《【硕士论文】军训网主题搜索引擎技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、摘要随着Internet的迅速发展,网络信息增长的速度和人们获取所需信息能力之间的矛盾越来越突出。本文围绕主题搜索引擎这一社会研究的新热点技术,对主题搜索引擎中占有重要地位的主题蜘蛛给予研究和讨论。主题搜索引擎中的信息采集,即主题蜘蛛系统的搜索策略的研究,对于主题搜索引擎的应用与发展具有非常重要的作用。论文首先对主题搜索引擎的原理和结构进行介绍,引出主题蜘蛛,分析了其基本结构和工作原理。又详细的介绍了主题蜘蛛的其他相关技术,如文本分类和主题描述。然后抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,从军训网的结构入手,在研究大量现有的主题蜘蛛搜索
2、策略基础上,引入链接分析策略,对现存的搜索策略进行改进,并设计了一个主题蜘蛛模型。最后对该主题蜘蛛的性能进行了测试,同时给出了实验结果及分析。关键词:军训网主题蜘蛛主题爬行策略链接分析ABSTRACTWiththeoftheInternet,theconflictisbecominghugerandhugerrapiddevelopmentbetweenthegrowthoftheWebinformationandpeople’Sabilitytoobtaininformation.theresearchonthisoftheTopicSearchEngine
3、thatSurroundinghotspot,theimportantpartiscalledfocusedcrawlerisdiscussedinthispaper.TheresearchonthesearchingalgorithmisveryimportanttotheapplicationanddevelopmentoftheTopicSearchEngine.Atfirst,thebasictheoryoftheTopicSearchEngineanditsframeworkaresimplyintroducedinthispaper.Thefocu
4、sedcrawleriSbroughtforward.anditsworktheoryisanalyzed.Thenseveralrelatedtheorysuchastextclassifiedandtopicdescriptionarediscussed.Andthenweconcentrateontwokeyissues,howtoevaluationtherelevancebetweenthepageandthetopicanddesignahighefficientstrategy,startfromtheanalyzingthestructureo
5、ftheMilitaryTrainingNetwork,basedonlargernumberofexistingstrategy,importlinkanalysisstrategy,improvetheexistingstrategy,anddesignatopicspider.Atlast,theperformanceoftheistestedandtheresultispresented.spiderKeywords:militarytrainingnetworktopicalspidertopiccrawlingstrategylinkanalysi
6、s第一章绪论1.1背景生产力的发展和人类文明的进步都离不开知识的积累。从古到今,人们一直梦想着将世界上所有的知识汇总起来,做成一部百科全书,以便在解决问题的时候能够更方便。然而在网络的快速发展看来要将这个乌托邦式的梦想付诸实现的时候,一个更严峻的问题摆在了人们面前,即如何利用这部包罗万象的知识宝库呢,如何翻阅这本厚厚的百科全书呢?随着Intemet/Intranet的迅速发展,网络正深刻地改变着我们的生活。而在网上发展最为迅猛的www(wrorldWidewreb)技术,以其直观、方便的使用方式和丰富的表达能力,已逐渐成为Interact上最重要的信息发布和传
7、输方式。随着信息时代的到来和发展,Web上的信息如雨后春笋般迅速增长起来。截止到2007年12月,中国网页数约为84.7亿个,年增长率达到89.4%Ⅲ,网上信息资源的增长速度非常迅猛。然而,Web信息的急速膨胀,在给人们提供丰富信息的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战。一方面网上的信息多种多样、丰富多彩,而另一方面用户却找不到他们所需要的信息。为解决“信息爆炸’’带来的这些问题,各种新技术应运而生;传统的信息检索(InformationRetrieval),机器学习,自然语言处理技术也被广泛的应用于Web。其中最突出的技术莫过于搜索引擎。因
8、而基于WWW的网上信息的采集、发布和相
此文档下载收益归作者所有