基于文档分类及超链接优选策略主题蜘蛛的研究与实现

基于文档分类及超链接优选策略主题蜘蛛的研究与实现

ID:36769364

大小:7.27 MB

页数:98页

时间:2019-05-15

基于文档分类及超链接优选策略主题蜘蛛的研究与实现_第1页
基于文档分类及超链接优选策略主题蜘蛛的研究与实现_第2页
基于文档分类及超链接优选策略主题蜘蛛的研究与实现_第3页
基于文档分类及超链接优选策略主题蜘蛛的研究与实现_第4页
基于文档分类及超链接优选策略主题蜘蛛的研究与实现_第5页
资源描述:

《基于文档分类及超链接优选策略主题蜘蛛的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南交通大学硕士学位论文基于文档分类及超链接优选策略主题蜘蛛的研究与实现姓名:尹江申请学位级别:硕士专业:计算机软件与理论指导教师:黄洪20080301西南交通大学硕士研究生学位论文第1页捅斐随着Internet的迅速发展,网络信息增长的速度与人们获取所需信息能力之间的矛盾越来越突出。搜索引擎这一新兴技术也越来越体现出其自身的重要价值。作为搜索引擎的数据后勤保障,网络蜘蛛的发展也越来越迅速。论文从研究互联网络上信息的分布特征入手,对“主题网络蜘蛛"这一新型的网络蜘蛛原理、策略、结构、工作模式、调度

2、机制以及实现上进行了深入的分析研究。论文设计了一个主题网络蜘蛛系统一一FocusCrawlingSpider,在Windows环境下采用C++实现了该系统。在FocusCrawlingSpider系统的页面主题相关性判定策略中引入了文档自动分类的思想,提出了基于简单向量距离法、KNN算法以及朴素贝叶斯算法综合对页面进行主题相关性判定的页面相关性的方法;同时在URL剪枝部分,论文提出了将“侵入式鱼群算法(InvasiveFishSearch,IFS)”应用于FocusCrawlingSpider系统

3、,增强了该系统穿越“隧道’’的能力,增加了该系统的爬行覆盖率。论文对FocusCrawlingSpider系统的各个功能模块的设计与实现都进行了详细的论述,包括大量的效率瓶颈的分析以及解决方案。在系统结构、页面采集、Ulu(UnifomlResourceLocator,IJl[U)管理、URL评价、DNS(DomainNameServer,DNS)缓存系统、DOM(DocumentObjectModel,DOM)结构生成、HTML(HypertextMarkupLanguage,HTML)解析等方

4、面都提出并实现了一些创新点。论文从运行效率和爬行策略的改进效果等方面对FocusCrawlingSpider系统进行了运行测试。通过对测试数据的分析比较,得到了较好的结果。关键词:搜索引擎;网络蜘蛛;主题爬行;文本分类;西南交通大学硕士研究生学位论文第lI页ABSTRACTWiththerapidgrowthoftheInternet,theconflictbetweenthegrowthofthewebinformationandtheabilityofpeopleobtaintoitisbec

5、ominghugerandhugerThesearchengine,allemergingareaoftechnologyalsomanifestsitsownimportance.Webspider—thedatasupporterofsearchengines,becomesmoreandmoreadvanced.Inthisthesis,thedistributedcharacteristicofwebpages,andanalyzedtheprinciple,strategy,struct

6、urecomposition,workingmodel,dispatchermechanismofwebspidershavebeenresearcheddeeply,andawebspidersystemunderWindowsenvironment-FocusCrawlingSpidersystem·isimplemented,whichisdevelopedwithC++.AutomatictextcategorizationsareintroducedinFocusCrawlingSpid

7、ersystem.Thepagetopicdistinguishingmoduleisbasedonanalgorithmwhichintegrated‘‘SimpleVectorDistance’’.‘‘KNN’and‘'NaiveBayes’’method.Inaddition,wehavedesigned“InvasiveFishSearch(环S)”methodfortheURLpruningmoduleSOthatthespidersystemCanpassthroughthe‘‘tun

8、nels’’easier,andcrawlwidelyintheInternet.ThedesignandimplementionofthefunctionmodulesinFocusCrawlingSpidersystemarealsodiscussed,includingplentyofanalysisandsolutionsofspidersystem’Srunningbottlenecks.TherearemanynewmethodbroughtinFocusCrawlin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。