欢迎来到天天文库
浏览记录
ID:32608349
大小:2.45 MB
页数:56页
时间:2019-02-13
《基于增量反馈和自适应机制的主题爬虫系统的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、学位论文基于增量反馈和自适应机制的主题爬虫系统的设计与实现(题名和副题名)王斐(作者姓名)指导被灯姓名一————一盏赵憝——堑互亟——一⋯,一一一至挝桂~一叠L蕉i.一语学位级;;jj硕士论曼提交『]期2005.06专业名称~盐:簋垫廛旦垫盔,学fj÷爱f尊仲:j、n『t朋~一——⋯———!鱼.—立里皇:基~!L一⋯.昝新委员会j!睨评阍人、2{}0j证0^fjJ1南京理工大学硕士论文基于增量反馈和自适应机制的主题爬虫系统的设计与实现摘要近年来,随着互联网信息的快速几何增长,如何及时准确地从互联网上获取有用信息显得十分重要。主题爬虫是一种基于主题的信息采集系统,可以从互联网上采集到与主题相关的
2、有用信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。本论文进行了基于主题的爬虫系统的设计与实现,其主要的研究工作和特点包括:①研究了主题爬虫系统的基本理论和基本结构,深入分析和探讨了与主题爬虫相关的技术,并设计和初步实现了一个基于增量反馈和自适应机制的主题爬虫系统——HJSpider。②在页面与主题相关性判定中,引入了文本分类的思想,应用了在自然语言处理中比较成熟的基于向量空间模型的主题相似度计算方法。③在URL与主题的相关性判定中,综合运用了网页文本内容和Web结构图的启发策略,并在经典的如TS算法基础上提出了引入增量反馈和自适应机制的新的算法。④总结了主题页面在Web上的分布
3、规律,给出了主题选择的方法以及对主题页面中基于HTML语法的分析方法。关键词:主题爬虫,HITS,向量空间模型,超链分析Abstract硕士论文Theenormousgrowthoftheworldwidewebinrecentyearshasmadeitimportanttoperformresourcediscoveryefficiently.Consequently,severalnewideashavebeenproposedinrecentyears;amongthemakeytechniqueisfocusedcrawlingwhichisabletocrawlparticular
4、topicalportionsoftheworldwidewebquicklywithouthavingtoexploreallwebpages.AndnOW,itisnloreandmorewidelyappliedinthefieldsoftopic—specificsearchengines,sitestructureanalyzingandsoon.Themajorresearchworkandcontributionsofthisdissertationareasfollows:①Thebasictheoryandtheconstructionofthefocusedcrawlera
5、reinvestigatedrespectively.Basedontheseinvestigations,thethesisexplorestherelatedtechniquesofthefocusedcrawlerandbringsforwardastructuredesignmodelofit,whichwasnamedHJSpider.②Inthecourseoftherelativ姆judgingbetweenthepagecontentandthetopic,weappliedtheterm—basedvectorspacemodelwhichiswidelyusedinthe衄
6、edofthetextclassification.⑨InthecourseoftherelativityjudgingbetweentheURLandthetopic,wedevelopedanewarithmeticwhichbasedonthepagecontent,thewebstructureandthehypeflinkanalysismethodHITS.④Wesummedup廿1erulesofthedistributionoftopicontheweb.anddescribedthewayhowtoselectthetopicandhowtoanalysisthehyperl
7、inkbasedontheHTMLsyntax.KeyWords:FocusedCrawling,FLITS,VSM,HyperlinkAnalysisⅡ声明本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论
此文档下载收益归作者所有