基于增量反馈和自适应机制的主题爬虫系统的设计与实现.pdf

基于增量反馈和自适应机制的主题爬虫系统的设计与实现.pdf

ID:32608349

大小:2.45 MB

页数:56页

时间:2019-02-13

基于增量反馈和自适应机制的主题爬虫系统的设计与实现.pdf_第1页
基于增量反馈和自适应机制的主题爬虫系统的设计与实现.pdf_第2页
基于增量反馈和自适应机制的主题爬虫系统的设计与实现.pdf_第3页
基于增量反馈和自适应机制的主题爬虫系统的设计与实现.pdf_第4页
基于增量反馈和自适应机制的主题爬虫系统的设计与实现.pdf_第5页
资源描述:

《基于增量反馈和自适应机制的主题爬虫系统的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、学位论文基于增量反馈和自适应机制的主题爬虫系统的设计与实现(题名和副题名)王斐(作者姓名)指导被灯姓名一————一盏赵憝——堑互亟——一⋯,一一一至挝桂~一叠L蕉i.一语学位级;;jj硕士论曼提交『]期2005.06专业名称~盐:簋垫廛旦垫盔,学fj÷爱f尊仲:j、n『t朋~一——⋯———!鱼.—立里皇:基~!L一⋯.昝新委员会j!睨评阍人、2{}0j证0^fjJ1南京理工大学硕士论文基于增量反馈和自适应机制的主题爬虫系统的设计与实现摘要近年来,随着互联网信息的快速几何增长,如何及时准确地从互联网上获取有用信息显得十分重要。主题爬虫是一种基于主题的信息采集系统,可以从互联网上采集到与主题相关的

2、有用信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。本论文进行了基于主题的爬虫系统的设计与实现,其主要的研究工作和特点包括:①研究了主题爬虫系统的基本理论和基本结构,深入分析和探讨了与主题爬虫相关的技术,并设计和初步实现了一个基于增量反馈和自适应机制的主题爬虫系统——HJSpider。②在页面与主题相关性判定中,引入了文本分类的思想,应用了在自然语言处理中比较成熟的基于向量空间模型的主题相似度计算方法。③在URL与主题的相关性判定中,综合运用了网页文本内容和Web结构图的启发策略,并在经典的如TS算法基础上提出了引入增量反馈和自适应机制的新的算法。④总结了主题页面在Web上的分布

3、规律,给出了主题选择的方法以及对主题页面中基于HTML语法的分析方法。关键词:主题爬虫,HITS,向量空间模型,超链分析Abstract硕士论文Theenormousgrowthoftheworldwidewebinrecentyearshasmadeitimportanttoperformresourcediscoveryefficiently.Consequently,severalnewideashavebeenproposedinrecentyears;amongthemakeytechniqueisfocusedcrawlingwhichisabletocrawlparticular

4、topicalportionsoftheworldwidewebquicklywithouthavingtoexploreallwebpages.AndnOW,itisnloreandmorewidelyappliedinthefieldsoftopic—specificsearchengines,sitestructureanalyzingandsoon.Themajorresearchworkandcontributionsofthisdissertationareasfollows:①Thebasictheoryandtheconstructionofthefocusedcrawlera

5、reinvestigatedrespectively.Basedontheseinvestigations,thethesisexplorestherelatedtechniquesofthefocusedcrawlerandbringsforwardastructuredesignmodelofit,whichwasnamedHJSpider.②Inthecourseoftherelativ姆judgingbetweenthepagecontentandthetopic,weappliedtheterm—basedvectorspacemodelwhichiswidelyusedinthe衄

6、edofthetextclassification.⑨InthecourseoftherelativityjudgingbetweentheURLandthetopic,wedevelopedanewarithmeticwhichbasedonthepagecontent,thewebstructureandthehypeflinkanalysismethodHITS.④Wesummedup廿1erulesofthedistributionoftopicontheweb.anddescribedthewayhowtoselectthetopicandhowtoanalysisthehyperl

7、inkbasedontheHTMLsyntax.KeyWords:FocusedCrawling,FLITS,VSM,HyperlinkAnalysisⅡ声明本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。