欢迎来到天天文库
浏览记录
ID:29939251
大小:1.43 MB
页数:73页
时间:2018-12-25
《聚焦爬虫系统的设计与实现 —— 页面解析与评价器模块---毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科毕业论文聚焦爬虫系统的设计与实现DesignandImplementationoftheFocusedCrawler——页面解析与评价器模块姓名:学号:学 院:软件学院系:软件工程专业:软件工程年级:指导教师: 年月摘 要万维网信息的爆炸式增长使Web已经成为世界上最大的信息库。面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需要的信息需要耗费大量的时间,造成了“信息过载,知识匮乏”的问题。为了解决这个问题,在Web信息检索领域提出了面向主题的聚焦爬虫技术。聚焦爬虫根据用户定义的目
2、标主题,智能化的从Web上收集主题相关的网页集合,然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、有效的检索方式满足用户的信息检索需求。它的理论和技术基础主要包括机器学习、信息检索、概率统计理论和Web新技术。在很多应用领域,如基于Web的行业分析、自动构建专题数字图书馆等,主题驱动的聚焦爬虫系统都富有应用前景。首先研究了搜索引擎和爬虫的技术原理,工作流程以及典型的聚焦爬虫体系结构,然后重点分析了聚焦爬虫的主题定义和网页处理及分类器模块,以及存在的主要问题。网站聚焦爬虫主要的
3、应用是网络目录。到目前为止,Google、Yahoo等网络目录提供商都是通过人工的方式收集主题网站,随着互联网信息的日益增多,这种靠人工来维护的网络目录越来越显得低效和不可行。就Google的网络目录来说,针对某一主题,Google仅能提供很少数量的主题网站,很多时候无法满足用户的需要。而网站聚焦爬虫是在现有聚焦爬虫的基础上加入网站选取和分类机制,使其能够自动分类并搜集主题网站。可见本文对网站聚焦爬虫的研究和实现将会是一个很有实用价值的课题。最后设计了基于综合爬行策略的聚焦爬虫的系统原型,改进了现有的聚焦
4、爬虫的体系结构,该系统实现了主题Web资源的智能化收集。通过实验测试得到爬虫系统的收获率,验证了综合爬行策略的有效性。关键词:搜索引擎;聚焦爬虫;内容分析IIIAbstractWiththeexplosivegrowthoftheonlineinformationresources,theWebhasbecomethemostenormousinformationrepositorytodate.Confrontedwiththishuge,heterogeneousandsemi-structurali
5、nformationrepository,Webusersoftenhavetospendalotoftimeandeffortstofindinformationneeded.Thiscontradictionisgenerallycalled“informationoverloadontheWeb”.Tosolvethisproblem,topic-drivencrawlinghasbeenproposedinWebinformationretrievalcommunityinrecentyears.
6、Thesystemusesanintelligentfocusedcrawlertocollecthighrelevantdocumentsonlinewithregardtothepredefinedtargettopics,andanalysistheinformationcollectedthroughmachinelearningandinformationretrievaltechniques,whichresultsinanefficientandconvenientinformationre
7、trievalapproachfortheusers.Thefundamentaltheoryandtechnologyincludemachinelearning,informationretrieval,statisticsandnewwebtechnologies.Itcanbeappliedtovariousapplications,includingWeb-basedindustryanalysis,andautomaticdigitallibraryetc.Thetheoryandarchit
8、ectureofthesearchenginesandfocusedcrawlerwereintroducedinthisthesis,andthetopicdefining,webhyperlinkanalyzingandcontentanalyzingalgorithms,andthecrawlingstrategyofthefocusedcrawlerwereemphaticallyanalyzed.Takingthei
此文档下载收益归作者所有