聚焦爬虫系统的设计与实现 —— 爬行策略与网络通信模块及数据库设计---毕业论文

ID：29698016

大小：1.60 MB

页数：78页

时间：2018-12-22

聚焦爬虫系统的设计与实现 —— 爬行策略与网络通信模块及数据库设计---毕业论文_第1页

聚焦爬虫系统的设计与实现 —— 爬行策略与网络通信模块及数据库设计---毕业论文_第2页

聚焦爬虫系统的设计与实现 —— 爬行策略与网络通信模块及数据库设计---毕业论文_第3页

聚焦爬虫系统的设计与实现 —— 爬行策略与网络通信模块及数据库设计---毕业论文_第4页

聚焦爬虫系统的设计与实现 —— 爬行策略与网络通信模块及数据库设计---毕业论文_第5页

资源描述：

《聚焦爬虫系统的设计与实现 —— 爬行策略与网络通信模块及数据库设计---毕业论文》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、本科毕业论文聚焦爬虫系统的设计与实现——爬行策略与网络通信模块及数据库设计DesignandImplementationoftheFocusedCrawler姓名：学号：学　　院：软件学院系：软件工程专业：软件工程年级：指导教师：　年月摘　要万维网信息的爆炸式增长使Web已经成为世界上最大的信息库。面对这个海量、异构、半结构化的信息库，Web用户经常发现要查找到所需要的信息需要耗费大量的时间，造成了“信息过载，知识匮乏”的问题。为了解决这个问题，在Web信息检索领域提出了面向主题的聚焦爬虫技术。聚焦爬虫根据用户定义的目标主题，智能化的从Web上收集主题相关的网页集合，然后采用机器学习或信息

2、检索的方法对收集到的信息进行智能处理和分析，最后以方便、有效的检索方式满足用户的信息检索需求。它的理论和技术基础主要包括机器学习、信息检索、概率统计理论和Web新技术。在很多应用领域，如基于Web的行业分析、自动构建专题数字图书馆等，主题驱动的聚焦爬虫系统都富有应用前景。本文首先研究了搜索引擎和爬虫的技术原理，工作流程以及典型的聚焦爬虫体系结构，然后重点分析了聚焦爬虫的主题定义和内容分析算法，主题爬行策略，以及存在的主要问题。根据HITS算法善于发现主题社区，但是容易发生主题漂移；最佳优先算法由于忽视超链接信息容易陷入局部最佳子空间的问题，提出了新的主题综合爬行策略。该策略基于深度优先算法

3、和内容主题相关性价值计算网页的综合价值并排序。通过利用主题页面层次分布特性，依据父网页的主题对子网页的主题具有指导意义以及父网页的深度，计算网页与主题相关度，发现并抓取主题社区及主题相关网页，避免爬行过程中容易出现的主题漂移问题，提高了爬虫系统的收获率。针对聚焦爬虫对目标主题的定义，采用文本分类方法建立主题特征词库，并提取主题特征用于计算网页的主题相关度。最后设计了基于综合爬行策略的聚焦爬虫的系统原型，改进了现有的聚焦爬虫的体系结构，该系统实现了主题Web资源的智能化收集。通过实验测试得到爬虫系统的收获率，验证了综合爬行策略的有效性。关键词：搜索引擎；聚焦爬虫；网络蜘蛛VIIVIIAbst

4、ractWiththeexplosivegrowthoftheonlineinformationresources,theWebhasbecomethemostenormousinformationrepositorytodate.Confrontedwiththishuge,heterogeneousandsemi-structuralinformationrepository,Webusersoftenhavetospendalotoftimeandeffortstofindinformationneeded.Thiscontradictionisgenerallycalled“inf

5、ormationoverloadontheWeb”.Tosolvethisproblem,topic-drivencrawlinghasbeenproposedinWebinformationretrievalcommunityinrecentyears.Thesystemusesanintelligentfocusedcrawlertocollecthighrelevantdocumentsonlinewithregardtothepredefinedtargettopics,andanalysistheinformationcollectedthroughmachinelearning

6、andinformationretrievaltechniques,whichresultsinanefficientandconvenientinformationretrievalapproachfortheusers.Thefundamentaltheoryandtechnologyincludemachinelearning,informationretrieval,statisticsandnewwebtechnologies.Itcanbeappliedtovariousapplications,includingWeb-basedindustryanalysis,andaut

7、omaticdigitallibraryetc.Thetheoryandarchitectureofthesearchenginesandfocusedcrawlerwereintroducedinthisthesis,andthetopicdefining,webhyperlinkanalyzingandcontentanalyzingalgorithms,andthecrawlingstrategyofthefocu

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 78



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

聚焦爬虫系统的设计与实现 —— 爬行策略与网络通信模块及数据库设计---毕业论文

聚焦爬虫系统的设计与实现 —— 爬行策略与网络通信模块及数据库设计---毕业论文

相关文章

相关标签