主题爬虫论文:主题爬虫 学习型爬虫 隐马尔可夫模型 万维网

主题爬虫论文:主题爬虫 学习型爬虫 隐马尔可夫模型 万维网

ID:6736064

大小:32.50 KB

页数:3页

时间:2018-01-24

主题爬虫论文:主题爬虫 学习型爬虫 隐马尔可夫模型 万维网_第1页
主题爬虫论文:主题爬虫 学习型爬虫 隐马尔可夫模型 万维网_第2页
主题爬虫论文:主题爬虫 学习型爬虫 隐马尔可夫模型 万维网_第3页
资源描述:

《主题爬虫论文:主题爬虫 学习型爬虫 隐马尔可夫模型 万维网》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、主题爬虫论文:基于隐马尔科夫模型的主题爬虫性能提高与应用【中文摘要】互联网在不断的飞速发展,然而利用爬虫在浩瀚如海的网络世界里对高效提取相关的目标网页信息显得越来越力不从心。为解决通用搜索引擎可扩展性限制,主题爬虫是有效的解决方案。主题爬虫可以预测并提取相关URL链接,并有效地抓取与目标主题网页内容高度相关的网页。文章通过和分析比较几种爬虫的收获率,用收获率作为性能指标来评价主题爬虫的性能,并结合分析研究与开发之间的偏差可以得到它的最优性能。本文还分析了各种不同类型的爬虫算法,且讨论了他们的性能表现。

2、近年来,隐马尔科夫模型的应用范围越来越广,且有先驱拿该模型来指导主题爬虫的爬行过程。前人已将隐马尔科夫模型应用于主题爬虫,取得了一定的效果,实践证明,将隐马尔科夫模型应用于主题信息采集领域是可行的。在此基础上,本文对现有隐马尔科夫模型主题爬虫进行了详细的分析,且和现在流行的一些主题爬虫做了性能对比,由此发现了隐马尔科夫模型主题爬虫的很多不足。所以提出了几个改进的方法来改进隐马尔科夫模型主题爬虫的性能,此性能主要指收获率的提高。实践证明改进后的爬虫收获率有很大的提高。将改进后的隐马尔科夫模型主题爬虫和N

3、utch搜索引擎结合使用,替换掉Nutch系统原有的爬虫系统,得到一个主...【英文摘要】Withthehighspeeddevelopmentoftheinternet,generalpurposewebcrawlerbecomeincreasinglyunabletoextracttheinformationofthewebpageeffectivelywhiletheircrawlinginthisvastnetwork.Topicalcrawlersareincreasinglyseenasa

4、waytoremovethescalabilitylimitationsofuniversalsearchengines.Thecontextavailabletosuchcrawlerscanguidethenavigationoflinkswiththegoalofefficientlylocatinghighlyrelevanttargetpages.Throughanalysisandcomparisonofseveralreptilesha...【关键词】主题爬虫学习型爬虫隐马尔可夫模型万维

5、网【英文关键词】FocusedCrawlerLearningCrawlerHiddenMarkovModelWorldWideWeb【索购全文】联系Q1:138113721Q2:139938848同时提供论文写作一对一辅导和论文发表服务.保过包发【目录】基于隐马尔科夫模型的主题爬虫性能提高与应用摘要4-5Abstract5目录6-71绪论7-141.1前言71.2搜索引擎概述7-111.3目前国内外研究现状11-121.4本文的研究目的意义与组织结构12-142爬虫的理论基础及相关技术研究14-202

6、.1通用爬虫14-152.2主题爬虫15-162.3主题爬虫相关技术概述及爬行算法策略162.4基本的爬行算法16-192.5小结19-203隐马尔科夫模型爬虫相关研究20-293.1隐马尔科夫模型模型研究20-243.2隐马尔科夫模型在主题爬虫中的应用24-283.3小结28-294隐马尔科夫模型爬虫的改进策略29-414.1隐马尔科夫模型主题爬虫的缺点研究29-334.2页面训练集的聚类策略33-354.3页面的主题相关度35-364.4建模方式的改进36-404.5小结40-415改进后的隐马尔

7、科夫爬虫试验分析及实践41-525.1新型隐马尔科夫模型主题爬虫的设计框架41-425.2新型隐马尔科夫模型主题爬虫的实现42-455.3新型隐马尔科夫模型主题爬虫实验结果及分析45-485.4构建基于新型隐马尔科夫模型主题爬虫的搜索引擎48-515.5小结51-526总结和展望52-546.1总结52-536.2展望53-54参考文献54-57攻读硕士期间发表的学术论文57-58致谢58

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。