基于日志分析的增量主题爬虫研究与实现

基于日志分析的增量主题爬虫研究与实现

ID:36796817

大小:5.78 MB

页数:69页

时间:2019-05-15

基于日志分析的增量主题爬虫研究与实现_第1页
基于日志分析的增量主题爬虫研究与实现_第2页
基于日志分析的增量主题爬虫研究与实现_第3页
基于日志分析的增量主题爬虫研究与实现_第4页
基于日志分析的增量主题爬虫研究与实现_第5页
资源描述:

《基于日志分析的增量主题爬虫研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南京邮电大学硕士学位论文基于日志分析的增量主题爬虫研究与实现姓名:徐尚瑜申请学位级别:硕士专业:计算机软件与理论指导教师:张卫丰20100301南京邮电大学硕士研究生学位论文摘要面对海量的互联网信息,传统搜索引擎在查找主题信息方面日益无法满足人们的要求,如何帮助人们及时准确地获取主题信息变得越来越重要,而面向主题搜索引擎技术正是为此应运而生的。主题搜索引擎是特殊化的搜索引擎,它只面向某一具体的领域或主题,比起传统搜索引擎能更准确,更广泛的搜集领域或主题信息。然而如何为领域、主题相关性的判定制定准确的规则,如何有效的分析过滤无关资源保留相关主题资源,如何扩大对主题

2、资源的搜索的覆盖度,成了主题爬虫系统的研究重点。本文首先通过与普通网络爬虫工作流程的对比,介绍了主题爬虫的工作原理,接着详细介绍了主题爬虫使用的关键技术,在此基础上,总结出影响主题爬虫准确度与效率的三个主要问题:爬虫主题表示、网页主题相关性判断和爬行策略。在深入分析主题爬虫关键算法的基础上,提出了一种基于日志分析的改进的网页主题相关度计算方法。该方法根据齐次连续时间马尔科夫过程的性质,通过计算网页间的转移概率矩阵的平稳分布,作为网页的用户兴趣度估计;结合网页分块算法,分别计算网页文本块的文本主题相关度和相关链接块的链接关系重要程度。通过综合文本主题相关度、链接重

3、要程度和用户兴趣度这三个因素,提出一种改进的网页主题相关度计算方法,并通过实验测试,证明了改进的综合方法的准确度都高于这三个因素的单一使用。爬虫作为搜索引擎的一个重要组成部分,需要长期运行,如何有效地保证本地镜像的“新鲜度”成为爬虫研究的一个热点问题。本文根据网页更新符合泊松过程的特点,提出了一种及时同步本地数据库与远程网站的方法。通过保存的有关网页更新情况的历史记录,统计出各个网页的更新频率,并以此确定爬虫对该网页的访问频率,并通过实验证明了基于泊松过程的爬虫调度策略的可行性。关键词:主题爬虫、日志分析、主题相关度、网页更新、增量爬行调度策略南京邮电大学硕士研

4、究生学位论文Abs咖ctAbstractWiththedelugeofIntemetinformation,thetraditionalsearchenginesaregraduallyunabletomeetpeople’Sneedsinsearchingdomaininformation,howtohelppeopletofindsuchspecificinformationtimelyandaccuratelyisbecomingmoreandmoreimportant,theFocusedSearchEngineissuchtechnologytotac

5、klethisproblem.FocusedSearchEngineisspecializedsearchengine,itonlyfacesonefieldoronetopic.However,howtodesignthesuitabletopicrulesfordomainconception,howtoanalyzethewebpageeffectivelyinordertonotonlyfiltratetheirrelativeresources,butalsogetthehigh—relativetopicresources,andhowtoenlar

6、gethedomainoftopicresources,isbecomingveryimportantinresearchingfocusedcrawlersystem.Inthispaper,comparewithworkflowofthetraditionalcrawler,Iintroducedtheworking.principleandthekeytechnologiesoffocuscrawler,onthisbasis,summedupthreeissuesinaffectingtheaccuracyandefficiencyoffocuscraw

7、ler.thedefinitionoftopicinfocuscrawler,thetopicrelateddegreeofwebpages,thecrawlingstrategies.Iproposedanewimprovedmethodjudgingtopicrelateddegreebasedonloganalysis.Inthismethod,Iestimatesthetransitionprobabilitymatrixbetweenthewebpagesandgetitsstationaryprobabilitydistributionbasedon

8、thehomogeneo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。