主题爬虫关键技术研究及应用

主题爬虫关键技术研究及应用

ID:36825706

大小:3.16 MB

页数:76页

时间:2019-05-16

主题爬虫关键技术研究及应用_第1页
主题爬虫关键技术研究及应用_第2页
主题爬虫关键技术研究及应用_第3页
主题爬虫关键技术研究及应用_第4页
主题爬虫关键技术研究及应用_第5页
资源描述:

《主题爬虫关键技术研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江工业大学硕士学位论文主题爬虫关键技术研究及应用姓名:吕赛辉申请学位级别:硕士专业:计算机软件与理论指导教师:范菁;熊丽荣20091109浙江工业大学硕士学位论文主题爬虫关键技术研究及应用摘要近年来,随着web信息资源的快速增长,通用搜索引擎存在无法检索所有页面的问题,也不能满足人们日益增长的个性化服务需要,因此各类适应特定人群需要的主题搜索引擎应运而生。为保证主题搜索引擎返回信息的准确性,开展对承担主题相关信息采集任务的主题爬虫系统研究具有重要意义。主题爬虫的基本工作原理是按照预先确定的主题,分析超链接和所抓取的网页内容,获取下一个要爬

2、行的URL,尽可能保证多爬行与主题相关的网页。在主题爬虫系统研究中,主要涉及主题基准模型、网页分析方法和网页搜索策略等方面的内容。主题基准模型是爬虫判别所抓取网页主题是否相关的依据,其研究重点是如何建立合适的主题基准模型以及主题基准模型和待判别网页的映射关系,以提高对所抓取网页的主题性判别;网页分析方法主要分析所抓取网页的内容和超链接,研究如何对网页内容进行正确提取,以获取网页所表示的主题,避免网页主题提取粒度不够影响对该网页的主题相关度判别;网页搜索策略主要解决待访问URL的次序问题,提高主题爬虫覆盖度。目前的研究主要集中在通过预测URL

3、的主题相关来决定URL访问次序,但这样又容易使主题爬虫陷入局部寻优的状态。基于上述分析,本文主要从主题基准模型、网页分析方法和网页搜索策略三方面展开研究,设计和构建相应的主题爬虫系统框架,并以信用主题为应用,实现主题爬虫原型系统,并对相应的实验结果进行分析比较。本文主要研究工作包括以下几个方面:1、对主题爬虫系统的结构开展研究,从提高主题爬虫抓取质量的角度出发,将主题基准模型、网页分析方法和网页搜索策略三个重要组成部分进行分析整合,设计了主题爬虫系统的框架。2、从主题基准模型建立方法和待判别网页主题抽取上展开研究,通过统一主题基准模型和待判

4、别网页的主题关键词的权重设置,来提高爬虫对网页的主题性判别。3、针对常用的基于网页结构内容块提取方法中提取正文粒度不够细问题,本文采用基于TagWindow标签窗El进行网页正文提取,以适应于正文篇幅长和正文中链接比较少的I浙江工业大学硕士学位论文网页类型。4、为提高主题相关资源发现率,针对现有主题爬虫存在无法访问链接不可达资源,无法跨越主题团之间的主题不相关链接等问题,本文对自适应遗传算法网页搜索策略展开研究,以缓和上述隧道问题。5、以信用主题为应用实现主题爬虫原型系统,并对相应的实验结果进行分析比较。关键词:主题爬虫,自适应遗传算法,网

5、页分析方法,信用主题模型Ⅱ浙江工业大学硕上学位论文RESEARCHANDAPPLICATIoNOFFoCUSEDCRAWLERKEYTECHNoLoGYABSTRACTInrecentyears,withtherapidgrowthofwebinformationresources,specifictopicsearchengineisdesignedtoaddresstheproblemofgeneralsearchengineswhichcannotretrieveallthepagesrelatedandsatisfypeople’S

6、growingneedsofpersonalizedservice.Itisofgreatsignificanceforresearcherstostudytheinformationcollectionrelatedtopicalcrawlersystemtoensurethetopicalsearchenginereturnstheinformationaccurately.Thebasicworkingprincipleoftopicalcrawlerisbydependingonapre-definedsubject,analyzi

7、ngthehyperlinkandthecrawledcontent,andextractingthenextURLneededtocrawl,tOensurethetopicalcrawlercallcrawlthetopicrelatedpages铺muchaSpossible.Thestudyoftopicalcrawlersystemmainlyincludessubjectbaselinemodel,webpageanalysismethod,webpagesearchstrategy,etc.Subjectbaselinemod

8、elisthebasepartforthetopicalcrawlertojudgewhichsubjectofthecrawledpagesrelatedtopre-defin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。