主题网络爬虫的研究与设计

主题网络爬虫的研究与设计

ID:33375265

大小:2.98 MB

页数:66页

时间:2019-02-25

主题网络爬虫的研究与设计_第1页
主题网络爬虫的研究与设计_第2页
主题网络爬虫的研究与设计_第3页
主题网络爬虫的研究与设计_第4页
主题网络爬虫的研究与设计_第5页
资源描述:

《主题网络爬虫的研究与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士论文主题网络爬虫的研究与设计摘要随着网络资源的急剧增长,在庞大的网络上,快、准、全地找到相关信息,变得越来越困难。此时,搜索引擎应运而生。搜索引擎是人们从网上查找信息最方便快捷的方式,也因此超过E—mail等常见web服务,成为用户使用量最多的服务。通用搜素引擎,面向所有的web信息检索者,由于庞大的网络信息规模和高速响应要求,使其检索结果的相关性不尽人意。主题搜索引擎,是为进一步提高相关性而发展起来的新一代搜索引擎。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了搜索引擎的发展概况和网络爬虫研究现状:然

2、后分析了集中式主题网络爬虫的体系结构,将其分成5个组成部分:数据存储、下载模块、网页预处理、网页分类和链接分析,并阐述了各部分的功能。本文的具体工作如下:(1)在搜索策略中,结合内容分析和链接分析,利用URL字符串、锚文本、父页面和兄弟页面等启发信息,设计出一种链接评分方法。(2)网页预处理过程,包括分词、HTML解释和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪效果。(3)网页分类包括两个阶段:特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率、改进后的CHI特征

3、和互信息,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增益、传统TFIDF和重要信息标签的权值,得到了更适应网页分类的权值计算方法。(4)最后,在VC6.0和SQLSERVER2000平台上,实现了一个简易的爬虫系统,并简要分析了爬虫的运行结果,达到了令人满意的效果。关键词:搜索引擎,网络爬虫,主题爬虫,网页消噪,特征提取硕士论文主题网络爬虫的研究与设计AbstractWiththerapidgrowthofnetworkresources,tofindaccurateandrelevan

4、tinformationfastlybecomingincreasinglydifficult.Atthispoint,searchengineshaveemerged.Thesearchengineisthemostconvenientandefficientmannertofindinformation.Gerneralsearchengine,forallthewebinformationretrieval,becauseofthenetworkhugesizeandhigh—speedresponsere

5、sultsunsatisfactory.Topicsearchengineistofurtherenhancetherelevanceofinformationretrieval.Inthispaper,theobjectofstudyisfocusedcrawler.FirstoutlinedthedeVelopmentofsearchenginesandreptileresearchnetworkstatusandthenanalyzedthearchitectureoftopicsearchengine,w

6、hichisdividedintofivecomponents:datastorage,downloadmodule,pagepretreatment,pageclassificationandlinkanalysis.Anddescribethefunctionofeachpart.Inthispaper,theconcreteworkasfollows:(1)Inthesearchstrategy,combinedwithcontentanalysisandlinkanalysis,theURLstringl

7、anchortextlfatherpagestsiblingpagesandotherinspiredinformation,alinkscoringmethodisdesigned.(2)Pagepretreatmentprocess,includesWordsegmentation,HTMLanalysisandpagesnoiseelimination.onthebasisofcuttingsomenodesofthepagetree,astyletreebasednoiseeliminationmetho

8、disdesignedtoimprovethepagedenoisingeffect.(3)classifiedpages,includingtwostages:featureextractionandcaculatingthetermweight.Infeatureextractionstage,combinedwithDF,enhancedCHIandMItermwe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。