欢迎来到天天文库
浏览记录
ID:33375265
大小:2.98 MB
页数:66页
时间:2019-02-25
《主题网络爬虫的研究与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士论文主题网络爬虫的研究与设计摘要随着网络资源的急剧增长,在庞大的网络上,快、准、全地找到相关信息,变得越来越困难。此时,搜索引擎应运而生。搜索引擎是人们从网上查找信息最方便快捷的方式,也因此超过E—mail等常见web服务,成为用户使用量最多的服务。通用搜素引擎,面向所有的web信息检索者,由于庞大的网络信息规模和高速响应要求,使其检索结果的相关性不尽人意。主题搜索引擎,是为进一步提高相关性而发展起来的新一代搜索引擎。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了搜索引擎的发展概况和网络爬虫研究现状:然
2、后分析了集中式主题网络爬虫的体系结构,将其分成5个组成部分:数据存储、下载模块、网页预处理、网页分类和链接分析,并阐述了各部分的功能。本文的具体工作如下:(1)在搜索策略中,结合内容分析和链接分析,利用URL字符串、锚文本、父页面和兄弟页面等启发信息,设计出一种链接评分方法。(2)网页预处理过程,包括分词、HTML解释和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪效果。(3)网页分类包括两个阶段:特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率、改进后的CHI特征
3、和互信息,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增益、传统TFIDF和重要信息标签的权值,得到了更适应网页分类的权值计算方法。(4)最后,在VC6.0和SQLSERVER2000平台上,实现了一个简易的爬虫系统,并简要分析了爬虫的运行结果,达到了令人满意的效果。关键词:搜索引擎,网络爬虫,主题爬虫,网页消噪,特征提取硕士论文主题网络爬虫的研究与设计AbstractWiththerapidgrowthofnetworkresources,tofindaccurateandrelevan
4、tinformationfastlybecomingincreasinglydifficult.Atthispoint,searchengineshaveemerged.Thesearchengineisthemostconvenientandefficientmannertofindinformation.Gerneralsearchengine,forallthewebinformationretrieval,becauseofthenetworkhugesizeandhigh—speedresponsere
5、sultsunsatisfactory.Topicsearchengineistofurtherenhancetherelevanceofinformationretrieval.Inthispaper,theobjectofstudyisfocusedcrawler.FirstoutlinedthedeVelopmentofsearchenginesandreptileresearchnetworkstatusandthenanalyzedthearchitectureoftopicsearchengine,w
6、hichisdividedintofivecomponents:datastorage,downloadmodule,pagepretreatment,pageclassificationandlinkanalysis.Anddescribethefunctionofeachpart.Inthispaper,theconcreteworkasfollows:(1)Inthesearchstrategy,combinedwithcontentanalysisandlinkanalysis,theURLstringl
7、anchortextlfatherpagestsiblingpagesandotherinspiredinformation,alinkscoringmethodisdesigned.(2)Pagepretreatmentprocess,includesWordsegmentation,HTMLanalysisandpagesnoiseelimination.onthebasisofcuttingsomenodesofthepagetree,astyletreebasednoiseeliminationmetho
8、disdesignedtoimprovethepagedenoisingeffect.(3)classifiedpages,includingtwostages:featureextractionandcaculatingthetermweight.Infeatureextractionstage,combinedwithDF,enhancedCHIandMItermwe
此文档下载收益归作者所有