基于页面分析的主题网络爬虫的研究

基于页面分析的主题网络爬虫的研究

ID:36807111

大小:2.86 MB

页数:61页

时间:2019-05-15

基于页面分析的主题网络爬虫的研究_第1页
基于页面分析的主题网络爬虫的研究_第2页
基于页面分析的主题网络爬虫的研究_第3页
基于页面分析的主题网络爬虫的研究_第4页
基于页面分析的主题网络爬虫的研究_第5页
资源描述:

《基于页面分析的主题网络爬虫的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉理工大学硕士学位论文基于页面分析的主题网络爬虫的研究姓名:张红云申请学位级别:硕士专业:计算机科学与技术指导教师:熊前兴20100501武汉理工大学硕士学位论文摘要随着互联网上W曲资源的迅猛增长,在庞大的互联网上,快速准确全面地找到与用户查询主题相关的信息变得越来越难。人们对检索质量和速度的要求越来越高,由于传统的全网网络爬虫爬取的主题范围过于广泛,信息的及时性及与主题的相关性都无法保证,导致其检索结果的时效性、准确性及检索效率都不尽人意,已满足不了特定领域用户的精确搜索的需求。为此,本文展开了对高页面时效性、高内容相关性的主题网络爬虫的研究。

2、本文对目前存在的网络爬虫的种类、原理及发展状况进行了研究,对比分析了通用爬虫和主题爬虫的结构及工作原理,展示了主题网络爬虫的各项优势。本文通过对《知网》的语义分析及语义相关性理论的研究和对传统向量空间模型的分析,针对原有的页面内容与主题的相关性判定算法存在的缺陷,提出了一种基于页面分析的主题网络爬虫。该主题爬虫摒弃了传统主题爬虫在关于页面与主题相关性判定所采用的传统向量空间模型算法,采用了结合《知网》提出的具有语义分析功能的基于W曲页面特点的改进向量空间模型算法,实验表明该模型在进行页面内容与主题相关性判定过程中起到了有效作用。本文的重点是研究基于

3、页面分析的主题网络爬虫的页面过滤算法。它采用《知网》语义分析技术和向量空间模型相结合的方法对传统的页面与主题相关性判定算法一向量空间模型(VSM)进行改进。改进后的算法利用《知网》进行词义消歧,相关度计算以及主题文本义原集的提取,同时考虑到W曲网页的半结构化特点,即W曲网页上不同位置的文本特征项对整个w曲页面主题内容的表达能力是不同的,引入了适应W曲页面结构的位置权重,采用多层向量空间模型将w曲页面划分成N层结构,不同层次的文本结合其位置权重分别计算与主题的相似度。该算法在加入语义分析的基础上更适合于主题爬虫的w曲页面的相似度计算,对主题网络爬虫抓

4、取页面的准确率、页面利用率及爬虫的效率上都有所提高。关键词:网络爬虫,主题,向量空间模型,相关性塑堡堡王奎兰堡圭堂垡堡垄一一一一—,_———-—-——-_,_—-_—_●———————●———————————————————-_———————————————————一一一AbStraCtAstherapidgrowthofW.ebresoul.cesintheVaStIntenlet,itbecomesmoreaIldmoredi伍c1J1ttoquicl【ly锄dacCuratelysearcllthecomprehellsiVeIntomlat

5、lonreleVanttotheth锄eusersque哆Asmequalityandspeedofthesearchbec伽eincreasin西yd锄锄d岵孤d缸aditionaleIltireWebcraWlercrawlingsubjectsobroadthatitc锄,tguaranteemetil【nelinessandrelevanceoftheinfb咖ation,resultingmltcaIlnotmeettheusdseX础seafchrequir锄entsinspeci6careaSbecauseoftheunsatisfa

6、ctonrtimelinessa11daccuracyofitsre5'ultandsearche衢ciency.Thus,Wegetint0theresearchonT0pic.嘶entedw曲CraWlerwhichc锄hi曲1yellSurethetimeliness,releVallceto洲ect.ARerstud埘ngt11etypes,working研nciple觚ddeVelopmelltoftheexistingW曲Cmwl盯intheworld,thisthesiscomparesandanalyseSthes缸1lcturea

7、ndworklngpdndpleoftlle仃aditionalW曲crawlerandTopic一嘶跚tedWebCrawl%th朗showsmeadVantagesofTopic-orientedW曲CrawleragaiflsttlletraditionalW曲crawlds沁er铋td积s.As咖蛳ng狃danal蜘ngtheoldVectorSpaceModel(VSM)andthe01dalgonthmaboutcomI)utingtherelev锄ceofthepageContImt狃d也eSubject,tllethesisintr

8、oduces’’HowNet”s伽anticrelev锄cea11dsemantic锄alysistheory孤dmeIl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。