欢迎来到天天文库
浏览记录
ID:50375916
大小:2.44 MB
页数:65页
时间:2020-03-05
《主题网络爬虫关键技术的研究与应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、主题网络爬虫关键技术的研究与应用陈千2015年1月中图分类号:TP391UDC分类号:004.93主题网络爬虫关键技术的研究与应用作者姓名陈千学院名称自动化学院指导教师姜增如教授答辩委员会主席戴亚平教授申请学位工学硕士学科专业控制科学与工程学位授予单位北京理工大学论文答辩日期2015年1月ResearchandApplicationontheKeyTechnologyofFocusedCrawlerCandidateName:QianChenSchoolorDepartment:AutomationFa
2、cultyMentor:Prof.ZengruJiangChair,ThesisCommittee:Prof.YapingDaiDegreeApplied:MasterofPhilosophyMajor:ControlScienceandEngineeringDegreeby:BeijingInstituteofTechnologyTheDateofDefence:January,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特
3、别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要互联网技术的快速发展带动着Web信息量的急剧增长。从大量网页中快速、准确查找需要的信息,特别是针对特定领域、主题的信息检索成为了人们越来越迫切的需求。搜索引擎如何采集主题相关的Web信息、对信息内容有效组织和定位,并将相关检索结
4、果快速展示给用户变得尤为重要。本文分析了主题爬虫研究的必要性,重点研究了页面主题相关性判别和主题信息在爬虫Web页面搜索中的指导作用。在此基础上,论文对主题爬虫系统的关键模块进行了研究和设计,主要包括以下几个模块:页面下载、正文提取、主题判别、链接价值预测、调度模块和主题库存储模块。所做的主要研究工作如下:(1)分析了网页正文的内容特征和分布特征,按照网页中正文分布遵循一定的规则,提出了一种基于句子分块密度和标点符号的网页正文提取算法。(2)研究了文本内部词语的分布网络特点,利用基于语义加权网络的关键词
5、提取方法构建训练文本的类别关键词,并设计了一种基于类别关键词的贝叶斯分类器,用于判断网页是否与主题相关。(3)通过分析Web链接和Web页面分布的特点,提出了一种改进的基于链接内容价值评价的搜索策略。(4)根据上述页面主题判别算法和改进的搜索策略,用JAVA语言编写了一套主题爬虫系统程序。利用该系统对大量网页进行测试,结果表明上述改进方法效果良好。关键词:主题爬虫;相关性判别;搜索策略;正文提取;关键词提取I北京理工大学硕士学位论文AbstractWiththerapiddevelomentoftheI
6、nternet,thescaleofInternetexpandsrapidlyandthenumberofwebpagesincreasesatatremendousspeed.Peoplehaveurgentdemandstofindusefulinformationexactlyandquicklyfrommassivewebresources.ItisveryimportantfortheSearchEnginetocollecttopic-relevantWebpagesandshowther
7、etrievalresulttouserasquicklyaspossible.ThispaperanalyzesthenecessityofresearchonFocusedCrawlerandfocusesonthetopicrelativityanalysisofdownloadpagesandtopic-guidesearchingstrategy.Basedontheabovecharacteristics,thispaperdesignsaFocusedCrawlerSystemconsis
8、tsofsevenmainmodules:pagedownloadingmodule,contentextractingmodule,topicdistinguishingmodule,linkextractingmodule,linkvaluepredictingmodule,schedulingmodule,andtopicpagestoringmodule.Theconcreteworkisasfollows:(1)Proposesa
此文档下载收益归作者所有