欢迎来到天天文库
浏览记录
ID:35061364
大小:5.32 MB
页数:64页
时间:2019-03-17
《基于内容和链接的主题爬虫的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、。分类号TP39iJ单位代码:10422:密级:2013U890:学号SHANDONGUNIVERSITY硕±学位论文ThesisforMasterDegree论文题目:基子巧容辩链接砍主醒祕咸前硏究与实现"'ResearchandRealization〇?TopicalCranJvrCi?sedonCohjentHyperiiiik作者姓名王巧狂培养单位信息科学与王撞学院专业名称矣威苗茲工程指导教师苔K又较巧合作导师年4月巧日分类号:T却单位代码:10
2、422f密级,。;学号:从却巧硕±学位论文ThesisforMasterDereeg论文题目:也巧和輪去诚似i:i化 ̄CXaa*^T< ̄(50*^0txuUct>C0VS4j〇A^..cuas、瓜(如作者姓名心培养单位1UI ̄巧^;t^如受衣)专业名称斬被1私指导教师常M合作导师年>V月7曰原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的
3、科研成果。对本文的研。究作出重要贡献的个人和集体,均己在文中W明确方式标明本声明的法律责任由本人承担。论文作者签名:少日期:关于学位论文使用授权的声明本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部口或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山东大学可W将本学位论文的全部或部分内容编入有关数据库进行检索,可レッ采用影印、缩印或其他复制手段保存论文和汇编本学位论文。(保密论文在解密后应遵守此规定)论文作者签名::导师签名H期:瓜少次山东大学硕±学位论文
4、目泉摘要IABSTRACTIll第一章绪ife11.1研究背景11.2研究现状21.3研究内容及论文组织结构3第二章N络爬虫研究概述62.1搜索引擎62丄1通用搜索引擎62丄2垂直搜索引擎82.2通用爬虫92.2.1通用爬虫的工作原理及结构92.2.2通用爬虫的爬行策略102.3主题爬虫1112.3.1主题爬虫的工作原理及结构12.3.2主题爬虫的爬行策略122.4本章小结12第兰章主题爬虫关键技术研究133.1网页文本信息处理
5、133丄1网页规范化133丄2网页信息抽取133丄3中文分词143.2主题相关性计算1531.2.布尔模型153.2.2向量空间模型163.3关键词提取17I山东大学硕±学位论文3.3.1基于PAT树的关键词提取方法17-3TFI7.3.2基于DF的关键词提取方法131.3.3基于朴素贝叶斯的关键词提取方法8139.4Web链接结构特性3.4.1PageRank算法193.4.2HITS算法213.5本章小结22第四章基于内容和链接的主
6、题爬虫的系统设计与实现234123.整体方案思想概述4.2模型构建模块244.21模型属性的选取25.426.2.2文本预处理4.2.3基于条件互信息下的属性聚类274.3网页解析模块巧4.4主题策略模块和URLs调度模块31432.4.1主题策略模块4.4.2URLs调度模块33433.5性能优势分析4.6本章小结34第五章实验研究与结果分析35535.1实验环境与数据准备15丄实验开发环境355丄2数据准备35536.2实验评价指标5.2.
7、1提取关键词指标36536.2.2主题爬虫性能指标5.3实验方案及结果分析37537.3.1改进的朴素贝叶斯算法山东大学硕j:学位论文5.3.2主题爬虫3815.4本章小结4第六章总结与展望426.1论文内容总结426.2研究展望43参考文献45致谢49攻读硕±期间的研究成果50in山东大学硕+学位论文CONTENTSChineseAbstractIABSTRACTIllChapter1Introduction1MResea
8、rchBackground11.2ResearchStatus21.3民esearchContentsandD
此文档下载收益归作者所有