hadoop网页爬取系统的时间同步算法研究

hadoop网页爬取系统的时间同步算法研究

ID:35032191

大小:3.80 MB

页数:59页

时间:2019-03-16

hadoop网页爬取系统的时间同步算法研究_第1页
hadoop网页爬取系统的时间同步算法研究_第2页
hadoop网页爬取系统的时间同步算法研究_第3页
hadoop网页爬取系统的时间同步算法研究_第4页
hadoop网页爬取系统的时间同步算法研究_第5页
资源描述:

《hadoop网页爬取系统的时间同步算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、HEBEIUNIVERSITY密级:分类号:学校代码:10075学号:20121025硕士学位论文Hadoop网页爬取系统的时间同步算法研究学位申请人:代兵指导教师:田俊峰汉字教授企业导师:邓云蛟汉字高级工程师学位类型:工程硕士专业领域:计算机技术授予单位:河北大学完成日期:二〇一六年五月ClassifiedIndex:CODE:10075U.D.C:NO:20121025ADissertationfortheDegreeofMasterTimesynchronizationalgorithmforspidersystembasedonHadoopCandidate:DaiBi

2、ngSupervisor:Prof.TianJunfengAdvisorinEnterprise:SE.DengYunjiaoAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerTechnologyUniversity:HebeiUniversityDateofAccomplishment:May,2016河北大学学位论文独创性声明本人郑虽声巧:所呈交的学位论文.是本人在导师指导下逛巧的研巧工作及取得的研巧成果。尽我所知,隐了文中恃别加站标注和致谋的地方外.论文中不包含其他人己络发表或撰写的

3、研巧成果,也不包含为获得河北大学或其他教一育机构的学位戚证书所便巧过的材料。与我同工作的间志对本硏巧所拙的巧巧巧献均己在论文中作I明确的说巧并表示了致谢。巧若蒋名:期;扣/6年^月C2日日学位论文使用授枚声明:本人完全7解河北大学有关保留、读用学化论文的規定,即学校有巧保留。并向国家有关部口或机构送交论文的复印件和电子版,化许论文被杳拥和惜闽.巧臥采用影印学校可从公布讫文的全部或部分内容、缩印或其他复制手段保存论文,本学位论文属于1、月日解密后适用本授巧芦明?保密□,巧巧2、不保巧ef。""(请在W上相应为格内打V)保护

4、知识产权声明本人为申请河北大学学位所提交的麼目为Wwb间产句i马^余《巧家了的学位论文,是我个人在导师指导并与导师含作下取得的研巧巧果,研巧工作及取得巧研巧成果是在海北^学所提供的研巧经巧及导巧的巧巧经巧资助下完成的?本人完全了保并严格巧守中华人民共和廣为保护知识产权巧制定的各项法律、朽政法规W及河北大学的相关规定.本人声明如下:本论文的成果归河北大学巧有I未经征得指导教师和河北大学的书面同意和授权,本人保证不W巧悔巧式公开巧传播科研成果和科研工作内容,如果违反本芦巧,本人盛恵承担巧应法律贵枉,声明人:处各日期:3^1/,巧(月〇2日

5、作导者签名:iAkx,日期:如年^月0王日师签名:曰期I把//{年月日摘要摘要随着网络的快速普及,我国的网民人数已经达到了近7.5亿,占据了全球网民数据量的近百分之二十,如此量级的网民群体在网络空间上会产生海量的网络的信息。网络平台的快速发展和信息交互的更加频繁化使得人们之间的信息传递更加迅速和快捷,同时通过网络也使得经济结构形式更加合理、言论自由得到主张。但凡事有利即有弊,过度自由的网络环境和不可控性导致了网络犯罪的迅速蔓延、特别是网络赌博、色情、煽动性言论等信息在网络平台上滋生的非常快速。因此政府相关部门也十分重视网络良性发展的重要性。随着网络数据传输、存储和

6、分析技术的不断发展,相关部门也开展了对网络上热点信息的获取与把控。这也正是大数据时代挖掘数据价值的分支。在此背景下,本文着眼于对网络话题检测算法的研究。文中首先介绍了本文的研究背景、明确了课题的研究意义。并查阅相关文献,介绍了话题检测技术的国内外研究现状;其次,详细介绍了课题研究所涉及到的相关技术和理论,具体包括Hadoop分布式爬取架构、网络数据爬取的基本原理、复杂网络理论和时间同步理论;再者文中对敏感信息数据爬取方案设计进行了详细阐述,明确网络话题检测的基础数据载体,并结合复杂网络理论,对敏感信息数据网页进行了复杂网络模型的构建与特性分析。在完成对网页的复杂网络模型研究后,

7、文中针对该复杂网络分析了侦测算法时间同步的意义和需求,并给出了时间同步算法的改进方案。文中最后基于NS2仿真平台对改进后的算法进行了仿真分析与实验。本文的研究中,摒弃传统的研究网页文本信息手段,从网页元集群的时间同步特性出发展开研究分析,可以看出话题检测网页复杂网络模型下的时间同步算法研究与改进切实的提高了网页同步的精度,能够更准确的反应网民的话题趋向,这对于话题检测系统的信息捕获是具有重要意义的。关键词敏感信息侦测Hadoop复杂网络时间同步IAbstractAbstractWiththe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。