基于关键词的微博爬虫系统的设计与实现

基于关键词的微博爬虫系统的设计与实现

ID:35061340

大小:4.17 MB

页数:58页

时间:2019-03-17

基于关键词的微博爬虫系统的设计与实现_第1页
基于关键词的微博爬虫系统的设计与实现_第2页
基于关键词的微博爬虫系统的设计与实现_第3页
基于关键词的微博爬虫系统的设计与实现_第4页
基于关键词的微博爬虫系统的设计与实现_第5页
资源描述:

《基于关键词的微博爬虫系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文论文题目:基于关键词的微博爬虫系统的设计与实现作者姓名叶婷指导教师覃亚丽教授学科专业电子与通信工程培养类别全日制专业学位硕士所在学院信息工程学院提交日期2016年10月18日浙江工业大学硕士学位论文基于关键词的微博爬虫系统的设计与实现作者姓名:叶婷指导教师:覃亚丽教授浙江工业大学信息工程学院2016年10月DissertationSubmittedtoZhejiangUniversityofTechnologyfortheDegreeofMasterDesignandImplementationofKeywords-bas

2、edMicroblogCrawlerSystemCandidate:YeTingAdvisor:Prof.QinYaliCollegeofInformationEngineeringZhejiangUniversityofTechnologyOctober2016浙江工业大学硕士学位论文基于关键词的微博爬虫系统的设计与实现摘要随着社交网络媒体的兴起,其中微博已然成为了大众关注热点话题的工具之一。在微博当中,人人都可以发出自己的声音,也可以听到别人不同的声音,因此形成了巨大的信息量、信息碎片化的特点。这个爬虫系统是为了能够更好地服务大众

3、,使得个人、公司、企业都能及时地发觉到自己关注的话题,然后做出及时的反馈,避免一些不必要的损失。本文设计的爬虫针对于微博,主要对需求相关关键词展开搜索,在此搜索结果中,进行广度优先的爬取策略,此爬虫系统能解决传统爬虫无法解决的垂直爬取、动态页面和自动化登陆问题。本文针对了微博的问题,从而设计并且实现了一种面向微博的数据爬取与解析系统。主要工作是主要利用提供的关键词,对微博中已经发布的微博条目进行爬取,并抽取出博主信息、微博内容、粉丝数目、评论数目等等数据,存入数据库中。主要工作有:1、模拟登陆,本系统能够通过访问微博登陆页,而不是微博

4、的首页,登陆信息是通过Base64加密后发送给服务器,获取cookie后,能够实现自动登陆。2、信息的收集和过滤,本系统采用基于关键词的网络爬虫访问微博进行信息的收集,获取微博网站的主要页面,在页面上获取内容,已经被系统爬取的网页会被过滤。3、关键内容抽取,本系统主要采用基于JSoup框架和XPath相结合的方法对基于HTML结构页面进行解析,针对爬取模块下载得到的微博网页抽取关键信息。4、数据更新和存储,采用固定的爬取周期对微博源网页信息进行持续更新;采用MySQL对爬虫系统抽取的信息进行数据持久化。本系统的研究与实现,很大程度上满

5、足了个人以及公司迫切希望尽早发现大众对公司和产品的评价、体验的需求,对事件的各种态度,也对舆情监控有着重要的意义。关键词:社交网络,爬虫系统,微博,网页解析i浙江工业大学硕士学位论文DESIGNANDIMPLEMENTATIONOFKEYWORDS-BASEDMICROBLOGCRAWLERSYSTEMABSTRACTWiththerapiddevelopmentofmicroblogtechnology,manyinterestingresearchissuesinmicrobloghavearousedgrowingattenti

6、on.Everyonecanmaketheirvoicesheard,otherscanalsohearadifferentsound,thuscreatingahugeamountofinformationandinformationfragmentation.Thepurposeofthissystemistobetterservethepublic,sothatcompanies,enterprises,individualuserscanquicklyfindanynegativemessagetokeepthelosstot

7、heminimum.Thecrawlerdesignedinthispaperisaimedatmicroblogandmainlysearchesforrelevantkeywords.Inthisresult,itcarriesoutthebreadth-firststrategy.Thedesignedcrawlercansolvetheverticalcrawling,dynamicwebpageandautomaticloggingproblemswhichcan’tbesolvedbythegeneralcrawler.T

8、hispaperproposesthedesignandimplementationofamicroblogcrawlersystemtosolvetheseproblems.Fetchingdatafrommicrob

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。