基于微博的数据获取与过滤技术研究

基于微博的数据获取与过滤技术研究

ID:35064888

大小:3.94 MB

页数:71页

时间:2019-03-17

基于微博的数据获取与过滤技术研究_第1页
基于微博的数据获取与过滤技术研究_第2页
基于微博的数据获取与过滤技术研究_第3页
基于微博的数据获取与过滤技术研究_第4页
基于微博的数据获取与过滤技术研究_第5页
资源描述:

《基于微博的数据获取与过滤技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、£一..縫占葉義1寵.&述夢磅心議褚谋.霄.撰读任籌破莉VU屬;,:V..麵‘/讓實A.稱相地^大身京.^f-t:.;業^餐II一嫁硕一学載累1#:^喀??j5菩-钱f扭餐..、i;%弓.^.;囑犧.某镜較;扛一作讓.麟p巧'吗v養单推專^数据鐘fI一滤技术送八王繁..沉-f..記-苗v'.寒動^瓦评駐..%V1:巧滅-嗎^授接奪若為:讚苗援曇:拜權"护馨變i1淨.岳刮為护?^5争蟲寶如結通.'蔡.'養i芳向|网朗讀t^0教恥.f授巧^.1..‘.義義./^讀循馨義緣|

2、;1肩識:/#巧^魏邊極满羣兴T±r□口尸I巧本人声明所呈交的论文是我个人在导师指导下进行的研巧工作及取得的研究成果。尽我所知l,除了文中特别加iU示注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得中国地质大学或其它教育机构的学位或证书而使用过的材料^。与我同工作的同志对本研究所做的任何贡献巧旦在论文中作了明确的说明并表示了谢意。化-签名;香fe日期:关于论文使用授权的说明本人完全了解中园地质大学有关保留、使用

3、学位论文的规定,即;学校有权保留送交论文的复印件,允许论文被查阅和借阅的全部或部;学校可封公布论文LJ,可_、制手段。分内容:采用影印缩印或其他复保存论文^()保密开□保密的论文在解密后应进守此规口___年定()-::签名:曰名导师签期吏巧戶分类号密级中国地质大学(北京)硕士学位论文基于微博的数据获取与过滤技术研究学号:2004130008研究生:李北格专业:信息与通信工程研究方向:计算机网络应用指导教师:张玉清副教授2016年05月ADissertationSubmittedtoCh

4、inaUniversityofGeosciencesforMasterDegreeResearchofdataacquisitionandfilteringtechnologybasedonWeiboMasterCandidate:BeigeLiMajor:InformationandCommunicationEngineeringStudyOrientation:ComputerApplicationDissertationSupervisor:Prof.YuqingZhangChinaUniversity

5、ofGeosciences(Beijing)摘要随着社交网络平台的快速发展,人们越来越依赖像微博、微信等互联网社交平台的信息传递与情感表达,同时各式各样的社会问题也逐渐通过网络平台舆论的推动迅速暴露并传播蔓延,从而爆发成为热点。近年来新浪微博平台凭借其消息实时性、传播裂变性而逐渐成为国内大事件扩散和网络舆论爆发的重要平台。微博中的意见领袖,作为微博平台舆论点的关键,由于其知名度高,粉丝数量庞大,在公众舆论事件中其名人效应也会被放大,舆论影响力随之增大,他们发布或转发的微博更容易导致舆论讨论的高潮,进而形成微博

6、热门话题。所以实时获取意见领袖的微博数据既是话题聚类分析的数据保障,也是舆情分析的重要方法之一。目前对于微博意见领袖的数据获取方法主要有两种,一种是基于微博开放平台API,该方法可以方便快速地批量获取意见领袖的微博信息,但是接口限定了采集速率;另一种方法是采用定向网络爬虫,该方法可以获得比较完整的数据,但是频繁访问大量意见领袖,面临账号被封的危险。本文分析了微博数据抓取的研究现状与背景,在此基础上提出一种新的数据抓取方式:基于关注-分组模式的数据采集方案,利用微博的工作特点,实时定向接收意见领袖推送的消息列表

7、进而实现对意见领袖数据的抓取。将基于此方法抓取到的微博数据采用SVM的分类算法进行二分类,剔除娱乐类信息,保留社会类微博数据,进而实现微博数据的初步过滤,本文基于此设计思想实现了基于微博的数据获取与初步过滤系统。本文最后对基于API、基于定向网络爬虫与基于关注-分组模式的三种数据获取方法进行了实验分析与对比,实验结果表明本文提出的基于关注-分组模式的数据获取方法较传统方法具有较好的性能,既能保证数据的实时性,又能保证数据的完整性。同时采用基于SVM的分类算法进行数据初步过滤,也能达到较好的预期分类效果,整个系

8、统设计能够达到为微博舆情分析提供全面准确的数据支持。关键词:数据获取,关注-分组,过滤IAbstractWiththerapiddevelopmentofsocialnetworkingplatforms,peopledependmoreandmoreonInternetsocialplatformtosendthemessageandexpressemotions,suchasWeiboorWeC

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。