基于Python的新浪微博数据爬虫

基于Python的新浪微博数据爬虫

ID:46583129

大小:214.15 KB

页数:4页

时间:2019-11-25

基于Python的新浪微博数据爬虫_第1页
基于Python的新浪微博数据爬虫_第2页
基于Python的新浪微博数据爬虫_第3页
基于Python的新浪微博数据爬虫_第4页
资源描述:

《基于Python的新浪微博数据爬虫》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、JournalofComputerApplicationsISSN1001-90812014-11-10计算机应用,2014,34(11):3131-3134CODENJYIIDUhttp://www.joca.cn文章编号:1001-9081(2014)11-3131-04doi:10.11772/j.issn.1001-9081.2014.11.3131基于Python的新浪微博数据爬虫*周中华,张惠然,谢江(上海大学计算机工程与科学学院,上海200444)(*通信作者电子邮箱jiangx@shu.edu.cn

2、)摘要:目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这

3、些数据具有实时性和准确性。关键词:新浪微博;爬虫;Python;并行;大数据中图分类号:TP391;TP311文献标志码:ADatacrawlerforSinaWeibobasedonPython*ZHOUZhonghua,ZHANGHuiran,XIEJiang(SchoolofComputerEngineeringandScience,ShanghaiUniversity,Shanghai200444,China)Abstract:Nowadays,mostofresearchesaboutsocialnetw

4、orkusedatafromforeignsocialnetworkplatforms.HoweverthelargestsocialnetworkplatformSinaWeiboinChinahasnodatainterfacesforinvestors.ASinaWeibodatacrawlercombinedwithparallelizationtechnologywasputforward.ItgotfansinformationandWeibodatacontentofdifferentweibouse

5、rsinreal-time.Italsosupportedkeywordsmatchingandparallelization.Theserialdatacrawleranditsparallelversionwerecompared,andanexperimentaboutfluwasconductedonsomeWeibodata.Theresultsindicatethat,withparallelization,thistoolhaslinerspeedupandallthefetchingdataarew

6、ithtimelinessandaccuracy.Keywords:SinaWeibo;crawler;Python;parallel;bigdata公开的微博数据集供人们下载,但是这些数据集通常规模比0引言较小,而且还缺乏实时性。有些技术力量强劲、资源充足的研计算机技术的进步使人们的生活方式逐渐发生改变,社究团队通常自己开发一些爬虫来获取研究数据。这对不熟悉交网络就是一个非常突出的例子。越来越多的人参与到社交爬虫技术的研究人员而言是个极大的挑战。本文提出了一款网络平台中去,与他人互动,分享各种内容。在大数据时代来

7、基于Python语言的新浪微博数据爬虫,为数据获取提供支临之际,社交网络就像一个巨大的宝库,吸引了大量的研究人持。员参与到相关内容的研究。在国外,人们针对Twitter、本文爬虫通过模拟客户端的操作如登录、访问好友、查看[1-5]Facebook等知名社交平台展开了一系列的分析,但是针粉丝、查看微博内容等方式获取相关数据,并且将这些数据持[6-9]对国内社交网络平台的研究还比较欠缺:一方面因为相久化保存到本地硬盘上,方便后续进一步的数据挖掘与分析。关研究刚刚起步,缺乏相关的研究方法;另一方面缺乏相关的同时,本文爬虫

8、还集成了文本匹配功能,利用该功能可以轻松研究数据,使得一些研究难以开展。在国外Twitter等社交平地实现指定内容的数据获取。例如,可以利用本文爬虫检索台会提供一些数据接口供研究人员获取研究数据,但是在国包含流感、感冒、发烧、发热这四个词语中一个或多个关键字内却无法正常访问这些接口。国内由新浪网推出的新浪微博的微博,并把这些微博保存到硬盘上。使用本文爬虫能够

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。