欢迎来到天天文库
浏览记录
ID:1250201
大小:691.98 KB
页数:10页
时间:2017-11-09
《python3:一个简单入门的微博网络爬虫》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、精品课程中国IT职业教育领先品牌全程面授网络上有很多关于Python网络爬虫,但大都是Python2版本,而Python3的版本较少,如果有也会经常有不明就里的错误。因此小编综合了多个来源程序,终于亲测成功,仅以此分享给需要的朋友。前期准备本来是想用PC端SinaWeiboAPI来获取微博内容,但现在新浪微博规定限制太多。一下是注意事项:该项规定出台,导致你只能爬自己的最新的5条记录,这有什么用,因此果断放弃。改为爬取移动端的微博,因为移动端的微博可以分页爬取,这就可以一次爬取所有微博内容,这就方便很多。打开移动端微博网址是:https://m.weibo.cn;浏览器使用的是:Chr
2、ome。千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授用自己账号登陆请用自己的账号登陆,登陆后,按F12,会出现以下内容千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授找到m.weibo.cn--Headers--Cookie,把cookie复制到代码中的#yourcookie处,待用。获取你要爬取的用户ID方法是打开用户微博主页,里边有一个u/XXXXXX(一串数字);这串数字就是该用户的ID。以范冰冰为例,uid=3952070245前期工作已经准备完成,后边开始撸代码了。载入需要Python模块Python需要的模块如下,这部
3、分不是重点,因此就不细讲,大家可以搜索一下如何下载相关模块。简单的就是pipinstall模块名。或者从官网上下载模块,本地安装。千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授输入用ID和设置Cookie本次爬取的是范冰冰原创微博(因此转发的不在此列),cookie请大家使用自己的地址。另外pageNum是总共页数,范冰冰截止目前为56页。urllist_set储存爬取的url地址。千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授爬取具体微博内容和图片为了快速展示,本次仅爬取了前4页内容。千锋教育www.qfedu.com精品课程中
4、国IT职业教育领先品牌全程面授爬取内容保存将爬取的微博内容储存在到相关目录,本次储存在以uid的文件中。需要注意的是因为Python3升级后,写入文件不支持‘str’,因此需要转换以下,用bytes函数转换成字节。千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授微博内容结果如下同时也将爬取的相关图片的URL地址保存下来。图片URL相关结果如下:千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授将爬取的图片下载保存本地。千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授千锋教育www.qfedu.com精品课程中国
5、IT职业教育领先品牌全程面授图片爬取结果如下,部分出现错误,可能是网络的原因,可将错误图片地址多爬几次。写在后边的话爬虫作为数据采集的重要工具,为后期的大数据分析做好了基础准备,因此有必要掌握下爬虫技术。千锋教育www.qfedu.com
此文档下载收益归作者所有