python3:一个简单入门的微博网络爬虫

python3:一个简单入门的微博网络爬虫

ID:1250201

大小:691.98 KB

页数:10页

时间:2017-11-09

python3:一个简单入门的微博网络爬虫_第1页
python3:一个简单入门的微博网络爬虫_第2页
python3:一个简单入门的微博网络爬虫_第3页
python3:一个简单入门的微博网络爬虫_第4页
python3:一个简单入门的微博网络爬虫_第5页
资源描述:

《python3:一个简单入门的微博网络爬虫》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、精品课程中国IT职业教育领先品牌全程面授网络上有很多关于Python网络爬虫,但大都是Python2版本,而Python3的版本较少,如果有也会经常有不明就里的错误。因此小编综合了多个来源程序,终于亲测成功,仅以此分享给需要的朋友。前期准备本来是想用PC端SinaWeiboAPI来获取微博内容,但现在新浪微博规定限制太多。一下是注意事项:该项规定出台,导致你只能爬自己的最新的5条记录,这有什么用,因此果断放弃。改为爬取移动端的微博,因为移动端的微博可以分页爬取,这就可以一次爬取所有微博内容,这就方便很多。打开移动端微博网址是:https://m.weibo.cn;浏览器使用的是:Chr

2、ome。千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授用自己账号登陆请用自己的账号登陆,登陆后,按F12,会出现以下内容千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授找到m.weibo.cn--Headers--Cookie,把cookie复制到代码中的#yourcookie处,待用。获取你要爬取的用户ID方法是打开用户微博主页,里边有一个u/XXXXXX(一串数字);这串数字就是该用户的ID。以范冰冰为例,uid=3952070245前期工作已经准备完成,后边开始撸代码了。载入需要Python模块Python需要的模块如下,这部

3、分不是重点,因此就不细讲,大家可以搜索一下如何下载相关模块。简单的就是pipinstall模块名。或者从官网上下载模块,本地安装。千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授输入用ID和设置Cookie本次爬取的是范冰冰原创微博(因此转发的不在此列),cookie请大家使用自己的地址。另外pageNum是总共页数,范冰冰截止目前为56页。urllist_set储存爬取的url地址。千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授爬取具体微博内容和图片为了快速展示,本次仅爬取了前4页内容。千锋教育www.qfedu.com精品课程中

4、国IT职业教育领先品牌全程面授爬取内容保存将爬取的微博内容储存在到相关目录,本次储存在以uid的文件中。需要注意的是因为Python3升级后,写入文件不支持‘str’,因此需要转换以下,用bytes函数转换成字节。千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授微博内容结果如下同时也将爬取的相关图片的URL地址保存下来。图片URL相关结果如下:千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授将爬取的图片下载保存本地。千锋教育www.qfedu.com精品课程中国IT职业教育领先品牌全程面授千锋教育www.qfedu.com精品课程中国

5、IT职业教育领先品牌全程面授图片爬取结果如下,部分出现错误,可能是网络的原因,可将错误图片地址多爬几次。写在后边的话爬虫作为数据采集的重要工具,为后期的大数据分析做好了基础准备,因此有必要掌握下爬虫技术。千锋教育www.qfedu.com

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。