python-实现网络爬虫、蜘蛛

ID：23114711

大小：592.00 KB

页数：114页

时间：2018-11-04

资源描述：

《python-实现网络爬虫、蜘蛛》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、

2、python中如何提取网页正文啊谢谢importurllib.request url="http://google.cn/" response=urllib.request.urlopen(url) page=response.read() python提取网页中的文本1.importos,sys,datetime 2.importhttplib,urllib,re 3.fromsgmllibimportSGMLParser 4. 5.importtypes 6. 7.classHtml2txt(SGMLParser): 8. defreset(self):

3、 9. self.text='' 10. self.inbody=True 11. SGMLParser.reset(self) 12. defhandle_data(self,text): 13. ifself.inbody: 14. self.text+=text 15. 16. defstart_head(self,text): 17. self.inbody=False 18. defend_head(self): 19. self

4、.inbody=True 20. 21. 22.if__name__=="__main__": 23. parser=Html2txt() 24. parser.feed(urllib.urlopen("http://icode.csdn.net").read()) 25. parser.close() 26. printparser.text.strip() python下载网页importhttplib conn=httplib.HTTPConnection("www.baidu.com")conn.request("GET","/inde

5、x.html")r1=conn.getresponse()printr1.status,r1.reason

6、data=r1.read()printdataconn.close用python下载网页，超级简单！fromurllibimporturlopenwebdata=urlopen("").read()printwebdata深入python里面有python 下载网页内容,用python的pycurl模块实现1.用python下载网页内容还是很不错的，之前是使用urllib模块实验的，但听说有pycurl这个模块，而且比urllib好，所以尝试下，废话不说，以下是代码2.3.4.#!/us

7、r/bin/envpython5.#-*-coding:utf-8-*-6.importStringIO7.importpycurl8.9.defwritefile(fstr,xfilename): f=open(xfilename,'w') f.write(fstr) f.close10.1.html=StringIO.StringIO()2.c=pycurl.Curl()

8、1.myurl='http://www.ppgchenshan.com'2. 3.c.setopt(pycurl.URL,myurl)4. 5.#写的回调6.c.setopt(pycurl.WRITEFUNCTION,h

9、tml.write)7. 8.c.setopt(pycurl.FOLLOWLOCATION,1)9. 10.#最大重定向次数,可以预防重定向陷阱11.c.setopt(pycurl.MAXREDIRS,5)12. 13.#连接超时设置14.c.setopt(pycurl.CONNECTTIMEOUT,60)15.c.setopt(pycurl.TIMEOUT,300)16. 17.#模拟浏览器18.c.setopt(pycurl.USERAGENT,"Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1;.NETCLR1.1.4322)")19. 20

10、. 21. 22.#访问,阻塞到访问结束23.c.perform()24. 25.#打印出200(HTTP状态码，可以不需要)26.printc.getinfo(pycurl.HTTP_CODE)27. 28.#输出网页的内容

11、1.printhtml.getvalue()2.#保存成down.txt文件3.writefile(html.getvalue(),"down.txt")python的py

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 114



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

python-实现网络爬虫、蜘蛛

python-实现网络爬虫、蜘蛛

相关文章

相关标签