资源描述:
《python实现网络爬虫、蜘蛛》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、python中如何提取网页正文啊谢谢importurllib.request url="http://google.cn/" response=urllib.request.urlopen(url) page=response.read() python提取网页中的文本1.importos,sys,datetime 2.importhttplib,urllib,re 3.fromsgmllibimportSGMLParser 4. 5.importtypes 6. 7.classHtml2txt(SGMLParser): 8. d
2、efreset(self): 9. self.text='' 10. self.inbody=True 11. SGMLParser.reset(self) 12. defhandle_data(self,text): 13. ifself.inbody: 14. self.text+=text 15. 16. defstart_head(self,text): 17. self.inbody=False 18. def
3、end_head(self): 19. self.inbody=True 20. 21. 22.if__name__=="__main__": 23. parser=Html2txt() 24. parser.feed(urllib.urlopen("http://icode.csdn.net").read()) 25. parser.close() 26. printparser.text.strip() python下载网页importhttplib conn=httplib.HTTPCo
4、nnection("www.baidu.com")conn.request("GET","/index.html")r1=conn.getresponse()printr1.status,r1.reasondata=r1.read()printdataconn.close用python下载网页,超级简单!fromurllibimporturlopenwebdata=urlopen("").read()printwebdata深入python里面有python 下载网页内容,用python的pycurl模块实现1.用python下载网页内容还是很不错的,之前是使
5、用urllib模块实验的,但听说有pycurl这个模块,而且比urllib好,所以尝试下,废话不说,以下是代码2.3.4.#!/usr/bin/envpython5.#-*-coding:utf-8-*-6.importStringIO7.importpycurl8.9.defwritefile(fstr,xfilename): f=open(xfilename,'w') f.write(fstr) f.close10.1.html=StringIO.StringIO()1.c=pycurl.Curl()2.myurl='http://www.ppgchens
6、han.com'3. 4.c.setopt(pycurl.URL,myurl)5. 6.#写的回调7.c.setopt(pycurl.WRITEFUNCTION,html.write)8. 9.c.setopt(pycurl.FOLLOWLOCATION,1)10. 11.#最大重定向次数,可以预防重定向陷阱12.c.setopt(pycurl.MAXREDIRS,5)13. 14.#连接超时设置15.c.setopt(pycurl.CONNECTTIMEOUT,60)16.c.setopt(pycurl.TIMEOUT,300)17. 18.#模拟浏览器19
7、.c.setopt(pycurl.USERAGENT,"Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1;.NETCLR1.1.4322)")20. 21. 22. 23.#访问,阻塞到访问结束24.c.perform()25. 26.#打印出200(HTTP状态码,可以不需要)27.printc.getinfo(pycurl.HTTP_CODE)28. 1.#输出网页的内容2.printhtml.getvalue()3.#保存成down.txt文件4.writefile(html.getvalue(),"down
8、.txt")python的pycurl