欢迎来到天天文库
浏览记录
ID:10218838
大小:23.00 KB
页数:2页
时间:2018-06-12
《python抓取网页数据》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、用python抓取页面并进行处理2009-02-1915:09:50
2、分类:Python
3、标签:无
4、字号订阅主要目的:抓取某个网页的源代码,把里面需要的数据进行处理,并保存到数据库中。已经实现了抓取页面并读取数据。步骤一、抓取页面,这一步很简单,引入urllib,用urlopen打开网址,并用read()方法读取数据。为了方便测试,用本地文本文件代替抓取网页步骤二、处理数据,如果页面代码比较规范标准,可以用HTMLParser进行简单处理,只是具体情况需要具体分析,感觉还是用正则比较好一些,顺便练习一下刚学习的正则表达式
5、。其实正则也是一种比较简单的语言,其中符号比较多,有点晦涩难懂,只能是多加练习,多加实践了。步骤三、把处理的数据保存到数据库中,用pymssql就可以处理,这里只是简单的保存到文本文件中。扩展下去,利用这个功能还可以实现抓取整个网站的图片、自动声称sitemap文件等功能。下一个任务,研究python的socket功能#-*-coding:gbk-*-importurllibimportre#pager=urllib.urlopen(http://www.123.com/index.html)#data=pager.re
6、ad()#pager.close()f=open(r"D:2.txt")data=f.read()f.close()#处理数据p=re.compile('(?<=class=one.).+?(?=
7、re.S)m=p.findall(data)s=""fordataninm:#继续处理数据,取出标题、简介、图片和链接地址p_title=re.compile('(?<=
8、re.S)p_url=re.compile('(?<=href=.).+
9、?(?=")',re.I
10、re.S)p_summar=re.compile('(?<=
11、re.S)p_image=re.compile('/eshop/images/.+?(?=")',re.I
12、re.S)s=s+"标题:"+p_title.search(datan).group()+"r"+"简介:"+p_summar.search(datan).group()+"r"+"图片:"+p_image.search(datan).group()+"r"+"链接地
13、址:"+p_url.search(datan).group()+"r"f=open(r"D:2.txt",'w')f.write(s)f.close()用Python脚本获取实时股市信息2006-12-1513:47IE查看股市信息太过招摇,决定写个Python脚本抓取相关信息,小巧便捷。1.先写段Python脚本抓取股票行情查询页面。这个很简单。发现个股实时行情数据都是写在javascript文件当中。2.提取该javascript文件URL,写Python脚本抓取该文件。读取其内容,做字符串处理,提取股价,涨
14、幅等信息。搞定。3.针对部分需要设置HTTP代理才可访问网络的需求,通过urllib.open('***',proxies='***')设置代理,非常方便。4.通过对javascript文件URL的分析,其文件名形式是"股票代码.js"。建立一个配置文件,提供所关注的股票代码。用Python脚本实现读取配置信息,定时读取所需实时信息。5.定义每日行情格式,以XML形式存储。6.日后可以Python脚本实现读取存储的行情信息生成报表,K线等图形信息。
此文档下载收益归作者所有