python抓取网页数据

ID：10218838

大小：23.00 KB

页数：2页

时间：2018-06-12

资源描述：

《python抓取网页数据》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、用python抓取页面并进行处理2009-02-1915:09:50

2、分类：Python

3、标签：无

4、字号订阅主要目的：抓取某个网页的源代码，把里面需要的数据进行处理，并保存到数据库中。已经实现了抓取页面并读取数据。步骤一、抓取页面，这一步很简单，引入urllib，用urlopen打开网址，并用read()方法读取数据。为了方便测试，用本地文本文件代替抓取网页步骤二、处理数据，如果页面代码比较规范标准，可以用HTMLParser进行简单处理，只是具体情况需要具体分析，感觉还是用正则比较好一些，顺便练习一下刚学习的正则表达式

5、。其实正则也是一种比较简单的语言，其中符号比较多，有点晦涩难懂，只能是多加练习，多加实践了。步骤三、把处理的数据保存到数据库中，用pymssql就可以处理，这里只是简单的保存到文本文件中。扩展下去，利用这个功能还可以实现抓取整个网站的图片、自动声称sitemap文件等功能。下一个任务，研究python的socket功能#-*-coding:gbk-*-importurllibimportre#pager=urllib.urlopen(http://www.123.com/index.html)#data=pager.re

6、ad()#pager.close()f=open(r"D:2.txt")data=f.read()f.close()#处理数据p=re.compile('(?<=class=one.).+?(?=

)',re.I

7、re.S)m=p.findall(data)s=""fordataninm:#继续处理数据，取出标题、简介、图片和链接地址p_title=re.compile('(?<=

8、re.S)p_url=re.compile('(?<=href=.).+

9、?(?=")',re.I

10、re.S)p_summar=re.compile('(?<=

11、re.S)p_image=re.compile('/eshop/images/.+?(?=")',re.I

12、re.S)s=s+"标题："+p_title.search(datan).group()+"r"+"简介："+p_summar.search(datan).group()+"r"+"图片："+p_image.search(datan).group()+"r"+"链接地

13、址："+p_url.search(datan).group()+"r"f=open(r"D:2.txt",'w')f.write(s)f.close()用Python脚本获取实时股市信息2006-12-1513:47IE查看股市信息太过招摇，决定写个Python脚本抓取相关信息，小巧便捷。1.先写段Python脚本抓取股票行情查询页面。这个很简单。发现个股实时行情数据都是写在javascript文件当中。2.提取该javascript文件URL，写Python脚本抓取该文件。读取其内容，做字符串处理，提取股价，涨

14、幅等信息。搞定。3.针对部分需要设置HTTP代理才可访问网络的需求，通过urllib.open('***',proxies='***')设置代理，非常方便。4.通过对javascript文件URL的分析，其文件名形式是"股票代码.js"。建立一个配置文件，提供所关注的股票代码。用Python脚本实现读取配置信息，定时读取所需实时信息。5.定义每日行情格式，以XML形式存储。6.日后可以Python脚本实现读取存储的行情信息生成报表，K线等图形信息。

python抓取网页数据

python抓取网页数据

相关文章

相关标签