欢迎来到天天文库
浏览记录
ID:59415363
大小:93.00 KB
页数:44页
时间:2020-09-19
《Python爬虫程序设计ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、4.2scrapy中查找HTML元素(1)在前面我们已经知道使用BeautifulSoup能查找HTML中的元素,scrapy中也有强大的查找HTML元素的功能,那就是使用xpath方法。xpath方法使用XPath语法,比BeautifulSoup的select要灵活而且速度快。例4-2-1:使用xpath查找HTML中的元素fromscrapy.selectorimportSelectorhtmlText='''
2、/book>LearningXML39.95
3、l>
4、ector=Selector(text=htmlText)使用htmlText的文字建立Selector类,就是装载HTML文档,文档装载后就形成一个Selector对象,就可以使用xpath查找元素。(3)print(type(selector)可看到selector是一个类型为scrapy.selector.unified.Selector,这个类型是一个有xpath方法的类型。((4)s=selector.xpath("//title")这个方法在文档中查找所有的
5、表示在权文档中搜索的tags,形成一个Selector的列表。(5)print(type(s))由于有两个元素,因此我们看到这是一个scrapy.selector.unified.SelectorList类,类似scrapy.selector.unified.Selector的列表。(6)print(s)我们看到s包含两个Selector对象,一个是HarryPotter'>,另外一个是6、LearningXML
6、LearningXML
7、lector.xpath("//body")搜索到
此文档下载收益归作者所有