Python爬虫程序设计ppt课件.ppt

ID：59415363

大小：93.00 KB

页数：44页

时间：2020-09-19

资源描述：

《Python爬虫程序设计ppt课件.ppt》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、4.2scrapy中查找HTML元素(1)在前面我们已经知道使用BeautifulSoup能查找HTML中的元素，scrapy中也有强大的查找HTML元素的功能，那就是使用xpath方法。xpath方法使用XPath语法，比BeautifulSoup的select要灵活而且速度快。例4-2-1:使用xpath查找HTML中的元素fromscrapy.selectorimportSelectorhtmlText='''HarryPotter29.99<

2、/book>LearningXML39.95'''selector=Selector(text=htmlText)print(type(selector));print(selector)s=selector.xpath("//title")print(type(s))print(s)程序结果：class'scrapy.selector.unified.Selector'>

3、l>[,](1)fromscrapy.selectorimportSelector从scrapy中引入Selector类，这个类就是选择查找类。(2)sel

4、ector=Selector(text=htmlText)使用htmlText的文字建立Selector类，就是装载HTML文档，文档装载后就形成一个Selector对象，就可以使用xpath查找元素。(3)print(type(selector)可看到selector是一个类型为scrapy.selector.unified.Selector，这个类型是一个有xpath方法的类型。((4)s=selector.xpath("//title")这个方法在文档中查找所有的的元素，其中"//"表示文档中的任何位置。一般地：selector.xpath("//tagName")</p><p>5、表示在权文档中搜索<tagName>的tags，形成一个Selector的列表。(5)print(type(s))由于<title>有两个元素，因此我们看到这是一个scrapy.selector.unified.SelectorList类，类似scrapy.selector.unified.Selector的列表。(6)print(s)我们看到s包含两个Selector对象，一个是<Selectorxpath='//title'data='<titlelang="eng">HarryPotter'>，另外一个是。由此可见一般selector搜索一个的HTML元素的方法是：selector.xpath("//tagName")在装载HTML文档后selector=Selector(text=htmlText)得到的selector是对应全文档顶层的元素的，其中"//"表示全文档搜索，结果是一个Selector的列表，哪怕只有一个元素也成一个列表，例如：se

7、lector.xpath("//body")搜索到元素，结果是一个Selector的列表，包含一个Selector元素；selector.xpath("//title")搜索到两个元素，结果是Selector的列表，包含2个Selector元素；selector.xpath("//book")搜索到两个<book>元素，结果是Selector的列表，包含2个Selector元素；4.2scrapy中查找HTML元素(2</p> </div> <div class="mt-3 bg-white"> <div class="d-lg-block d-none px-3 px-lg-4 py-3 border-bottom text-center font-18"> 当前文档最多预览五页，下载文档查看全文 </div> <div class="detail-fixed-feature d-none d-lg-block" id="detailFixedFeatureBox"> <div class="px-3 px-lg-4 py-3 d-flex align-items-center justify-content-between fixed-feature-box" id="detailFixedFeature"> <div class="d-lg-flex d-none align-items-center"> <div> <a class="btn btn-outline-danger article-state" href="javascript:;" data-id="59415363" data-code="438274" data-title="Python爬虫程序设计ppt课件.ppt"> <span>侵权申诉</span> </a> <button type="button" class="btn btn-outline-secondary with-light ml-2" data-toggle="modal" data-target="#reportModal" data-id="59415363"><span>举报</span></button> </div> <nav class="d-flex align-items-center ml-4" id="anchorPoint"> <a href="javascript:;" class="btn btn-light anchor-pre px-2"><i class="iconfont text-muted"></i></a> <div class="text-muted mb-0 pre-point-list" id="prePointList"> <a class="px-2 active nav-link" href="#anchorImg0">1</a> <a class="px-2 nav-link" href="#anchorImg1">1</a> <a class="px-2 nav-link" href="#anchorImg2">2</a> <a class="px-2 nav-link" href="#anchorImg3">3</a> <a class="px-2 nav-link" href="#anchorImg4">4</a> <a class="px-2 nav-link" href="#anchorImg5">5</a> <a class="px-2 nav-link" href="#anchorImg6">6</a> <a class="px-2 nav-link" href="#anchorImg7">7</a> <a class="px-2 nav-link" href="#anchorImg8">8</a> <a class="px-2 nav-link" href="#anchorImg9">9</a> <a class="px-2 nav-link" href="#anchorImg10">10</a> / <span class="px-2" id="prePageNums">44</span> </div> <a href="javascript:;" class="btn btn-light anchor-next px-2"><i class="iconfont text-muted"></i></a> </nav> </div> <div class="d-flex align-items-center"> <p class="d-lg-block d-none font-14 text-black-50 mb-0 mr-2">此文档下载收益归作者所有</p> <button class="btn btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" style="width:128px;height:40px;" data-id="59415363" data-price="2000" data-size="93.00 KB" data-page="44页" data-type="ppt" data-binddown="true" data-isold="new_content" data-vip="0" data-title="Python爬虫程序设计ppt课件.ppt">下载文档</button> </div> </div> </div> </div> <div class="d-block d-lg-none px-3 px-lg-4 py-3 border-bottom text-center font-14" style="color:#999">当前文档最多预览五页，下载文档查看全文</div> <button class="btn d-block w-100 d-lg-none btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" data-id="59415363" data-price="2000" data-size="93.00 KB" data-page="44页" data-type="ppt" data-binddown="true" data-isold="new_content" data-vip="0" data-title="Python爬虫程序设计ppt课件.ppt">点击下载本文档 </button> </div> <div class="px-3 px-lg-4 py-3 bg-white mt-3"> <ul class="nav custom-tab border-bottom" id="myTab" role="tablist"> <li class="nav-item" role="presentation"> <a class="nav-link active px-0 mr-4 font-16 font-weight-light pb-3" id="tips-tab" data-toggle="tab" href="#showTips" role="tab" aria-controls="showTips" aria-selected="true">版权提示</a> </li> <li class="nav-item" role="presentation"> <a class="nav-link px-0 pb-3 font-16 font-weight-light text-black-50" href="/d-59415363.html" >下载文档</a> </li> <dl class="flex-grow-1 mb-0 d-lg-none"> <li class="ml-3 float-right d-lg-none"> <button type="button" class="btn btn-light" data-toggle="modal" data-target="#reportModal" data-id="59415363"><span>举报</span></button> </li> </dl> </ul> <div class="tab-content with-content pt-3" id="myTabContent"> <div class="tab-pane fade show active font-14" id="showTips" role="tabpanel" aria-labelledby="showTips-tab"> 温馨提示： <br> 1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。<br> 2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。<br> 3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。<br> 4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。 <br> </div> </div> </div> </div> <div class="detail-sidebar d-none d-lg-block"> <div id="columnDetailSiderRight"> <div class="detail-yourlike mt-0 pb-2" id="relativeArticle"> <div class="border-bottom py-2 d-flex align-items-center justify-content-between"> <h5 class="font-16">相关文章</h5> <a class="font-14 hover-letter-spacing" href="/ucenter/search/index.html?text=Python爬虫程序设计ppt课件.ppt" target="_blank" rel="nofollow">更多<i class="iconfont font-12 pl-1"></i></a> </div> <ul class="font-14 like-list"> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-docx" href="/p-14459886.html" title="python 网络爬虫" target="_blank"><span class="text-danger">p</span><span class="text-danger">y</span><span class="text-danger">t</span><span class="text-danger">h</span><span class="text-danger">o</span><span class="text-danger">n</span>网络<span class="text-danger">爬</span><span class="text-danger">虫</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-38556933.html" title="《Python爬虫程序设计》课程标准规范" target="_blank">《<span class="text-danger">P</span><span class="text-danger">y</span><span class="text-danger">t</span><span class="text-danger">h</span><span class="text-danger">o</span><span class="text-danger">n</span><span class="text-danger">爬</span><span class="text-danger">虫</span><span class="text-danger">程</span><span class="text-danger">序</span><span class="text-danger">设</span><span class="text-danger">计</span>》<span class="text-danger">课</span><span class="text-danger">程</span>标准规范</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pptx" href="/p-40252586.html" title="Python爬虫程序设计KC18" target="_blank"><span class="text-danger">P</span><span class="text-danger">y</span><span class="text-danger">t</span><span class="text-danger">h</span><span class="text-danger">o</span><span class="text-danger">n</span><span class="text-danger">爬</span><span class="text-danger">虫</span><span class="text-danger">程</span><span class="text-danger">序</span><span class="text-danger">设</span><span class="text-danger">计</span>KC18</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-ppt" href="/p-48660519.html" title="Python爬虫.ppt" target="_blank"><span class="text-danger">P</span><span class="text-danger">y</span><span class="text-danger">t</span><span class="text-danger">h</span><span class="text-danger">o</span><span class="text-danger">n</span><span class="text-danger">爬</span><span class="text-danger">虫</span><span class="text-danger">.</span><span class="text-danger">p</span><span class="text-danger">p</span><span class="text-danger">t</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-ppt" href="/p-49793530.html" title="Python语言程序设计ppt课件.ppt" target="_blank"><span class="text-danger">P</span><span class="text-danger">y</span><span class="text-danger">t</span><span class="text-danger">h</span><span class="text-danger">o</span><span class="text-danger">n</span>语言<span class="text-danger">程</span><span class="text-danger">序</span><span class="text-danger">设</span><span class="text-danger">计</span><span class="text-danger">p</span><span class="text-danger">p</span><span class="text-danger">t</span><span class="text-danger">课</span><span class="text-danger">件</span><span class="text-danger">.</span><span class="text-danger">p</span><span class="text-danger">p</span><span class="text-danger">t</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-ppt" href="/p-51333680.html" title="基于python的网页爬虫.ppt" target="_blank">基于<span class="text-danger">p</span><span class="text-danger">y</span><span class="text-danger">t</span><span class="text-danger">h</span><span class="text-danger">o</span><span class="text-danger">n</span>的网页<span class="text-danger">爬</span><span class="text-danger">虫</span><span class="text-danger">.</span><span class="text-danger">p</span><span class="text-danger">p</span><span class="text-danger">t</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-ppt" href="/p-52784196.html" title="Python爬虫程序设计KC18.pptx" target="_blank"><span class="text-danger">P</span><span class="text-danger">y</span><span class="text-danger">t</span><span class="text-danger">h</span><span class="text-danger">o</span><span class="text-danger">n</span><span class="text-danger">爬</span><span class="text-danger">虫</span><span class="text-danger">程</span><span class="text-danger">序</span><span class="text-danger">设</span><span class="text-danger">计</span>KC18<span class="text-danger">.</span><span class="text-danger">p</span><span class="text-danger">p</span><span class="text-danger">t</span>x</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-ppt" href="/p-56256039.html" title="网络爬虫(python实现).ppt" target="_blank">网络<span class="text-danger">爬</span><span class="text-danger">虫</span>(<span class="text-danger">p</span><span class="text-danger">y</span><span class="text-danger">t</span><span class="text-danger">h</span><span class="text-danger">o</span><span class="text-danger">n</span>实现)<span class="text-danger">.</span><span class="text-danger">p</span><span class="text-danger">p</span><span class="text-danger">t</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-ppt" href="/p-59415362.html" title="Python程序设计第2章 Python序列ppt课件.ppt" target="_blank"><span class="text-danger">P</span><span class="text-danger">y</span><span class="text-danger">t</span><span class="text-danger">h</span><span class="text-danger">o</span><span class="text-danger">n</span><span class="text-danger">程</span><span class="text-danger">序</span><span class="text-danger">设</span><span class="text-danger">计</span>第2章<span class="text-danger">P</span><span class="text-danger">y</span><span class="text-danger">t</span><span class="text-danger">h</span><span class="text-danger">o</span><span class="text-danger">n</span><span class="text-danger">序</span>列<span class="text-danger">p</span><span class="text-danger">p</span><span class="text-danger">t</span><span class="text-danger">课</span><span class="text-danger">件</span><span class="text-danger">.</span><span class="text-danger">p</span><span class="text-danger">p</span><span class="text-danger">t</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-ppt" href="/p-60851864.html" title="python爬虫设计入门教学提纲.ppt" target="_blank"><span class="text-danger">p</span><span class="text-danger">y</span><span class="text-danger">t</span><span class="text-danger">h</span><span class="text-danger">o</span><span class="text-danger">n</span><span class="text-danger">爬</span><span class="text-danger">虫</span><span class="text-danger">设</span><span class="text-danger">计</span>入门教学提纲<span class="text-danger">.</span><span class="text-danger">p</span><span class="text-danger">p</span><span class="text-danger">t</span></a> </li> </ul> </div> <div class="detail-yourlike pb-2"> <div class="border-bottom py-2"> <h5 class="font-16">相关标签</h5> </div> <ul class="font-14 like-list d-flex flex-wrap"> <a class="search-tag" href="/tags/540170/" target="_blank">ppt</a> <a class="search-tag" href="/tags/540013/" target="_blank">课件</a> <a class="search-tag" href="/tags/1250541/" target="_blank">爬虫</a> <a class="search-tag" href="/tags/1299293/" target="_blank">程序设计</a> </ul> </div> <script src="/d/js/acmsd/thea1.js"></script> </div> </div> </div> <footer> <div class="container d-none d-lg-block mb-4"> <div class="d-flex justify-content-between footer-nav"> <ul class="d-flex foot-nav"> <li> <h5>常见问题</h5> <a class=text-decoration-none href=/help/wenti/upload/ target=_blank> 关于上传 </a><a class=text-decoration-none href=/help/wenti/xiazai/ target=_blank> 关于下载 </a><a class=text-decoration-none href=/help/wenti/qinquan/ target=_blank> 关于侵权 </a><a class=text-decoration-none href=/help/wenti/fenxaing/ target=_blank> 分享文档赚钱教程 </a> </li> <li> <h5>关于我们</h5> <a class=text-decoration-none href=/help/about/wzjs/ target=_blank> 网站介绍 </a><a class=text-decoration-none href=/help/about/gywm/ target=_blank> 关于我们 </a><a class=text-decoration-none href=/help/about/lxwm/ target=_blank> 联系我们 </a> </li> <li> <h5>版权问题</h5> <a class=text-decoration-none href=/help/banquan/bqsm/ target=_blank> 版权声明 </a><a class=text-decoration-none href=/help/banquan/qqcl/ target=_blank> 侵权处理 </a><a class=text-decoration-none href=/help/banquan/mzsm/ target=_blank> 免责声明 </a> </li> <li> <h5>协议条款</h5> <a class=text-decoration-none href=/help/xieyi/yhxy/ target=_blank> 用户协议 </a><a class=text-decoration-none href=/help/xieyi/fwtk/ target=_blank> 用户服务条款 </a><a class=text-decoration-none href=/help/xieyi/ysbh/ target=_blank> 用户隐私保护 </a> </li> <li> <h5>网站导航</h5> <a class="text-decoration-none help-nav-item" href="/sitemaps.xml" data-name="网站地图" target="_blank">网站地图</a> <a class="text-decoration-none help-nav-item" href="/list.html" data-name="全部分类" target="_blank">全部分类</a> <a class="text-decoration-none help-nav-item" href="/sitemaps/index.html" data-name="资源地图" target="_blank">资源地图</a> </li> </ul> <div class="foot-qrcode d-flex"> <div> <div class="subsitute-bg"><img src="https://www.wenku365.com/d/file/2022/07-08/f23df57d987ef7ad9acb33fe5abf9854.jpg"></div> <p>关注公众号<br></p> </div> </div> </div> </div> <div class="footer-copyright"> <p><a href="/" target="_blank">天天文库</a>站为“文档C2C交易模式”，即用户上传的文档直接卖给(下载)用户，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。</p> <p>本站是网络服务平台方，若您的权利被侵害，侵权客服QQ：3074922707 欢迎举报。</p> <p>Copyright 2004-2021 <a href="https://www.wenku365.com/" target="_blank">wenku365.com</a> All Rights Reserved <a href="https://beian.miit.gov.cn/#/Integrated/index" rel="nofollow" target="_blank">闽ICP备15016911号-5 </a></p> <p>闽公网安备 <a href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=35052402000320" rel="nofollow" target="_blank">35052402000320</a></p> <p> <a href="https://www.wenku365.com/zt.html" target="_blank">专题文集</a> <a href="https://www.wenku365.com/zt-90007.html" target="_blank">丨职业培训</a> <a href="https://www.wenku365.com/zt-90005.html" target="_blank">丨实用范文</a> <a href="https://www.wenku365.com/zt-90010.html" target="_blank">丨商业材料</a> <a href="https://www.wenku365.com/zt-90013.html" target="_blank">丨合同协议</a> <a href="https://www.wenku365.com/zt-90009.html" target="_blank">丨PPT专题</a></p> </div> </footer> <script src="//static.wenku365.com/wenku365/js/global.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/clipboard.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/jquery.treeview.js?"></script> <script src="//static.wenku365.com/wenku365/js/jquery.share.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/common.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/downloadFile.js?"></script> <script src="//static.wenku365.com/wenku365/js/loginWindow.js?"></script> <script src="//static.wenku365.com/wenku365/js/windowRecharge.js?"></script> <script src="//static.wenku365.com/wenku365/js/viewer.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/detail.js?"></script>  </body> </html>