jsoup网页内容抓取分析

jsoup网页内容抓取分析

ID:32179332

大小:170.50 KB

页数:6页

时间:2019-02-01

jsoup网页内容抓取分析_第1页
jsoup网页内容抓取分析_第2页
jsoup网页内容抓取分析_第3页
jsoup网页内容抓取分析_第4页
jsoup网页内容抓取分析_第5页
资源描述:

《jsoup网页内容抓取分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、在Java程序在解析HTML文档时,大家应该晓得htmlparser这个开源项目,我也是使用过,不过这个程序到了2006年就没有更新了。由于我的基础较差,对于扩展自定义的标签还是不太懂,还是有超时问题困扰,偶然的机会中发现有jsoup,而且更新到了1.72版,使用起来还是很容易上手的。下面写些使用心得:     jsoup isaJavalibraryforworkingwithreal-worldHTML.ItprovidesaveryconvenientAPIforextractingandmanipu

2、latingdata,usingthebestofDOM,CSS,andjquery-likemethods.    jsuop是一款java的html解析器,提供一套非常省力的API,通过dom模型css和类似于jquery的方式来获取和操作数据。   功能:1.解析一个Html文档,2.解析一个body片段    Java代码  1.String html = "First parse"  2.  + "

Parsed 

3、HTML into a doc.

";  3.Document doc = Jsoup.parse(html);//分析文档,使用doc.toString()可以转为文本  4.Element body=doc.body();//获取body片段,使用body.toString()可以转为文本        获取方式:1.从本地文件加载 2.根据url地址获取    Java代码  1./**使用静态 Jsoup.parse(File in, String charsetN

4、ame, String baseUri) 方法 2. *其中baseUri参数用于解决文件中URLs是相对路径的问题。 3. *如果不需要可以传入一个空的字符串。 4. */  5.File input = new File("/tmp/input.html");  6.Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");    Java代码  1./** 2. *根据url直接获取内容,可以加入超时,get方法不行,就用pos

5、t方法 3. *我在实际应用中,出现404,405,504等错误信息 4. *将get改为post就可以,或者反过来改 5. *如果等以后弄明白了,再来解释清楚 6. */  7.Document doc1 = Jsoup.connect("http://www.hao123.com/").get();  8.String title = doc1.title(); //获取网页的标题  9.String content=doc1.toString();//将网页转为文本  10.  1.Document 

6、doc2 = Jsoup.connect("http://www.hao123.com")  2.  .data("query", "Java")//请求参数  3.  .userAgent("Mozilla")//设置urer-agent  4.  .cookie("auth", "token")//设置cookie  5.  .timeout(50000)//设置连接超时  6.  .post();//或者改为get  7.经过我的测试使用,jsoup分析网页结构和内容的功能远远强大于HtmlParse

7、r,无论是获取整个页面的文本,还是分析特定内容的网页结构,都是十分的方便。     附上链接:jsoup官网:http://jsoup.org/ ,中文jsoup:http://www.open-open.com/jsoup/   下面写些我的使用记录,希望大家如果能从我的方法中得到启发,鉴于本人从事开发工作不久,内容可能写的不是很好。    jsoup数据获取有两大方法:1.通过分析dom模型的网页标签和元素,2.select元素选择器,类似jquery方式(功能很强大,还支持正则表达式)。网页tag标签

8、有body,div,table,tr,td,a,等等。元素的属性有,href,title,width,height,color等等,元素属性的值就是,例如:href=“www.baidu.com”,值就是www.baidu.com。width=“98%”值就是98%      下面就以分析http://www.iteye.com首页的每日资讯为例,抓取每日资讯的标题和url地址,详细写出分析步骤:      1.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。