欢迎来到天天文库
浏览记录
ID:32179332
大小:170.50 KB
页数:6页
时间:2019-02-01
《jsoup网页内容抓取分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、在Java程序在解析HTML文档时,大家应该晓得htmlparser这个开源项目,我也是使用过,不过这个程序到了2006年就没有更新了。由于我的基础较差,对于扩展自定义的标签还是不太懂,还是有超时问题困扰,偶然的机会中发现有jsoup,而且更新到了1.72版,使用起来还是很容易上手的。下面写些使用心得: jsoup isaJavalibraryforworkingwithreal-worldHTML.ItprovidesaveryconvenientAPIforextractingandmanipu
2、latingdata,usingthebestofDOM,CSS,andjquery-likemethods. jsuop是一款java的html解析器,提供一套非常省力的API,通过dom模型css和类似于jquery的方式来获取和操作数据。 功能:1.解析一个Html文档,2.解析一个body片段 Java代码 1.String html = "
Parsed
3、HTML into a doc.
4、ame, String baseUri) 方法 2. *其中baseUri参数用于解决文件中URLs是相对路径的问题。 3. *如果不需要可以传入一个空的字符串。 4. */ 5.File input = new File("/tmp/input.html"); 6.Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); Java代码 1./** 2. *根据url直接获取内容,可以加入超时,get方法不行,就用pos
5、t方法 3. *我在实际应用中,出现404,405,504等错误信息 4. *将get改为post就可以,或者反过来改 5. *如果等以后弄明白了,再来解释清楚 6. */ 7.Document doc1 = Jsoup.connect("http://www.hao123.com/").get(); 8.String title = doc1.title(); //获取网页的标题 9.String content=doc1.toString();//将网页转为文本 10. 1.Document
6、doc2 = Jsoup.connect("http://www.hao123.com") 2. .data("query", "Java")//请求参数 3. .userAgent("Mozilla")//设置urer-agent 4. .cookie("auth", "token")//设置cookie 5. .timeout(50000)//设置连接超时 6. .post();//或者改为get 7.经过我的测试使用,jsoup分析网页结构和内容的功能远远强大于HtmlParse
7、r,无论是获取整个页面的文本,还是分析特定内容的网页结构,都是十分的方便。 附上链接:jsoup官网:http://jsoup.org/ ,中文jsoup:http://www.open-open.com/jsoup/ 下面写些我的使用记录,希望大家如果能从我的方法中得到启发,鉴于本人从事开发工作不久,内容可能写的不是很好。 jsoup数据获取有两大方法:1.通过分析dom模型的网页标签和元素,2.select元素选择器,类似jquery方式(功能很强大,还支持正则表达式)。网页tag标签
8、有body,div,table,tr,td,a,等等。元素的属性有,href,title,width,height,color等等,元素属性的值就是,例如:href=“www.baidu.com”,值就是www.baidu.com。width=“98%”值就是98% 下面就以分析http://www.iteye.com首页的每日资讯为例,抓取每日资讯的标题和url地址,详细写出分析步骤: 1.
此文档下载收益归作者所有