欢迎来到天天文库
浏览记录
ID:8964638
大小:212.50 KB
页数:39页
时间:2018-04-13
《htmlparser使用详解》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、packageparser;importjava.io.BufferedReader;importjava.io.BufferedWriter;importjava.io.FileWriter;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.net.MalformedURLException;importjava.net.URL;/***基本能实现网页抓取,不过要手动输入URL将整个html内容保存到指定文件**@
2、authorchenguoyong**/publicclassScrubSelectedWeb{privatefinalstaticStringCRLF=System.getProperty("line.separator");/***@paramargs*/publicstaticvoidmain(String[]args){try{URLur=newURL("http://10.249.187.199:8083/injs100/");InputStreaminstr=ur.openStream();Strings,str;BufferedReader
3、in=newBufferedReader(newInputStreamReader(instr));StringBuffersb=newStringBuffer();BufferedWriterout=newBufferedWriter(newFileWriter("D:/outPut.txt"));while((s=in.readLine())!=null){sb.append(s+CRLF);}System.out.println(sb);str=newString(sb);out.write(str);out.close();in.close();
4、}catch(MalformedURLExceptione){e.printStackTrace();}catch(IOExceptione){e.printStackTrace();}}}基本能实现网页抓取,不过要手动输入URL,此外没有重构。只是一个简单的思路。1.htmlparser使用htmlparser是一个纯的java写的html解析的库,htmlparser不依赖于其它的java库,htmlparser主要用于改造或提取html。htmlparser能超高速解析html,而且不会出错。毫不夸张地说,htmlparser就是目前最好的html
5、解析和分析的工具。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。由于htmlparser结构设计精良,所以扩展htmlparser非常便利。Htmlparser中文论坛. http://bbs.hexiao.cn/thread.php?fid=6ConstructorSummaryParser()Parser(URLConnection connection) ConstructaparserusingtheprovidedURLConnection.Method:static Parserc
6、reateParser(String html,String charset) Createstheparseronaninputstring. voidvisitAllNodesWith(NodeVisitor visitor) Applythegivenvisitortothecurrentpage.HtmlPage(Parser parser) NodeListgetBody() TableTag[]getTables() StringgetTitle()
7、 voidsetTitle(String title) voidvisitTag(Tag tag) CalledforeachTagvisited. ConstructorSummaryNodeList() NodeList(Node node) Createaoneelementnodelist. NodeListextractAllNodesThatMatch(NodeFilter filter) Filterthelistwiththegive
8、nfilternon-recursively. NodeListextractA
此文档下载收益归作者所有