htmlparser使用详解

htmlparser使用详解

ID:8964638

大小:212.50 KB

页数:39页

时间:2018-04-13

htmlparser使用详解_第1页
htmlparser使用详解_第2页
htmlparser使用详解_第3页
htmlparser使用详解_第4页
htmlparser使用详解_第5页
资源描述:

《htmlparser使用详解》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、packageparser;importjava.io.BufferedReader;importjava.io.BufferedWriter;importjava.io.FileWriter;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.net.MalformedURLException;importjava.net.URL;/***基本能实现网页抓取,不过要手动输入URL将整个html内容保存到指定文件**@

2、authorchenguoyong**/publicclassScrubSelectedWeb{privatefinalstaticStringCRLF=System.getProperty("line.separator");/***@paramargs*/publicstaticvoidmain(String[]args){try{URLur=newURL("http://10.249.187.199:8083/injs100/");InputStreaminstr=ur.openStream();Strings,str;BufferedReader

3、in=newBufferedReader(newInputStreamReader(instr));StringBuffersb=newStringBuffer();BufferedWriterout=newBufferedWriter(newFileWriter("D:/outPut.txt"));while((s=in.readLine())!=null){sb.append(s+CRLF);}System.out.println(sb);str=newString(sb);out.write(str);out.close();in.close();

4、}catch(MalformedURLExceptione){e.printStackTrace();}catch(IOExceptione){e.printStackTrace();}}}基本能实现网页抓取,不过要手动输入URL,此外没有重构。只是一个简单的思路。1.htmlparser使用htmlparser是一个纯的java写的html解析的库,htmlparser不依赖于其它的java库,htmlparser主要用于改造或提取html。htmlparser能超高速解析html,而且不会出错。毫不夸张地说,htmlparser就是目前最好的html

5、解析和分析的工具。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。由于htmlparser结构设计精良,所以扩展htmlparser非常便利。Htmlparser中文论坛.  http://bbs.hexiao.cn/thread.php?fid=6ConstructorSummaryParser()Parser(URLConnection connection)          ConstructaparserusingtheprovidedURLConnection.Method:static Parserc

6、reateParser(String html,String charset)          Createstheparseronaninputstring. voidvisitAllNodesWith(NodeVisitor visitor)          Applythegivenvisitortothecurrentpage.HtmlPage(Parser parser) NodeListgetBody()            TableTag[]getTables()            StringgetTitle()       

7、     voidsetTitle(String title)            voidvisitTag(Tag tag)          CalledforeachTagvisited. ConstructorSummaryNodeList()           NodeList(Node node)          Createaoneelementnodelist.  NodeListextractAllNodesThatMatch(NodeFilter filter)          Filterthelistwiththegive

8、nfilternon-recursively. NodeListextractA

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。