java网络爬虫简单实现

ID：6075477

大小：82.50 KB

页数：14页

时间：2018-01-02

资源描述：

《java网络爬虫简单实现》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、首先介绍每个类的功能：DownloadPage.java的功能是下载此超链接的页面源代码.FunctionUtils.java的功能是提供不同的静态方法，包括：页面链接正则表达式匹配,获取URL链接的元素,判断是否创建文件,获取页面的Url并将其转换为规范的Url,截取网页网页源文件的目标内容。HrefOfPage.java的功能是获取页面源代码的超链接。UrlDataHanding.java的功能是整合各个给类，实现url到获取数据到数据处理类。UrlQueue.java的未访问Url队列。Vis

2、itedUrlQueue.java已访问过的URL队列。下面介绍一下每个类的源代码：DownloadPage.java此类要用到HttpClient组件。 1.packagecom.sreach.spider;2.3.importjava.io.IOException;4.importorg.apache.http.HttpEntity;5.importorg.apache.http.HttpResponse;6.importorg.apache.http.client.ClientProtocol

3、Exception;7.importorg.apache.http.client.HttpClient;8.importorg.apache.http.client.methods.HttpGet;9.importorg.apache.http.impl.client.DefaultHttpClient;10.importorg.apache.http.util.EntityUtils;11.12.publicclassDownloadPage13.{14.15. /**16. *根

4、据URL抓取网页内容17. * 18. *@paramurl19. *@return20. */21. publicstaticStringgetContentFormUrl(Stringurl)1. {2. /*实例化一个HttpClient客户端*/3. HttpClientclient=newDefaultHttpClient();4. HttpGetgetHttp=newHttpGet(url);5

5、.6. Stringcontent=null;7.8. HttpResponseresponse;9. try10. {11. /*获得信息载体*/12. response=client.execute(getHttp);13. HttpEntityentity=response.getEntity();14.15. VisitedUrlQueue.addE

6、lem(url);16.17. if(entity!=null)18. {19. /*转化为文本信息*/20. content=EntityUtils.toString(entity);21.22. /*判断是否符合下载网页源代码到本地的条件*/23. if(FunctionUtils.isCreateFile(url)24.

7、 &&FunctionUtils.isHasGoalContent(content)!=-1)25. {26. FunctionUtils.createFile(FunctionUtils27. .getGoalContent(content),url);28. }29. }30.31.

8、 }catch(ClientProtocolExceptione)1. {2. e.printStackTrace();3. }catch(IOExceptione)4. {5. e.printStackTrace();6. }finally7. {8. client.getConnectionManager().shutdow

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 14



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

java网络爬虫简单实现

java网络爬虫简单实现

相关文章

相关标签