nutch网页爬取总结

nutch网页爬取总结

ID:1206156

大小:432.95 KB

页数:37页

时间:2017-11-08

nutch网页爬取总结_第1页
nutch网页爬取总结_第2页
nutch网页爬取总结_第3页
nutch网页爬取总结_第4页
nutch网页爬取总结_第5页
资源描述:

《nutch网页爬取总结》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、Nutch网页爬取总结目录前言2Nutch搭建过程[1]21准备工作22开始部署22.1安装linux系统22.2安装jdk22.3.配置nutch创建索引32.4安装tomcat62.5配置nutch查询索引6参考文献9Nutch爬取内容解析[1]101Nutch的输出文件101.1Crawldb101.2Linkdb101.3Segments101.4Indexes121.5Index122Nutch爬取内容解析132.1nutch的所有命令[2]132.2nutch的页面转存命令192.3nutch页面转

2、存程序21参考文献21Nutch的爬取设置和配置文件221nutch的爬取深度222nutch的配置文件[2]232.1配置文件的优先级232.2配置文件详解252.3nutch抓取动态网页配置[3]332.4关于配置文件的一些细节问题[4][5]34参考文献36后序内容37前言学习使用nutch的时间加起来能有一个月了,在网上也搜集了不少的资料,但是比较零散,所以想把这一个月使用它的全部过程、原理的讲解和中间的注意事项总结一下。主要汇总写网上已有的资料,方便查阅嘛。Nutch搭建过程[1]1准备工作我是在vi

3、rtualbox下用虚拟机进行的nutch搭建,所需要的工具如下:(1)Virtualbox最新版(2)ubuntu-desktop最新版(以后会改为ubuntu-server)(3)jdk-6u25-linux-i586.bin(4)apache-nutch-1.2-bin.tar.gz2开始部署2.1安装linux系统首先安装VirtualBox,然后安装ubuntu,就是传统的安装方法。上传所用的包到linux系统~/tmp目录下,~表示用户目录。2.2安装jdk终端命令  1.#cd  ~/tmp  2

4、.#chmod a+x  jdk-6u23-linux-i586.bin  3.#sh jdk-6u23-linux-i586.bin  4.#mkdir /usr/java  5.#mv jdk1.6.0_23  /usr/java/  配置用户环境变量[2]这个比较重要,最开始nutch多次爬取失败,就是因为环境变量配置的不对。最开始是在~/.bash_profile下配置,后来又在/etc/profile下配置,但是由于nutch有些命令需要管理员权限,当进入管理员权限时,上述配置的环境变量就不生效了,所

5、以最后在/etc/environment下配置环境变量才好使。在/etc/profile下配置环境变量(这个最好也配置上吧)。终端命令  1.#sudugedit/etc/profile  2.(在该文件中添加如下内容)3.exportJAVA_HOME=/usr/java/jdk1.6.0_25  4.exportJRE_HOME=/usr/java/jdk1.6.0.25/jre  5.exportCLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH  6.

6、exportPATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH在/etc/environment下配置环境变量。终端命令  1.sudugedit/etc/environment2.(在该文件中添加如下内容)3.JAVA_HOME=/usr/java/jdk1.6.0_25  4.JRE_HOME=/usr/java/jdk1.6.0.25/jre  5.CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH  6.PATH直接在该文件

7、本来有的PATH后面添加即可注意1:每段路径中间用冒号(:)分开,别忘记了那个点(.)注意2:在尝试的过程中,environment文件内容的错误添加可能导致电脑无法进入,反复的停留在登陆界面。(我在最开始修改这个文件的时候遇到过),只需按crl+alt+F2,在命令行界面把错误的修改删除即可。测试终端命令  1.#java –version  输出1.javaversion"1.6.0_25"2.Java(TM)SERuntimeEnvironment(build1.6.0_25-b05)3.Java Hot

8、Spot(TM)ClientVM(build19.0-b09,mixedmode,sharing)Jdk安装成功另外,在终端下输入env,能够看到所有已经配置的环境变量,看看是否有这几个变量。输入sudosu,然后输入env,看在管理员权限下,是否有这几个变量。2.3.配置nutch创建索引终端命令  1.#unzip apache-nutch-1.2-bin.zip  2.#mv n

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。