更新时间:2022-10-04 20:27:19
先安装svn
yum install svn
通过svn 构建构建源代码结构
svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/
下载好后进入文件夹目录进行编译
在这里 需要安装 ant 所以在下载的同时 可以再开一个窗口去下载ant
++++++++++++++++++++++++++ 注意 +++++++++++++++++++++++++++++++++++++++
因为 直接yum安装会安装openjdk
而我使用的是oracle jdk
所以我的选择是通过apache ant主页去下载ant
在 /etc/profile 里面设置
ANT_HOME
以及 添加 ANT_HOME/bin 路径到PATH当中去
并且 需要你设置添加 JAVA_HOME环境变量
看自己需要咯吧
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
直接解压就能用 添加环境变量后就能用
cd release-1.6
ant
会自动解决依赖包并且编译文件
cd runtime/local
这里面会有单机模式运行nutch 所需要的东西
mkdir urls
vi urls/url.txt 并输入 你需要爬的那个网站 网址
nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &
使用nohup去后台运行程序 在当前目录会生成一个 nohup.out 运行记录文件
可以使用 tail -f nohup.out 去实时查看运行情况
这时后会发现出错 http.agent.name 缺少这个配置
然后我们使用firefox 中的 firebug 中的网络 去查看我们的 User-Agent
Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0
我的是这个 然后看回来
在 release-1.6 目录中的 conf/conf/nutch-default.xml 去查找 http.agent.name 值 然后 复制这块 写到 conf/nutch-site.xml 中 在value 中添加 我们刚在firefox当中查看的自己user-agent值
回到 release-1.6
ant
再进入 runtime/local
nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &
因为 之前我们出错过一次 当时声成了一个文件夹 里面是没有数据的
只是后面读取数据的时候会出现问题
然后 我们只需要 把报错的文件夹删除即可
nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &
基本安装和测试就是这样
跟到视频学习的 大家喜欢可以自己看的
连接: http://yangshangchuan.iteye.com/blog/1837935
欢迎交流
本文转自 拖鞋崽 51CTO博客,原文链接:http://blog.51cto.com/1992mrwang/1210182