centos nutch 安装

更新时间：2022-10-04 20:27:19

先安装svn

yum install svn

通过svn 构建构建源代码结构

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/

下载好后进入文件夹目录进行编译

在这里需要安装 ant 所以在下载的同时可以再开一个窗口去下载ant

++++++++++++++++++++++++++ 注意 +++++++++++++++++++++++++++++++++++++++

因为直接yum安装会安装openjdk

而我使用的是oracle jdk

所以我的选择是通过apache ant主页去下载ant

在 /etc/profile 里面设置

ANT_HOME

以及添加 ANT_HOME/bin 路径到PATH当中去

并且需要你设置添加 JAVA_HOME环境变量

看自己需要咯吧

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

直接解压就能用添加环境变量后就能用

cd release-1.6

ant

会自动解决依赖包并且编译文件

cd runtime/local

这里面会有单机模式运行nutch 所需要的东西

mkdir urls

vi urls/url.txt 并输入你需要爬的那个网站网址

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

使用nohup去后台运行程序在当前目录会生成一个 nohup.out 运行记录文件

可以使用 tail -f nohup.out 去实时查看运行情况

这时后会发现出错 http.agent.name 缺少这个配置

然后我们使用firefox 中的 firebug 中的网络去查看我们的 User-Agent

Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0

我的是这个然后看回来

在 release-1.6 目录中的 conf/conf/nutch-default.xml 去查找 http.agent.name 值然后复制这块写到 conf/nutch-site.xml 中在value 中添加我们刚在firefox当中查看的自己user-agent值

回到 release-1.6

ant

再进入 runtime/local

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

因为之前我们出错过一次当时声成了一个文件夹里面是没有数据的

只是后面读取数据的时候会出现问题

然后我们只需要把报错的文件夹删除即可

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

基本安装和测试就是这样

跟到视频学习的大家喜欢可以自己看的

连接： http://yangshangchuan.iteye.com/blog/1837935

欢迎交流

本文转自拖鞋崽 51CTO博客，原文链接:http://blog.51cto.com/1992mrwang/1210182

上一篇 : ：MultipleOutputFormat多文件输出下一篇 : mysql慢查询

centos nutch 安装

相关阅读

推荐文章