且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《Mahout算法解析与案例实战》一一2.3 测试安装

更新时间:2022-10-01 10:35:00

本节书摘来自华章计算机《Mahout算法解析与案例实战》一书中的第2章,第2.3节,作者:樊 哲,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 测试安装

首先下载测试数据,在浏览器中输入:http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data.html,下载相应的数据。测试数据是由Dr Robert Alcock在1999年利用程序合成的600个样本的控制图数据,每个样本包括60个属性列,一共可以分为6个类,分别为:正常(C)、循环(B)、上升趋势(E)、下降趋势(A)、向上移位(D)、向下移位(F)。图2-5中显示的是每个类别的10个样本数据图。
《Mahout算法解析与案例实战》一一2.3 测试安装

图2?5 样本数据图
获得上面的测试数据,比如把测试数据下载到/home/mahout/data中,然后使用Hadoop的fs指令把数据上传到HDFS文件系统中,命令如下:
$HADOOP_HOME/bin/hadoop fs –copyFromLocal testdata /home/mahout/data
上传完文件后,可以在HDFS文件系统中进行文件的查看,目录为/user/mahout/testdata,使用Canopy算法进行测试,命令如下:

$HADOOP_HOME/bin/hadoop              ??jar      ???$MAHOUT_HOME/mahout-examples-0.7
-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job

然后在终端就可以看到程序运行信息:程序分别运行了3个Job任务,最后把原始数据分为六类。在HDFS文件系统中的/user/mahout/output文件夹中可以看到输出的文件,但是这些文件都是序列文件,我们使用Mahout的文件转换把序列文件转换为文本文件,这样就能比较清晰地分析输出结果。打开终端,输入命令:

$MAHOUT_HOME/bin/mahout clusterdump –i output/clusters-0-final –p output/clusteredPoints –o /home/mahout/test

参数说明:–i是输入文件路径,即运行Canopy算法产生的中心点文件路径(HDFS文件系统);–p是运行Canopy算法后把原始数据分类后的数据文件目录(HDFS文件系统);–o是分类结果的所有文本文件要生成的文件路径(本地文件系统)。clusterdump是有其他参数的,这里只用到这三个就可以了。关于其他参数,直接运行clusterdump(不加任何参数)即可看到参数提示信息。
在本地文件系统中打开文件/home/mahout/test即可看到如下数据文件(部分):

C-0{n=21 c=[29.552, 33.073, 35.876, 36.375, 35.118, 32.761, 29.566, 26.983, 
25.272, 24.967, 25.691, 28.252, 30.994, 33.088, 34.015, 34.349, 32.826, 31.053, 
29.116, 27.975, 27.879, 28.103, 28.775, 30.585, 31.049, 31.652, 31.956, 31.278, 
30.719, 29.901, 29.545, 30.207, 30.672, 31.366, 31.032, 31.567, 30.610, 30.204, 
29.266, 29.753, 29.296, 29.930, 31.207, 31.191, 31.474, 32.154, 31.746, 30.771, 
30.250, 29.807, 29.543, 29.397, 29.838, 30.489, 30.705, 31.503, 31.360, 30.827, 
30.426, 30.399] r=[0.979, 3.352, 5.334, 5.851, 4.868, 3.000, 3.376, 4.812, 5.159,
5.596, 4.940, 4.793, 5.415, 5.014, 5.155, 4.262, 4.891, 5.475, 6.626, 5.691, 
5.240, 4.385, 5.767, 7.035, 6.238, 6.349, 5.587, 6.006, 6.282, 7.483, 6.872, 
6.952, 7.374, 8.077, 8.676, 8.636, 8.697, 9.066, 9.835, 10.148, 10.091, 10.175, 
9.929, 10.241, 9.824, 10.128, 10.595, 9.799, 10.306, 10.036, 10.069, 10.058, 
10.008, 10.335, 10.160, 10.249, 10.222, 10.081, 10.274, 10.145]}
...

查看文件的全部内容,可以看到一共有C-0、C-1、C-2、C-3、C-4、C-5六个类别,且每个类别下面含有属于该类的样本数据。上面所有的步骤都成功运行即可说明Mahout安装正确。