spark Bisecting k-means（二分K均值算法）

更新时间：2022-09-18 18:42:46

Bisecting k-means（二分K均值算法）

二分k均值（bisecting k-means）是一种层次聚类方法，算法的主要思想是：首先将所有点作为一个簇，然后将该簇一分为二。之后选择能最大程度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。以此进行下去，直到簇的数目等于用户给定的数目K为止。
以上隐含着一个原则是：因为聚类的误差平方和能够衡量聚类性能，该值越小表示数据点月接近于它们的质心，聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次的划分，因为误差平方和越大，表示该簇聚类越不好，越有可能是多个簇被当成一个簇了，所以我们首先需要对这个簇进行划分。

     bisecting k-means通常比常规K-Means方法运算快一些，也和K-Means聚类方法得到结果有所不同。
  Bisecting k-means is a kind of hierarchical clustering using a divisive (or “top-down”) approach: all observations start in one cluster, and splits are performed recursively as one moves down the hierarchy.
  Bisecting K-means can often be much faster than regular K-means, but it will generally produce a different clustering.
   二分k均值算法的伪代码如下：

将所有的点看成一个簇
当簇数目小于k时
       对每一个簇：
              计算总误差
              在给定的簇上面进行k-均值聚类k=2
              计算将该簇一分为二后的总误差
       选择使得误差最小的那个簇进行划分操作

//BisectingKMeans和K-Means API基本上是一样的，参数也是相同的
//模型训练
val bkmeans=new BisectingKMeans()
                        .setK(2)
                        .setMaxIter(100)
                        .setSeed(1L)
val model=bkmeans.fit(dataset)

//显示聚类中心    
model.clusterCenters.foreach(println)

//SSE（sum of squared error）结果评估    
val WSSSE=model.computeCost(dataset)
println(s"within set sum of squared error = $WSSSE")

Bisecting k-means优缺点
同k-means算法一样，Bisecting k-means算法不适用于非球形簇的聚类，而且不同尺寸和密度的类型的簇，也不太适合。

摘自：http://blog.csdn.net/qq_34531825/article/details/52663428

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/7229461.html，如需转载请自行联系原作者

上一篇 : ：晶赞科技喜获中国互联网大数据营销服务最具影响力企业大奖下一篇 : 模型树——就是回归树的分段常数预测修改为线性回归对于非线性回归有较好的预测效果

spark Bisecting k-means（二分K均值算法）

Bisecting k-means（二分K均值算法）

相关阅读

推荐文章