如何在Spark/Scala中求和数据框的一列的值

更新时间：2023-11-18 23:22:16

如果要sum一列的所有值，则使用DataFrame的内部RDD和reduce效率更高./p>

If you want to sum all values of one column, it's more efficient to use DataFrame's internal RDD and reduce.

import sqlContext.implicits._
import org.apache.spark.sql.functions._

val df = sc.parallelize(Array(10,2,3,4)).toDF("steps")
df.select(col("steps")).rdd.map(_(0).asInstanceOf[Int]).reduce(_+_)

//res1 Int = 19

上一篇 : ：如果在列中存在列，则过滤spark / scala数据框下一篇 : 根据Spark中的列值拆分数据集

如何在Spark/Scala中求和数据框的一列的值

相关阅读

推荐文章