且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

Spark 数据框:基于列的数据透视和分组

更新时间:2023-11-18 23:05:04

如果您可以忍受在应为零的单元格中使用空列表,则可以使用 collect_list:

You can use collect_list if you can bear with an empty List at cells where it should be zero:

df.groupBy("id").pivot("app").agg(collect_list("customer")).show
+---+--------+----+--------+
| id|      bc|  fe|      fw|
+---+--------+----+--------+
|id3|[TR, WM]|  []|      []|
|id1|      []|[WM]|[CS, WM]|
|id2|      []|  []|    [CS]|
+---+--------+----+--------+