PySpark Dataframe将两列转换为基于第三列值的新元组列

更新时间：2022-02-14 22:44:49

假设您的Dataframe被称为df:

from pyspark.sql.functions import struct
from pyspark.sql.functions import collect_list

gdf = (df.select("product_id", "category", struct("purchase_date", "warranty_days").alias("pd_wd"))
.groupBy("product_id")
.pivot("category")
.agg(collect_list("pd_wd")))

本质上，您必须使用struct()将purchase_date和warranty_days分组到单个列中.然后，您只需按product_id分组，按category进行旋转，就可以汇总为collect_list().

Essentially, you have to group the purchase_date and warranty_days into a single column using struct(). Then, you are just grouping by product_id, pivoting by category, can aggregating as collect_list().

上一篇 : ：Woocommerce获得下一个/上一个产品相同类别下一篇 : 如何实现＆QUOT;点击任何地方对继续]事件在我的Android活动？

PySpark Dataframe将两列转换为基于第三列值的新元组列

相关阅读

技术问答最新文章