且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

在Spark Scala中合并两个RDD

更新时间:2023-11-18 22:16:58

我认为这可能是您想要的:

I think this may be what you are looking for:

join(otherDataset, [numTasks])  

在类型为(K,V)和(K,W)的数据集上调用时,将返回(K,(V,W))对的数据集,其中每个键都有所有成对的元素.通过leftOuterJoin,rightOuterJoin和fullOuterJoin支持外部联接.

When called on datasets of type (K, V) and (K, W), returns a dataset of (K, (V, W)) pairs with all pairs of elements for each key. Outer joins are supported through leftOuterJoin, rightOuterJoin, and fullOuterJoin.

请参阅文档的相关部分