Spark SQL 集合运算

并集

// df1: [1,2,3,4,5]
// df2: [2,4,6,8,10]
df1.union(df2)  // [1,2,2,3,4,4,5,6,8,10]  

注意:union 并不会对合并的数据去重

并集去重,可以 union 之后再 distinct

df.union(df2).distinct() // [1,2,3,4,5,6,8,10]  

交集

// df1: [1,2,3,4,5]
// df2: [2,4,6,8,10]
df1.intersect(df2)  // [2,4]  

差集

// df1: [1,2,3,4,5]
// df2: [2,4,6,8,10]
df1.except(df2)  // [1,3,5]