spark选择去重

谁借莪１个温暖的怀抱￠ 2022-01-07 10:51 281阅读 0赞

在spark计算当中，我们日常有些简单需求，比如去重，比如有四列（appid、date、type、platform），我们只需要对appid，date进行去重，另外两列不关注。在spark中，distinct会对所有列执行去重操作，两行比较，只要有个一列有差异，就不算重复。

要解决，只对某几列进行去重，可以使用Top N 的思路，也就是先分组，分组后，我们只取row\_num=1第一行就可以了。

具体实现代码如下：

//选出某几列，去掉空值  
Dataset<Row> dataset = input.select(  
                Consts.Fields.APPID,  
                Consts.Fields.EXT$ADID  
        ).na().drop(dropNulCol);  
        dataset.persist();  
//设置窗口计算，可以指定多个列为partitionBy,其实就是多个groupby 分组列  
        WindowSpec w=Window.partitionBy(Consts.Fields.APPID).orderBy(col("count").desc());  
//只取row num=1，那就是top N,如果window里有orderby排序的话。  
        Dataset<Row> top = count.withColumn("rn",row\_number().over(w)).where(col("rn").$eq$eq$eq(1)).drop("rn");

\------------------------------------------------------------------------------------------------------------------

![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2x2dHVsYQ_size_16_color_FFFFFF_t_70][]

![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2x2dHVsYQ_size_16_color_FFFFFF_t_70 1][]

参考：[http://stor.51cto.com/art/201804/571453.htm][http_stor.51cto.com_art_201804_571453.htm]

[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2x2dHVsYQ_size_16_color_FFFFFF_t_70]: /images/20211223/cdd4c16f58074666a0890f94058ecbe4.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2x2dHVsYQ_size_16_color_FFFFFF_t_70 1]: /images/20211223/43e353029da240108309a345a0dfff18.png
[http_stor.51cto.com_art_201804_571453.htm]: http://stor.51cto.com/art/201804/571453.htm