Flink,union DataSet数据集,union实例,java版本

心已赠人 2021-09-24 10:52 401阅读 0赞

数据集union,不去重

  1. package union;
  2. import org.apache.flink.api.java.DataSet;
  3. import org.apache.flink.api.java.ExecutionEnvironment;
  4. import org.apache.flink.api.java.tuple.Tuple2;
  5. /**
  6. * @Author you guess
  7. * @Date 2020/6/17 12:33
  8. * @Version 1.0
  9. * @Desc
  10. */
  11. public class UnionDataSetTest {
  12. public static void main(String[] args) throws Exception {
  13. ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
  14. DataSet<Tuple2<Long, String>> source1 = env.fromElements(
  15. Tuple2.of(1L, "xiaoming"),
  16. Tuple2.of(2L, "xiaowang"));
  17. DataSet<Tuple2<Long, String>> source2 = env.fromElements(
  18. Tuple2.of(1L, "xiaoming"),
  19. Tuple2.of(2L, "xiaowang"),
  20. Tuple2.of(3L, "hhhhhh"));
  21. // source1.union(source2).print();
  22. // (1,xiaoming)
  23. // (1,xiaoming)
  24. // (2,xiaowang)
  25. // (2,xiaowang)
  26. // (3,hhhhhh)
  27. //source1.unionAll(source2);//无unionAll方法
  28. //处理数据集不用显式调用execute,不然执行抛异常java.lang.RuntimeException。处理数据流才需要调用execute
  29. //env.execute("Flink CoGroupDataSetTest by Java ");
  30. }
  31. }

flink版本1.9.2,java版本1.8

发表评论

表情:
评论列表 (有 0 条评论,401人围观)

还没有评论,来说两句吧...

相关阅读

    相关 Pytorch 构建数据dataset

    额,这里我们在网上找了10类花朵的数据,将数据进行分类,放在各个文件夹,文件名是花朵的标签,然后对图片大小统一为256\256。 将数据集分成训练集(train)、验证集(v