Flink物理分区及数据转换

谁践踏了优雅 2023-06-26 08:24 35阅读 0赞

(1) 随机分区(Random Partitioning)

随机分到下游分区,分区相对均衡,但比较容易失去原有数据的分区结构

val shuffleStream = dataStream.shuffle

(2) 平衡分区(Roundrobin Partitioning)

重分区,尽可能保证每个分区内的数量平衡

val shuffleStream = dataStream.rebalance()

(3) 按比例分区(Rescaling Partitioning)

上游并发度2,下游并发度4,上游一个分区的数据就会路由到下游的两个分区中

senv.readTextFile(“”).rescale()

(4) 广播操作

下游算子中的tasks可以直接从本地内存中获取广播数据集,不再依赖于网络传输.这种分区策略适合小数据集,当大数据与小数据集关联时,可以广播的方式将小数据集分发到算子的每个分区中

val datas = senv.readTextFile(“”).broadcast()

(5) 自定义分区

import org.apache.flink.api.common.functions.Partitioner

import scala.util.Random

object customPartitioner extends Partitioner[String] {

override def partition(key: String, numPartitions: Int): Int = {

if (key.contains(“flink”))

0

else

Random.nextInt(numPartitions)

}

}

format_png

发表评论取消回复

表情：

评论列表（有 0 条评论，35人围观）

还没有评论，来说两句吧...

相关阅读

相关 Oracle空间不足：表分区及数据清理

在Oracle数据库中，如果空间不足引发问题，主要是由于以下几个原因与表分区和数据清理相关： 1. 表分区： - 如果一个大的表被分区，每个分区都有自己的存储需求。当所

淩亂°似流年/ 2025年01月19日 06:12/ 0 赞/ 100 阅读

相关 Flink 1.17教程：自定义分区（Custom）

自定义分区（Custom）当Flink提供的所有分区策略都不能满足用户的需求时，我们可以通过使用partitionCustom()方法来自定义分区策略。 1）自定义

拼搏现实的明天。/ 2023年10月15日 18:19/ 0 赞/ 97 阅读

相关 Flink 1.17教程：轮询分区（Round-Robin）和重缩放分区（rescale）

轮询分区（Round-Robin）轮询，简单来说就是“发牌”，按照先后顺序将数据做依次分发。通过调用DataStream的.rebalance()方法，就可以实现轮询重

Myth丶恋晨/ 2023年10月15日 18:18/ 0 赞/ 76 阅读

相关 Flink 1.17教程：物理分区算子（Physical Partitioning）之随机分区（shuffle）

物理分区算子（Physical Partitioning）常见的物理分区策略有：随机分配（Random）、轮询分配（Round-Robin）、重缩放（Rescale）和

小灰灰/ 2023年10月15日 18:18/ 0 赞/ 160 阅读

相关 Flink物理分区及数据转换

(1) 随机分区(Random Partitioning) 随机分到下游分区,分区相对均衡,但比较容易失去原有数据的分区结构 <table> <tbody>

谁践踏了优雅/ 2023年06月26日 08:24/ 0 赞/ 36 阅读

相关 Linux 硬盘分区、分区、删除分区、格式化

Linux 硬盘分区、分区、删除分区、格式化查看所有分区 fdisk -l 对磁盘进行操作 /dev/sdb1 fdisk /dev/sd

Dear 丶/ 2023年06月07日 08:06/ 0 赞/ 34 阅读

相关 Flink常用转换算子及物理分区

一.转换算子 ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9

谁践踏了优雅/ 2023年03月02日 13:27/ 0 赞/ 207 阅读

相关 flink 并行度和kafka分区的关系

1、目前flink的并行度如果大于kafka的分区，checkpoint可以正常执行成功，但是会存在某个并行度空转的情况。可以正常checkpoint ![watermark

迷南。/ 2022年10月17日 05:26/ 0 赞/ 333 阅读

相关 linux 系统分区及格式化

2.3 系统分区分区及格式化磁盘分区：硬盘逻辑上分成几个不同的储存空间，用来保存不同的数据，就像把大柜子分隔成几个小柜子,小柜子分别储存不同的东西，为什么要分区？是为了

野性酷女/ 2022年04月12日 09:26/ 0 赞/ 238 阅读

相关磁盘分区及lvm

磁盘及分区磁道：track 扇区：sector 默认512字节磁盘最小单位分区查看分区 lsblk 创建分区 fdisk /de

港控/mmm°/ 2022年01月06日 15:09/ 0 赞/ 460 阅读