大数据Spark系列之Spark基本概念解析

旧城等待， 2023-07-21 11:22 121阅读 0赞

1）Application

用户在 spark 上构建的程序，包含了 driver 程序以及在集群上运行的程序代码，物理机器上涉及了 driver，master，worker 三个节点。

2）Driver Program

创建 sc ，定义 udf 函数，定义一个 spark 应用程序所需要的三大步骤的逻辑：加载数据集，处理数据，结果展示。

3）Cluster Manager

集群的资源管理器，在集群上获取资源的外部服务。

4）Worker Node

集群中任何一个可以运行spark应用代码的节点。Worker Node就是物理节点，可以在上面启动Executor进程。

5）Executor

Executor 是一个应用程序运行的监控和执行容器，它的主要职责是：

初始化程序要执行的上下文 SparkEnv，解决应用程序需要运行时的 jar 包的依赖，加载类。
ExecutorBackend 向 cluster manager 汇报当前的任务状态，这一方面有点类似 hadoop的 tasktracker 和 task。

6）Jobs

包含很多 task 的并行计算，可以认为是 Spark RDD 里面的 action，每个 action 的触发会生成一个job。用户提交的 Job 会提交给 DAGScheduler，Job 会被分解成 Stage，Stage 会被细化成 Task，Task 简单的说就是在一个数据 partition 上的单个数据处理流程。

7）Stage

Stage 的划分以 shuffle 和 result 这两种类型来划分。

8）Task

被送到 executor 上的工作单元。

9）Partition

Partition 类似 hadoop 的 Split，计算是以 partition 为单位进行的，当然 partition 的划分依据有很多，这是可以自己定义的，像 HDFS 文件，划分的方式就和 MapReduce 一样，以文件的 block 来划分不同的 partition。

10）RDD(Resilient Distributed Datasets)

弹性分布式数据集，是分布式内存的一个抽象概念，RDD提供了一种高度受限的共享内存模型。
它具备像MapReduce等数据流模型的容错特性，并且允许开发人员在大型集群上执行基于内存的计算。
RDD是只读的、分区记录的集合。
RDD不需要物化。
RDD作为数据结构，本质上是一个只读的分区记录集合。一个RDD可以包含多个分区，每个分区就是一个dataset片段。RDD可以相互依赖。

发表评论取消回复

表情：

评论列表（有 0 条评论，121人围观）

还没有评论，来说两句吧...

相关阅读

相关 Spark Shuffle 解析

5.Spark Shuffle 解析 5.1 Shuffle 的核心要点 5.1.1 ShuffleMapStage 与 FinalStage ![160...

我就是我/ 2024年04月20日 09:13/ 0 赞/ 215 阅读

相关 Spark 内核(四) --------- Spark Shuffle 解析

目录一、Shuffle 的核心要点 1. ShuffleMapStage 与 ResultStage 二、HashShuffle 解析

迈不过友情╰/ 2024年04月07日 13:20/ 0 赞/ 204 阅读

相关大数据Spark系列之Spark基本概念解析

1）Application 用户在 spark 上构建的程序，包含了 driver 程序以及在集群上运行的程序代码，物理机器上涉及了 driver，master，wor

旧城等待，/ 2023年07月21日 11:22/ 0 赞/ 122 阅读

相关大数据Spark系列之Spark单机环境搭建

1. 下载spark与scala Spark下载地址 [http://mirrors.hust.edu.cn/apache/spark/spark-2.4.5/

ゝ一世哀愁。/ 2023年07月21日 11:21/ 0 赞/ 29 阅读

相关大数据面试之Spark

大数据面试之Spark 1.Spark 1.0 Spark架构 1.1 Spark的Shuffle过程？与Hadoop的Shuffle过程

Bertha 。/ 2023年02月17日 15:54/ 0 赞/ 151 阅读

相关 spark基本概念

转：[http://blog.jasonding.top/2015/07/07/Spark/%E3%80%90Spark%E3%80%91Spark%E5%9F%BA%E6%9

Myth丶恋晨/ 2022年09月28日 11:47/ 0 赞/ 351 阅读

相关 Spark基本概念快速入门

Spark集群一组计算机的集合，每个计算机节点作为独立的计算资源，又可以虚拟出多个具备计算能力的虚拟机，这些虚拟机是集群中的计算

野性酷女/ 2022年06月06日 00:50/ 0 赞/ 399 阅读

相关 Spark基本概念快速入门

转地址：http://www.jianshu.com/p/e41b18a7e202 ![1240][] Spark集群一组计算机的集合，每个计算机节点作

╰+哭是因爲堅強的太久メ/ 2022年06月05日 05:54/ 0 赞/ 346 阅读

相关 Spark之SparkSQL内核解析

SparkSQL内核解析使用SparkSQL引擎去解析SQL与其它的SQL执行引擎也是非常相似的，都要进过未解析逻辑计划-->解析后的逻辑计划-->逻辑计划优化-->物

谁借莪１个温暖的怀抱￠/ 2022年04月23日 01:32/ 0 赞/ 475 阅读

相关 Spark的基本概念

前文：一、Spark概念 1、Spark概念 ![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_

àì夳堔傛蜴生んèń/ 2022年01月29日 00:37/ 0 赞/ 482 阅读