Spark的基本概念
前文:
一、Spark概念
1、Spark概念
2、对比MapReduce的计算:运算速度快上100倍
二、结构及资源调度
1、Spark集群的结构
2、资源调度流程
备注:
3、提交Job执行流程
4、业务处理总揽流程
二、Spark核心 RDD
1、弹性分布式数据集(RDDs),一个可以并行操作、有容错机制的数据集合。通过外部存储系统的数据集或现有RDDs的转换而创建。
2、容错机制
3、RDD算子
4、DAG有向无环图
三、配置调优
1、共享变量
2、Shuffle
(1)概念
(2)实现方式
(3)配置
3、Spark调优
4、Checkpoint
5、spark解决数据倾斜问题
四、Spark Sql
1、概念
2、案例
备注:核心为转换成DataFrame或临时表进行操作。
五、SparkStreaming
1、概念:利用Spark核心的快速调度能力来截取小批量的数据并对之运行RDD转换。
备注:核心为DStream
2、对比Storm
3、流计算完整过程
备注:核心为滑动窗口机制
还没有评论,来说两句吧...