Spark为何比MapReduce更快？Spark基于内存计算什么意思？

今天药忘吃喽~ 2021-09-25 05:14 492阅读 0赞

1 spark的task是线程，启动更快；mr的task是进程

2 spark的很多操作是在内存进行，只有shuffle操作才会把数据落盘；mr的很多操作，包括shuffle，会把数据落盘

3 spark的shuffle阶段对中间结果文件建立有索引文件，读取更快；mr对中间文件没有建立索引文件；

4  spark的shuffle阶段启用bypass时不会对中间结果文件进行排序；mr的shuffle阶段包含3次排序；

5 spark可以对反复用到的数据进行缓存，避免多次加载花费时间；mr不能把多次用到的数据缓存起来

\----------------------------

**MapReduce慢的原因：**

*  多个MapReduce串联执行时，依赖于HDFS输出的中间结果
 *  MapReduce在处理复杂的DAG（有向无环图）时会产生大量的数据序列化、数据copy和磁盘I/O开销

**Spark快的原因：**

*  Spark基于内存，尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle
 *  Spark对于反复用到的数据进行了缓存
 *  Spark对于DAG进行了高度的优化，具体在于Spark划分了不同的stage和使用了延迟计算技术
 *  task启动时间比较快，Spark是fork出线程；而MR是启动一个新的进程；
 *  更快的shuffles，Spark只有在shuffle的时候才会将数据放在磁盘，而MR却不是。
 *  更快的工作流：典型的MR工作流是由很多MR作业组成的，他们之间的数据交互需要把数据持久化到磁盘才可以

市面上有一些初学者的误解，他们拿spark和hadoop比较时就会说，Spark是内存计算，内存计算是spark的特性。请问在计算机领域，mysql,redis,ssh框架等等他们不是内存计算吗?依据冯诺依曼体系结构，有什么技术的程序不是在内存中运行，需要数据从硬盘中拉取，然后供cpu进行执行？所有说sprk的特点是内存计算相当于什么都没有说。那么spark的真正特点是什么?

抛开spark的执行模型的方式，**它的特点无非就是多个任务之间数据通信不需要借助硬盘而是通过内存，大大提高了程序的执行效率。而hadoop由于本身的模型特点，多个任务之间数据通信是必须借助硬盘落地的。**那么spark的特点就是数据交互不会走硬盘。只能说多个任务的数据交互不走硬盘，**但是sprk的shuffle过程和hadoop一样仍然必须走硬盘的。**

[https://www.cnblogs.com/intsmaze/p/7197420.html][https_www.cnblogs.com_intsmaze_p_7197420.html]

[https://blog.csdn.net/as4589sd/article/details/104033138][https_blog.csdn.net_as4589sd_article_details_104033138]

spark中 map flatmap filter 操作，中间文件不落盘。

[https_www.cnblogs.com_intsmaze_p_7197420.html]: https://www.cnblogs.com/intsmaze/p/7197420.html
[https_blog.csdn.net_as4589sd_article_details_104033138]: https://blog.csdn.net/as4589sd/article/details/104033138