【大数据入门核心技术-Hadoop】(三)Hadoop基础概念之MapReduce
一、基本架构图
" class="reference-link">
二、MapReduce核心思想
分而治之,先分后和:将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终进行合并。
MapReduce由Map和Reduce组成
Map: 将数据进行拆分,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。
Reduce:对数据进行汇总,即对map阶段的结果进行全局汇总。
三、MapReduce设计构思
MapReduce是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在Hadoop集群上。
既然是做计算的框架,那么表现形式就是有个输入(input),MapReduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output)。
Hadoop MapReduce构思体现在如下的三个方面:
1、如何应对大数据处理:分而治之
2、构建抽象模型:Map和Reduce
3、统一构架,隐藏系统层细节
还没有评论,来说两句吧...