Hadoop生态系统小记
www.easyhadoop.com
Hadoop能解决哪些问题(Hadoop集群把淘汰的机器放在一起)
Hadoop需求
海量数据需要及时分析和处理
海量数据需要深入分析和挖掘
数据需要长期保存
Hadoop的问题是:
磁盘IO成为一种瓶颈,而非CPU资源
网络带宽是一种稀缺资源
硬件故障称为影响稳定的一大因素
淘宝 阿里:国内使用Hadoop最深入的公司,整个taobao和阿里都是数据驱动的
数据魔方就是用Hadoop平台做的
Doug
Nutch搜索引擎里面的一个模块
受到Google三篇论文的启发—MapReduce GFS Bigtable
Google:mapreduce、GFS、Bigtable
Hadoop:mapreduce、HDFS、Hbase
Hadoop生态系统介绍
MapReduce:(这个模型70、80年代就有这个思想了,Google在2001?把他用起来了)
1、编程模型,主要用来做数据的分析
2、最大化利用CPU
HDFS:
1、hadoop distribute file system分布式文件系统
2、最大化利用磁盘
Hbase:
1、Nosql数据库,Key-Value;
2、最大化利用内存
HDFS篇
文件以块(block)方式存储 64M(这一点表明Hadoop不适合求小的文件,)
每个区块至少分到三台DataNode上
客户端对文件没有缓存机制
单一master(NameNode)来协调存储元数据(metadata)
NameNode的metadate信息在启动后会加载到内存
metadata存储到磁盘文件名为fsimage
block的位置信息不会保存到fsimage
DataNode:
保存Block
启动DN线程的时候会向NN汇报block信息
通过向NN发送心跳保存与其联系
Block的副本放置策略
第一个副本
第二个副本
第三个副本
还没有评论,来说两句吧...