Hadoop生态系统小记

小鱼儿 2022-08-07 10:58 378阅读 0赞

www.easyhadoop.com

Hadoop能解决哪些问题(Hadoop集群把淘汰的机器放在一起)
Hadoop需求
海量数据需要及时分析和处理
海量数据需要深入分析和挖掘
数据需要长期保存

Hadoop的问题是:
磁盘IO成为一种瓶颈,而非CPU资源
网络带宽是一种稀缺资源
硬件故障称为影响稳定的一大因素

淘宝 阿里:国内使用Hadoop最深入的公司,整个taobao和阿里都是数据驱动的
数据魔方就是用Hadoop平台做的
Doug
Nutch搜索引擎里面的一个模块
受到Google三篇论文的启发—MapReduce GFS Bigtable
Google:mapreduce、GFS、Bigtable
Hadoop:mapreduce、HDFS、Hbase

Hadoop生态系统介绍
MapReduce:(这个模型70、80年代就有这个思想了,Google在2001?把他用起来了)
1、编程模型,主要用来做数据的分析
2、最大化利用CPU
HDFS:
1、hadoop distribute file system分布式文件系统
2、最大化利用磁盘
Hbase:
1、Nosql数据库,Key-Value;
2、最大化利用内存
HDFS篇
文件以块(block)方式存储 64M(这一点表明Hadoop不适合求小的文件,)
每个区块至少分到三台DataNode上
客户端对文件没有缓存机制
单一master(NameNode)来协调存储元数据(metadata)

NameNode的metadate信息在启动后会加载到内存
metadata存储到磁盘文件名为fsimage
block的位置信息不会保存到fsimage

DataNode:
保存Block
启动DN线程的时候会向NN汇报block信息
通过向NN发送心跳保存与其联系

Block的副本放置策略
第一个副本
第二个副本
第三个副本

发表评论

表情:
评论列表 (有 0 条评论,378人围观)

还没有评论,来说两句吧...

相关阅读

    相关 Hadoop生态系统

    ![Center][] 摘要:介绍Hadoop生态系统,从Hadoop生态系统有什么成员,成员能做什么和Hadoop生态系统能够提供大数据问题解决方案两方面来认识。 关键词

    相关 hadoop生态

    大数据是什么  有很多朋友问过我,大数据到底是什么?一句话来概括 针对非软件行业的朋友 根据你平时在超市,加油站,饭店等地方的一些消费行为,通过大数据