Hive概览
一,Hadoop
开源的分布式计算平台,核心是分布式文件系统”HDFS(Hodoop Distributed Filesystem )“和分布式计算模型:MapReduce。
HDFS:
进行大数据存储,分布式文件系统,具有高容错性特点,因此可以设计部署再低廉的硬件设施上面,通过提高吞吐率来访问数据,适合拥有超大数据集的应用
MapReduce:
进行大数据运算,在存储了大量数据的基础上,如何将这些数据利用起来。MapReduce就是解决如何从海量数据中获取想要信息的,用于大规模数据集的并行运算。基本原理是:map和reduce操作,先指定一个map函数,把输入映射成一组新的键值对,交给reduce,reduce对相同key下的所有value进行处理以后再将结果合并得出最终的结果。
**二 Hive **
数据仓库:
数据仓库是面向主题的、集成的、相对稳定的、反应历史数据变化的大量数据集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制,数据量极大。
Hive就是一种基于Hodoop的数据仓库工具,满足海量数据的存储需求,提供满足要求的数据处理和计算能力。
Hive与Hadoop的关系:
1 Hive的底层存储依赖于HDFS来进行数据存储
2 MapReduce是专门对于HDFS存储数据进行处理,而Hive提供了Hive SQL对数据进行操作,其本质其实就是将sql转换为MapReduce任务操作来进行数据操作。
三 Hive的优缺点
优点:
1.使用Hive SQL,让用户操作变得很简单,切内置大量函数,便于对于数据仓库进行数据计算与处理。
2.可扩展,可以自定义存储格式,自定义函数
3.支持多借口访问
缺点:
不适用联机事务处理(OLTP),不支持列级别的数据添加,修改,删除操作 。延迟较高
四 使用场景
1.离线数据分析与处理,离线数据统计
2.数据挖掘,分析用户行为信息,做用户人群画像
3.数据统计
Hive只是大数据处理当中的一个部分,相对成熟,具有其相应的使用场景
还没有评论,来说两句吧...