Hive概览-蒲公英云

Hive概览

末蓝、 2023-07-13 10:56 197阅读 0赞

一，Hadoop
开源的分布式计算平台，核心是分布式文件系统”HDFS(Hodoop Distributed Filesystem )“和分布式计算模型：MapReduce。
HDFS:
进行大数据存储，分布式文件系统，具有高容错性特点，因此可以设计部署再低廉的硬件设施上面，通过提高吞吐率来访问数据，适合拥有超大数据集的应用
MapReduce：
进行大数据运算，在存储了大量数据的基础上，如何将这些数据利用起来。MapReduce就是解决如何从海量数据中获取想要信息的，用于大规模数据集的并行运算。基本原理是：map和reduce操作，先指定一个map函数，把输入映射成一组新的键值对，交给reduce，reduce对相同key下的所有value进行处理以后再将结果合并得出最终的结果。

**二 Hive **
数据仓库：
数据仓库是面向主题的、集成的、相对稳定的、反应历史数据变化的大量数据集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制，数据量极大。
Hive就是一种基于Hodoop的数据仓库工具，满足海量数据的存储需求，提供满足要求的数据处理和计算能力。
Hive与Hadoop的关系：
在这里插入图片描述
1 Hive的底层存储依赖于HDFS来进行数据存储
2 MapReduce是专门对于HDFS存储数据进行处理，而Hive提供了Hive SQL对数据进行操作，其本质其实就是将sql转换为MapReduce任务操作来进行数据操作。