Hive概览

末蓝、 2023-07-13 10:56 197阅读 0赞

一,Hadoop
开源的分布式计算平台,核心是分布式文件系统”HDFS(Hodoop Distributed Filesystem )“和分布式计算模型:MapReduce。
HDFS:
进行大数据存储,分布式文件系统,具有高容错性特点,因此可以设计部署再低廉的硬件设施上面,通过提高吞吐率来访问数据,适合拥有超大数据集的应用
MapReduce:
进行大数据运算,在存储了大量数据的基础上,如何将这些数据利用起来。MapReduce就是解决如何从海量数据中获取想要信息的,用于大规模数据集的并行运算。基本原理是:map和reduce操作,先指定一个map函数,把输入映射成一组新的键值对,交给reduce,reduce对相同key下的所有value进行处理以后再将结果合并得出最终的结果。

**二 Hive **
数据仓库:
数据仓库是面向主题的、集成的、相对稳定的、反应历史数据变化的大量数据集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制,数据量极大。
Hive就是一种基于Hodoop的数据仓库工具,满足海量数据的存储需求,提供满足要求的数据处理和计算能力。
Hive与Hadoop的关系:
在这里插入图片描述
1 Hive的底层存储依赖于HDFS来进行数据存储
2 MapReduce是专门对于HDFS存储数据进行处理,而Hive提供了Hive SQL对数据进行操作,其本质其实就是将sql转换为MapReduce任务操作来进行数据操作。

三 Hive的优缺点
优点:
1.使用Hive SQL,让用户操作变得很简单,切内置大量函数,便于对于数据仓库进行数据计算与处理。
2.可扩展,可以自定义存储格式,自定义函数
3.支持多借口访问

缺点:
不适用联机事务处理(OLTP),不支持列级别的数据添加,修改,删除操作 。延迟较高

四 使用场景
1.离线数据分析与处理,离线数据统计
2.数据挖掘,分析用户行为信息,做用户人群画像
3.数据统计

Hive只是大数据处理当中的一个部分,相对成熟,具有其相应的使用场景

发表评论

表情:
评论列表 (有 0 条评论,197人围观)

还没有评论,来说两句吧...

相关阅读

    相关 RocksDB 概览

    一、介绍 RocksDB 在Facebook开始是作为各种存储介质上服务器工作负载的存储引擎,最初专注于快速存储(尤其是闪存存储)。它是一个 C++ 库,用于存储键和值,

    相关 Hive概览

    一,Hadoop 开源的分布式计算平台,核心是分布式文件系统”HDFS(Hodoop Distributed Filesystem )“和分布式计算模型:MapReduce

    相关 集合概览

    在网上找了个集合类图,在此表示感谢原作者: ![这里写图片描述][SouthEast] 1.Set Set集合不允许包含相同的元素,如果试图把两个相同元素加入同一个

    相关 UML概览

    UML是由哪几部分组成? 视图是什么?与九种模型图有何关系? UML的建模机制是什么? 一、UML组成:构造块、规则、通用机制三部分组成。 构造块: ![C

    相关 Docker 概览

    什么是Docker Docker是开发,运行和部署应用程序的开放管理平台。 开发人员能利用docker 开发和运行应用程序 运维人员能利用docker 部署和管理应用程序