hive笔记 ゞ 浴缸里的玫瑰 2022-08-18 05:59 239阅读 0赞 1.hive: 在hadoop生态圈中属于数据仓库的角色,它能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个sql解析引擎,hive可以把sql查询转换为mapreduce中的job来运行。 hive有一套映射工具,可以把sql转化为mapreduce中的job,可以把sql中的表、字段转化为hdfs 中的文件(夹)以及文件中的列。 这套映射工具称之为metastore,一般存放在derby、mysql中。 hive安装: 1.tar -zxvf hive-0.9.0.tar.gz 2.mv hive-0.9.0 hive 3.vi /etc/profile设置hive环境变量 export HIVE\_HOME=/usr/local/hive :$HIVE\_HOME/bin: source /etc/profile 4.cd hive/ cd conf mv hive-default.xml.templata hive-site.xml mv hive-env.sh.template hive-env.sh 5.修改hadoop-env.sh vi ../../hadoop/conf/hadoop-env.sh 修改hadoop的hadoop-env.sh(否则启动hive汇报找不到类的错误) export HADOOP\_CLASSPATH=.:$CLASSPATH:$HADOOP\_CLASSPATH: $HADOOP\_HOME/bin 6.vi hive-config.sh export JAVA\_HOME=/usr/local/jdk export HIVE\_HOME=/usr/local/hive export HADOOP\_HOME=/usr/local/hadoop 使用hive 进入hive的bin目录 hive show databases; use default; show tables; create table t1(id string); show tables; select \* from tl; \---- hive在hdfs中的默认位置是 /user/hive/warehouse \--------在配置文件中修改 hive-conf.xml可以修改 hive.metastore.warehouse.dir决定的 3.安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i mysql-server-\*\*\*\*\*\*\*\* 安装mysql服务端 (3)启动mysql 服务端,执行命令 mysqld\_safe & (4)执行命令 rpm -i mysql-client-\*\*\*\*\*\*\*\* 安装mysql客户端 (5)执行命令mysql\_secure\_installation设置root用户密码 4.(1)把mysql的jdbc驱动放置到hive的lib目录下 cp mysql-jdbc.jar /usr/local/hive/lib/ (2)修改hive-site.xml文件,修改内容如下: <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://hadoop0:3306/hive?createDatabaseIfNotExist=true</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>root</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>admin</value> </property> 设置mysql允许远程连接: grant all on hive.\* to 'root'@'%' identified by 'admin'; fuush privileges; 5.内部表: create table t1(id int); 增加数据: load data local inpath '/root/id' into table t1; 创建表: create table t2(id int, name string) row format delimited fields terminated by '\\t'; hadoop fs -put stu /hive/t2 6.分区表 create table t3(id int) partitioned by (day int); 加载分区表的数据: load data local inpath 'root/id' into table t3 partition (day='22'); select \* from t3 where day='22'查询分区数据 7.桶表: create table t4(id int) clustered by(id) into 4 buckets; set hive.enforce.bucketing = true; insert into table t4 select id from t3; 8. 外部表 create external table t5(id int) location '/external'; 9.视图 CREATE VIEW v1 AS select \* from t1; service hiveserver >/dev/null 2>/dev/null & 10.udf describe function pi 删除外部表的时候只会删除外部表信息,不会删除数据
相关 Hive笔记 目录 第3章 Hive数据类型 第 4 章 DDL 数据定义 第5章DML数据操作 第6章 查询(语法与MySQL一样) 第 7 章 分区表和分桶表 第 8 章 函 ゞ 浴缸里的玫瑰/ 2023年09月25日 23:03/ 0 赞/ 131 阅读
相关 hive笔记 1、显示数据库,列名 Apache <property> <name>hive.cli.print.header</name> <value 妖狐艹你老母/ 2023年03月03日 11:13/ 0 赞/ 14 阅读
相关 【Hive学习笔记】 文章目录 1.基础知识 1.1概念 1.2架构原理 1.3Hive和数据库比较 2.基本操作 2.1常用交 以你之姓@/ 2022年10月06日 15:52/ 0 赞/ 255 阅读
相关 hive HQL笔记 \建表 create table sign\_in (uri string , test string) row format delimited fields termin 朱雀/ 2022年08月27日 00:30/ 0 赞/ 237 阅读
相关 hive笔记 1.hive: 在hadoop生态圈中属于数据仓库的角色,它能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个sql解析引擎, ゞ 浴缸里的玫瑰/ 2022年08月18日 05:59/ 0 赞/ 240 阅读
相关 hive笔记 目录 · [概况][Link 1] · [手工安装][Link 2] · [引言][Link 3] · [创建HDFS目录][HDFS] 迷南。/ 2022年04月25日 01:18/ 0 赞/ 319 阅读
相关 Hive学习笔记 目录 1、数据类型 2、常用命令 3、数据操作 4、HiveQL-查询(例子) -------------------- 1、数据类型 曾经终败给现在/ 2022年04月04日 17:59/ 0 赞/ 334 阅读
相关 HIVE学习笔记 hive> desc mytest; OK num int name string Time taken: 0.087 second 左手的ㄟ右手/ 2022年03月18日 07:26/ 0 赞/ 405 阅读
相关 Hive个人心得笔记之Hive优化 Hive个人心得笔记之Hive优化 一.Hive的优化 Hive的优化 1. 小表缓存:将小表的放入内存 悠悠/ 2021年12月11日 23:49/ 0 赞/ 469 阅读
相关 Hive笔记 数据仓库特性 面向主题性 集成性 非易失性 时变性 OLTP/OLAP OLTP:面向事务处理 注重的事务 注重响应的时间 待我称王封你为后i/ 2021年10月30日 03:32/ 0 赞/ 458 阅读
还没有评论,来说两句吧...