Hive优化----MapJoin 优化

墨蓝 2023-01-21 15:20 1阅读 0赞

1、Hive本地MR

如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。但是hive本地MR对内存使用很敏感，查询的数据不能太大，否则本地内存是吃不消的。

So the query processor will launch this task in a child jvm, which has the same heap size as the Mapper's. Since the Local Task may run out of memory, the query processor will measure the memory usage of the local task very carefully. Once the memory usage of the Local Task is higher than a threshold number. This Local Task will abort itself and tells the user that this table is too large to hold in the memory. User can change this threshold by **set  hive.mapjoin.localtask.max.memory.usage = 0.999**

查询处理器会在一个子的jvm里运作这个任务，jvm堆大小跟Mapper的堆大小一样。本地MR可能内存消耗殆尽，查询处理器用精确的计算本地MR的内存大小，一旦内存超过了设定的值，那么这个MR就会自动kill掉。可以通过设置**hive.mapjoin.localtask.max.memory.usage **=0.9，这个值太保守。

set hive.exec.mode.local.auto=true;  //开启本地mr

//设置local mr的最大输入数据量,当输入数据量小于这个值的时候会采用local  mr的方式

set hive.exec.mode.local.auto.inputbytes.max=50000000;

//设置local mr的最大输入文件个数,当输入文件个数小于这个值的时候会采用local mr的方式

set hive.exec.mode.local.auto.tasks.max=10;

当这三个参数同时成立时候，才会采用本地mr

2、Mapjoin使用

就是把小的表加入内存，可以配置以下参数，是hive自动根据sql，选择使用common join或者map join

**set hive.auto.convert.join = true;**

hive.mapjoin.smalltable.filesize 默认值是25mb

发表评论取消回复

表情：

评论列表（有 0 条评论，1人围观）

还没有评论，来说两句吧...

相关阅读

相关【Hive-优化】Hive的优化方式三（索引优化）

【Hive-优化】Hive的优化方式三（索引优化） 1）Hive原始索引 2）Row Group Index 3）Bloom Filter Index

素颜马尾好姑娘i/ 2023年10月08日 18:30/ 0 赞/ 62 阅读

相关 Hive优化----MapJoin 优化

1、Hive本地MR 如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。但是hive本地MR对内存使用很敏感，查询的数据不能太大，否则本地

墨蓝/ 2023年01月21日 15:20/ 0 赞/ 2 阅读

相关 hive mapjoin

select t1.a,t1.b from A join B on ( A.a=B.a and A.lD=20201190) 该语句中B表有30亿行记录，A表只有100

水深无声/ 2022年11月26日 09:59/ 0 赞/ 167 阅读

相关 hive优化

-------------------- hive优化 -------------------- 1 Fetch抓取 Fetch抓取是指，Hive中对某些情况的查询

太过爱你忘了你带给我的痛/ 2022年11月22日 12:45/ 0 赞/ 277 阅读

相关 Hive中的mapjoin

1: 有一个极小的表<1000行 2: 需要做不等值join操作（a.x < b.y 或者 a.x like b.y等）这种操作如果直接使用join的话语法不支持不等于操

墨蓝/ 2022年10月17日 05:24/ 0 赞/ 198 阅读

相关 hive优化

1.jobs数比较多的作业运行效率比较低 2.sum，count，max,min等UDAF,hadoop优化不怕数据倾斜问题 3.set hive.groupby.sk

左手的ㄟ右手/ 2022年10月10日 12:49/ 0 赞/ 315 阅读

相关【性能优化】Hive优化

1.概述　　继续《[那些年使用Hive踩过的坑][Hive]》一文中的剩余部分，本篇博客赘述了在工作中总结[Hive][Hive 1]的常用优化手段和在工作中使用Hiv

川长思鸟来/ 2022年06月18日 05:14/ 0 赞/ 468 阅读

相关 MapJoin和ReduceJoin区别及优化

MapJoin和ReduceJoin区别及优化 1 Map-side Join（Broadcast join）思想： > 小表复制到各个节点上，并加载到内存中；

Myth丶恋晨/ 2022年06月05日 05:08/ 0 赞/ 168 阅读

相关 Hive MapJoin

摘要 MapJoin是Hive的一种优化操作，其适用于小表JOIN大表的场景，由于表的JOIN操作是在Map端且在内存进行的，所以其并不需要启动Reduce任务也就不需要经过

雨点打透心脏的1/2处/ 2022年04月24日 11:46/ 0 赞/ 199 阅读

相关 Hive中mapjoin优化例子

1 基本信息 3个表，1个事实表，2个维度表事实表 test\_fact （mid string,sex\_id string,age\_id string ）

墨蓝/ 2022年04月24日 11:44/ 0 赞/ 260 阅读