Welcome to Apache HBase 介绍一-蒲公英云

Welcome to Apache HBase 介绍一

官网：http://hbase.apache.org/

一：HBase的介绍

HBase认识
Hadoop database, a distributed, scalable, big data store
need random, realtime read/write
very large tables – billions of rows X millions of columns

HBase特性:
Strictly consistent reads and writes 严格一致性读写
Automatic and configurable 自动的可配置的
Automatic failover 自动容错
Easy to use Java API java和api访问
Block cache and Bloom Filters
Query predicate push down
Thrift gateway and a REST-ful

二：Hbase的优缺点

1 列的可以动态增加，并且列为空就不存储数据,节省存储空间.

2 Hbase自动切分数据，使得数据存储自动具有水平scalability.

3 Hbase可以提供高并发读写操作的支持

4 对海量数据高效存储和访问

5 高可扩展性和高可用性，线性扩展

6 表的格式不是固定的，通过键值对存储，减少时间空间开销

7 随机读写

8 当行数小于10000的时候，开销和行数成正比。但是超过50000行时，无论是顺序还是随机的插入操作，性能都会逐渐变好

Hbase的缺点：

1 不能支持条件查询，只支持按照Row key来查询.

2 暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉.

3 没有表与表之间的关联查询

HBase vs RDBMS：

列式存储方式
缺少SQL
分布式：可扩展性
KV存储
支持的列多
表之间耦合性低(解耦)
支持大数据量
事物
存在冗余
查询性能高
数据类型(Bytes)
null不存储
二级索引不支持
trigger不支持

三：HBase内部配置

官网：http://hbase.apache.org/book.html#faq
HBase shell:
help
create…

HBase Conf[相关参数]：
zk
retry
timeout
balancer
flush
hfile size
ulimit
compact/split
grant

HBase基本术语:
Table -> N * rows
row： rowkey(rk)：[一行数据的唯一标识]
column family(cf)：[一行数据同属一个cf, table-> N * cf, cf-> N * col, 多行数据可以有不同col]
cell：[rk, cf:col, version]
timestamp: [ts肯定在version数据内的 ts <= count(vesion)]
eg: row => row1 column=f1:a, timestamp=1550349258503, value=value1, version