Hbase概念以及表格设计

hbase概念及表格设计

1. 概述（扯淡~）

HBase是一帮家伙看了Google发布的一片名为“BigTable”的论文以后，犹如醍醐灌顶，进而“山寨”出来的一套系统。

由此可见：

　　1. 几乎所有的HBase中的理念，都可以从BigTable论文中得到解释。原文是英语的，而且还有不少数学概念，看了有点儿懵，建议网上找找学习笔记看看，差不多也就可以入门了。

　　2. Google确实牛X。

　　3. 老外也爱山寨~

第一次看HBase, 可能看到以下描述会懵：“基于列存储”，“稀疏MAP”，“RowKey”,“ColumnFamily”。

其实没那么高深，我们需要分两步来理解HBase, 就能够理解为什么HBase能够“快速地”“分布式地”处理“大量数据”了。

　　1.内存结构

　　2.文件存储结构

2. 名词概念以及内存结构

　　假设我们有一张表（其中只有一条数据）：

　　1) RowKey: 行键，可理解成mysql中的主键列。

　　2) Column: 列，可理解成MySQL列。

　　3) ColumnFamily: 列族, HBase引入的概念：

1. 将多个列聚合成一个列族。
2. 可以理解成MySQL的垂直分区（将一张宽表，切分成几张不那么宽的表）。
3. 此机制引入的原因，是因为HBase相信，查询可能并不需要将一整行的所有列数据全部返回。（就像我们往往在写SQL时不太会写select all一样）
4. 对应到文件存储结构（不同的ColumnFamily会写入不同的文件）。

　　4) TimeStamp：在每次跟新数据时，用以标识一行数据的不同版本（事实上，TimeStamp是与列绑定的。）

那我们为何会得到HBase的读写高性能呢？其实所有数据库操作如何得到高性能，答案几乎都是一致的，就是做索引。

HBase的设计抛弃了传统RDBMS的行式数据模型，把索引和数据模型原生的集成在了一起。

以上图的表为例，表数据在HBase内部用Map实现，我们把它写成JSon的Object表述，即：