Hbase Client API 介绍

大而话之BigData

2014-12-24

关注关注

HbaseAPI常用类应用

网上Hbase的介绍有很多，案例也不少。自己写了个Demo，进行一些简单的总结。

HBase常用类介绍。

JAVAAPI和HBase数据库模型之间的关系

JAVA类

Hbase数据模型

HBaseAdmin

数据库(database)

HBaseConfiguration

HTable

表(table)

HTableDescriptor

列族(ColumnFamily)

Put

行列操作

Get

Scanner

下面说说JAVAAPI提供的这些类的功能。和他们之间有什么样的联系。

1.HBaseConfiguration

关系：org.apache.hadoop.hbase.HBaseConfiguration

作用：通过此类可以对HBase进行配置

用法实例：Configurationconfig=HBaseConfiguration.create();

说明：HBaseConfiguration.create()默认会从classpath中查找hbase-site.xml中的配置信息，初始化Configuration。

2.HBaseAdmin

关系：org.apache.hadoop.hbase.client.HBaseAdmin

作用：提供接口关系HBase数据库中的表信息

用法：HBaseAdminadmin=newHBaseAdmin(config);

3.HTableDescriptor

关系：org.apache.hadoop.hbase.HTableDescriptor

作用：HTableDescriptor类包含了表的名字以及表的列族信息

用法：HTableDescriptorhtd=newHTableDescriptor(tablename);

Htd.addFamily(newHColumnDescriptor(“myFamily”));

4.HColumnDescriptor

关系：org.apache.hadoop.hbase.HColumnDescriptor

作用：HColumnDescriptor维护列族的信息

用法：HTableDescriptorhtd=newHTableDescriptor(tablename);

Htd.addFamily(newHColumnDescriptor(“myFamily”));

5.HTable

关系：org.apache.hadoop.hbase.client.HTable

作用：HTable和HBase的表通信

用法：HTabletab=newHTable(config,Bytes.toBytes(tablename));

ResultScannersc=tab.getScanner(Bytes.toBytes(“familyName”));

说明：获取表内列族familyNme的所有数据。

6.Put

关系：org.apache.hadoop.hbase.client.Put

作用：获取单个行的数据

用法：HTabletable=newHTable(config,Bytes.toBytes(tablename));

Putput=newPut(row);

p.add(family,qualifier,value);

说明：向表tablename添加“family,qualifier,value”指定的值。

7.Get

关系：org.apache.hadoop.hbase.client.Get

作用：获取单个行的数据

用法：HTabletable=newHTable(config,Bytes.toBytes(tablename));

Getget=newGet(Bytes.toBytes(row));

Resultresult=table.get(get);

说明：获取tablename表中row行的对应数据

8.ResultScanner

关系：Interface

作用：获取值的接口

用法：ResultScannerscanner=table.getScanner(Bytes.toBytes(family));

For(ResultrowResult:scanner){

Bytes[]str=rowResult.getValue(family,column);

}

说明：循环获取行中列值。

下面例子使用的就是上面提供的类和接口。

例子1：

/**

*获取表中所有数据

@SuppressWarnings("unchecked")

publicstaticList<Map>getDateAll(Stringtablename){

ResultScannerrs=null;

HTabletable=null;

try{

table=newHTable(cfg,tablename);

Scans=newScan();

//扫描全表，性能不佳

rs=table.getScanner(s);

for(Resultr=rs.next();r!=null;r=rs.next()){for(KeyValuekv:r.raw()){

System.out.println(newString(kv.getValue()));

}

}catch(Exceptione){

returnnull;

}finally{

rs.close();

}

returnlist;

}

HBase是大数据的分布式数据库，当使用全表扫描肯定是不合理。下面的例子相比较例子1做些优化。

例子2

/**

*指定rowkey的开始和结束扫描表数据

@SuppressWarnings("unchecked")

publicstaticList<Map>getDateAll(Stringtablename){

...//篇幅原因省略

try{

table=newHTable(cfg,tablename);

Scans=newScan();

//通过rowkey来指定数据开始和结束，性能上较例子1高很多

s.setStartRow(Bytes.toBytes(“2012-12-22”));

s.setStopRow(Bytes.toBytes(“2012-12-23”));

rs=table.getScanner(s);

...//篇幅原因省略

}catch(Exceptione){

...//篇幅原因省略

}

当使用扫描器scan.setStartRow(Bytes)和scan.setStopRow(Bytes)查询的数据还不能满足结果集的话，下面的一些类就派上用场了，他就是Filter。

客户端请求过滤器

A.逐一说一下Filter。

1.FilterList

FilterList代表一个过滤器列表，过滤器间具有

FilterList.Operator.MUST_PASS_ALL和

FilterList.Operator.MUST_PASS_ONE的关系，下面展示一个过滤器的“或”关系。

下面FilterList列表中检查同一属性的'value1'或'value2'。

FilterListlist=newFilterList(FilterList.Operator.MUST_PASS_ONE);

SingleColumnValueFilterfilter1=newSingleColumnValueFilter(Bytes.toBytes(“cfamily”),Bytes.toBytes(“column”),CompareOp.EQUAL,Bytes.toBytes("value1"));

list.add(filter1);

SingleColumnValueFilterfilter2=newSingleColumnValueFilter(Bytes.toBytes(“cfamily”),Bytes.toBytes(“column”),CompareOp.EQUAL,Bytes.toBytes("value2"));

List.add(filter2);

2.SingleColumnValueFilter

SingleColumnValueFilter用于测试列值相等(CompareOp.EQUAL),不等(CompareOp.NOT_EQUAL),或范围(e.g.,CompareOp.GREATER).下面示例检查列值和字符串'myvalues'相等...

SingleColumnValueFilterfilter=newSingleColumnValueFilter(Bytes.toBytes(“cFamily”),Bytes.toBytes(“column”),CompareOp.EQUAL,Bytes.toBytes("values"));

scan.setFilter(filter);

3.ColumnPrefixFilter

ColumnPrefixFilter用于指定列名前缀值相等

Byte[]prefix=Bytes.toBytes(“values”);

Filterf=newColumnPrefixFilter(prefix);

scan.setFilter(f);

4.MultipleColumnPrefixFilter

MultipleColumnPrefixFilter和ColumnPrefixFilter行为差不多，但可以指定多个前缀。

byte[][]prefixes=newbyte[][]{Bytes.toBytes("value1"),Bytes.toBytes("value2")};

Filterf=newMultipleColumnPrefixFilter(prefixes);

scan.setFilter(f);

5.QualifierFilter

QualifierFilter是基于列名的过滤器。

Filterf=newQualifierFilter(“QualifierName”);

scan.setFilter(f);

6.RowFilter

RowFilter是rowkey过滤器,通常根据rowkey来指定范围时，使用scan扫描器的StartRow和StopRow方法比较好。Rowkey也可以使用。

Filterf=newRowFilter(“rowkey”);

scan.setFilter(f);

B.比较器

7.RegexStringComparator

RegexStringComparator是支持正则表达式的比较器。

过滤器配合上比较器会很方便。看下面的代码。

解释一下：代码中绿色字体标注的代码就是正则比较器的使用方法。参数reg就是正则验证的规则。

HTabletable=newHTable(cfg,"datainfo");

Scanscan=newScan();

Stringreg="^136([0-9]{8})$";//满足136开头的手机号

RowFilterfilter=newRowFilter(CompareOp.EQUAL,

newRegexStringComparator(reg));

scan.setFilter(filter);

ResultScannerrs=table.getScanner(scan);

for(Resultrr:rs){

for(KeyValuekv:rr.raw()){

...

}

8.SubstringComparator

SubstringComparator用于检测一个子串是否存在于值中。大小写不敏感。

//检测values是否存在于查询的列值中

SubstringComparatorcomp=newSubstringComparator("values");

SingleColumnValueFilterfilter=newSingleColumnValueFilter(Bytes.toBytes(“family”),Bytes.toBytes(“column”),CompareOp.EQUAL,Bytes.toBytes(“value”));

scan.setFilter(filter);

基本用法也就是这些。欢迎指正点评。

hbase

安科网

Hbase Client API 介绍

大而话之BigData

大而话之BigData

相关推荐

HBase/TiDB都在用的数据结构：LSM Tree，不得了解一下？

hbase 基础 —— 架构

hdfs、hive、hbase的搭建总结

hbase 建表数据类型

Hbase常见问题

hue集成hbase

HBase安装部署

在hadoop集群下启动hbase的方法

Spark读取Hbase中的数据

Flume-0.9.4和Hbase-0.96整合

HBase的安装部署

Spark读取Mysql，Redis，Hbase数据（一）

Spark 与 JDBC、Hbase之间的交互

1，pinpoint全链路监控

HBase与Hive

HBase与MapReduce交互

HBase原理总结

Hbase scan 查询命令大全，前缀，模糊，正则

Hbase API 创建表错误记录 for Docker 容器部署集群

hbase设置ttl后出现坏块，重启后master abort 问题梳理

大而话之BigData