Hbase Client API 介绍
HbaseAPI常用类应用
网上Hbase的介绍有很多,案例也不少。自己写了个Demo,进行一些简单的总结。
HBase常用类介绍。
JAVAAPI和HBase数据库模型之间的关系
JAVA类
Hbase数据模型
HBaseAdmin
数据库(database)
HBaseConfiguration
HTable
表(table)
HTableDescriptor
列族(ColumnFamily)
Put
行列操作
Get
Scanner
下面说说JAVAAPI提供的这些类的功能。和他们之间有什么样的联系。
1.HBaseConfiguration
关系:org.apache.hadoop.hbase.HBaseConfiguration
作用:通过此类可以对HBase进行配置
用法实例:Configurationconfig=HBaseConfiguration.create();
说明:HBaseConfiguration.create()默认会从classpath中查找hbase-site.xml中的配置信息,初始化Configuration。
2.HBaseAdmin
关系:org.apache.hadoop.hbase.client.HBaseAdmin
作用:提供接口关系HBase数据库中的表信息
用法:HBaseAdminadmin=newHBaseAdmin(config);
3.HTableDescriptor
关系:org.apache.hadoop.hbase.HTableDescriptor
作用:HTableDescriptor类包含了表的名字以及表的列族信息
用法:HTableDescriptorhtd=newHTableDescriptor(tablename);
Htd.addFamily(newHColumnDescriptor(“myFamily”));
4.HColumnDescriptor
关系:org.apache.hadoop.hbase.HColumnDescriptor
作用:HColumnDescriptor维护列族的信息
用法:HTableDescriptorhtd=newHTableDescriptor(tablename);
Htd.addFamily(newHColumnDescriptor(“myFamily”));
5.HTable
关系:org.apache.hadoop.hbase.client.HTable
作用:HTable和HBase的表通信
用法:HTabletab=newHTable(config,Bytes.toBytes(tablename));
ResultScannersc=tab.getScanner(Bytes.toBytes(“familyName”));
说明:获取表内列族familyNme的所有数据。
6.Put
关系:org.apache.hadoop.hbase.client.Put
作用:获取单个行的数据
用法:HTabletable=newHTable(config,Bytes.toBytes(tablename));
Putput=newPut(row);
p.add(family,qualifier,value);
说明:向表tablename添加“family,qualifier,value”指定的值。
7.Get
关系:org.apache.hadoop.hbase.client.Get
作用:获取单个行的数据
用法:HTabletable=newHTable(config,Bytes.toBytes(tablename));
Getget=newGet(Bytes.toBytes(row));
Resultresult=table.get(get);
说明:获取tablename表中row行的对应数据
8.ResultScanner
关系:Interface
作用:获取值的接口
用法:ResultScannerscanner=table.getScanner(Bytes.toBytes(family));
For(ResultrowResult:scanner){
Bytes[]str=rowResult.getValue(family,column);
}
说明:循环获取行中列值。
下面例子使用的就是上面提供的类和接口。
例子1:
/**
*获取表中所有数据
*/
@SuppressWarnings("unchecked")
publicstaticList<Map>getDateAll(Stringtablename){
ResultScannerrs=null;
HTabletable=null;
try{
table=newHTable(cfg,tablename);
Scans=newScan();
//扫描全表,性能不佳
rs=table.getScanner(s);
for(Resultr=rs.next();r!=null;r=rs.next()){for(KeyValuekv:r.raw()){
System.out.println(newString(kv.getValue()));
}
}
}catch(Exceptione){
returnnull;
}finally{
rs.close();
}
returnlist;
}
HBase是大数据的分布式数据库,当使用全表扫描肯定是不合理。下面的例子相比较例子1做些优化。
例子2
/**
*指定rowkey的开始和结束扫描表数据
*/
@SuppressWarnings("unchecked")
publicstaticList<Map>getDateAll(Stringtablename){
...//篇幅原因省略
try{
table=newHTable(cfg,tablename);
Scans=newScan();
//通过rowkey来指定数据开始和结束,性能上较例子1高很多
s.setStartRow(Bytes.toBytes(“2012-12-22”));
s.setStopRow(Bytes.toBytes(“2012-12-23”));
rs=table.getScanner(s);
...//篇幅原因省略
}catch(Exceptione){
...//篇幅原因省略
}
当使用扫描器scan.setStartRow(Bytes)和scan.setStopRow(Bytes)查询的数据还不能满足结果集的话,下面的一些类就派上用场了,他就是Filter。
客户端请求过滤器
A.逐一说一下Filter。
1.FilterList
FilterList代表一个过滤器列表,过滤器间具有
FilterList.Operator.MUST_PASS_ALL和
FilterList.Operator.MUST_PASS_ONE的关系,下面展示一个过滤器的“或”关系。
下面FilterList列表中检查同一属性的'value1'或'value2'。
FilterListlist=newFilterList(FilterList.Operator.MUST_PASS_ONE);
SingleColumnValueFilterfilter1=newSingleColumnValueFilter(Bytes.toBytes(“cfamily”),Bytes.toBytes(“column”),CompareOp.EQUAL,Bytes.toBytes("value1"));
list.add(filter1);
SingleColumnValueFilterfilter2=newSingleColumnValueFilter(Bytes.toBytes(“cfamily”),Bytes.toBytes(“column”),CompareOp.EQUAL,Bytes.toBytes("value2"));
List.add(filter2);
2.SingleColumnValueFilter
SingleColumnValueFilter用于测试列值相等(CompareOp.EQUAL),不等(CompareOp.NOT_EQUAL),或范围(e.g.,CompareOp.GREATER).下面示例检查列值和字符串'myvalues'相等...
SingleColumnValueFilterfilter=newSingleColumnValueFilter(Bytes.toBytes(“cFamily”),Bytes.toBytes(“column”),CompareOp.EQUAL,Bytes.toBytes("values"));
scan.setFilter(filter);
3.ColumnPrefixFilter
ColumnPrefixFilter用于指定列名前缀值相等
Byte[]prefix=Bytes.toBytes(“values”);
Filterf=newColumnPrefixFilter(prefix);
scan.setFilter(f);
4.MultipleColumnPrefixFilter
MultipleColumnPrefixFilter和ColumnPrefixFilter行为差不多,但可以指定多个前缀。
byte[][]prefixes=newbyte[][]{Bytes.toBytes("value1"),Bytes.toBytes("value2")};
Filterf=newMultipleColumnPrefixFilter(prefixes);
scan.setFilter(f);
5.QualifierFilter
QualifierFilter是基于列名的过滤器。
Filterf=newQualifierFilter(“QualifierName”);
scan.setFilter(f);
6.RowFilter
RowFilter是rowkey过滤器,通常根据rowkey来指定范围时,使用scan扫描器的StartRow和StopRow方法比较好。Rowkey也可以使用。
Filterf=newRowFilter(“rowkey”);
scan.setFilter(f);
B.比较器
7.RegexStringComparator
RegexStringComparator是支持正则表达式的比较器。
过滤器配合上比较器会很方便。看下面的代码。
解释一下:代码中绿色字体标注的代码就是正则比较器的使用方法。参数reg就是正则验证的规则。
HTabletable=newHTable(cfg,"datainfo");
Scanscan=newScan();
Stringreg="^136([0-9]{8})$";//满足136开头的手机号
RowFilterfilter=newRowFilter(CompareOp.EQUAL,
newRegexStringComparator(reg));
scan.setFilter(filter);
ResultScannerrs=table.getScanner(scan);
for(Resultrr:rs){
for(KeyValuekv:rr.raw()){
...
}
}
8.SubstringComparator
SubstringComparator用于检测一个子串是否存在于值中。大小写不敏感。
//检测values是否存在于查询的列值中
SubstringComparatorcomp=newSubstringComparator("values");
SingleColumnValueFilterfilter=newSingleColumnValueFilter(Bytes.toBytes(“family”),Bytes.toBytes(“column”),CompareOp.EQUAL,Bytes.toBytes(“value”));
scan.setFilter(filter);
基本用法也就是这些。欢迎指正点评。