我想在HBase中执行查询操作,以使用提供的行键列表提取记录。由于MapReduce中的Mappers是并行工作的,所以我想使用它。
行键的输入列表将在~100000的范围内,我已经为映射器创建了一个自定义的InputFormat
,它将为每个映射器提供1000行键的列表以查询HBase表。这些查询的记录可能存在于 HBase 表中,也可能不存在,我只想返回那些存在的记录。
我看到了各种各样的例子,我发现hbase tablecan
操作被执行以获取行键的范围,并且范围由startingRowKey
和endingRowKey
指定,但我只想查询提供的行键列表。
我如何用MapReduce实现这一点?欢迎任何帮助!
当您将行键列表传递给映射器时,您应该向HBase发出get
请求。每个get
返回所请求密钥的数据,如果密钥不存在,则不返回任何数据。
首先,您应该在映射器的 setup()
方法中创建表实例:
private Table table;
@Override
protected void setup(Context context) throws IOException, InterruptedException {
Configuration hbaseConfig = HBaseConfiguration.create();
Connection conn = ConnectionFactory.createConnection(hbaseConfig);
this.table = conn.getTable(TableName.valueOf("hbaseTable"));
}
然后,您可以借助get和Result实例,从每个键的< code>map()方法向HBase表发出< code>get请求:
String key = "keyString";
Get getValue = new Get(key.getBytes());
//add column family and column qualifier if you desire
getValue.addColumn("columnFamily".getBytes(), "columnQual".getBytes());
try {
Result result = table.get(getValue);
if (!table.exists(getValue)) {
//requested key doesn't exist
return;
}
// do what you want with result instance
}
完成映射器的工作后,您需要在 cleanup()
方法中关闭与表的连接;
@Override
protected void cleanup(Context context) throws IOException, InterruptedException {
table.close();
}
此外,您可以自由地将get
请求的结果传递给还原器,或者使用cleanup()
method组合它们。这只取决于你的目的。
您可以在映射器中使用这种方法,这对我来说很好,它将返回结果数组。
/**
* Method getDetailRecords.
*
* @param listOfRowKeys List<String>
* @return Result[]
* @throws IOException
*/
private Result[] getDetailRecords(final List<String> listOfRowKeys) throws IOException {
final HTableInterface table = HBaseConnection.getHTable(TBL_DETAIL);
final List<Get> listOFGets = new ArrayList<Get>();
Result[] results = null;
try {
for (final String rowkey : listOfRowKeys) {// prepare batch of get with row keys
// System.err.println("get 'yourtablename', '" + saltIndexPrefix + rowkey + "'");
final Get get = new Get(Bytes.toBytes(saltedRowKey(rowkey)));
get.addColumn(COLUMN_FAMILY, Bytes.toBytes(yourcolumnname));
listOFGets.add(get);
}
results = table.get(listOFGets);
} finally {
table.close();
}
return results;
}
INFO:org.apache.hadoop.hbase.zookeeper.recoverablezookeeper-此进程的标识符为8916@windows-8kv8o4b INFO:org.apache.zookeeper.Client.zookeepersaslClient-Client不会进行SASL身份验证,因为找不到缺省的JAAS配置节“Client”。如果您没有使用SASL,您可以
在某些情况下,需要多次查询数据库,为了减少用户的等待时间,bugu-mongo提供了并行查询机制。 比如:一个网页上要展示3部分数据,需要查询3次数据库,假设每个查询所需要的时间分别是500ms、600ms、700ms,如果依次执行3个查询,总共需要1800ms时间;如果使用bugu-mongo的并行查询机制,3个查询同时执行,则只需要700ms就能返回全部数据。 要实现并行查询,需要使用Para
导出HADOOP_CLASSPATH=“
贡献者:BridgetLai Apache MapReduce 是 Apache Hadoop 提供的软件框架,用来进行大规模数据分析.MapReduce 已超出本文档范围,可通过如下文档学习https://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTuto
我正在通过Java API使用HBase来管理一个URL和参数列表,这些URL和参数等待一个带有多个线程的刮刀进行分析。程序还不断地向表中添加新行。 我需要连续地从表中读取一行并且只读取一行,然后原子地删除它(一行不能同时被两个线程读取),而不需要选择一行而不是另一行的条件。 编辑:我忘了提到表有一个具有单个列的单个列族
行列+单元格 001_1454578003995 column=hd:abc,时间戳=1454578173766,值=2 001_1454578003996 column=hd:def,timestamp=1454578173766,value=2 002_1454578003997 Column=HD:IJK,时间戳=1454578173766,值=2 你能帮我做这个吗?