当前位置: 首页 > 知识库问答 >
问题:

使用MapReduce并行查询HBase中的行键列表

连翰
2023-03-14

我想在HBase中执行查询操作,以使用提供的行键列表提取记录。由于MapReduce中的Mappers是并行工作的,所以我想使用它。

行键的输入列表将在~100000的范围内,我已经为映射器创建了一个自定义的InputFormat,它将为每个映射器提供1000行键的列表以查询HBase表。这些查询的记录可能存在于 HBase 表中,也可能不存在,我只想返回那些存在的记录。

我看到了各种各样的例子,我发现hbase tablecan操作被执行以获取行键的范围,并且范围由startingRowKeyendingRowKey指定,但我只想查询提供的行键列表。

我如何用MapReduce实现这一点?欢迎任何帮助!

共有2个答案

柳绪
2023-03-14

当您将行键列表传递给映射器时,您应该向HBase发出get请求。每个get返回所请求密钥的数据,如果密钥不存在,则不返回任何数据。

首先,您应该在映射器的 setup() 方法中创建表实例:

private Table table;

@Override
protected void setup(Context context) throws IOException, InterruptedException {
    Configuration hbaseConfig = HBaseConfiguration.create();
    Connection conn = ConnectionFactory.createConnection(hbaseConfig);
    this.table = conn.getTable(TableName.valueOf("hbaseTable"));
}

然后,您可以借助get和Result实例,从每个键的< code>map()方法向HBase表发出< code>get请求:

String key = "keyString";
Get getValue = new Get(key.getBytes());

//add column family and column qualifier if you desire
getValue.addColumn("columnFamily".getBytes(), "columnQual".getBytes());

try {
    Result result = table.get(getValue);
    if (!table.exists(getValue)) {

        //requested key doesn't exist
        return;
    }

    // do what you want with result instance 
}

完成映射器的工作后,您需要在 cleanup() 方法中关闭与表的连接;

@Override
protected void cleanup(Context context) throws IOException, InterruptedException {
    table.close();
}

此外,您可以自由地将get请求的结果传递给还原器,或者使用cleanup()method组合它们。这只取决于你的目的。

时经纬
2023-03-14

您可以在映射器中使用这种方法,这对我来说很好,它将返回结果数组。

/**
     * Method getDetailRecords.
     * 
     * @param listOfRowKeys List<String>
     * @return Result[]
     * @throws IOException
     */
    private Result[] getDetailRecords(final List<String> listOfRowKeys) throws IOException {
        final HTableInterface table = HBaseConnection.getHTable(TBL_DETAIL);
        final List<Get> listOFGets = new ArrayList<Get>();
        Result[] results = null;
        try {
            for (final String rowkey : listOfRowKeys) {// prepare batch of get with row keys
   // System.err.println("get 'yourtablename', '" + saltIndexPrefix + rowkey + "'");
                final Get get = new Get(Bytes.toBytes(saltedRowKey(rowkey)));
                get.addColumn(COLUMN_FAMILY, Bytes.toBytes(yourcolumnname));
                listOFGets.add(get);
            }
            results = table.get(listOFGets);

        } finally {
            table.close();
        }
        return results;
    }
 类似资料:
  • INFO:org.apache.hadoop.hbase.zookeeper.recoverablezookeeper-此进程的标识符为8916@windows-8kv8o4b INFO:org.apache.zookeeper.Client.zookeepersaslClient-Client不会进行SASL身份验证,因为找不到缺省的JAAS配置节“Client”。如果您没有使用SASL,您可以

  • 在某些情况下,需要多次查询数据库,为了减少用户的等待时间,bugu-mongo提供了并行查询机制。 比如:一个网页上要展示3部分数据,需要查询3次数据库,假设每个查询所需要的时间分别是500ms、600ms、700ms,如果依次执行3个查询,总共需要1800ms时间;如果使用bugu-mongo的并行查询机制,3个查询同时执行,则只需要700ms就能返回全部数据。 要实现并行查询,需要使用Para

  • 导出HADOOP_CLASSPATH=“

  • 贡献者:BridgetLai Apache MapReduce 是 Apache Hadoop 提供的软件框架,用来进行大规模数据分析.MapReduce 已超出本文档范围,可通过如下文档学习https://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTuto

  • 我正在通过Java API使用HBase来管理一个URL和参数列表,这些URL和参数等待一个带有多个线程的刮刀进行分析。程序还不断地向表中添加新行。 我需要连续地从表中读取一行并且只读取一行,然后原子地删除它(一行不能同时被两个线程读取),而不需要选择一行而不是另一行的条件。 编辑:我忘了提到表有一个具有单个列的单个列族

  • 行列+单元格 001_1454578003995 column=hd:abc,时间戳=1454578173766,值=2 001_1454578003996 column=hd:def,timestamp=1454578173766,value=2 002_1454578003997 Column=HD:IJK,时间戳=1454578173766,值=2 你能帮我做这个吗?