当前位置: 首页 > 知识库问答 >
问题:

使用带蜂巢的象鸟读取原虫数据

蓬弘
2023-03-14
    null

和我的流协议缓冲区java教程创建我的数据“测试本”。

而我

使用HDFS dfs-mkdir/protobuf_data创建HDFS文件夹。

create table addressbook
  row format serde "com.twitter.elephantbird.hive.serde.ProtobufDeserializer"
  with serdeproperties (
    "serialization.class"="com.example.tutorial.AddressBookProtos$AddressBook")
  stored as
    inputformat "com.twitter.elephantbird.mapred.input.DeprecatedRawMultiInputFormat"
    OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat"
  LOCATION '/protobuf_data/';

共有1个答案

扶珂
2023-03-14

问题已经解决了。

首先,我将protobuf二进制数据直接放入HDFS,没有结果显示。

因为它不是那样工作的。

inputformat 'org.apache.hadoop.mapred.SequenceFileInputFormat'
outputformat 'org.apache.hadoop.mapred.SequenceFileOutputFormat'
 类似资料:
  • 我有一个将protobuf写入HDFS的数据管道,现在我需要一种查询该数据的方法。我偶然发现了象鸟和蜂巢,并一直在努力使这个解决方案运行了一天。 3.)启动hive并添加core、hive和hadoop-compat jar 4.)为.proto文件生成java类;用protobuf-java-3.0.0.jar封装并添加到hive中 5.)将protobuf-java-3.0.0.jar添加到h

  • 蜂巢平台(OpenComb Platform)是一个基于 PHP 5.3 实现的深度云计算应用框架。蜂巢采用了扩展模式,系统中的功能和特性,都由扩展提供。 因此,用户可以通过开发和安装扩展来部署各种类型的互联网应用。

  • 问题内容: 我使用了hadoop hive 0.9.0和1.1.2以及netbeans,但是出现了这个错误,但是我不能解决这个问题,请帮我编码: 以下错误; 问题答案: 您可以在Hive中设置容器的堆大小并解决此错误: 在Hadoop MapReduce框架上运行的大多数工具都提供了为作业调整这些Hadoop级别设置的方法。Hive中有多种方法可以做到这一点。其中三个显示在这里: 1)通过Hive

  • 我正在执行一个HQL查询,该查询几乎没有连接、联合和插入覆盖操作,如果只运行一次,它就可以正常工作。 如果我第二次执行相同的作业,我就会面临这个问题。有人能帮我确定在哪种情况下我们会得到这个异常吗?

  • 我使用Phoenix SQL创建表查询创建了一个hbase表,并指定了salt_buckets。Salting将前缀添加到rowkey中。 我已经用hbase serde创建了一个外部配置单元表来映射到这个hbase表,问题是当我通过rowkey上的筛选来查询这个表时: 我的问题是如何在配置单元中的行键值上高效地查询这个表(去掉salt前缀)?

  • 我正在尝试创建一个数据管道,其中incomng数据存储在parquet中,我创建了一个外部配置单元表,用户可以查询配置单元表并检索数据。我可以保存parquet数据并直接检索它,但当我查询配置单元表格时,它不会返回任何行。我做了以下测试设置: -创建外部配置单元表创建外部表emp ( id double,hire_dt时间戳,用户字符串)存储为parquet location '/test/EMP