当前位置: 首页 > 知识库问答 >
问题:

如何将压缩的AVRO文件导入Impala表?

傅经业
2023-03-14

在我的工作中,我通过将AVRO文件复制到HDFS中,然后在impala中执行“refresh”,将这些文件导入impala表。

但是当我想用压缩文件做的时候,它没有起作用。

hive>设置avro.output.codec=bzip2;

创建表:

创建表log_bzip2(timestampbigint COMMENT“from deserializer”、appidstring COMMENT“from deserializer”、clientidstring COMMENT“from deserializer”、statkeystring COMMENT“from deserializer”、expidstring COMMENT“from deserializer”、modidstring COMMENT“from deserializer”、valuedouble COMMENT“from deserializer”、字符串)行格式SERDE“org.apache.hadoop.hive.serde2.avro.avroserde”存储为INPUTFORMAT“org.apache.hadoop.hive.ql.io.avro.avrocontainerInputFormat”OUTPUTFORMAT“org.apache.hadoop.hive.ql.io.avro.avrocontaineroutputFormat”TBLPROPERTIES(“avro.schema.url”=“hdfs://szq2.appadhoc.com:8020/user/hive/log.avsc”);

将压缩的AVRO文件加载到HDFS:

hdfs DFS-Put log.2016-03-07.1457184357726.avro.bz2/user/hive/warehouse/adhoc_data_fast.db/log_bzip2/2016-03-07

在Impala Shell中添加分区和刷新:

我怎么才能做对呢?谢谢!


共有1个答案

裴育
2023-03-14

结果表明,avro格式有自己的方式来压缩数据,而不是手动压缩生成的avro文件。所以我们需要做的就是在写文件的同时,在AVRO writer中添加compress选项,然后生成的文件由AVRO编码器进行压缩。将此文件放入配置单元是可以的。不需要配置其他内容。

 类似资料:
  • 我正在使用Julia的ZipFile包来提取和处理csv文件。没问题,但是当我遇到zip文件中的zip文件时,我也想处理它,但是遇到了一个错误。 Julia ZipFile文档如下:https://zipfilejl.readthedocs.io/en/latest/ 对如何做到这一点有什么想法吗?

  • 问题内容: 任何人都可以向我展示在我一直在搜索的Java中压缩和解压缩tar.gzip文件的正确方法,但是我能找到的最多是zip或gzip(单独)。 问题答案: 我最喜欢的是plexus-archiver-请参阅GitHub上的资源。 另一个选项是Apache commons- compress- (请参阅mvnrepository)。 使用plexus-utils,用于取消存档的代码如下所示:

  • 本文向大家介绍Android如何实现压缩和解压缩文件,包括了Android如何实现压缩和解压缩文件的使用技巧和注意事项,需要的朋友参考一下 废话不多说了,直接给大家贴java代码了,具体代码如下所示: Java代码 代码到此结束,关于Android实现压缩和解压缩文件的全内容就给大家介绍这么多,希望能够帮助到大家!

  • 在将数据从oracle DB SQOOP到HDFS时,我遇到了一个奇怪的错误。Sqoop无法将clob数据导入Hadoop上的avro文件中。 这是sqoop导入错误: 为了将clob数据正确地导入到avro文件中,我们是否需要向sqoop import语句添加任何额外的参数?

  • 问题内容: 我已经使用follwoing命令打包了我的电子应用程序 现在,我需要将其解压缩并重新获得整个代码。反正有这样做吗? 问题答案: 从asar文档 (此处的用法是避免使用全局安装该工具) 提取整个档案: 提取特定文件:

  • 我有一个JSON文件,它是。 我可以使用下载压缩文件。