当前位置: 首页 > 知识库问答 >
问题:

是否可以用不同的模式在parquet文件上创建外部配置单元表?

寿丰
2023-03-14
+------+------------------+------------------+
| col1 |       col2       |        col3      |
+------+------------------+------------------+
|  v0  | { k1:v1, k2:v2 } | { k3:v3, k4:v4 } |
+------+------------------+------------------+
+-------+-----+-----+-----+-----+
| col1  |  k1 |  k2 |  k3 |  k4 |
+-------+-----+-----+-----+-----+
|  v0   |  v1 |  v2 |  v3 |  v4 |
+-------+-----+-----+-----+-----+

共有1个答案

曹子平
2023-03-14

您可以通过以下步骤完成:

1.创建一个临时表并按原样存储文件(具有map列类型);

2.用您需要的最终结构创建第二个表;

 类似资料:
  • 我努力实现的目标 < li >从源大JSON文件(employee-sample.json)获取数据 < li >一个简单的spark应用程序,将它作为文本文件读取并存储在parquet(simple-loader.java)中。我不知道JSON文件中有什么,所以我不能放入任何模式,所以我希望读取模式,而不是写入模式。创建了一个parquet文件,其中一列名为“value ”,包含JSON字符串

  • 我正在尝试在ORC文件上创建外部配置单元表。 但当我试图在创建的表上执行select操作时,会出现以下错误: 有什么建议吗??

  • 问题内容: 我每天都在“测试”文件夹下写入文件。例如: 我在创建的LOGS表中看不到任何数据。 但是,我使用创建表 我可以看到那几天的记录。 我想在我的HIVE表中的/ test目录下查看所有数据,而且/ test目录每天都填充有新文件。 问题答案: 选项1 为了支持子目录 如果您的Hive版本低于2.0.0,那么 选项2 创建一个分区表 如果使用标准约定保留目录,例如,而不是保留目录,将更易于管

  • 1-创建了源表 2-将数据从本地加载到源表 3-创建了另一个带有分区的表-partition_table 我不确定如何在外部表中进行分区。有人能帮我一步一步地描述一下吗?。

  • 在创建配置单元表时,如果使用分区或关键字群集,配置单元将创建对应于每个分区或桶的单独文件。但是对于外部表,这仍然有效。根据我的理解,与外部文件相对应的数据文件不是由hive管理的。同样,hive也会创建对应于每个分区或bucket的附加文件,并将相应的数据移到这些文件中。 编辑-添加详细信息。 摘自“Hadoop:权威指南”-“第17章:配置单元” 当我们将数据加载到分区表中时,分区值是显式指定的

  • 我想创建一个包含XFA数据的PDF,但我不想在查看PDF时看到XFA数据,但是,我希望可以通过以下代码访问它: 我怎么能这样呢? 谢谢