当前位置: 首页 > 知识库问答 >
问题:

使用架构文件创建 Parquet 支持的 Hive 表

章景同
2023-03-14

Cloudera留档,显示了一种“使用Avro模式文件创建Avro支持的Hive表”的简单方法。这很好。我想对Parque支持的Hive表做同样的事情,但是在这种情况下,相关的留档列出了每种列类型,而不是从模式中读取。是否可以像Avro数据一样从模式中读取Parque列?

共有1个答案

牟焱
2023-03-14

目前,答案似乎是否定的。Hive存在一个悬而未决的问题。https://issues.apache.org/jira/browse/PARQUET-76

这个问题最近一直很活跃,所以希望在不久的将来,Hive将为镶木地板提供与Avro相同的功能。

 类似资料:
  • Apache Drill有一个很好的功能,可以从许多传入的数据集中制作镶木地板文件,但是似乎没有太多关于如何稍后使用这些镶木地板文件的信息 - 特别是在Hive中。 Hive有没有办法利用这些“1_0_0.parquet”等文件?也许创建一个表并从拼花文件加载数据,或者创建一个表并以某种方式将这些拼花文件放在hdfs中,以便Hive读取它?

  • 在之前的版本中构建多种系统架构支持的 Docker 镜像,要想使用统一的名字必须使用 $ docker manifest 命令。 在 Docker 19.03+ 版本中可以使用 $ docker buildx build 命令使用 BuildKit 构建镜像。 该命令支持 --platform 参数可以同时构建支持多种系统架构的 Docker 镜像,大大简化了构建步骤。 设置环境变量 buildx

  • 我正在处理非常长的嵌套JSON文件中的数据。问题是,这些文件的结构并不总是相同的,因为有些文件缺少其他文件的列。我想从一个包含所有列的空JSON文件创建一个定制模式。如果我稍后将JSON文件读入这个预定义的模式,不存在的列将被空值填充(至少计划是这样的)。到目前为止我所做的: 将测试 JSON(不包含预期的所有列)加载到数据帧中 将其架构写入 JSON 文件 在文本编辑器中打开此 JSON 文件并

  • Im使用CMake生成visual studio 2013解决方案。下一步我将尝试构建它,但出现以下错误: 构建NVCC(设备)对象模块/核心/CMakeFiles/cuda_compile.dir/src/cuda/Debug/cuda_compile_generated_gpu_mat.cu.obj nvcc致命:不支持的gpu体系结构“compute_11” 我尝试版本2.10和3.0与cu

  • 我使用spring-boot-starter-data-solr,并希望利用Spring Data Solr的schmea cration支持,如文档中所述: 每当刷新应用程序上下文时,自动架构填充都会检查您的域类型,并根据属性配置将新字段填充到索引中。这要求 solr 在无架构模式下运行。 但是,我无法实现这一目标。据我所知,Spring启动器不会在@EnableSolrRepositories

  • 我有10列的CSV文件。半字符串和半字符串是整数。 Scala代码的作用是: 创建(推断)模式 到目前为止,我有: 保存该模式的最佳文件格式是什么?是JSON吗? 目标是-我只想创建一次模式,下次从文件加载时,而不是动态地重新创建它。 谢谢。