问题：

使用架构文件创建 Parquet 支持的 Hive 表

章景同

2023-03-14

Cloudera留档，显示了一种“使用Avro模式文件创建Avro支持的Hive表”的简单方法。这很好。我想对Parque支持的Hive表做同样的事情，但是在这种情况下，相关的留档列出了每种列类型，而不是从模式中读取。是否可以像Avro数据一样从模式中读取Parque列？

共有1个答案

牟焱

2023-03-14

目前，答案似乎是否定的。Hive存在一个悬而未决的问题。https://issues.apache.org/jira/browse/PARQUET-76

这个问题最近一直很活跃，所以希望在不久的将来，Hive将为镶木地板提供与Avro相同的功能。

类似资料：

如何使用在 Hive 中使用 Apache Drill 创建的 Parquet 文件

Apache Drill有一个很好的功能，可以从许多传入的数据集中制作镶木地板文件，但是似乎没有太多关于如何稍后使用这些镶木地板文件的信息 - 特别是在Hive中。 Hive有没有办法利用这些“1_0_0.parquet”等文件？也许创建一个表并从拼花文件加载数据，或者创建一个表并以某种方式将这些拼花文件放在hdfs中，以便Hive读取它？
使用 buildx 构建多种系统架构支持的 Docker 镜像

在之前的版本中构建多种系统架构支持的 Docker 镜像，要想使用统一的名字必须使用 $ docker manifest 命令。在 Docker 19.03+ 版本中可以使用 $ docker buildx build 命令使用 BuildKit 构建镜像。该命令支持 --platform 参数可以同时构建支持多种系统架构的 Docker 镜像，大大简化了构建步骤。设置环境变量 buildx
使用CUDA支持构建OpenCV

Im使用CMake生成visual studio 2013解决方案。下一步我将尝试构建它，但出现以下错误：构建NVCC（设备）对象模块/核心/CMakeFiles/cuda_compile.dir/src/cuda/Debug/cuda_compile_generated_gpu_mat.cu.obj nvcc致命：不支持的gpu体系结构“compute_11” 我尝试版本2.10和3.0与cu
Pyspark：从 JSON 文件创建架构

我正在处理非常长的嵌套JSON文件中的数据。问题是，这些文件的结构并不总是相同的，因为有些文件缺少其他文件的列。我想从一个包含所有列的空JSON文件创建一个定制模式。如果我稍后将JSON文件读入这个预定义的模式，不存在的列将被空值填充(至少计划是这样的)。到目前为止我所做的: 将测试 JSON（不包含预期的所有列）加载到数据帧中将其架构写入 JSON 文件在文本编辑器中打开此 JSON 文件并
启用架构创建支持在Spring启动器-starter-data-solr 中提供支持

我使用spring-boot-starter-data-solr，并希望利用Spring Data Solr的schmea cration支持，如文档中所述: 每当刷新应用程序上下文时，自动架构填充都会检查您的域类型，并根据属性配置将新字段填充到索引中。这要求 solr 在无架构模式下运行。但是，我无法实现这一目标。据我所知，Spring启动器不会在@EnableSolrRepositories
如何从CSV文件创建架构并将该架构持久化/保存到文件中？

我有10列的CSV文件。半字符串和半字符串是整数。 Scala代码的作用是：创建（推断）模式到目前为止，我有：保存该模式的最佳文件格式是什么？是JSON吗？目标是-我只想创建一次模式，下次从文件加载时，而不是动态地重新创建它。谢谢。

使用架构文件创建 Parquet 支持的 Hive 表

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档