带有拼花文件的配置单元中的内存问题

齐承运

2023-03-14

select * from myParquetTable where id < 0;

如有任何建议/暗示，不胜感激。

共有1个答案

酆耀

2023-03-14

你需要记住两件事：1。拼花是基于柱状的存储。2.拼花文件被压缩。

好吧，考虑到这些点，文件会占用比原始文件更多的空间。但是，您拥有的内存足以处理文件（本例中为完整文件）。

因为它会给您带来堆空间内存不足的错误-您可能需要增加节点管理器的Java堆大小。此外，您可能希望检查为每个容器配置了多少内存，以及所有容器的总内存。

类似资料：

使用配置单元生成拼花文件
加载到配置单元分区拼花表时内存不足

先声明一下，这不是Hadoop的生产环境。这是一个我们测试工作流的单节点环境
配置单元外部表无法看到分区拼花文件

我正在使用Spark生成拼花文件（通过分区，使用Snappy压缩），并将它们存储在HDFS位置。拼花数据文件存储在下然后为其创建配置单元表,如下所示：
配置单元不会更改拼花模式

我对alter table有一个问题，它改变了表模式，而不是parquet模式。例如，我有一个＜code＞PARQUET＜code＞表，其中包含以下列：现在，我尝试用使用描述表，我可以看到第2列不再存在；现在我尝试执行但我收到这样的错误： “data.0.parq”的类型与列column4的表架构不兼容。预期类型:INT64。实际类型:字节数组" 已删除列的值尚存在于具有 5 列而不是 4
在Azure HDInsights中从分区拼花文件创建配置单元外部表

我错过了什么？
带有derby的Hive元存储配置

在RedHat测试服务器中，我安装了hadoop 2.7，并运行了Hive、Pig 我把IP作为localhost，因为它是单节点机器。之后我甚至无法连接到Hive。这是抛出错误线程"main"中的异常java.lang.RuntimeException：java.lang.RuntimeException：无法实例化org.apache.hadoop.hive.ql.metadata.Sess