当前位置: 首页 > 知识库问答 >
问题:

带有拼花文件的配置单元中的内存问题

齐承运
2023-03-14
select * from myParquetTable where id < 0;

如有任何建议/暗示,不胜感激。

共有1个答案

酆耀
2023-03-14

你需要记住两件事:1。拼花是基于柱状的存储。2.拼花文件被压缩。

好吧,考虑到这些点,文件会占用比原始文件更多的空间。但是,您拥有的内存足以处理文件(本例中为完整文件)。

因为它会给您带来堆空间内存不足的错误-您可能需要增加节点管理器的Java堆大小。此外,您可能希望检查为每个容器配置了多少内存,以及所有容器的总内存。

 类似资料:
  • 先声明一下,这不是Hadoop的生产环境。这是一个我们测试工作流的单节点环境

  • 我正在使用Spark生成拼花文件(通过分区,使用Snappy压缩),并将它们存储在HDFS位置。 拼花数据文件存储在下 然后为其创建配置单元表,如下所示:

  • 我对alter table有一个问题,它改变了表模式,而不是parquet模式。 例如,我有一个<code>PARQUET<code>表,其中包含以下列: 现在,我尝试用 使用描述表,我可以看到第2列不再存在; 现在我尝试执行但我收到这样的错误: “data.0.parq”的类型与列column4的表架构不兼容。预期类型:INT64。实际类型:字节数组" 已删除列的值尚存在于具有 5 列而不是 4

  • 在RedHat测试服务器中,我安装了hadoop 2.7,并运行了Hive、Pig 我把IP作为localhost,因为它是单节点机器。之后我甚至无法连接到Hive。这是抛出错误 线程"main"中的异常java.lang.RuntimeException:java.lang.RuntimeException:无法实例化org.apache.hadoop.hive.ql.metadata.Sess