问题：

我如何组合或合并小ORC文件到更大的ORC文件？

商华藏

2023-03-14

解决这个问题的最佳方法是什么？

共有1个答案

司空祯

2023-03-14

你不需要重新发明轮子。

alter TABLE table_name[PARTITION partition_spec]concatenate可用于将较小的ORC文件合并到较大的文件中，因为hive 0.14.0。合并发生在条带级别，这避免了对数据进行解压缩和解码。效果很快。我建议创建一个按天分区的外部表（分区是目录），然后合并它们，指定partition(day_column)作为分区规范。

参见此处:Languagemanual+ORC

类似资料：

如何将较小的ORC文件合并或合并为较大的ORC文件？

问题内容： SO和Web上的大多数问题/答案都讨论了如何使用Hive将一堆小的ORC文件组合成一个更大的文件，但是，我的ORC文件是日志文件，每天都分开，因此我需要将它们分开。我只想每天“汇总” ORC文件（它们是HDFS中的目录）。我最有可能需要用Java编写解决方案，并且遇到过OrcFileMergeOperator，这可能是我需要使用的内容，但还为时过早。解决此问题的最佳方法是什么？问
如何将分区配置单元ORC表中的多个ORC文件（属于每个分区）组合成单个大ORC文件

我在Hive有一个分区的兽人表。加载所有可能的分区后，我在HDFS上得到多个ORC文件，即HDFS上的每个分区目录中都有一个ORC文件。我需要将每个分区下的所有这些ORC文件组合成一个大的ORC文件，用于某些用例。有人能给我建议一个方法，把这些多个ORC文件（属于每个分区）组合成一个单一的大ORC文件。我试着从分区表创建一个新的非分区ORC表。它确实减少了文件的数量，但不会减少到单个文件。 p
如何在将小文件写入hive orc表的同时合并spark中的小文件

我正在从s3读取csv文件，并以ORC的身份写入配置单元表。在写的同时，它也在写大量的小文件。我需要合并所有这些文件。我设置了以下属性: 除了这些配置之外，我尝试了repartition(1)和coalesce(1)，这将合并到单个文件中，但它会删除配置单元表并重新创建它。如果我使用追加模式而不是覆盖模式，它会在每个分区下创建重复文件。在这两种情况下，spark作业运行两次，在第二次执行时失败
GZ到ORC文件的性能改进

我们看到ORC和带分区的ORC执行相同（有时我们看到B/W ORC分区和不带分区的ORC差别很小）。带分区的ORC会比ORC表现更好吗。带分区桶的ORC会比ORC分区表现更好吗？。我看到每个ORC分区文件都接近50-100 MB，ORC带外分区（每个文件大小为30-50 MB）。 **注：120 GB的Un压缩数据被压缩为17 GB的ORC文件格式
如何在Android中合并或合并两个或更多视频文件？

问题内容：我想合并两个或多个视频文件（它们可能是两个mp4或两个3gp或任何其他格式）。问题答案：您可以使用的最通用的工具是ffmpeg（如上面@Jeremy所述），但是在手机上使用它需要做一些工作。它也是LGPL许可的，其某些编码器（特别是x264）是GPL。如果您要连接的两个文件都使用类似的编码，并且包含在从MP4派生的文件格式中（例如3GP），那么一个更简单的解决方案是使用纯Java
带有ORC格式的Hive外部表-如何将orc文件中的列名映射到hive表列？

在使用ORC文件格式的Hive中，有没有一种方法可以将列名映射到独立于列顺序的Hive表列？ orc文件的示例架构：所需配置单元表列顺序：但是，当我创建具有所需列顺序的表时，数据没有正确对齐。配置单元根据列顺序而不是列名获取数据。这对于拼花格式很好，其中Hive能够根据列名选择正确的顺序。如有任何解决此问题的建议，我们将不胜感激。我没有选择更改orc文件模式，因为它是由外部进程创建的。也不想

我如何组合或合并小ORC文件到更大的ORC文件？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档