当前位置: 首页 > 知识库问答 >
问题:

我如何组合或合并小ORC文件到更大的ORC文件?

商华藏
2023-03-14

解决这个问题的最佳方法是什么?

共有1个答案

司空祯
2023-03-14

你不需要重新发明轮子。

alter TABLE table_name[PARTITION partition_spec]concatenate可用于将较小的ORC文件合并到较大的文件中,因为hive 0.14.0。合并发生在条带级别,这避免了对数据进行解压缩和解码。效果很快。我建议创建一个按天分区的外部表(分区是目录),然后合并它们,指定partition(day_column)作为分区规范。

参见此处:Languagemanual+ORC

 类似资料:
  • 问题内容: SO和Web上的大多数问题/答案都讨论了如何使用Hive将一堆小的ORC文件组合成一个更大的文件,但是,我的ORC文件是日志文件,每天都分开,因此我需要将它们分开。我只想每天“汇总” ORC文件(它们是HDFS中的目录)。 我最有可能需要用Java编写解决方案,并且遇到过OrcFileMergeOperator,这可能是我需要使用的内容,但还为时过早。 解决此问题的最佳方法是什么? 问

  • 我在Hive有一个分区的兽人表。加载所有可能的分区后,我在HDFS上得到多个ORC文件,即HDFS上的每个分区目录中都有一个ORC文件。我需要将每个分区下的所有这些ORC文件组合成一个大的ORC文件,用于某些用例。 有人能给我建议一个方法,把这些多个ORC文件(属于每个分区)组合成一个单一的大ORC文件。 我试着从分区表创建一个新的非分区ORC表。它确实减少了文件的数量,但不会减少到单个文件。 p

  • 我正在从s3读取csv文件,并以ORC的身份写入配置单元表。在写的同时,它也在写大量的小文件。我需要合并所有这些文件。我设置了以下属性: 除了这些配置之外,我尝试了repartition(1)和coalesce(1),这将合并到单个文件中,但它会删除配置单元表并重新创建它。 如果我使用追加模式而不是覆盖模式,它会在每个分区下创建重复文件。 在这两种情况下,spark作业运行两次,在第二次执行时失败

  • 我们看到ORC和带分区的ORC执行相同(有时我们看到B/W ORC分区和不带分区的ORC差别很小)。带分区的ORC会比ORC表现更好吗。带分区桶的ORC会比ORC分区表现更好吗?。我看到每个ORC分区文件都接近50-100 MB,ORC带外分区(每个文件大小为30-50 MB)。 **注:120 GB的Un压缩数据被压缩为17 GB的ORC文件格式

  • 问题内容: 我想合并两个或多个视频文件(它们可能是两个mp4或两个3gp或任何其他格式)。 问题答案: 您可以使用的最通用的工具是ffmpeg(如上面@Jeremy所述),但是在手机上使用它需要做一些工作。它也是LGPL许可的,其某些编码器(特别是x264)是GPL。 如果您要连接的两个文件都使用类似的编码,并且包含在从MP4派生的文件格式中(例如3GP),那么一个更简单的解决方案是使用纯Java

  • 在使用ORC文件格式的Hive中,有没有一种方法可以将列名映射到独立于列顺序的Hive表列? orc文件的示例架构: 所需配置单元表列顺序: 但是,当我创建具有所需列顺序的表时,数据没有正确对齐。配置单元根据列顺序而不是列名获取数据。这对于拼花格式很好,其中Hive能够根据列名选择正确的顺序。如有任何解决此问题的建议,我们将不胜感激。 我没有选择更改orc文件模式,因为它是由外部进程创建的。也不想