当前位置: 首页 > 知识库问答 >
问题:

ORC/Parquet文件格式的巨大配置单元表中的一列具有相同值的影响

姚雅珺
2023-03-14
    null

共有1个答案

边意
2023-03-14

至少在拼花文件的情况下,列是独立压缩的。在一行中多次使用相同的值通常会得到很好的压缩,但重复一列也意味着所需存储空间的重复。

对于拼花,压缩方案大致如下:

每个列拆分为行组(通常每个文件一个,有时更多,但通常很少)。对每个行组的值进行编码(编码通常为字典编码或游程长度编码)。在名为“Pages”的16KIB/1MIB边界上大致拆分编码行。使用通用压缩编解码器(如GZIP或zstandard)单独压缩每个页面。

 类似资料: