问题：

Hadoop ORC文件-如何工作-如何获取元数据

柳才良

2023-03-14

我对兽人档案不熟悉。我翻阅了很多博客，但没有得到清晰的理解。请帮助并澄清以下问题。

我可以从ORC文件获取架构吗？我知道在Avro,模式可以被提取。

是为每列维护的索引。如果是，那么它不会消耗更多的内存吗？

柱格式ORC文件如何适合配置单元表，每个列的值存储在一起。而配置单元表是一个记录一个记录地提取。两者如何结合在一起？

共有1个答案

朱欣荣

2023-03-14

1.和2.使用Hive和/或HCatalog在Hive转移体中创建、读取、更新ORC表结构（HCatalog只是一个侧门，不允许pig/sqoop/spark/whatever直接访问转移体）

2.alter table命令允许添加/删除任何存储类型的列，包括ORC。但要小心一个严重的bug，它可能会在之后使矢量化读取崩溃（至少在V0.13和V0.14中）

3.和4.“指数”一词相当不妥。基本上，它只是在写入时将最小/最大信息保留在条带页脚中，然后在读取时用于跳过明显不符合where要求的所有条带，在某些情况下大幅减少了I/O（这一技巧在列存储中很流行，例如MySQL上的InfoBright，但在Oracle Exadata appliances中也很流行[Oracle marketing称之为“Smart Scan”])

5.Hive与“行存储”格式(Text、SequenceFile、AVRO)和“列存储”格式(ORC、Parquet)类似。优化器只是在初始映射阶段使用特定的策略和快捷方式--例如，条带消除、向量化运算符--当然，序列化/反序列化阶段对列存储要更精细一些。

类似资料：

Jenkins插件如何获取工作信息

问题内容：我正在尝试制作一个Jenkins插件。您如何从插件获取工作信息？我知道但是，我不知道如何调用此方法。问题答案：我编写了以下常规脚本，以从工作中获取所有内部版本号。该工作詹金斯API可以给你额外的手柄，以获取有关作业的信息
如何获取文件元数据，如上次修改日期（Python）

我在databricks中安装了一个s3 bucket，我可以看到文件列表，也可以使用python读取文件我想找出我正在阅读的文件的上次修改日期，我找不到太多，但java选项数据砖读取Azure blob的上次修改日期为azure blob，数据砖中有一个python本机选项来读取文件元数据。
如何获取CSV文件？

问题内容：我在jmeter.properties文件中做了以下更改：但是仍然找不到我的.csv文件在哪里。谁能帮帮我吗。问题答案：除了在jmeter.properties中完成的配置外： 1）GUI：汇总报告结果配置 2）CLI：在test.csv您将获得CSV格式的结果。
如何获取声明。getGeneratedKeys工作

我对java.sql.Statement的方法getGeneratedKeys（）有问题首先我的代码：创造sql：（HSQLDB）从DAO创建方法：然后，我对生成的密钥进行了单元测试：当我运行测试时，我得到一个失败和以下日志：所以问题是
如何获取Java资源作为文件？

问题内容：我必须阅读一个包含字符串列表的文件。我试图遵循建议这个职位。两种解决方案都需要使用，但使用而不是a 作为参数。我需要一个。这篇文章将是我的问题，除非OP被劝说不要完全使用文件。如果要使用Apache方法，则需要一个文件，这是我最初遇到的问题的首选解决方案。我的文件很小（大约一百行），每个程序实例一个文件，因此我不必担心在内存中有另一个文件副本。因此，我可以使用更基本的方法来读
如何从文件中获取数字

我必须从文件中获取一个数字，有些文件包含字母和数字。比如（dsh8kuebw9）或者有（8）这样的空格，我怎样才能得到这些数字？我试过很多次了。我有一个方法可以找到一个数字出现在一个数字中的方法是count8方法。 parseInt将文件的行转换为整数，但由于在某些文件中有字母，我的方法遇到了问题，因为它只接受整数而不接受字符串

Hadoop ORC文件-如何工作-如何获取元数据

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档