当前位置: 首页 > 面试题库 >

如何在Windows中查看Apache Parquet文件?

苏弘盛
2023-03-14
问题内容

我找不到有关Apache Parquet文件的任何简单的英语解释。如:

  1. 这些是什么?
  2. 我需要Hadoop或HDFS来查看/创建/存储它们吗?
  3. 如何创建镶木地板文件?
  4. 如何查看镶木地板文件?

关于这些问题的任何帮助,我们将不胜感激。


问题答案:

Apache
Parquet是二进制文件格式,以列形式存储数据。Parquet文件中的数据类似于RDBMS样式表,其中具有列和行。但是,通常不是一次访问一行数据,而是一次访问一列数据。

Apache Parquet是现代大数据存储格式之一。它具有几个优点,其中一些是:

  • 列式存储 :高效的数据检索,高效的压缩等。
  • 元数据位于文件的末尾 :允许从数据流中生成Parquet文件。(在大数据场景中很常见)
  • 受所有Apache大数据产品支持

我需要Hadoop还是HDFS?

不能。镶木地板文件可以存储在任何文件系统中,而不仅仅是HDFS。如上所述,它是一种文件格式。因此,就像任何其他文件一样,它具有名称和
.parquet 扩展名。但是,在大数据环境中通常会发生的情况是将一个数据集拆分(或划分为多个)镶木文件以提高效率。

默认情况下,所有Apache大数据产品都支持Parquet文件。这就是为什么它看起来只能在Apache生态系统中存在的原因。

如何创建/读取Parquet文件?

如前所述,默认情况下,当前所有的Apache大数据产品(例如Hadoop,Hive,Spark等)都支持Parquet文件。

因此,可以利用这些系统来生成或读取Parquet数据。但这远非实用。想象一下,为了读取或创建CSV文件,您必须安装Hadoop / HDFS +
Hive并对其进行配置。幸运的是,还有其他解决方案

要创建自己的镶木地板文件:

  • 在Java中,请参阅以下文章:使用Java生成Parquet文件
  • 在.NET中,请参见以下库:parquet-dotnet

要查看镶木地板文件内容:

  • 请尝试以下Windows实用程序:https : //github.com/mukunku/ParquetViewer

还有其他方法吗?

可能吧 但是存在的并不多,而且大多没有很好的记录。这是由于Parquet是非常复杂的文件格式(我什至找不到正式定义)。在撰写此回复时,我只知道列出的那些



 类似资料:
  • 我想知道如何在android中从我的移动存储或sdcard查看. pptx powerpoint演示文件,我使用了Apache-poi,但它在android上不起作用。

  • 问题内容: 我已经读过Mysql服务器创建了一个日志文件,其中记录了所有活动-例如何时以及执行什么查询。 有人可以告诉我它在系统中的什么位置吗?我该怎么读? 基本上,我需要使用不同的输入[两个日期之间的备份]来备份数据库,所以我认为我需要在此处使用日志文件,这就是为什么要这样做… 我认为必须以某种方式保护此日志,因为可能会记录诸如用户名和密码之类的敏感信息[如果有任何查询要求];这样可以确保它安全

  • windows 如何快速查看某个文件夹的大小? 查看文件夹属性太慢了

  • 浏览文件和文件夹 要在文件和文件夹之间导航,请执行以下任一操作: 在“文件夹”面板中选择一个文件夹。在“文件夹”面板中按向下箭头键和向上箭头键导航到该目录。按向右箭头键展开文件夹。按向左箭头键折叠文件夹。 在“收藏夹”面板中选择项目。 单击应用程序栏中的转到父文件夹或收藏夹按钮 或者单击显示最近使用的文件,或转到最近访问的文件夹按钮 ,然后选择一个项目。 提示:若要显示操作系统中的文件,请选择该文

  •       进入共享文件,即可查看【共享给我】和【我共享的】的文件。 1)共享给我: 他人文件的共享名单中有我或者通过链接或二维码共享给我的都会统一展示在共享给我列表,方便查看和查找。 2)我共享的: 统一展示由我共享出去的文件,共享文件信息一目了然,不用担心文档共享被遗忘导致的文档泄露风险。

  • 我使用textwatcher监视一个EditText我把每个按键都存储在一个日志文件中我想查看我在运行应用程序后放入日志文件中的数据,但仍然找不到它是如何运行的。感谢帮助我的好意:)