当前位置：首页 > 面试题库 >

如何将Parquet文件读入Pandas DataFrame？

史旺

2023-03-14

问题内容：

如何在不设置集群计算基础架构（例如Hadoop或Spark）的情况下，将大小适中的Parquet数据集读取到内存中的Pandas
DataFrame中？我只想在笔记本电脑上使用简单的Python脚本在内存中读取这些数据，但是数量很少。数据不驻留在HDFS上。它位于本地文件系统上，也可能位于S3中。我不想启动并配置其他服务，例如Hadoop，Hive或Spark。

我以为Blaze / Odo可以做到这一点：Odo文档中提到了Parquet，但是这些示例似乎都是通过外部Hive运行时进行的。

问题答案：

pandas 0.21引入了Parquet的新功能：

pd.read_parquet('example_pa.parquet', engine='pyarrow')

要么

pd.read_parquet('example_fp.parquet', engine='fastparquet')

上面的链接说明：

这些引擎非常相似，应该读取/写入几乎相同的镶木地板格式文件。这些库的不同之处在于它们具有不同的基础依赖性（使用numba进行快速拼写，而pyarrow使用c库）。

类似资料：

如何将Parquet文件读入Pandas DataFrame？

如何在不设置集群计算基础设施（如Hadoop或Spark）的情况下将大小适中的Parket数据集读取到内存中的Pandas DataFrame中？这只是我想在笔记本电脑上使用简单的Python脚本在内存中读取的适度数据。数据不驻留在HDFS上。它要么在本地文件系统上，要么可能在S3中。我不想启动和配置其他服务，如Hadoop、Hive或Spark。我原以为Blaze/Odo会使这成为可能:Odo
parquet文件

Parquet是一种柱状(columnar)格式，可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能，这些文件可以自动地保留原始数据的模式。加载数据 // sqlContext from the previous example is used in this example. // createSchemaRDD is used to implicitl
如何将文件读入特定格式

如果这一行文本没有以方括号开头，我想把这一行连接到上面的一行。我可以读它在正常使用这个代码。我试着用String.StartsWith但是我搞不懂。我正在寻找对此方法的更改，以使它以我想要的格式读取它，或者可能是一个将作用于我的并对此问题排序的方法。谢谢
如何用GSON库将json文件读入java

我想用GSON库用java读这个JSON文件。我刚开始使用gson Libray。有人请纠正我的代码我的JSON文件如下所示：这是我为读取这个文件而编写的java代码：但我得到以下异常：
如何在Erlang中将文本文件读入地图？

我有一个这样的文本文件：如何将其读入地图或Erlang中的任何其他数据结构（以进一步迭代每个键及其各自的值）并最终打印地图？
如何在java中将文件读入字符串？

问题内容：我已将文件读入字符串。该文件包含各种名称，每行一个名称。现在的问题是，我希望将这些名称放在String数组中。为此，我编写了以下代码：但是我没有得到预期的结果，分割字符串后获得的数组长度为1。这意味着“ fileString”不具有“ \ n”字符，但是文件具有此“ \ n”字符。那么如何解决这个问题呢？问题答案：问题不在于如何分割字符串。那一点是正确的。您必须查看如何将文

相关阅读

Java将文件读入ArrayList吗？将csv文件读入数组如何将整个文件读入字符串变量如何将JSON文件导入TypeScript文件？如何将日志写入文件

相关文章

Go语言文件的写入、追加、读取、复制操作 Jsoup 读取文件获取HTML yml文件读取方式-2 yml文件读取方式-1 C++文本文件读写操作详解

相关问答

将 JSON 文件读入 Spark DataFrame 如何读取刚写入的文件如何从spark SQL访问本地parquet文件？如何将数组文件导入javascript文件如何优化Spark作业将S3文件处理到Hive Parquet表中

相关工具

Apache Parquet 邮件发送Document文件 Android 繁体中文输入法文件安全卫士雪梦文件管理器

相关文档

深入理解 ES6 读书笔记 QueryList 入门文档 Nerv 入门文档小米智能硬件开放平台智能硬件接入文档如何编写 jQuery 插件