问题：

Spark dataframe CSV vs拼花地板

能烨华

2023-03-14

我是Spark的初学者，试图理解Spark数据帧的机制。当从csv和parquet加载数据时，我比较了spark sql dataframe上sql查询的性能。我的理解是，一旦数据加载到spark数据框中，数据的来源（csv或parquet）应该无关紧要。然而，我看到了两者之间的显著性能差异。我使用以下命令加载数据，并对其编写查询。

dataframe_csv = sqlcontext.read.format("csv").load()

dataframe_parquet = sqlcontext.read.parquet()

请解释差异的原因。

共有1个答案

孙福

2023-03-14

原因是你看到csv之间的不同性能

类似资料：

火花拼花地板大小不均

由于，我检查了一个spark作业的输出拼花文件，该作业总是会发出声音。我在Cloudera 5.13.1上使用了我注意到拼花地板排的大小是不均匀的。第一排和最后一排的人很多。剩下的真的很小。。。拼花地板工具的缩短输出，：这是已知的臭虫吗？如何在Spark中设置拼花地板块大小（行组大小）？编辑： Spark应用程序的作用是：它读取一个大的AVRO文件，然后通过两个分区键（使用
Sparklyr：直接转换为拼花地板
雪花在拼花地板上不是按柱分割的

关于雪花的新功能--推断模式表函数，我有一个问题。INFER模式函数在parquet文件上执行得很好，并返回正确的数据类型。但是，当parquet文件被分区并存储在S3中时，INFER模式的功能与pyspark Dataframes不同。在DataFrames中，分区文件夹名称和值作为最后一列读取；在雪花推断模式中有没有一种方法可以达到同样的结果？示例：示例：{“AGMT_GID”：1714
AWS带隔板的胶合拼花地板

我能够以拼花格式写入，并通过如下列进行分区：但我无法用Glue的DynamicFrame做到这一点。我试图通过作为的一部分，因为AWS文档说拼花胶不支持任何格式选项，但这不起作用。这有可能吗？怎么可能？至于这样做的原因，我认为工作书签是必要的，因为这对我目前不起作用。
Spark拼花地板分区:大量文件

我试图利用火花分区。我试图做这样的事情这里的问题每个分区都会创建大量的镶木地板文件，如果我尝试从根目录读取，则会导致读取缓慢。为了避免这种情况，我试过但是，这将创建每个分区中镶木地板文件的数目。现在我的分区大小不同了。因此，理想情况下，我希望每个分区都有单独的合并。然而，这看起来并不容易。我需要访问所有分区合并到一定数量并存储在单独的位置。我应该如何使用分区来避免写入后出现许多文件？
SparkSQL-直接读取拼花地板文件

我正在从Impala迁移到SparkSQL，使用以下代码读取一个表：我如何调用上面的SparkSQL，这样它就可以返回这样的东西：

Spark dataframe CSV vs拼花地板

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档