问题：

拼花地板连接或分离两种方案

晏正豪

2023-03-14

我有两个CSV文件。在第一个中，我有:第一名、最后名，在第二个中，我有:电子邮件、电话。这两个文件通过行索引连接（相同的记录数）。我需要用拼花地板格式保存所有数据。

根据我的用例，很有可能采用第二个选项（2个文件）。最后，我需要使用各种工具查询数据，最常用的工具是Presto。

问题1-是否可以从两个parquet文件中提取数据（假设选择first_name，email)？

问题2-运行时间会有差异吗？

共有1个答案

端木昱

2023-03-14

您可以从这两个表中提取数据，但需要一些连接键才能组合记录。如果不存在，则可能必须使用row_number()，假设数据在两个表中的顺序相同。数据大小在这里也很重要。

在大数据领域，如果您必须在查询中频繁地连接这些表，建议使用非规范化格式。这种方法将给您带来更好的性能。

类似资料：

S3拼花地板格式的KafkaS3源连接器

我有使用Protobuf制作的主题事件。我可以使用Parquet格式的S3 sink连接器将主题事件成功地汇到S3存储桶中。现在我的S3存储桶中有和。使用以下配置，所有这些都按预期工作：现在，我想使用Protobuf将< code > my-bucket-123 (< code > parquet 格式)的键和值放回到Kafka主题中。为此，我使用以下配置通过汇合设置了一个新的S3源连接器(<
Sparklyr：直接转换为拼花地板
Spark拼花地板分区:大量文件

我试图利用火花分区。我试图做这样的事情这里的问题每个分区都会创建大量的镶木地板文件，如果我尝试从根目录读取，则会导致读取缓慢。为了避免这种情况，我试过但是，这将创建每个分区中镶木地板文件的数目。现在我的分区大小不同了。因此，理想情况下，我希望每个分区都有单独的合并。然而，这看起来并不容易。我需要访问所有分区合并到一定数量并存储在单独的位置。我应该如何使用分区来避免写入后出现许多文件？
SparkSQL-直接读取拼花地板文件

我正在从Impala迁移到SparkSQL，使用以下代码读取一个表：我如何调用上面的SparkSQL，这样它就可以返回这样的东西：
火花拼花地板大小不均

由于，我检查了一个spark作业的输出拼花文件，该作业总是会发出声音。我在Cloudera 5.13.1上使用了我注意到拼花地板排的大小是不均匀的。第一排和最后一排的人很多。剩下的真的很小。。。拼花地板工具的缩短输出，：这是已知的臭虫吗？如何在Spark中设置拼花地板块大小（行组大小）？编辑： Spark应用程序的作用是：它读取一个大的AVRO文件，然后通过两个分区键（使用
Spark dataframe CSV vs拼花地板

我是Spark的初学者，试图理解Spark数据帧的机制。当从csv和parquet加载数据时，我比较了spark sql dataframe上sql查询的性能。我的理解是，一旦数据加载到spark数据框中，数据的来源（csv或parquet）应该无关紧要。然而，我看到了两者之间的显著性能差异。我使用以下命令加载数据，并对其编写查询。请解释差异的原因。
雪花在拼花地板上不是按柱分割的

关于雪花的新功能--推断模式表函数，我有一个问题。INFER模式函数在parquet文件上执行得很好，并返回正确的数据类型。但是，当parquet文件被分区并存储在S3中时，INFER模式的功能与pyspark Dataframes不同。在DataFrames中，分区文件夹名称和值作为最后一列读取；在雪花推断模式中有没有一种方法可以达到同样的结果？示例：示例：{“AGMT_GID”：1714
AWS带隔板的胶合拼花地板

我能够以拼花格式写入，并通过如下列进行分区：但我无法用Glue的DynamicFrame做到这一点。我试图通过作为的一部分，因为AWS文档说拼花胶不支持任何格式选项，但这不起作用。这有可能吗？怎么可能？至于这样做的原因，我认为工作书签是必要的，因为这对我目前不起作用。

拼花地板连接或分离两种方案

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档