问题：

AWS Glue ETL作业失败，AnalysisException:u'Unable to推断拼花地板的模式。必须手动指定。；'

司徒炎彬

2023-03-14

我正在尝试创建AWS Glue ETL作业，将存储在S3中的拼花文件中的数据加载到Redshift表中。拼花文件是使用带有“简单”文件模式选项的熊猫写入S3中的多个文件夹的。布局如下所示：

s3://bucket/parquet\u table/01/file\u 1。拼花地板

s3://bucket/parquet\u table/01/file\u 2。拼花地板

S3：//桶/parquet_table/01/file_3.parquet

s3://bucket/parquet\u table/01/file\u 1。拼花地板

S3：//桶/parquet_table/02/file_2.parquet

s3://bucket/parquet\u table/02/file\u 3。拼花地板

我可以使用AWS Glue Crawler在AWS Glue目录中创建一个表，并且可以从Athena查询该表，但当我尝试创建将同一个表复制到Redshift的ETL作业时，它不起作用。

如果我对单个文件进行爬网，或者对一个文件夹中的多个文件进行爬网，那么只要涉及多个文件夹，就会出现上述错误

AnalysisException:u'无法推断拼花地板的模式。必须手动指定。；'

如果使用“hive”而不是“simple”模式，则会出现类似问题。然后，我们有多个文件夹和空拼花文件

<代码>java。io。IOException：无法读取页脚：java。lang.RuntimeException：xxx不是拼花地板文件（太小）

在使用AWS Glue（ETL和数据目录）时，是否有关于如何读取拼花文件并在S3中构造它们的建议？

共有2个答案

汝弘深

2023-03-14

您面临的错误是，当从spark/glue读取s3中的拼花文件时，它希望数据位于配置单元分区中，即分区名称应该具有键值对，您将在配置单元样式分区中具有s3层次结构，如下所示

S3：//你的桶/parquet_table/id=1/file1.parquet

s3://your bucket/parquet\u table/id=2/file2。拼花地板

等等...

然后使用下面的路径读取bucket中的所有文件

位置：s3://your bucket/parquet\u table

如果s3中的数据按上述方式分区，您将不会面临任何问题。

伯彦君

2023-03-14

Redshift不支持拼花格式。红移光谱确实如此。雅典娜还支持拼花地板格式。

类似资料：

无法推断拼花地板的架构。必须手动指定

我正在运行EMR笔记本中的所有代码。火花版本 temp_df.print模式温度df。显示（2）温度df。写拼花地板（path='s3://project7878/clean\u data/temperatures.parquet'，mode='overwrite'，partitionBy='year'）火花阅读拼花地板（path='s3://project7878/clean\u dat
用户类引发异常：org。阿帕奇。火花sql。AnalysisException：无法推断拼花地板的架构。必须手动指定

我将spark java代码实现为，数据集输入=spark。读取（）。拼花地板（configuration.getInputDataLocation（））；但是inputDataLocation（Azure存储帐户容器中的文件夹）可能没有任何数据，并且在这种情况下引发异常，用户类引发异常：org。阿帕奇。火花sql。AnalysisException：无法推断拼花地板的架构。必须手动指定。有没
pyspark.sql.utils.分析异常：u'无法推断镶木地板的架构。它必须手动指定。；'

这与上面文章中给出的答案不同我收到一个错误，显示当我尝试使用Spark 2.1.0读取拼花地板文件时我已经检查过了，通过Hue WebPortal查看impala表，文件/表不是空的。另外，我存储在类似目录中的其他文件读起来也非常好。对于记录，文件名包含连字符，但没有下划线或句号/句点。因此，在加载拼花地板文件时，以下帖子中的答案都无法推断模式有什么想法吗？
AWS Glue ETL作业失败，“删除键失败：拼花输出/_temporary”

我正在由Glue Crawler生成的CSV可数据上运行Glue ETL作业。爬虫点击具有以下结构的目录这些文件被聚合到一个“聚合输出”表中，该表可以在athena中成功查询。我正在尝试使用AWS Glue ETL作业将其转换为拼花地板文件。作业失败我很难找到根本原因我尝试了多种方式修改Glue作业。我确保分配给该作业的IAM角色有权删除相关存储桶上的文件夹。现在我正在使用AWS提供的默认
如何在使用pyspark读取拼花地板文件时指定模式？

使用scala或pyspark读取hadoop中存储的拼花地板文件时，出现错误：或导致相同的错误。错误消息非常清楚必须做什么：无法推断拼花的模式。必须手动指定。；。但是我在哪里可以指定它呢？ Spark 2.1.1、Hadoop 2.5、数据帧是在pyspark的帮助下创建的。文件被划分为10个peace。
火花拼花地板大小不均

由于，我检查了一个spark作业的输出拼花文件，该作业总是会发出声音。我在Cloudera 5.13.1上使用了我注意到拼花地板排的大小是不均匀的。第一排和最后一排的人很多。剩下的真的很小。。。拼花地板工具的缩短输出，：这是已知的臭虫吗？如何在Spark中设置拼花地板块大小（行组大小）？编辑： Spark应用程序的作用是：它读取一个大的AVRO文件，然后通过两个分区键（使用

AWS Glue ETL作业失败，AnalysisException:u'Unable to推断拼花地板的模式。必须手动指定。；'

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档