当前位置: 首页 > 知识库问答 >
问题:

AWS胶水

壤驷华辉
2023-03-14

我每天都有csv文件被传递到S3,这些文件在当月是增量的。所以file1包含第1天的数据,file2包含第1天和第2天的数据,等等。每天我都想对该数据运行一个ETL并将其写入不同的S3位置,这样我就可以使用Athena查询它,而不会出现重复的行。本质上,我只想查询聚合数据的最新状态(这只是最近交付给S3的文件的内容)。

我认为书签不会起作用,因为增量交付包含以前文件中的数据,因此会产生重复。我知道,如果我在源bucket中的所有文件上运行,我可以转换为数据帧并删除类似的重复项:

spark_df = resolvechoice2.toDF()
spark_df = spark_df.dropDuplicates()

但是,对于我来说,每次对源表中的所有数据运行ETL似乎会增加很多处理。

基本工作流类似于,新文件被交付,可能使用Lambda启动AWS胶水作业,该作业只处理该文件的内容,然后替换输出桶的内容。输出桶按年和月划分。

最简单的方法是在每次运行时启用书签并删除输出bucket中的所有内容吗?

共有1个答案

那谦
2023-03-14

如果您的文件位于不同的文件夹中,您可以使用Athena的外部表,并每天指向当前分区(例如使用Lambda):-删除指向昨天文件夹的分区-添加指向今天文件夹的分区-月末您将分区指向最后一天(包含整个月的数据)。

这样您就不需要任何重复数据删除过程,您只需管理您的Athena分区。

 类似资料:
  • 我已经创建了一个成功执行的AWS胶水作业。但是,我无法在作业中放置任何自定义日志记录。 如何在AWS S3存储桶中创建日志文件,以便跟踪日常作业执行情况? 目前,当我的工作执行时,它会创建默认日志(即火花日志),我可以在AWS云手表中看到它。在AWS胶水中记录事件的最佳实践是什么?

  • 我有一个S3存储桶,每天的文件都会被丢弃。AWS爬虫从该位置爬网数据。在我的glue作业运行的第一天,它将获取AWS crawler创建的表中的所有数据。例如,在第一天就有三个文件。(即file1.txt、file2.txt、file3.txt)和glue job在执行glue job的第一天处理这些文件。第二天,另两个文件到达S3位置。现在,在S3位置,这些是存在的文件。(即file1.txt、

  • 我正在运行一个AWS Glue作业,使用从Glue自动生成的PySpark脚本,将S3上的管道分隔文件加载到RDS Postgres实例中。 最初,它抱怨某些列中的空值: http://spark.apache.org/docs/latest/api/python/pyspark.sql.sql.html#pyspark.sql.dataframe.fillna 现在,当我运行作业时,它会抛出以下

  • 我需要对S3 bucket执行附加加载。 每天都有新的. gz文件被转储到S3位置,胶水爬虫读取数据并在数据曲库中更新它。 Scala AWS Glue作业运行并仅过滤当前日期的数据。 上面过滤的数据按照一些规则进行转换,并创建一个分区的动态数据帧(即年、月、日)级别。 现在,我需要将这个动态数据帧写入到S3 bucket中,其中包含所有前一天的分区。事实上,我只需要将一个分区写入S3存储桶。目前

  • 我有一个数据帧。我需要将每个记录转换为JSON,然后使用JSON负载调用API将数据插入postgress。我在数据框中有14000条记录,要调用api并获得响应,需要5个小时。有没有办法提高性能。下面是我的代码片段。 注意:我知道通过做"json_insert=df_insert.toJSON()。收集()"我正在失去数据帧的优势。有没有更好的方法来完成。

  • 对于要在拼花格式的S3存储桶中的数据上运行的作业,有两种方法: > 使用 由于我的数据方案不会及时更改,使用爬虫程序是否有任何优势(性能方面或其他方面)?在这种情况下,我为什么需要爬虫?