当前位置: 首页 > 知识库问答 >
问题:

如何在AWS胶水中设置多个--conf表参数?

钱欣然
2023-03-14

AWS Glue的stackoverflow的多个答案是设置--conf表参数。但是,有时在一个作业中,我们需要在一个作业中设置多个--conf键值对。

我尝试了以下方法来设置多个--conf值,所有结果都是错误的:

  • 添加另一个名为--conf的表参数。这将导致AWS仪表板删除名为--conf的第二个参数,并将焦点设置为名为--conf的第一个参数的值。Terraform还只考虑具有键--conf的两个表参数相等,并用第二个参数的值覆盖第一个参数中的值。
  • 在表的值中用空格分隔config键值参数--conf参数。例如。spark.yarn.executor.MemoryOverhead=1024 spark.yarn.executor.MemoryOverhead=7G spark.yarn.executor.Memory=7G。这将导致无法启动作业。
  • 在表-conf参数的值中用逗号分隔配置键值参数。例如。spark.yarn.executor.memoryoverhead=1024,spark.yarn.executor.memoryoverhead=7g,spark.yarn.executor.memory=7g。这将导致无法启动作业。
  • 将--conf的值设置为使--conf字符串分隔每个键值。例如。spark.yarn.executor.MemoryOverhead=1024--conf spark.yarn.executor.MemoryOverhead=7g--conf spark.yarn.executor.Memory=7g。这将导致胶水作业挂起。

如何在AWS胶水中设置多个--conf表参数?

共有1个答案

元彦君
2023-03-14

您可以按以下方式传递多个参数:

密钥:--conf

值:spark.yarn.executor.MemoryOverhead=7g--conf spark.yarn.executor.Memory=7g

这对我起作用了。

 类似资料:
  • 我每天都有csv文件被传递到S3,这些文件在当月是增量的。所以file1包含第1天的数据,file2包含第1天和第2天的数据,等等。每天我都想对该数据运行一个ETL并将其写入不同的S3位置,这样我就可以使用Athena查询它,而不会出现重复的行。本质上,我只想查询聚合数据的最新状态(这只是最近交付给S3的文件的内容)。 我认为书签不会起作用,因为增量交付包含以前文件中的数据,因此会产生重复。我知道

  • 我已经创建了一个成功执行的AWS胶水作业。但是,我无法在作业中放置任何自定义日志记录。 如何在AWS S3存储桶中创建日志文件,以便跟踪日常作业执行情况? 目前,当我的工作执行时,它会创建默认日志(即火花日志),我可以在AWS云手表中看到它。在AWS胶水中记录事件的最佳实践是什么?

  • 我需要对S3 bucket执行附加加载。 每天都有新的. gz文件被转储到S3位置,胶水爬虫读取数据并在数据曲库中更新它。 Scala AWS Glue作业运行并仅过滤当前日期的数据。 上面过滤的数据按照一些规则进行转换,并创建一个分区的动态数据帧(即年、月、日)级别。 现在,我需要将这个动态数据帧写入到S3 bucket中,其中包含所有前一天的分区。事实上,我只需要将一个分区写入S3存储桶。目前

  • 我有一个S3存储桶,每天的文件都会被丢弃。AWS爬虫从该位置爬网数据。在我的glue作业运行的第一天,它将获取AWS crawler创建的表中的所有数据。例如,在第一天就有三个文件。(即file1.txt、file2.txt、file3.txt)和glue job在执行glue job的第一天处理这些文件。第二天,另两个文件到达S3位置。现在,在S3位置,这些是存在的文件。(即file1.txt、

  • 当我试图提取1个表时,我使用AWS Glue从EC2(Postgre)提取要转换的数据,并将其放在S3上。我得到一个错误,如下所示: 有什么我能做的吗?我试图删除null字段或fillna,但这些都不起作用。

  • null 这些服务都是为了协同工作而设计的,因此必须有一个适当的方法来完成这一点。任何建议都将不胜感激:)