当前位置: 首页 > 知识库问答 >
问题:

AWS EMR(带有胶水目录),显式指定catalogId

严心水
2023-03-14

有没有办法在EMR配置中显式指定一个Glue catalogId?

https://docs.aws.amazon.com/emr/latest/releaseguide/emr-hive-metaxore-glue.html

共有1个答案

诸葛亮
2023-03-14

看起来这是最近添加的。相关属性为hive.metastore.glue.catalogid,位于hive-site

https://docs.aws.amazon.com/emr/latest/releaseguide/emr-hive-metaxore-glue.html

“此外,使用Amazon EMR 5.16.0和更高版本,您可以使用配置分类在不同的AWS帐户中指定数据目录。”

“若要在其他AWS帐户中指定数据编录,请添加Hive.MetaStore.Glue.CatalogID属性,如下例所示。”

 类似资料:
  • 我已经创建了一个成功执行的AWS胶水作业。但是,我无法在作业中放置任何自定义日志记录。 如何在AWS S3存储桶中创建日志文件,以便跟踪日常作业执行情况? 目前,当我的工作执行时,它会创建默认日志(即火花日志),我可以在AWS云手表中看到它。在AWS胶水中记录事件的最佳实践是什么?

  • 我每天都有csv文件被传递到S3,这些文件在当月是增量的。所以file1包含第1天的数据,file2包含第1天和第2天的数据,等等。每天我都想对该数据运行一个ETL并将其写入不同的S3位置,这样我就可以使用Athena查询它,而不会出现重复的行。本质上,我只想查询聚合数据的最新状态(这只是最近交付给S3的文件的内容)。 我认为书签不会起作用,因为增量交付包含以前文件中的数据,因此会产生重复。我知道

  • 我正在使用AWS Glue爬行器来爬行大约170 GB的avro数据,以创建一个数据目录表。 avro数据中有几个不同的模式版本,但爬虫程序仍然能够将数据合并到一个表中(我启用了“按数据兼容性和模式相似性分组-模式”)。 这就是事情出现问题的时候。 我只能使用雅典娜从 一个简短的Google检查让我相信这与avro文件中的模式有关。 通常,这是我集中精力的地方,但是:我已经能够做完全相同的程序(A

  • 对于要在拼花格式的S3存储桶中的数据上运行的作业,有两种方法: > 使用 由于我的数据方案不会及时更改,使用爬虫程序是否有任何优势(性能方面或其他方面)?在这种情况下,我为什么需要爬虫?

  • 当我试图提取1个表时,我使用AWS Glue从EC2(Postgre)提取要转换的数据,并将其放在S3上。我得到一个错误,如下所示: 有什么我能做的吗?我试图删除null字段或fillna,但这些都不起作用。

  • Zeppelin属性配置中是否有任何属性需要设置?? 提前道谢。