EMR集群中的Zeppelin未在AWS胶水中列出目录表

司徒锐进

2023-03-14

Zeppelin属性配置中是否有任何属性需要设置？？

提前道谢。

共有1个答案

沈乐邦

2023-03-14

EMR 5.9.0刚刚发布（才9个小时！）-应该对你有用。

相关文件：

http://docs.aws.amazon.com/emr/latest/releaseguide/emr-release-components.html

类似资料：

在AWS胶水中登录

我已经创建了一个成功执行的AWS胶水作业。但是，我无法在作业中放置任何自定义日志记录。如何在AWS S3存储桶中创建日志文件，以便跟踪日常作业执行情况？目前，当我的工作执行时，它会创建默认日志（即火花日志），我可以在AWS云手表中看到它。在AWS胶水中记录事件的最佳实践是什么？
AWS EMR（带有胶水目录），显式指定catalogId

有没有办法在EMR配置中显式指定一个Glue catalogId？ https://docs.aws.amazon.com/emr/latest/releaseguide/emr-hive-metaxore-glue.html
AWS胶水

我每天都有csv文件被传递到S3，这些文件在当月是增量的。所以file1包含第1天的数据，file2包含第1天和第2天的数据，等等。每天我都想对该数据运行一个ETL并将其写入不同的S3位置，这样我就可以使用Athena查询它，而不会出现重复的行。本质上，我只想查询聚合数据的最新状态（这只是最近交付给S3的文件的内容）。我认为书签不会起作用，因为增量交付包含以前文件中的数据，因此会产生重复。我知道
如何告诉spark和zeppelin在AWS EMR中使用本地maven.m2目录？

我创建了一个aws AMI，其中包含一个本地maven存储库，它位于/usr/local/ 当我使用pyspark--packages导入jar包时，EMR实例在/home/hadoop中创建一个.ivy目录。Zeppellin将在/var/lib/zeppelin/local-repo中创建一个ID作为名称的目录我如何指向pyspark、spark和zeppelin来使用我的本地maven存储
为什么hdfs在Hadoop集群中抛出LeaseExpiredException（AWS EMR）

tail-f/var/log/hadoop-hdfs/hadoop-hdfs-namenode-ip-172-30-2-148.log 2016-09-21 11:54:14,533 INFO BlockStateChange（8020上的IPC Server handler 10）：Block*InvalidateBlocks：添加blk_107374750_6677到172.30.2.189:
AWS胶水-avro到拼花地板-从目录中获取空框架的胶水作业

我正在使用AWS Glue爬行器来爬行大约170 GB的avro数据，以创建一个数据目录表。 avro数据中有几个不同的模式版本，但爬虫程序仍然能够将数据合并到一个表中（我启用了“按数据兼容性和模式相似性分组-模式”）。这就是事情出现问题的时候。我只能使用雅典娜从一个简短的Google检查让我相信这与avro文件中的模式有关。通常，这是我集中精力的地方，但是：我已经能够做完全相同的程序（A

EMR集群中的Zeppelin未在AWS胶水中列出目录表

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档