我可以从AWS弹性Mapreduce作业访问zookeeper吗

楚奇逸

2023-03-14

我是Hadoop的新手，并且在AWS弹性MapReduce下运行。

我需要在Hadoop中使用集群范围的原子计数器，因此有人建议使用zookeeper。

我相信zookeeper是Hadoop堆栈的一部分（对吗？），我如何从弹性Mapreduce作业访问它，以便设置和更新集群范围内的计数器？

共有2个答案

訾俊名

2023-03-14

你可以，就像Praveen Sripati回答的那样。但我不想澄清以下几点：

请记住，zk的写入速率有限（每秒~300个请求）
客户端可以看到陈旧的数据（zk不保证副本之间的读取一致性）。

我建议使用专用的序列生成器服务器，它将为您生成序列（并且这个服务可以使用Zk或者它想要的任何东西）。这类服务的一个示例:https://github.com/kasabi/h1

周正真

2023-03-14

我相信zookeeper是Hadoop堆栈的一部分（对吗？）

ZooKeeper(ZK)不是Hadoop堆栈的一部分。它是Apache下的顶级项目(TLP)，独立于Hadoop。因此，首先必须在EC2上安装ZK。下面是相同的说明。

如何从弹性Mapreduce作业访问它以设置和更新群集范围内的计数器？

一旦安装了ZK，就可以使用ZK API生成集群范围的计数器。这里（1和2）讨论了该方法的利弊。以下是ZK在相同需求下的一些其他替代方案。

类似资料：

是否可以限制MapReduce作业访问远程数据？

问题内容：我们有要与HDFS集成的特定算法。该算法要求我们在本地访问数据（该工作将专门在中完成）。但是，我们确实希望在分发文件方面（提供可靠性和条带化）利用HDFS。计算完成后，我们将使用来简单地将答案发送回去，而不是执行任何其他工作。避免使用网络是一个明确的目标。是否存在允许我们限制网络数据访问的配置设置，以便在启动MapReduce作业时仅访问其本地DataNode？更新：添加一些上下文
弹性 MapReduce（Elastic MapReduce）

Amazon Elastic MapReduce (EMR)是一种Web服务，它提供了一个托管框架，以简单，经济高效且安全的方式运行Apache Hadoop，Apache Spark和Presto等数据处理框架。它用于数据分析，Web索引，数据仓库，财务分析，科学模拟等。如何设置Amazon EMR？请按照以下步骤设置Amazon EMR - Step 1 - 登录AWS账户并在管理控制台
我可以从Socket.io访问cookie吗？

问题内容：我想在cookie中设置一些用户信息并能够在连接时访问它，这可能吗？问题答案：由于Cookie始终指向最后登录的用户，因此会导致竞争情况。请参阅：Socket.IO身份验证使用connect-redis并将redis用作所有经过身份验证的用户的会话存储。确保通过身份验证将密钥（通常是req.sessionID）发送给客户端。让客户端将此密钥存储在cookie中。在套接字连接（
AWS胶水-从作业内部访问工作流参数

如何从胶水作业中检索胶水工作流参数？我有一个“Python Shell”类型的AWS胶水作业，它从胶水工作流中定期触发。该作业的代码将在大量不同的工作流中重用，因此我希望检索工作流参数，以消除对冗余作业的需求。 AWS开发人员指南提供了以下教程：https://docs.AWS.amazon.com/glue/latest/dg/workflow-run-properties-code.htm
AWS弹性MapReduce下Hive查询的慢速性能

我遇到了一个奇怪的问题，我向你保证我已经谷歌了很多次。谢谢
AWS Lambda可以从其他地区访问S3桶吗？

我目前尝试使用AWS lambda。lambda函数应该从S3 bucket加载zip文件(>10 MB）。S3桶位于中，而lambda函数位于中。当我尝试保存lambda函数时，我得到： GetObject时出错。S3错误代码：AuthorizationHeaderMalformed。S3错误消息：授权头格式错误；“US-East-1”区域错误；应为“EU-Central-1” 这真的是问题所

我可以从AWS弹性Mapreduce作业访问zookeeper吗

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档