问题：

使用气流dag run创建EMR群集，任务完成后，EMR将终止

艾英范

2023-03-14

我有气流作业，它们在EMR集群上运行良好。我需要的是，假设我有4个气流作业，需要一个EMR集群，比如说20分钟来完成任务。为什么我们不能在DAG运行时创建一个EMR集群，一旦作业完成，它将终止创建的EMR集群。

共有3个答案

范华清

2023-03-14

最好的方法可能是在创建EMR集群的Airflow DAG的根部有一个节点，然后在DAG的最末端有另一个节点，在所有其他节点完成后将集群向下旋转。

强才捷

2023-03-14

检查我的实现，DAG将创建emr集群，并针对s3中的数据运行spark作业，完成后自动终止。

https://beyondexperiment.com/vijayravichandran06/aws-emr-orchestrate-with-airflow/

马国源

2023-03-14

当然，这将是资源的最有效利用。让我警告你：这里面有很多细节；我会尽量列出尽可能多的让你开始。我鼓励您添加自己的全面答案，列出您遇到的任何问题和解决方案（一旦您完成此操作）

关于集群创建/终止

不要担心，如果你不使用AWS秘书访问密钥（并完全依赖于IAM角色）；实例化任何AWS相关的钩子或操作符在气流将自动返回到基础EC2的附加IAM角色

如果您没有使用EMR-Steps API进行作业提交，那么您还必须使用Sensors手动检测上述操作。已经有一个用于轮询创建阶段的传感器叫做EmrJobFlowSensor，您可以稍微修改它来创建一个用于终止的传感器

在job_flow_extra中传递群集配置JSON。您也可以传递配置在一个连接的（如my_emr_conn）额外的参数，但避免这样做，因为它经常打破SQLAlChemyORM加载（因为它是一个大的json）

关于工作提交

对于特定于应用程序的情况（如Hive，Livy），您可以使用它们的特定方式。例如，您可以使用HiveServer2Hook提交Hive作业。这里有一个棘手的部分：run\u job\u flow（）调用（在集群创建阶段进行）只会为您提供一个job\u flow\u id（集群id）。必须使用EmrHook调用description\u cluster（）来获取主节点的私有IP。使用此选项，您将能够以编程方式创建连接（例如Hive Server 2 Thrift连接），并使用它将计算提交到集群。在完成工作流程之前，不要忘记删除这些连接（为了美观）。

最后是与集群交互的老bash。为此，您还应该在群集创建阶段传递一个EC2密钥对。之后，您可以以编程方式创建一个SSH连接，并使用它（带有SSHHook或SSHoperator）在群集上运行作业。在Airflow中阅读更多关于SSH的内容

特别是对于提交Spark作业到远程Emr集群，请阅读此讨论

使用气流dag run创建EMR群集，任务完成后，EMR将终止

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档