当前位置: 首页 > 知识库问答 >
问题:

从应用程序运行弹性Mapreduce配置单元查询

濮阳景天
2023-03-14

我在elastic mapreduce上以交互模式运行了Hive:

    null

有人对我如何做到这一点有什么建议吗?

共有1个答案

皇甫福
2023-03-14

您可以使用mrjob。它允许您在Python 2.5+中编写MapReduce作业,并在几个平台上运行它们。

另一个选择是HiPy,这是一个很棒的项目,可能足以满足你的所有需求。HiPy的目的是支持在Python中编程构造配置单元查询,并更容易地管理查询,包括使用转换脚本的查询。

HiPy支持在查询构造、转换脚本和后处理的单个脚本中进行分组。这有助于脚本的可跟踪性、文档化和可重用性。所有内容都显示在一个位置,可以使用Python注释来记录脚本。

转换脚本可以包含在Python脚本的主体中。HiPy将负责提供要配置单元的脚本代码,以及向Python数据类型发送/发送数据的序列化和反序列化代码。如果任何数据列包含JSON,HiPy也负责将其转换为Python数据类型/从Python数据类型转换。

有关详细信息,请查看文档!

 类似资料:
  • 我正在编写一个执行配置单元命令的shell脚本,将日志和输出信息写入两个单独的文件: 执行结束时的日志文件如下所示: Log4j: WARN在org.apache.log4j中没有这样的属性[maxBackupIndex]。log4j: WARN在org.apache.log4j中没有这样的属性[maxFilesize]。DailyRollingFileAppender.SLF4J:类路径包含多个

  • Amazon Elastic MapReduce (EMR)是一种Web服务,它提供了一个托管框架,以简单,经济高效且安全的方式运行Apache Hadoop,Apache Spark和Presto等数据处理框架。 它用于数据分析,Web索引,数据仓库,财务分析,科学模拟等。 如何设置Amazon EMR? 请按照以下步骤设置Amazon EMR - Step 1 - 登录AWS账户并在管理控制台

  • 我有一些配置单元作业在YARN中执行,所以在YARN中,如果我列出应用程序,我会看到一些配置单元应用程序和相应的Templeton应用程序。那么,在Ambari中,我如何看到那些正在运行的配置单元应用程序正在执行的实际配置单元查询呢?安巴里对此提供了任何选择吗?

  • 项目POM文件 应用程序属性文件 用户存储库文件

  • 我正在尝试在EMR集群的S3上运行一个配置单元脚本。 通过SSH连接到EMR集群时,键入 作品但是,我希望这是自动完成的,所以我创建了一个python脚本,并试图向集群添加一个步骤。但是,我无法运行此步骤,即使是通过AWS控制台手动添加此步骤。对于jar文件,我指定了“command runner.jar”,但无论我随后使用什么参数(我用另一个线程建议的“hive-f s3://…”尝试了它,但不