当前位置: 首页 > 知识库问答 >
问题:

如何在Amazon EMR上的猪中使用Python流式UDF

贝钧
2023-03-14

Pig 0.12引入了流式python UDF,但它们是实验性的,因此需要Hadoop 1。

http://pig.apache.org/docs/r0.12.1/udf.html#python-自定义项

然而,Amazon提供的唯一可以使用pig 0.12的AMI是AMI 3.1.0,它使用hadoop 2.4,而不是hadoop 1:

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-hadoop-version.html

共有1个答案

陈哲
2023-03-14

您可以使用引导操作在EMR上安装自己版本的Pig。您需要在AMI(2.4.5?)版本上创建一个没有安装Pig的集群然后安装一个你喜欢的Pig版本(0.12)

 类似资料:
  • 问题内容: 我需要在Python中进行这样的导出: 我试着做: 但是当我列出导出时,“ MY_DATA”没有出现: 如何使用Python进行导出而不将“ my_export”保存到文件中? 问题答案: 你真的想做

  • 问题内容: 我想在Python中使用传统的C风格的循环。我想遍历字符串的字符,但也要知道它是什么,并且能够跳过字符(例如,代码中的5个字符)。 与并没有给我实际的for循环的灵活性。 问题答案: 简单的答案是在Python中没有简单,精确的C语句等效项。其他答案涵盖了使用带范围的Python语句。如果您希望能够在循环中修改循环变量(并影响后续的迭代),则必须使用循环: 但是在该循环中,一条语句将不

  • 我有一个有趣的拼图游戏。假设我有一个值列表: 然后我必须在另一个系统中查询

  • 我有学生类的数组。学生类有两个字段1.private最后的字符串firstName;2.private最后的布尔值是当前; 如果学生处于非活动状态,在学生类中出现的检查当前api将给出错误的值。 下面是我的DTO课程。 现在我想知道最常见的不活跃学生的名字? 我想这样做,与平行流? 什么是并行流代码?

  • 我在AWS EMR集群(4核m3.xlarge)上遇到这个问题,需要处理40GB的文本文件。FATAL[main]org.apache.hadoop.mapred.YarnUNICEF:运行子错误:java.lang.OutOfMemoryError:Java堆空间 它发生在映射过程中。作业开始几分钟后就会失败。emr-4.4.0、亚马逊2.7.1、Pig 0.14.0 我用不同的值尝试了这些命令

  • 问题内容: 该文档指出: 装饰器还提供用于清除或使高速缓存无效的功能。 它没有提供任何示例或使用指导 我有两个问题: 如何从其他功能运行? 如果我有条件地在正在缓存的函数中进行调用,它将永远执行吗? 问题答案: 除了缓存之外,decorator还向修饰后的函数-和中添加了新功能。下面是一个简单的示例,应解释它们如何工作: 回答您的问题: 如果我有条件地将cache_clear()调用放在正在缓存的