当前位置：首页 > 面试题库 >

如何在Hadoop流作业中包含python软件包？

夔桐

2023-03-14

问题内容：

我正在尝试在Hadoop流作业中包括一个python软件包（NLTK），但不确定如何通过CLI参数“ -file”手动不包括每个文件来执行此操作。

编辑：一种解决方案是在所有从站上安装此软件包，但是我目前没有该选项。

问题答案：

我会将软件包压缩为a.tar.gz或a，.zip然后将整个tarball或归档文件作为-file选项传递给hadoop命令。过去我是用Perl做到的，而Python却没有。

也就是说，如果你使用Python我认为这对你仍然工作zipimport在http://docs.python.org/library/zipimport.html，它允许你直接从ZIP导入模块。

类似资料：

如何在Sublime Text 2插件中包含第三方Python软件包

问题内容：我正在编写一个使用模块SEAPI.py的sublime text 2插件，该插件本身会导入请求模块。由于sublime text2使用它自己的嵌入式python解释器，因此看不到我的ubuntu机器上安装的请求模块（我收到以下错误：ImportError：没有名为请求的模块）。到目前为止，我能找到的最佳解决方案是将“请求”模块（文件的整个目录）从/usr/lib/python2.7
如何在setuptools / distutils中包含软件包数据？

问题内容：使用setuptools时，无法让安装程序提取任何文件。我读过的所有内容都表明，以下是正确的方法。有人可以请教吗？数据文件的位置在哪里。问题答案：我知道这是一个老问题，但人们发现这里通过谷歌自己的方式：是低了下来，肮脏的谎言。它仅在构建二进制软件包（）时使用，而在构建源软件包（）时不使用。当然，这是荒谬的-人们希望构建源代码分发将导致文件的集合，这些文件可以发送给其他人
如何在hadoop中调度作业

我是hadoop新手，我写了一些作业并将它们导出为jar文件。我可以使用hadoop jar命令运行它们，我想每一小时运行一次这些作业。我该怎么做？提前谢谢。
如何在py2exe exe中包含Python包

尝试转换多个时。使用py2exe将文件复制到exe文件中我得到错误：回溯（最近一次调用上次）：文件“ParentWindow.py”，第7行，in 提到的“FileAnalysers1”是包含. py脚本的python包。如何在exe中包含整个包？
如何在HTML文件中包含python脚本？

问题内容：我该如何放置此python脚本：在html文件中？问题答案：像这样的东西，如果要创建一个html，不一定要显示它：
Anaconda：永久包含外部软件包（例如PYTHONPATH中的软件包）

问题内容：我知道如何使用Anaconda安装软件包，以及如何安装PyPi上的软件包，如手册中所述。但是，如何才能将软件包/文件夹永久包含在Anaconda环境中，以便可以导入当前正在使用的代码，并且在重新启动后仍然可用？我当前的方法是使用：这不是很方便。有什么提示吗？提前致谢！问题答案：我在Anaconda论坛中找到了两个问题的答案： 1.）将模块放入站点包中，即始终位于的目录中。

如何在Hadoop流作业中包含python软件包？

相关阅读

相关文章

相关问答

相关工具

相关文档