当前位置: 首页 > 面试题库 >

将pyspark中的Python模块运送到其他节点

苍温文
2023-03-14
问题内容

如何将C编译模块(例如python-
Levenshtein)运送到Spark集群中的每个节点?

我知道我可以使用独立的Python脚本(以下示例代码)在Spark中运送Python文件:

from pyspark import SparkContext
sc = SparkContext("local", "App Name", pyFiles=['MyFile.py', 'MyOtherFile.py'])

但是在没有“ .py”的情况下,我该如何运送模块?


问题答案:

如果可以将模块打包到.egg.zip文件中,则在pyFiles构造SparkContext时应该可以将其列出(或者以后可以通过sc.addPyFile进行添加)。

对于使用setuptools的Python库,您可以运行python setup.py bdist_egg以构建egg发行版。

另一种选择是通过在每台计算机上使用pip / easy_install或通过在群集范围内的文件系统(如NFS)上共享Python安装来在群集范围内安装库。



 类似资料:
  • 该部分 API 将帮助您使用其他 mBuild 电子模块。 注意:你需要额外购买包含 mBuild 电子模块扩展包或套装来获得 mBuild 模块以使用这些功能。 省略代码中的halocode 注意:该部分 API 省略了“halocode.”,本篇提及的所有 API 均省略了“halocode.” ,如 led_driver.off( )实际为halocode.led_driver.off()。

  • 问题内容: 我已经在工作,但是当我尝试从其他模块调用它时,是否会不确定? app.js Consumer.js 问题答案: 由于app.js通常是应用程序中的主要初始化模块,因此通常会同时初始化Web服务器和socket.io并加载应用程序所需的其他内容。 因此,与其他模块共享的一种典型方法是将它们传递给该模块的构造函数中的其他模块。那会像这样工作: 然后,在consumer.js中: 或者,如果

  • 其他模块 (40%) Nginx的模块种类挺多的,除了HTTP模块,还有一些核心模块和mail系列模块。核心模块主要是做一些基础功能,比如Nginx的启动初始化,event处理机制,错误日志的初始化,ssl的初始化,正则处理初始化。 mail模块可以对imap,pop3,smtp等协议进行反向代理,这些模块本身不对邮件内容进行处理。 core模块 (40%) Nginx的启动模块 (40%) 启动

  • 我使用的是sbt 0.13.8和xsbt-web-plugin 2.0.3 我有一个多模块sbt项目。打包时,其中一个模块应该是war文件的形式。所有其他的都在jar文件中。 当我添加xsbt-web插件时,打包会为所有模块生成jar和war。如何告诉xsbt-web插件仅将自身应用于应该打包为war的模块? 我已经找到了一个解决方案,那就是为每个非战争模块修改packagedArtifacts列

  • 我的项目是用Angular CLI版本1.2.6生成的。 我可以编译项目,它的工作原理很好,但我总是得到错误的VSCode告诉我: 我已经附上了我的文件这让我非常沮丧,花了2个小时来找出问题所在,我还卸载并重新安装了VSCode,但它不起作用。 以下是我的环境规范: 微软vs 10企业版 项目根文件夹 node_modules文件夹 :