当前位置：首页 > 面试题库 >

如何安装pyspark以在独立脚本中使用？

葛成双

2023-03-14

问题内容：

我正在尝试将Spark与Python结合使用。我从下载页面安装了适用于Hadoop
2二进制发行版的Spark 1.0.2
。我可以在Python交互模式下浏览快速入门示例，但是现在我想编写一个使用Spark的独立Python脚本。该快速启动文件说只进口pyspark，但这并不工作，因为这不是我的PYTHONPATH。

我可以运行bin/pyspark并看到模块安装在下方SPARK_DIR/python/pyspark。我可以手动将其添加到我的PYTHONPATH环境变量中，但是我想知道首选的自动化方法。

添加pyspark对独立脚本的支持的最佳方法是什么？我setup.py在Spark安装目录下没有任何地方。如何为依赖Spark的Python脚本创建pip包？

问题答案：

您可以按照建议手动设置PYTHONPATH，这在本地安装上测试独立的非交互式脚本时可能对您很有用。

但是，（py）spark只是关于将您的作业分配到群集上的节点。每个集群都有一个定义管理器和许多参数的配置。有关设置的详细信息，请参见此处，并包括一个简单的本地群集（这可能对测试功能很有用）。

在生产中，您将通过spark-
submit提交任务以引发spark，这会将您的代码分发到群集节点，并为它们在这些节点上运行创建上下文。但是，您确实需要确保节点上的python安装具有所有必需的依赖关系（建议的方式），或者确保依赖关系随代码一起传递（我不知道它是如何工作的）。

类似资料：

lnmp如何独立安装php?

这边项目用lnmp1.9构建的,一开始只安装了nginx 使用 ./install.sh nginx 命令下载的是lnmp1.9-full 完整包现因业务需求,需要安装php环境求问如何通过lnmp独立安装php环境? 使用./install.sh mphp 不管用
Django独立脚本

问题内容：我试图从另一个python脚本访问我的Django（v1.10）应用程序数据库，但遇到了一些麻烦。这是我的文件和文件夹结构：根据Django的文档，我看起来像这样：但它会生成运行时错误：我应该注意，我的INSTALLED_APPS列表包含了它的最后一个元素。相反，如果我尝试通过这样的配置：我得到：如果我进行编辑和添加，LOGGING_CONFIG=None则会遇到另一个有
4.2. 如何使用脚本安装 Composer？

我们如何以编程的方式安装 Composer? 如下载页面所指出的，这个安装程序包含一个签名,当安装程序代码发生改变时,它会随之发生改变,因此不应该长期依赖。还有另一种方法，就是使用只对 UNIX 实用程序工作的脚本： #!/bin/sh EXPECTED_SIGNATURE="$(wget -q -O - https://composer.github.io/installer.sig)" p
如何在脚本所在的目录中使用python脚本安装npm模块

文件结构应如下所示：（包含已安装的npm模块的文件夹）我试过这个：错误：回溯（最后一次调用）：文件“c:\Users\Alifreeze.vscode\extensions\ms python.python-2020.1.58038\pythonFiles\ptvsd_launcher.py”，主文件（ptvsdArgs）第43行“c:\Users\Alifreeze.vscode\ext
如何安装grunt以及如何用它构建脚本

嗨，我正在尝试安装Grunt在windows7 64位。我已经使用命令安装了Grunt 但现在如果我尝试执行，它会给我抛出一个错误- 找不到有效的Gruntfile。有关如何配置Grunt的更多信息，请参阅入门指南：http://gruntjs.com/gett-started致命错误：无法找到GruntFile。但当我在系统中查看grunt文件夹时，就在那里。可以有人请指导我如何安装这个gru
如何在flink独立安装上执行kerberos身份验证？

我有一个独立的Flink安装，我想在上面运行一个流作业，将数据写入HDFS安装。HDFS安装是Cloudera部署的一部分，需要Kerberos身份验证才能读取和写入HDFS。由于我没有找到关于如何使Flink连接到受Kerberos保护的HDFS的文档，因此我不得不对该过程进行一些有根据的猜测。以下是我目前所做的： > 我为我的用户创建了一个keytab文件在我的Flink工作中，我添加了以下

相关阅读

使用distutils / setuptools在安装后执行Python脚本 cronjob无法执行独立运行的脚本如何通过Python脚本以编程方式安装Python模块？安装车轮后发布安装脚本如何在npm脚本中使用“监视”？

相关文章

Xpath Helper安装使用 TensorFlow TFLearn安装和使用 DBMS独立磁盘的冗余阵列（RAID）JavaScript之文本框脚本（表单脚本）Nginx安装（从Linx包安装）

相关问答

使用XAMPP1.6附带的PHP独立安装MySQL。2.在windows上安装pyspark 如何在一个Sparkcontext中从Pyspark中的独立线程运行多个作业？如何在Jenkins中执行Liquibase脚本，而不将Liquibase插件安装为shell脚本在安装后使用distutils/setupols执行Python脚本

相关工具

独立于window的按钮 Monster 脚本 Qore 脚本语言 Lerx 安装程序 J2me 游戏脚本引擎

相关文档

IPsec VPN 服务器一键安装脚本 GitBook 安装配置使用 PySpark 中文教程 Shell 脚本学习精通脚本黑客