当前位置: 首页 > 面试题库 >

如何安装pyspark以在独立脚本中使用?

葛成双
2023-03-14
问题内容

我正在尝试将Spark与Python结合使用。我从下载页面安装了适用于Hadoop
2二进制发行版的Spark 1.0.2
。我可以在Python交互模式下浏览快速入门示例,但是现在我想编写一个使用Spark的独立Python脚本。该快速启动文件说只进口pyspark,但这并不工作,因为这不是我的PYTHONPATH。

我可以运行bin/pyspark并看到模块安装在下方SPARK_DIR/python/pyspark。我可以手动将其添加到我的PYTHONPATH环境变量中,但是我想知道首选的自动化方法。

添加pyspark对独立脚本的支持的最佳方法是什么?我setup.py在Spark安装目录下没有任何地方。如何为依赖Spark的Python脚本创建pip包?


问题答案:

您可以按照建议手动设置PYTHONPATH,这在本地安装上测试独立的非交互式脚本时可能对您很有用。

但是,(py)spark只是关于将您的作业分配到群集上的节点。每个集群都有一个定义管理器和许多参数的配置。有关设置的详细信息,请参见此处,并包括一个简单的本地群集(这可能对测试功能很有用)。

在生产中,您将通过spark-
submit提交任务以引发spark,这会将您的代码分发到群集节点,并为它们在这些节点上运行创建上下文。但是,您确实需要确保节点上的python安装具有所有必需的依赖关系(建议的方式),或者确保依赖关系随代码一起传递(我不知道它是如何工作的)。



 类似资料:
  • 这边项目用lnmp1.9构建的,一开始只安装了nginx 使用 ./install.sh nginx 命令 下载的是lnmp1.9-full 完整包 现因业务需求,需要安装php环境 求问如何通过lnmp独立安装php环境? 使用./install.sh mphp 不管用

  • 问题内容: 我试图从另一个python脚本访问我的Django(v1.10)应用程序数据库,但遇到了一些麻烦。 这是我的文件和文件夹结构: 根据Django的文档,我看起来像这样: 但它会生成运行时错误: 我应该注意,我的INSTALLED_APPS列表包含了它的最后一个元素。 相反,如果我尝试通过这样的配置: 我得到: 如果我进行编辑和添加,LOGGING_CONFIG=None则会遇到另一个有

  • 我们如何以编程的方式安装 Composer? 如下载页面所指出的,这个安装程序包含一个签名,当安装程序代码发生改变时,它会随之发生改变,因此不应该长期依赖。 还有另一种方法,就是使用只对 UNIX 实用程序工作的脚本: #!/bin/sh EXPECTED_SIGNATURE="$(wget -q -O - https://composer.github.io/installer.sig)" p

  • 文件结构应如下所示: (包含已安装的npm模块的文件夹) 我试过这个: 错误: 回溯(最后一次调用):文件“c:\Users\Alifreeze.vscode\extensions\ms python.python-2020.1.58038\pythonFiles\ptvsd_launcher.py”,主文件(ptvsdArgs)第43行“c:\Users\Alifreeze.vscode\ext

  • 嗨,我正在尝试安装Grunt在windows7 64位。我已经使用命令安装了Grunt 但现在如果我尝试执行,它会给我抛出一个错误- 找不到有效的Gruntfile。有关如何配置Grunt的更多信息,请参阅入门指南:http://gruntjs.com/gett-started致命错误:无法找到GruntFile。 但当我在系统中查看grunt文件夹时,就在那里。可以有人请指导我如何安装这个gru

  • 我有一个独立的Flink安装,我想在上面运行一个流作业,将数据写入HDFS安装。HDFS安装是Cloudera部署的一部分,需要Kerberos身份验证才能读取和写入HDFS。由于我没有找到关于如何使Flink连接到受Kerberos保护的HDFS的文档,因此我不得不对该过程进行一些有根据的猜测。以下是我目前所做的: > 我为我的用户创建了一个keytab文件 在我的Flink工作中,我添加了以下