当前位置: 首页 > 面试题库 >

如何在pyspark中获取Python库?

向杜吟
2023-03-14
问题内容

我想在pyspark中使用matplotlib.bblpath或shapely.geometry库。

当我尝试导入其中任何一个时,出现以下错误:

>>> from shapely.geometry import polygon
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
ImportError: No module named shapely.geometry

我知道该模块不存在,但是如何将这些软件包带到我的pyspark库中?


问题答案:

在Spark上下文中,尝试使用:

SparkContext.addPyFile("module.py")  # also .zip

,引用文档:

为将来要在此SparkContext上执行的所有任务添加.py或.zip依赖项。传递的路径可以是本地文件,HDFS(或其他受Hadoop支持的文件系统)中的文件或HTTP,HTTPS或FTP
URI。



 类似资料:
  • 问题内容: 我必须知道按了什么键,但不需要字符的代码,我想知道何时有人按下“ A”键,即使获得的键是“ a”或“ A”,等等。 。 我不能使用PyGame或任何其他库(包括Tkinter)。仅Python标准库。这必须在终端而不是图形界面中完成。 不需要字符代码。我需要知道关键代码。 例如: 问题答案: 请参阅tty标准模块。它允许使用tty.setcbreak(sys.stdin)从默认的面向行

  • 我的Spark-version=2.3.1,Scala-version-2.11.8。 产生的错误: 文件“/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”,第172行,加载文件“/usr/local/spark/python/lib/py4j-0.10.7-src.zip/pyspark/py4j/java_ga

  • 问题内容: 我正在尝试使用Flask构建一个简单的API,现在我想在其中读取一些。我使用扩展程序进行,而我发布的就是。我尝试使用以下方法读取JSON: 在浏览器上,它可以正确返回我放入GET中的UUID,但是在控制台上,它只是打印出来(我希望它可以在其中打印出来。有人知道我如何从方法中获取发布的吗? 问题答案: 首先,该.json属性是一个委托给的属性,该属性记录了您None在此处看到的原因。 您

  • 问题内容: 我有一个多线程Python程序和一个实用程序函数,该函数写出时间戳记和消息。不幸的是,结果日志文件没有给出哪个线程正在生成哪个消息的指示。 我希望能够在消息中添加一些内容,以标识哪个线程正在调用它。显然,我可以使线程将这些信息传递进去,但这将需要更多的工作。是否有一些我可以使用的等效线程? 问题答案: ,或者(或对于Python <2.6)。

  • 问题内容: 获取当前时间的模块/方法是什么? 问题答案: 采用: 而只是时间: 有关更多信息,请参见文档。 要保存输入,可以datetime从datetime模块中导入对象: 然后datetime.从以上所有位置移除引线。

  • 问题内容: 我正在尝试获取Selenium Webdriver中的标题。类似于以下内容: 我需要使用网络驱动程序,因为它支持Flash和测试网页所需的其他功能。这是我到目前为止在Selenium中拥有的东西: 我还看到了一些其他建议,建议运行整个selenium服务器以获取此信息(https://github.com/derekargueta/selenium- profiler )。我如何使用与