在使用python和pyspark开发数据管道时,我面临以下错误。
PS C:\用户\文件夹\文档\文件夹\项目\code\etl-gd\src\作业\更大数据
代码非常简单,只需尝试一下:
from pyspark.conf import SparkConf
print("hello world")
Java、spark、python和pyspark的正确安装如下:
> PS
> C:\Users\folder\Documents\folder\projects\code\etl-gd\src\jobs\greater-data>
> java -version java version "1.8.0_241" Java(TM) SE Runtime Environment
> (build 1.8.0_241-b07) Java HotSpot(TM) 64-Bit Server VM (build
> 25.241-b07, mixed mode) PS C:\Users\folder\Documents\folder\projects\code\etl-gd\src\jobs\greater-data>
> PS
> C:\Users\folder\Documents\folder\projects\code\etl-gd\src\jobs\greater-data> python --version
> Python 3.7.6
> PS
> C:\Users\folder\Documents\folder\projects\code\etl-gd\src\jobs\greater-data>
> spark-shell --version Welcome to
> ____ __
> / __/__ ___ _____/ /__
> _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.4.3
> /_/
>
> Using Scala version 2.11.12, Java HotSpot(TM) 64-Bit Server VM,
> 1.8.0_231 Branch heads/v2.4.3 Compiled by user vaviliv on 2019-09-17T17:31:05Z Revision c3e32bf06c35ba2580d46150923abfa795b4446a
> Url https://github.com/apache/spark Type --help for more information.
> PS
> C:\Users\folder\Documents\folder\projects\code\etl-gd\src\jobs\greater-data>
> pyspark --version
> Welcome to
> ____ __
> / __/__ ___ _____/ /__
> _\ \/ _ \/ _ `/ __/ '_/
> /___/ .__/\_,_/_/ /_/\_\ version 2.4.3
> /_/
>
> Using Scala version 2.11.12, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_231
> Branch heads/v2.4.3
> Compiled by user vaviliv on 2019-09-17T17:31:05Z
> Revision c3e32bf06c35ba2580d46150923abfa795b4446a
> Url https://github.com/apache/spark
> Type --help for more information.
提前感谢您的帮助。
我得到了它。我创建了一个独立的虚拟环境,因为我的计算机中有一些python和spark版本。
我使用的是Apache-Spark(pyspark),一切都很好。现在,我正在尝试加载一个可能存在也可能不存在的数据。因此,我试图捕捉Py4JJavaError并试图按以下方式导入它: 解压缩此文件时:/usr/local/cellar/apache-spark/1.6.2/python/lib/py4j-0.9-src.zip 我找不到。 我做错了什么?我应该使用其他地方/路径吗?
问题内容: 我有两个文件, app.py mod_login.py 而python返回此错误: 如果删除from app import app,代码将起作用,但是如何访问? 问题答案: 问题是你有一个循环导入:在app.py中 在mod_login.py中 这在Python中是不允许的。有关更多信息,请参见Python中的循环导入依赖项。简而言之,解决方案是 要么将所有内容收集到一个大文件中 使用
我的笔记本一直工作到今天。在我的colab笔记本开始时,我安装了tf-nigh,但现在它给了我这个错误: 我的代码: 安装tensorflow==2.1.0也不起作用。
问题内容: 目前,我已经将Django的版本从升级到,并且在调用时突然出现以下错误: 完整跟踪: 问题答案: Django 3.0.0发行说明指定删除了某些私有的Python 2兼容性API。其中有。 对于此错误,@ WillemVanOnsem特别指出该模块正在引用该模块。 对于遇到相同问题的其他人,查看stacktrace的最后一行上的文件路径可以帮助识别有问题的模块。我看到的另一个例子是:
最近,我将Django framework的版本从升级到,在调用命令后,突然出现了以下异常: 重要错误:无法从django.utils导入名称六(/path-to-project/project/venv/lib/python3.7/site-包/django/utils/init.py) 完整跟踪: 类似问题: 我读了这个问题和这个django-3.0发行说明,但是这些资源帮不了我。
问题内容: 我正在尝试运行以下简单代码 但我收到以下错误 我正在Windows 10下使用python 2.7。 我已经安装了,但是似乎无法解决问题 任何帮助表示赞赏。 问题答案: 如果查看引起错误的行,则会看到以下内容: 该行注释将依赖项声明为(对于 Intel Math Kernel Library )。这意味着您已经安装了by ,但是the是由预编译的存档安装的,其期望值为。 通过从此处的w