问题：

显示pyspark失败

杜英范

2023-03-14

!pip install Pyspark
import pandas as pd
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
pdf = pd.read_excel("xxxx.xlsx", sheet_name='Input (I)')
df = spark.createDataFrame(pdf)
df.show()

但是得到一个错误：

Py4JJavaError：调用o41时出错。显示字符串：组织。阿帕奇。火花SparkException：作业因阶段失败而中止：阶段1.0中的任务0失败1次，最近一次失败：阶段1.0中的任务0.0丢失（TID 1）（10.75.81.111执行器驱动程序）：org。阿帕奇。火花SparkException:Python worker无法连接回。

共有1个答案

鲁成天

2023-03-14

似乎与PySpark和Python之间的通信有关，可以通过更改环境变量的值来解决：

Set Env PYSPARK_PYTHON=python

但是，为什么不直接在PySpark DF上加载xlsx文件呢？类似于：

df = spark.read.format("com.crealytics.spark.excel") \
                            .option("useHeader", "true") \
                            .option("inferSchema", "true") \
                            .option("dataAddress", "Input (I)") \
                            .load("xxxx.xlsx"))

类似资料：

在pyspark DataFrame中显示不同的列值：python

请为Pandas提供pyspark dataframe替代方案。另外，我不需要，而是希望检查该列中的distinct值。
在 pyspark 数据帧中显示不同的列值

使用pyspark数据帧，你如何做相当于熊猫我想列出pyspark数据框列中的所有唯一值。不是 SQL 类型方式（注册模板，然后 SQL 查询不同的值）。此外，我不需要< code>groupby然后< code>countDistinct，而是希望检查该列中的不同值。
JUnit测试失败时显示0，测试正常时显示1

我从JUnit测试开始。我正试图写一个简单的测试，却发现了这个问题。当测试正常时，它显示在结果中：测试运行： 1，失败： 0，错误： 0，跳过： 0，时间流逝： 0.008秒当我将一个1更改为0时，它应该失败：测试运行：0，失败：0，错误：0，跳过：0，经过的时间：0.008秒，它也不会抛出应该抛出的错误消息。我是做错了什么，还是不应该这样？试图通过谷歌搜索，但找不到类似的问题。我正在使
pyspark Cassandra：写入语句失败

我正在尝试通过PySpark向cassandra表写入两行。我使用datastax cassandra连接器，方法是使用以下命令启动PySpark2 shell：我使用以下代码创建了一个dataframe：
Pyspark随机写入tos3失败

将word2vec模型写入S3，如下所示：我通常没有问题，所以没有AWS凭据问题，但我随机得到以下错误。 30年1月17日20:35:21警告配置实用程序：无法使用正确的权限创建临时目录：/mnt2/s3 java。nio。文件AccessDeniedException：/mnt2在sun。nio。fs。UnixexException。sun上的translateToIOException（Un
'pip install MySQL-python'失败，并显示'IndexError'

问题内容：我在使用Python 2.7（Anaconda）的OSX El Capitan。启动命令将产生：这些都不起作用（退出时出现相同的错误）。已是最新。我基本上尝试遵循相关问题中的所有建议，但没有成功。任何帮助表示赞赏，谢谢！问题答案：从此博客复制。通过查找可能得出结论的信息，即brew安装的配置可能不正确，请打开脚本以修改其中的某些内容：变成：保存然后重新安装mysql-p

显示pyspark失败

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档