当前位置: 首页 > 知识库问答 >
问题:

显示pyspark失败

杜英范
2023-03-14
!pip install Pyspark
import pandas as pd
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
pdf = pd.read_excel("xxxx.xlsx", sheet_name='Input (I)')
df = spark.createDataFrame(pdf)
df.show()

但是得到一个错误:

Py4JJavaError:调用o41时出错。显示字符串:组织。阿帕奇。火花SparkException:作业因阶段失败而中止:阶段1.0中的任务0失败1次,最近一次失败:阶段1.0中的任务0.0丢失(TID 1)(10.75.81.111执行器驱动程序):org。阿帕奇。火花SparkException:Python worker无法连接回。

共有1个答案

鲁成天
2023-03-14

似乎与PySpark和Python之间的通信有关,可以通过更改环境变量的值来解决:

Set Env PYSPARK_PYTHON=python

但是,为什么不直接在PySpark DF上加载xlsx文件呢?类似于:

df = spark.read.format("com.crealytics.spark.excel") \
                            .option("useHeader", "true") \
                            .option("inferSchema", "true") \
                            .option("dataAddress", "Input (I)") \
                            .load("xxxx.xlsx"))
 类似资料:
  • 请为Pandas提供pyspark dataframe替代方案。 另外,我不需要,而是希望检查该列中的distinct值。

  • 使用pyspark数据帧,你如何做相当于熊猫 我想列出pyspark数据框列中的所有唯一值。 不是 SQL 类型方式(注册模板,然后 SQL 查询不同的值)。 此外,我不需要< code>groupby然后< code>countDistinct,而是希望检查该列中的不同值。

  • 我从JUnit测试开始。 我正试图写一个简单的测试,却发现了这个问题。 当测试正常时,它显示在结果中:测试运行: 1,失败: 0,错误: 0,跳过: 0,时间流逝: 0.008秒 当我将一个1更改为0时,它应该失败:测试运行:0,失败:0,错误:0,跳过:0,经过的时间:0.008秒,它也不会抛出应该抛出的错误消息。 我是做错了什么,还是不应该这样?试图通过谷歌搜索,但找不到类似的问题。 我正在使

  • 我正在尝试通过PySpark向cassandra表写入两行。我使用datastax cassandra连接器,方法是使用以下命令启动PySpark2 shell: 我使用以下代码创建了一个dataframe:

  • 将word2vec模型写入S3,如下所示: 我通常没有问题,所以没有AWS凭据问题,但我随机得到以下错误。 30年1月17日20:35:21警告配置实用程序:无法使用正确的权限创建临时目录:/mnt2/s3 java。nio。文件AccessDeniedException:/mnt2在sun。nio。fs。UnixexException。sun上的translateToIOException(Un

  • 问题内容: 我在使用Python 2.7(Anaconda)的OSX El Capitan。启动命令将产生: 这些都不起作用(退出时出现相同的错误)。 已是最新。我基本上尝试遵循相关问题中的所有建议,但没有成功。任何帮助表示赞赏,谢谢! 问题答案: 从此博客复制。 通过查找可能得出结论的信息,即brew安装的配置可能不正确,请打开脚本以修改其中的某些内容: 变成: 保存 然后重新安装mysql-p