pandas dataframe转spark dataframe报错

翟冷勋

2023-12-01

本文并没有解决掉bug～

样例代码：
spark_df=spark.createdataframe(pandas_df)
注：pandas_df是一个pandas dataframe变量

报错信息：
session.py line 584 createDataFrame
session.py line 420 in _createFromLocal
context.py line 474 in parallelize
context.py line 399 defaultParallelism
AttributeError：“Nonetype” object has no attribute “defaultParallelism”

解决思路：
1、NoneType一般都是数据出问题
fillna将None都替换为‘’后，仍报错。
fillna将None都替换为‘-999’后，仍报错。
2、除了pandas_df只有一个变量就是spark,所以看看spark
首先在NoteBook中输入spark??查看，
找到的createDataFrame方法，也找到了报错信息中提到的_createFromLocal
继续深挖_createFromLocal中的parallelize,
parallelize中的defaultParallelism
发现整个调用大概是
定位至spark中某个属性为Nonetype
于是乎,决定print所有涉及到的对象,看看会发生什么

print(spark) print(spark._sc)
print(spark._sc.parallelize)
print(spark._sc._jsc.str)
print(spark._sc._jsc)
print(spark._sc.sc())
print(spark._sc.sc().defaultParallelism)

在spark刚初始化结束,与报错前都添加了以上代码,奇怪的事情发生了…
某几个对象刚初始化是正常的,但在转pandasdataframe时,为null了.神奇.

然后就想看从spark初始化,到报错前,具体哪一小段代码,发生了对象为null的情况,
将以上print代码复制粘贴了7-8吧,重跑代码…

问题不能重现了,一直跑了20多遍的无法复现…

pandas dataframe转spark dataframe报错

相关阅读

相关文章

相关问答

相关文档