我是新的火花,我试图创建一个图形框架,并对这是我的代码做一些查询
import pyspark
from pyspark.sql import SQLContext
from graphframe import *
sc = pyspark.SparkContext()
sqlContext = SQLContext(sc)
vertices = sqlContext.createDataFrame([
("1","Alex", 28, "M","MIPT"),
("2","Emeli", 28, "F","MIPT"),
("7","Ilya", 29, "M","MSU")], ["id","name","age","gender","university"])
edges = sqlContext.createDataFrame([
("1","2","friend")
], ["src", "dst" , "type"])
g=GraphFrame(vertices,edges)
result = g.connectedComponents()
但结果显示以下错误:
我怎样才能解决这个问题,谢谢!
与异常消息中所述完全相同:
未设置检查点目录。请首先使用sc.setcheckpointdir()设置它。
您必须设置检查点目录:
sc.setCheckpointDir(path_to_checkpoint_directory)
我是PySpark的新手。我一直在用测试样本编写代码。一旦我在更大的文件上运行代码(3gb压缩)。我的代码只做了一些过滤和连接。关于py4J,我一直在出错。 任何帮助都是有益的,我们将不胜感激。 回来 更新:我使用的是py4j 10.7,刚刚更新到10.8 更新(1):添加spark。驾驶员内存: 汇总返回错误: 更新(2):我通过更改spark默认值尝试了这一点。conf文件。仍在获取错误PyS
我在运行Python 3.6.5的Jupyter笔记本和运行3.7.2的Python shell中出现了这个错误。我的操作系统是Windows10。我在这两种环境中都安装了pip pyspark。两者都使用Spark Version2.4.0,而我的Java JDK是Oracle JDK Version8,JDK1.8.0_201。这是我在这两种情况下运行的代码: 这里:Spyder中的PySpa
当我尝试运行HelloWorld时,我遇到了这个错误。类别 从这个角度看,它似乎试图运行HelloWorld/class。程序只需打印HelloWorld!。 有什么想法吗?
我正在尝试从netbeans外部启动网络服务器。我确实将DERBY_INSTALL变量设置为适当的目录,然后发出setNetworkServerCP命令,该命令也可以正常工作。但是当我尝试运行startNetworkServer时,我得到了以下错误。 C:\Users\tandons D: D:\netbeans\glassfish-v2。1\javadb\bin D:\netbeans\glas
我们正在为eclipse RCP应用程序编写SwtBot测试用例,它在eclipse中运行良好。现在,我们正在将测试套件与现有的tycho集成,这样在创建产品时,测试用例也可以执行。下面提到为SWTBot测试套件创建的pom.xml: 请让我知道配置有什么问题?