问题：

奴隶丢失，加入火花的速度很慢

俞衡虑

2023-03-14

    df= df1.join(df2, df1.col1== df2.col2, 'inner')
    df.show()

    Py4JJavaError: An error occurred while calling o109.showString.

    : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 8.0 failed 4 times, most recent failure: Lost task 0.3 in stage 8.0 : ExecutorLostFailure (executor 1 exited caused by one of the running tasks) Reason: Slave lost

共有1个答案

惠文彬

2023-03-14

如果使用scala，请尝试

val df = df1.join(df2,Seq("column name"))

如果pyspark

df = df1.join(df2,["columnname"])

或

df = df1.join(df2,df1.columnname == df2.columnname)
display(df)

df1.createOrReplaceTempView("left_test_table")
df2..createOrReplaceTempView("right_test_table")
left <- sql(sqlContext, "SELECT * FROM left_test_table")
right <- sql(sqlContext, "SELECT * FROM right_test_table")

head(drop(join(left, right), left$name))

类似资料：

火花速度试验

我通过连接到一个有500'000'000行和14列的数据库。下面是使用的代码：上面的代码花了9秒来显示DB的前20行。后来，我创建了一个SQL临时视图上面的代码用了1355.79秒（大约23分钟）。这样可以吗？这似乎是一个大量的时间。最后，我尝试计算数据库的行数用了2848.95秒（约48分钟）。是我做错了什么，还是这些数额是标准的？
Jenkins奴隶的静态分析失败

收集静态分析结果时，我在Jenkins从属节点上的作业失败。相同的作业在Jenkins主节点上运行良好。我尝试使用ssh凭据或通过“执行命令”连接Jenkins，结果相同。主服务器和从服务器使用相同的Java版本：OpenJDK Zulu 8.20.0.5-linux64。我试图清理Maven repo、. jenkins/缓存和slave.jar-没有帮助。slave.jar是正确的文件，
Kubernetes-Jenkins奴隶离线

我想和Kubernetes一起经营jenkins。我能够成功地使用jenkins kubernetes插件连接到kubernetes。现在，我正在运行一个管道示例，但是在运行过程中，我总是得到一个错误，上面写着：它就挂在那里。如果我使用检查pods，我会看到pod正在运行，然后状态更改为completed，然后它就消失了。然后另一个名字相似的豆荚，开始和结束，循环继续。这些豆荚的最后一种状态如下
给詹金斯增加一个奴隶

我想在詹金斯增加一个奴隶。我遵循了https://wiki.jenkins-ci.org/display/jenkins/step+by+step+guide+to+set+up+master+和+slave+machines中的步骤。有什么想法可能会出问题吗？我检查过了，我确实有连接权限。
从詹金斯奴隶加载Groovy脚本

我有一个jenkins管道，它加载如下groovy实用程序脚本：当我在主节点上执行管道时，一切都很好。在这种情况下，我可以在管道中使用类Utils中的方法。当我试图在一个从系统中执行管道时，我的问题出现了。在这种情况下，上述负载会导致错误 Java语言io。IOException：java。io。FileNotFoundException:/var/lib/jenkins/utils/util
卡珊德拉火花连接器数据丢失

刚才，我们使用datastax spark连接器计算了一些统计数据。重复的查询在每次执行时返回不同的结果。这可能是卡桑德拉、火花或连接器的问题吗？在每一种情况下，是否存在一些配置方法来防止这种情况？

奴隶丢失，加入火花的速度很慢

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档