当前位置: 首页 > 知识库问答 >
问题:

奴隶丢失,加入火花的速度很慢

俞衡虑
2023-03-14
    df= df1.join(df2, df1.col1== df2.col2, 'inner')
    df.show()
    Py4JJavaError: An error occurred while calling o109.showString.

    : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 8.0 failed 4 times, most recent failure: Lost task 0.3 in stage 8.0 : ExecutorLostFailure (executor 1 exited caused by one of the running tasks) Reason: Slave lost

共有1个答案

惠文彬
2023-03-14

如果使用scala,请尝试

val df = df1.join(df2,Seq("column name"))

如果pyspark

df = df1.join(df2,["columnname"])

df = df1.join(df2,df1.columnname == df2.columnname)
display(df)
df1.createOrReplaceTempView("left_test_table")
df2..createOrReplaceTempView("right_test_table")
left <- sql(sqlContext, "SELECT * FROM left_test_table")
right <- sql(sqlContext, "SELECT * FROM right_test_table")

head(drop(join(left, right), left$name))
 类似资料:
  • 我通过连接到一个有500'000'000行和14列的数据库。 下面是使用的代码: 上面的代码花了9秒来显示DB的前20行。 后来,我创建了一个SQL临时视图 上面的代码用了1355.79秒(大约23分钟)。这样可以吗?这似乎是一个大量的时间。 最后,我尝试计算数据库的行数 用了2848.95秒(约48分钟)。 是我做错了什么,还是这些数额是标准的?

  • 收集静态分析结果时,我在Jenkins从属节点上的作业失败。 相同的作业在Jenkins主节点上运行良好。我尝试使用ssh凭据或通过“执行命令”连接Jenkins,结果相同。 主服务器和从服务器使用相同的Java版本:OpenJDK Zulu 8.20.0.5-linux64。 我试图清理Maven repo、. jenkins/缓存和slave.jar-没有帮助。slave.jar是正确的文件,

  • 我想和Kubernetes一起经营jenkins。我能够成功地使用jenkins kubernetes插件连接到kubernetes。现在,我正在运行一个管道示例,但是在运行过程中,我总是得到一个错误,上面写着: 它就挂在那里。如果我使用检查pods,我会看到pod正在运行,然后状态更改为completed,然后它就消失了。然后另一个名字相似的豆荚,开始和结束,循环继续。这些豆荚的最后一种状态如下

  • 我想在詹金斯增加一个奴隶。我遵循了https://wiki.jenkins-ci.org/display/jenkins/step+by+step+guide+to+set+up+master+和+slave+machines中的步骤。 有什么想法可能会出问题吗? 我检查过了,我确实有连接权限。

  • 我有一个jenkins管道,它加载如下groovy实用程序脚本: 当我在主节点上执行管道时,一切都很好。在这种情况下,我可以在管道中使用类Utils中的方法。 当我试图在一个从系统中执行管道时,我的问题出现了。在这种情况下,上述负载会导致错误 Java语言io。IOException:java。io。FileNotFoundException:/var/lib/jenkins/utils/util

  • 刚才,我们使用datastax spark连接器计算了一些统计数据。重复的查询在每次执行时返回不同的结果。 这可能是卡桑德拉、火花或连接器的问题吗?在每一种情况下,是否存在一些配置方法来防止这种情况?