当前位置: 首页 > 知识库问答 >
问题:

在SparkR中使用CreateDataFrame时“作业因阶段失败而中止”

盖诚
2023-03-14
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
sparkR.session(master = "spark://master:7077", sparkConfig = list(spark.cores.max="8", spark.executor.cores = "4"))
data(iris)
iris = createDataFrame(iris)
head(iris)

我的理解是,这是SparkR的一个非常基本的功能,所以我真的不知道为什么它不能工作。由于某种原因,当我使用read.jdbc直接从数据源读取sparkDataFrame时,我没有问题。还有,我注意到错误行中的数字“:stage xxx中的task 0..”每次失败时递增1。

我还注意到,错误似乎来自于执行程序找不到rscript的二进制文件,尽管我不确定为什么这只会发生在从本地data.frames创建的SparkDataFrames中,而不是从外部数据源中提取的SparkDataFrames中。

有人能帮我一下吗?

  1. 头(查雷克斯)
  2. 头(查雷克斯)
  3. .local(x,...)
  4. 取(x,num)
  5. 取(x,num)
  6. 收藏(有限)
  7. 收藏(有限)
  8. .local(x,...)
  9. calljstatic(“org.apache.spark.sql.api.r.sqlutils”,“dftoCols”,.x@sdf)
  10. InvokeJava(isStatic=TRUE,className,methodName,...)
  11. 停止(readString(conn))

共有1个答案

通和裕
2023-03-14

我是这样理解的:

read.jdbc起作用的原因是,在节点上,不需要r来执行操作:驱动程序(r运行的地方)将命令转换为spark,然后将其复制到工作节点并在工作节点上执行

createdataframe失败的原因是它作为r命令复制到工作节点,因此节点需要访问rscript

 类似资料:
  • 按照本帖中的说明操作(https://spark.apache.org/docs/latest/sparkr.html#from-本地数据帧)我正在使用以下代码创建sparkdataframe: 但是函数总是导致以下错误。我得到同样的错误,当我试图运行以及。我也尝试过而不是createDataFrame。我还尝试在我的ipython笔记本中重新启动内核,并重新启动我的火花会话。 我的理解是,这是S

  • 我正在处理一些奇怪的错误信息,我认为这可以归结为内存问题,但我很难确定它,可以从专家那里得到一些指导。 我有一个两台机器的Spark(1.0.1)集群。两台机器都有8个核心;一台有16GB内存,另一台有32GB内存(这是主)。我的应用程序涉及计算图像中的成对像素亲和力,尽管我测试的图像到目前为止只有1920x1200大,16x16小。 我确实必须改变一些内存和并行性设置,否则我会得到显式的OutO

  • 我们正在运行SonarQube 4.5.1,并使用Jenkins和SonarQube插件运行项目分析。从三天前开始,我们在一些作业中遇到以下错误消息。 如果我将URL复制到浏览器,我会收到以下消息: “您仅被授权执行本地(试运行)SonarQube分析,而无需将结果推送到SonarQube服务器。请与您的SonarQube管理员联系。” 背景 "期望selectOne()返回一个结果(或null)

  • 问题内容: 我有一个Jenkins作业,它通过Nightwatch.js框架在Browserstack上运行Selenium测试。我们有一套完整的测试程序,可以让守夜人在不同的进程中运行,并且我们需要一种在所有测试运行后将通过/失败值返回给Jenkins的方法。 我一直在尝试使用Nightwatch挂钩在每个模块的末尾运行一段代码,但是我无法弄清楚需要采取什么措施才能使Jenkins作业可以访问该

  • 我在Dataproc上使用Spark集群,但我的作业在处理结束时失败了。 我的数据源是Google Cloud Storage上csv格式的文本日志文件(总量为3.5TB,5000个文件)。 处理逻辑如下: 将文件读到DataFrame(模式[“timestamp”,“message”]); 将所有邮件分组到1秒的窗口中; 对每个分组消息应用管道[tokenizer->HashingTF]以提取单

  • 我正在写一个简单的流媒体地图减少工作使用Python在亚马逊电子病历上运行。它基本上是用户记录的聚合器,将每个用户标识的条目分组在一起。 制图器 减速机: 此作业应在包含五个文本文件的目录上运行。EMR作业的参数包括: 输入:[桶名]/[输入文件夹名] 输出:[存储桶名称]/Output 映射器:[Bucket name]/Mapper.py Reducer:[存储桶名称]/Reducer.py