当前位置：首页 > 知识库问答 >

问题：

在SparkR中使用CreateDataFrame时“作业因阶段失败而中止”

盖诚

2023-03-14

library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
sparkR.session(master = "spark://master:7077", sparkConfig = list(spark.cores.max="8", spark.executor.cores = "4"))
data(iris)
iris = createDataFrame(iris)
head(iris)

我的理解是，这是SparkR的一个非常基本的功能，所以我真的不知道为什么它不能工作。由于某种原因，当我使用read.jdbc直接从数据源读取sparkDataFrame时，我没有问题。还有，我注意到错误行中的数字“：stage xxx中的task 0..”每次失败时递增1。

我还注意到，错误似乎来自于执行程序找不到rscript的二进制文件，尽管我不确定为什么这只会发生在从本地data.frames创建的SparkDataFrames中，而不是从外部数据源中提取的SparkDataFrames中。

有人能帮我一下吗？

头（查雷克斯）
头（查雷克斯）
.local（x,...)
取（x,num)
取（x,num)
收藏（有限）
收藏（有限）
.local（x,...)
calljstatic（“org.apache.spark.sql.api.r.sqlutils”,“dftoCols”,.x@sdf)
InvokeJava（isStatic=TRUE,className,methodName,...)
停止（readString（conn））

共有1个答案

通和裕

2023-03-14

我是这样理解的：

read.jdbc起作用的原因是，在节点上，不需要r来执行操作：驱动程序(r运行的地方）将命令转换为spark，然后将其复制到工作节点并在工作节点上执行。

createdataframe失败的原因是它作为r命令复制到工作节点，因此节点需要访问rscript。

类似资料：

在SparkR中使用CreateDataFrame时“由于阶段失败而中止作业”

按照本帖中的说明操作(https://spark.apache.org/docs/latest/sparkr.html#from-本地数据帧）我正在使用以下代码创建sparkdataframe：但是函数总是导致以下错误。我得到同样的错误，当我试图运行以及。我也尝试过而不是createDataFrame。我还尝试在我的ipython笔记本中重新启动内核，并重新启动我的火花会话。我的理解是，这是S
Apache Spark:作业因阶段失败而中止：“TID x因未知原因失败”

我正在处理一些奇怪的错误信息，我认为这可以归结为内存问题，但我很难确定它，可以从专家那里得到一些指导。我有一个两台机器的Spark（1.0.1）集群。两台机器都有8个核心；一台有16GB内存，另一台有32GB内存（这是主）。我的应用程序涉及计算图像中的成对像素亲和力，尽管我测试的图像到目前为止只有1920x1200大，16x16小。我确实必须改变一些内存和并行性设置，否则我会得到显式的OutO
SonarQube jenkins作业因“无法执行请求”而失败

我们正在运行SonarQube 4.5.1，并使用Jenkins和SonarQube插件运行项目分析。从三天前开始，我们在一些作业中遇到以下错误消息。如果我将URL复制到浏览器，我会收到以下消息： “您仅被授权执行本地（试运行）SonarQube分析，而无需将结果推送到SonarQube服务器。请与您的SonarQube管理员联系。” 背景 "期望selectOne（）返回一个结果（或null）
当Nightwatch测试断言在Browserstack中失败时，Jenkins作业失败

问题内容：我有一个Jenkins作业，它通过Nightwatch.js框架在Browserstack上运行Selenium测试。我们有一套完整的测试程序，可以让守夜人在不同的进程中运行，并且我们需要一种在所有测试运行后将通过/失败值返回给Jenkins的方法。我一直在尝试使用Nightwatch挂钩在每个模块的末尾运行一段代码，但是我无法弄清楚需要采取什么措施才能使Jenkins作业可以访问该
Google Cloud Dataproc最后阶段作业失败引发的火花

我在Dataproc上使用Spark集群，但我的作业在处理结束时失败了。我的数据源是Google Cloud Storage上csv格式的文本日志文件（总量为3.5TB，5000个文件）。处理逻辑如下：将文件读到DataFrame（模式[“timestamp”,“message”])；将所有邮件分组到1秒的窗口中；对每个分组消息应用管道[tokenizer->HashingTF]以提取单
Amazon EMR作业失败：由于步骤失败而关闭

我正在写一个简单的流媒体地图减少工作使用Python在亚马逊电子病历上运行。它基本上是用户记录的聚合器，将每个用户标识的条目分组在一起。制图器减速机：此作业应在包含五个文本文件的目录上运行。EMR作业的参数包括：输入：[桶名]/[输入文件夹名] 输出：[存储桶名称]/Output 映射器：[Bucket name]/Mapper.py Reducer:[存储桶名称]/Reducer.py

相关问答

Amazon EMR作业失败：由于步骤失败而关闭 XQuery（saxon）因模式而失败（XPath工作）GitHub操作在作业失败时禁用自动取消 Jenkins作业DSL -管道阶段 PowerMockito（with Mockito）因ExceptionInInitializerError而失败

相关文章

表单验证因缺少CSRF而失败 Hadoop Mapper因“ ApplicationMaster杀死容器”而失败使用pyodbc时，SQL查询失败，但可在SQL中使用 Jenkins管道使shell退出代码冒泡以使阶段失败使用DBMS_JOB在Oracle中创建作业

相关阅读

JavaScript中私有作用域的使用作业帮二面作业帮一面 Apache Ant任务失败 ArrayList解析以及快速失败和安全失败机制

相关工具

SparkR Cacti中文企业版进阶2048 WeBWorK 家庭作业布置系统 e家宜业

相关文档

JCL 作业控制语言中文文档企业微信使用手册 Python 进阶应用教程滴滴企业版帮助中心 Sphinx 中文使用手册