当前位置: 首页 > 知识库问答 >
问题:

找不到spark应用程序输出

冯皓
2023-03-14

我有一个集群,我可以成功启动,至少这是出现在web UI上,我在其中看到这些信息

URL: spark://Name25:7077
REST URL: spark://Name25:6066 (cluster mode)
Alive Workers: 10
Cores in use: 192 Total, 0 Used
Memory in use: 364.0 GB Total, 0.0 B Used
Applications: 0 Running, 5 Completed
Drivers: 0 Running, 5 Completed
Status: ALIVE
./bin/spark-submit --class myapp.Main --master spark://Name25:7077 --deploy-mode cluster /home/lookupjar/myapp-0.0.1-SNAPSHOT.jar /home/etud500.csv  /home/
./bin/spark-submit --class myapp.Main --master spark://Name25:6066 --deploy-mode cluster /home/lookupjar/myapp-0.0.1-SNAPSHOT.jar /home//etud500.csv  /home/result

我收到这个消息

使用REST应用程序提交协议运行Spark。使用Spark默认的log4j配置文件:org/apache/spark/log4j-defaults.properties 16/08/31 16:59:06 INFO restsubmissionclient:提交请求以在Spark://name25:6066中启动应用程序。16/08/31 16:59:06信息RESTSubmissionClient:提交成功创建为Driver-20160831165906-0004。轮询提交状态。..16/08/31 16:59:06 INFO RestSubmissionClient:在Spark://name25:6066中提交提交人状态的请求-20160831165906-0004。16/08/31 16:59:06 INFO RestSubmissionClient:driver driver的状态-20160831165906-0004现在正在运行。16/08/31 16:59:06 INFO RestSubmissionClient:驱动程序正在工作人员上运行工人-20160831143117-10.0.10.48-38917在10.0.10.48:38917。16/08/31 16:59:06 INFO RESTSubmissionClient:服务器用createSubbMissionResponse响应:{“操作”:“createSubbMissionResponse”,“消息”:“Driver成功提交为Driver-20160831165906-0004”,“ServersParkVersion”:“2.0.0”,“SubmissionID”:“Driver-20160831165906-0004”,“Success”:true}

我认为这是成功的,但是我的应用程序应该有3个输出到给定的路径(/home/result),因为我在代码中使用了:

path =args [1];
rdd1.saveAsTextFile(path+"/rdd1");
rdd2.saveAsTextFile(path+"/rdd2");
rdd3.saveAsTextFile(path+"/rdd3");

问题2:如果它表明提交成功和已完成的申请,为什么我找不到3个输出文件夹?

共有1个答案

杜联
2023-03-14

使用6066提交并不表示您的作业已成功完成。它只是发送请求,作业在后台运行。您必须在spark UI上检查作业完成的状态。

如果作业已经完成,并且作业生成了输出文件,则可以使用以下命令检查文件:

hadoop dfs -ls <path>/rdd1
 类似资料:
  • 我刚刚在Intellij中设置了Scala(以及SDK和JDK) 文件- 创建了一个项目。 项目名称src下-- 我做错了什么。请帮忙

  • 我第一次手工将AngularJS和spring boot应用程序连接在一起。我遇到的问题是@RestController没有返回索引页: 目录: 它会继续呈现默认的404错误页面: ----------------更新1------------------ 我添加了一个配置文件: 重新控制器 主要类别: 上面的主类仍然返回默认的404错误页面。

  • 我试图发送一个按钮点击到另一个应用程序,在这种情况下,它是一个Java的应用程序。我使用的是FindWindow()。我可以使用SendKeys。发送密钥到应用程序窗口,但是当我尝试单击注册按钮时,Findwindowex()返回0作为按钮指针。我唯一的想法是,也许FindWindowEx()不喜欢父句柄和子句柄相同,但在这种情况下没有子窗口句柄。任何帮助都将不胜感激。

  • 我在Spark版本2.3.0中有一个简单的Spark流应用程序,它将每个处理批次的结果放在HDFS上。我的应用程序运行在部署模式客户端的Thread上,我使用的是kerberized hadoop集群(hadoop2.6.0-cdh5.9.3)。我在spark submit命令中设置了--principal和--keytab。 几天后,我的应用程序无法在HDFS上写入,因为缓存中缺少委托令牌。重新

  • 问题内容: 我曾经运行过Flask应用。如果将变量更改为,则Gunicorn给出错误。为什么会出现此错误,我该如何解决? myproject.py: wsgi.py: 问题答案: Gunicorn(和大多数WSGI服务器)默认在你指向的模块中查找可调用的名称。添加别名或将使再次发现可调用对象。 但是,wsgi.py不需要文件或别名,Gunicorn可以直接指向实际模块并可以调用。 Gunicorn