问题：

在纱线卡斯特模式下在本地文件中捕获火花执行器日志

宓英哲

2023-03-14

我在yarn集群模式下运行spark streaming,我想捕获日志并将其写入驱动程序本地文件，为此我创建了自定义log4j.properties文件，其中我提到了驱动程序的本地文件路径，但我只能在该文件中看到驱动程序日志，为什么我的执行器日志没有在该文件中捕获，以及如何捕获执行器日志。我尝试了不同的方法，我的spark-submit命令如下：-

spark-submit --master yarn --deploy-mode yarn-cluster
--conf "spark.driver.extraJavaOptions=-Dlog4j.configuration=file:/home/log/conf/log4j.properties"
--conf "spark.executor.extraJavaOptions=-Dlog4j.configuration=file:/home/log/conf/log4j.properties" --class com.Word.count.SparkStream /home/project/WordCount/target/Count-0.0.1-SNAPSHOT.jar

共有1个答案

汪臻

2023-03-14

您可以发布log4j.properties，我假设您可以在executor节点本地目录中看到executor日志

类似资料：

火花增加纱线模式下的执行器数量

我正在4节点群集上运行Spark over纱线。节点中每台机器的配置为128GB内存，每个节点24核CPU。我使用此命令运行Spark on 但Spark最多只能启动16个执行者。我将纱线中的最大vcore分配设置为80（在我拥有的94芯中）。因此，我的印象是，这将启动19名执行人，但最多只能启动16名执行人。此外，我认为即使这些执行者也没有完全使用分配的vCore。这些是我的问题 spark为
火花在本地运行，但在纱线运行时找不到文件

我一直试图提交一个简单的python脚本，以便在一个带有Yarn的集群中运行它。当我在本地执行作业时，没有问题，一切都很好，但当我在集群中运行它时，它就失败了。诊断：文件不存在:hdfs://myserver:8020/user/josholsan/.sparkstaging/application_1510046813642_0010/test.py 我不知道为什么它找不到test.py，我也
为在纱线模式下运行的每个火花作业配置log4j

我正在纱线客户端模式下运行火花作业。我在unix脚本中使用Spark提交命令运行这些作业。我想为正在运行的每个火花作业创建日志。我尝试使用以下命令获取日志：但在这里，如果spark作业失败，它将不会在命令状态检查中被捕获，可能是unix检查|$tee命令的状态，无论spark作业成功还是失败，该命令始终是成功的我尝试使用log4j但没有成功。我想将每个火花作业日志文件存储在本地unix服务器上
火花提交纱线模式HADOOP_CONF_DIR内容

我正在从我的开发机器上启动spark-submit。根据在YARN文档上运行Spark，我应该在env var或上为hadoop集群配置提供一个路径。这就是它变得棘手的地方：如果我将任务发送到远程YARN服务，为什么这些文件夹必须存在于我的本地机器上？这是否意味着spark-submit必须位于集群内部，因此我不能远程启动spark任务？如果没有，我应该用什么填充这些文件夹？我应该从任务管理器服
如何运行火花壳与纱在客户模式？

我已经在一个15节点的Hadoop集群上安装了。所有节点都运行和最新版本的Hadoop。Hadoop集群本身是功能性的，例如，YARN可以成功地运行各种MapReduce作业。我可以使用以下命令在节点上本地运行Spark Shell，而不会出现任何问题:。你知道为什么我不能用客户端模式在纱线上运行Spark Shell吗？
火花脂肪罐在纱线上运行多个版本

然而，我不知道我是否真的需要一个插件，如果需要，是哪一个，以及如何去做它。我尝试使用'build/mvn'和'build/sbt'直接编译github源代码，但是'spark-assembly2.11-2.0.2.jar'文件只有283字节。我的目标是使用较新版本的fat jar运行pyspark shell，其方式与这里提到的类似。

在纱线卡斯特模式下在本地文件中捕获火花执行器日志

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档