im关注亚马逊文档,向emr集群提交spark作业https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/
在按照说明进行操作后,使用frecuent进行故障排除,它由于未解析的地址与消息类似而失败。
错误火花。SparkContext:初始化SparkContext时出错。Java语言lang.IllegalArgumentException:java。网未知后异常:ip-172-32-1-231。us-east-2。计算组织内部。阿帕奇。hadoop。安全SecurityUtil。org上的buildTokenService(SecurityUtil.java:374)。阿帕奇。hadoop。hdfs。NameNodeProxies。在org上创建NonHaproxy(NameNodeProxies.java:310)。阿帕奇。hadoop。hdfs。NameNodeProxies。createProxy(NameNodeProxies.java:176)
当我看到它试图解析的IP是主节点时,我在配置文件(从主节点的/etc/hadoop/conf目录中获得的配置文件)中用sed将其更改为public。但是错误是连接到数据节点
信息hdfs。DFSClient:createBlockOutputStream组织中出现异常。阿帕奇。hadoop。网ConnectTimeoutException:等待通道准备好连接时超时60000毫秒。ch:java。nio。频道。组织上的SocketChannel[连接挂起远程=/172.32.1.41:50010]。阿帕奇。hadoop。网NetUtils。在org上连接(NetUtils.java:533)。阿帕奇。hadoop。hdfs。DFSOutputStream。在org上创建socketforpipeline(DFSOutputStream.java:1606)。阿帕奇。hadoop。hdfs。DFSOutputStream$数据流。在org上创建blockoutputstream(DFSOutputStream.java:1404)。阿帕奇。hadoop。hdfs。DFSOutputStream$数据流。位于org的nextBlockOutputStream(DFSOutputStream.java:1357)。阿帕奇。hadoop。hdfs。DFSOutputStream$数据流。运行(DFSOutputStream.java:587)2008年2月19日13:54:58信息hdfs。DFSClient:放弃BP-1960505320-172.32.1.231-1549632479324:blk\U 1073741907\U 1086
最后,我在上传资源文件时,在createBlockOutputStream中尝试了与此问题相同的解决方案=Spark HDFS异常
将其添加到hdfs站点。xml文件如下:
<property>
<name>dfs.client.use.datanode.hostname</name>
<value>true</value>
</property>
但该错误作为未解析的地址异常持续存在
19/02/08 13:58:06 WARN hdfs.DFSClient: DataStreamer Exception
java.nio.channels.UnresolvedAddressException
at sun.nio.ch.Net.checkAddress(Net.java:101)
at sun.nio.ch.SocketChannelImpl.connect(SocketChannelImpl.java:622)
at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:192)
at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:530)
at org.apache.hadoop.hdfs.DFSOutputStream.createSocketForPipeline(DFSOutputStream.java:1606)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1404)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:1357)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:587)
有人能帮我在本地机器上设置spark,让spark提交到远程EMR吗?
除了按照链接问题的答案,您还应该将工作节点的(公共)IP和(私有)DNS添加到您的 /etc/hosts文件中。
编辑:我以前尝试过设置没有引号的母版。 在此之后,我得到以下错误: 我的Spark Master在工作列表中显示该工作失败,所以我成功地连接到我的Master。 一切都设置为默认设置。一些建议为什么会发生这种情况?
每个人都试着用https://console.developers.google.com/project/_/mc/template/hadoop? Spark对我来说安装正确,我可以SSH进入hadoop worker或master,Spark安装在/home/hadoop/Spark install/ 我可以使用spark python shell在云存储中读取文件 lines=sc.text
可以任何一个请让我知道如何提交火花作业从本地和连接到卡桑德拉集群。 目前,我在通过putty登录到Cassandra节点并提交下面的dse-spark-submit job命令后提交了Spark作业。
问题内容: 但是有很多歧义和提供的一些答案…包括在jars / executor / driver配置或选项中复制jar引用。 How ClassPath is affected Driver Executor (for tasks running) Both not at all Separation character: comma, colon, semicolon If provided
也许一定有一个更合适的方式来提交火花工作。有人知道如何将Apache Spark作业远程提交到hDinsight吗? 多谢!
18:02:55,271错误UTILS:91-中止任务java.lang.nullpointerException在org.apache.spark.sql.catalyst.expressions.generatedClass$GeneratedIterator.agg_doAggregateWithKeys$(未知源)在org.apache.spark.sql.catalyst.express