今天运行spark任务在调用sc.saveAsTextFile
保存数据时出错:
Caused by: org.jets3t.service.ServiceException: Service Error Message. -- ResponseCode: 404, ResponseStatus: Not Found, XML Error Message: <Error><Code>NoSuchKey</Code><Message>
但是参看结果文件却没有出现异常,查阅资料貌似时因为Hadoop的版本问题。换一个版本就好了。
后续1:
改了版本之后还是会出现这个问题,后来发现是task太长了,任务丢失了。
解决方案:
将spark.default.parallelism
调大一点。
后续2:
发现改这个不是办法,因为效率变低了。后来又在网上找到了一个链接,说是spark.yarn.executor.memoryOverhead
的问题,把这个调大一点。需要注意的是,这个参数在client模式下不会启用。
解决方案:
将spark.yarn.executor.memoryOverhead
调大一点,使用cluster模式测试