当前位置：首页 > 文档资料 > Databricks Spark 知识库 >

性能 & 优化 - 数据本地性

优质

小牛编辑

158浏览

2023-12-01

Spark 是一个并行数据处理框架，这意味着任务应该在离数据尽可能近的地方执行(既最少的数据传输)。

检查本地性

检查任务是否在本地运行的最好方式是在 Spark UI 上查看 stage 信息，注意下面截图中的 "Locality Level" 列显示任务运行在哪个地方。

调整本地性配置

你可以调整 Spark 在每个数据本地性阶段(data local --> process local --> node local --> rack local --> Any)上等待的时长。更多详细的参数信息请查看程序配置文档的 Scheduling 章节里类似于 spark.locality.* 的配置。

阅读原文

免责声明：以上内容版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。感谢每一位辛勤著写的作者，感谢每一位的分享。