当前位置：首页 > 面试题库 >

为什么SparkSession对一个动作执行两次？

仇经武

2023-03-14

问题内容：

最近升级到Spark 2.0，尝试从JSON字符串创建简单的数据集时遇到一些奇怪的行为。这是一个简单的测试用例：

 SparkSession spark = SparkSession.builder().appName("test").master("local[1]").getOrCreate();
 JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());

 JavaRDD<String> rdd = sc.parallelize(Arrays.asList(
            "{\"name\":\"tom\",\"title\":\"engineer\",\"roles\":[\"designer\",\"developer\"]}",
            "{\"name\":\"jack\",\"title\":\"cto\",\"roles\":[\"designer\",\"manager\"]}"
         ));

 JavaRDD<String> mappedRdd = rdd.map(json -> {
     System.out.println("mapping json: " + json);
     return json;
 });

 Dataset<Row> data = spark.read().json(mappedRdd);
 data.show();

并输出：

mapping json: {"name":"tom","title":"engineer","roles":["designer","developer"]}
mapping json: {"name":"jack","title":"cto","roles":["designer","manager"]}
mapping json: {"name":"tom","title":"engineer","roles":["designer","developer"]}
mapping json: {"name":"jack","title":"cto","roles":["designer","manager"]}
+----+--------------------+--------+
|name|               roles|   title|
+----+--------------------+--------+
| tom|[designer, develo...|engineer|
|jack| [designer, manager]|     cto|
+----+--------------------+--------+

即使我仅执行一项操作，“
map”功能似乎仍被执行两次。我以为Spark会懒惰地建立一个执行计划，然后在需要时执行它，但这似乎使得为了将数据读取为JSON并对其进行任何处理，该计划必须至少执行两次。

在这种简单的情况下，这并不重要，但是当map函数长时间运行时，这将成为一个大问题。这是对的，还是我缺少什么？

问题答案：

这是因为您不提供的架构DataFrameReader。结果，Spark必须急切地扫描数据集以推断输出模式。

由于mappedRdd未缓存，因此将对其进行两次评估：

一次用于模式推断
一次致电 data.show

如果要阻止，则应为阅读器提供架构（Scala语法）：

val schema: org.apache.spark.sql.types.StructType = ???
spark.read.schema(schema).json(mappedRdd)

类似资料：

为什么对这个java流进行两次操作？

Java8 API说：
为什么这个循环只执行一次？

我发现这样的php代码：我希望这个循环会执行4次，因为$I变成了对$的引用（对吗？）。然而，循环只执行一次，并输出： a=10，i=10 我不明白为什么它会这样工作。有什么想法吗？
为什么要建立执行程序状态以显示一个管道作业有两个作业？

问题内容：我正在使用groovy管道脚本来进行构建工作，因此在jenkins管道中，其工作正常。但处于构建执行器状态，它显示为正在运行的两个作业。为什么将一个作业显示为两个同名作业？有什么我想告诉詹金斯做管道作业的东西吗？问题答案：我找不到比本README更好的文档来源（问题JENKINS-35710也提供了一些信息），但是它的简短之处在于Groovy管道在主机（在flyweight执
为什么这段代码执行两个println语句，而不是一个一个打印？

在每个print语句之前使用扫描器解决了这个问题，但我想要一个好的编程方法来解决这个问题。
javascript - react组件为什么会执行两次componentDidMount？

react class组件在componentDidMount中调用初始化接口，有些时候会调用两次，通过断点发现顺序是componentDidMount->componentWillUnmount->componentDidMount，但不能稳定复现，调用的组件是页面的主入口，并非某个组件的子组件，请问有知道这个问题的么？
为什么spring对@Cacheable注释方法的一次调用执行@Cacheable keyGenerator两次

为什么spring对一个注释为@Cacheable的方法的一次调用执行我的定制@Cacheable密钥生成器两次，为什么不只执行一次。我的KeyGenerator实现我的方法用@Cacheable和自定义keyGenerator注释 spring Rest控制器，它调用用@cacheable注释的方法当我用自定义的keyGenerator对用@Cacheable注释的方法进行一次调用时，我在

相关阅读

作为一个dblink事务执行多个查询如何在PHP / MYSQL中将两个mysql查询作为一个查询执行？一个动作侦听器，两个JButton Java：tcp 为什么要三次握手，两次不行吗？为什么？为什么我的goroutine不执行？

相关文章

ChatGPT为什么这么火？操作系统是什么为什么需要Websocket?为什么使用CouchDB？为什么需要Nginx？

相关问答

为什么我的AspectJ建议被执行了两次？两个Cython函数；为什么一个工作，而另一个给出NameError？RXJava-为什么执行器只使用一个线程为什么多个RXJava可观察对象没有并行执行？为什么Spring boot在使用Eureka时执行SpringApplicationRunListener两次

相关工具

视图连续两次滑动 One一个一个类似Twitter的微博平台微信摇一摇动画效果加音效财付通打印票据和拖动银行卡效果

相关文档

Rexx 重构的扩展执行程序中文教程跟我一起来写操作系统 DIY 一个实用的 miniLAPP 服务器一个月纯 JS 挑战中文指南每周一个 Python 3 模块中文版