当前位置: 首页 > 知识库问答 >
问题:

为apache Spark编写并行代码

龚镜
2023-03-14

是否有一套我应该遵循的标准规则来确保为Spark编写的Scala代码会并行运行?

我发现自己正在编写火花代码,其中包括对mapfilter等函数的调用,我认为这些函数将并行/分布式运行。但是我真的不知道如何测试这些函数是否是并行/分布式运行的。是否有专门针对Spark的文本或可应用于Spark的通用文本来解释这一点?

共有1个答案

张宣
2023-03-14

保留RDD中的内容,例如Map Reduce ReduceBy键groupby等。如果您必须在RDD之外执行foreach操作,请使用sc.parallelize,然后为每个操作执行您的操作。

 类似资料:
  • 参考 testing tutorial,testing tools reference和advanced testing topics。 本文档分为2个主要单元。首先,我们讲解如何利用Django编写测试.之后,我们讲解如何运行测试。 编写测试 Django的单元测试使用的是Python标准库:unittest。该模块是采用基于类的测试。 unittest2 从 1.7 版本开始不推荐使用 Pyt

  • 11.3 编写代码 要完成我们的程序,我们需要创建一个Java文件。默认情况下,Maven会编译src/main/java目录下的源文件,因此您需要创建该目录结构,然后添加一个名为src/main/java/Example.java的文件: import org.springframework.boot.*; import org.springframework.boot.autoconfigur

  • 我有一些我需要的特定代码,为了能够有某些我不想每次都写的I/O东西,我只想能够添加一个Java类,这样它就已经有了那些代码,我试着做了: 基本上这个东西需要在xml中,但我不知道如何正确地编写它,我以为到处都写${filename}就可以了,但它不起作用。总而言之,我希望文件的名称写在我写“${filename}”的地方,我该怎么做呢?

  • 在进一步介绍之前,让我们花点时间来讨论编写"通用"代码时的约束条件 - 即运行在服务器和客户端的代码。由于用例和平台 API 的差异,当运行在不同环境中时,我们的代码将不会完全相同。所以这里我们将会阐述你需要理解的关键事项。 服务器上的数据响应 在纯客户端应用程序 (client-only app) 中,每个用户会在他们各自的浏览器中使用新的应用程序实例。对于服务器端渲染,我们也希望如此:每个请求

  • 我有一个基于maven的scala/java混合应用程序,可以提交spar作业。我的应用程序jar“myapp.jar”在lib文件夹中有一些嵌套的jar。其中之一是“common.jar”。我在清单文件中定义了类路径属性,比如。Spark executor抛出在客户端模式下提交应用程序时出错。类(com/myapp/common/myclass.Class)和jar(common.jar)在那里

  • 问题内容: 我想评估 作为一个块,而不是逐行评估 有没有简单的方法可以将提示移至下一行? 问题答案: 节点v6.4具有一种模式。在repl提示符下,您可以输入多行。 例 以下是所有特殊repl命令的文档 https://nodejs.org/api/repl.html#repl_commands_and_special_keys