当前位置: 首页 > 知识库问答 >
问题:

RDD. foreach()和RDD. map()之间的区别

郁光熙
2023-03-14

我正在学习Python中的Spark,想知道有没有人能解释一下动作foreach()和转换map()之间的区别?

<代码>rdd。map()返回一个新的RDD,就像Python中的原始map函数一样。然而,我想看到一个rdd。foreach()函数并理解其差异。谢谢

共有2个答案

魏彦
2023-03-14

映射是一种转换,因此,当您执行映射时,您将对RDD中的每个元素应用一个函数,并返回一个新的RDD,其中可以调用其他转换或操作。

Foreach是一个动作,它接受每个元素并应用一个函数,但不返回值。这在您必须调用RDD并在其他地方记录结果时特别有用,例如数据库或使用RDD中的每个元素调用REST API。

例如,假设您有一个RDD,其中包含许多您希望登录到另一个系统中的查询。查询存储在RDD中。

queries = <code to load queries or a transformation that was applied on other RDDs>

然后,您希望通过调用另一个API将这些查询保存到另一个系统中

import urllib2

def log_search(q):
    response = urllib2.urlopen('http://www.bigdatainc.org/save_query/' + q)

queries.foreach(log_search)

现在您已经在RDD的每个元素上执行了log_query。如果您已经完成了映射,那么在您调用操作之前什么都不会发生。

苗康平
2023-03-14

一个非常简单的例子是rdd。foreach(print),它将打印RDD中每一行的值,但不会以任何方式修改RDD。

例如,这将生成一个数字为1-10的RDD:

>>> rdd = sc.parallelize(xrange(0, 10)).map(lambda x: x + 1)
>>> rdd.take(10)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

map调用为每一行计算了一个新值,并返回该值,以便获得一个新的RDD。但是,如果我使用foreach,那将是无用的,因为foreach不会以任何方式修改rdd:

>>> rdd = sc.parallelize(range(0, 10)).foreach(lambda x: x + 1)
>>> type(rdd)
<class 'NoneType'>

相反,在返回的函数上调用map不是很有用:

>>> rdd = sc.parallelize(range(0, 10)).map(print)
>>> rdd.take(10)
0
1
2
3
4
5
6
7
8
9
[None, None, None, None, None, None, None, None, None, None]

print调用返回,因此映射只是给你一堆值,你不想要这些值,也不想保存它们,所以返回它们是一种浪费。(注意带有12等的行是正在执行print,它们直到您调用获取才会出现,因为RDD是懒惰执行的。然而,RDD的内容只是一堆

更简单地说,如果您关心函数的返回值,请调用map。如果没有,请致电foreach。

 类似资料:
  • 问题内容: 我错放了太多次了,我想我一直忘记,因为我不知道两者之间的区别,只是一个给了我我期望的价值,而另一个却没有。 为什么是这样? 问题答案: 是的简写形式(尽管请注意,该表达式只会被计算一次。) 是的,即指定一元的到。 例子:

  • 问题内容: 因此,我有一段简单的代码可以打印出整数1-10: 然后,如果仅在第3行上更改一个运算符,它将打印出无限数量的1整数(我知道为什么会这样做)。为什么在运行第二个程序时没有出现语法错误?如果赋值运算符后面跟着一个加法运算符,它不会调用语法错误吗? 问题答案: 与相同, 只是意味着。

  • 问题内容: 有人可以解释一下 和 我不知道“确切”的含义 问题答案: 在这个例子中,什么都没有。当您具有多个具有相似名称的路径时,该参数将起作用: 例如,假设我们有一个显示用户列表的组件。我们还有一个用于创建用户的组件。的网址应嵌套在下。因此,我们的设置可能如下所示: 现在,这里的问题是,当我们转到路由器时,将通过所有定义的路由,并返回它找到的第一个匹配项。因此,在这种情况下,它将首先找到路线,然

  • 问题内容: 我很好奇printStackTrace()和toString()之间的区别是什么。乍一看,他们 似乎 做的完全相同。 码: 问题答案: 不,有重要区别!使用toString,您只有异常的类型和错误消息。使用printStackTrace()可以获得异常的整个堆栈跟踪,这对于调试非常有帮助。 System.out.println(toString())的示例: printStackTra

  • 问题内容: 我看不到两种方式之间的任何区别,@ Qualifier 始终与 @Autowired一起使用 。 VS 有人能让我知道其中的区别吗?谢谢! 问题答案: 可以单独使用。如果单独使用,将按类型进行接线。因此,如果在容器中声明了多个相同类型的bean,而又不知道要注入哪个bean,就会出现问题。结果,通过指定Bean名称(按名称进行绑定),与一起使用来阐明要实际连接的Bean 也按名称接线。

  • 问题内容: System.getenv()和System.getProperty()有什么区别? 当我们使用Processbuilder运行任何命令时,我们可以设置环境变量,即: 如果在此方法之前使用System.setProperties()设置了一些属性,则该属性可用于由ProcessBuilder启动的此过程吗? 问题答案: 获取 环境变量 。获取Java属性。环境变量是在OS级别指定的。通

  • 问题内容: 和以下代码之间有什么区别: 和 他们是同义词吗?在某些情况下,一个比另一个更可取吗?使用这两种方法时该做什么和不该做什么? 问题答案: Class.forName()将始终使用调用者的ClassLoader,而ClassLoader.loadClass()可以指定其他ClassLoader。我相信Class.forName也会初始化加载的类,而ClassLoader.loadClass