当前位置: 首页 > 知识库问答 >
问题:

用这个简单的例子Spark vs Hadoop?

令狐宏浚
2023-03-14
 val text = sc.textFile("mytextfile.txt") 
 val counts = text.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_) 
 counts.collect

在火花的情况下,一旦行被“”拆分,输出将存储在内存中。与函数map和reduce类似。我相信在跨分区进行处理时也是如此。

在MapReduce的情况下,每个中间结果(比如split/map/reduce之后的单词)是否会保存在磁盘上,即HDFS,这使得它比Spark慢?我们没办法把它们留在记忆中?分区结果的情况也一样?

共有1个答案

融修平
2023-03-14

是的,你是对的。

SPARK中间RDD(弹性分布式数据集)结果保存在内存中,因此延迟要低得多,作业吞吐量更高。RDDs有分区,像SPARK先生一样的数据块也提供了迭代处理,这也是需要考虑的关键点。

当然,先生确实有一个组合器来减轻一点痛苦。

 类似资料:
  • 大多数 Java 程序需要用一个持久化类来表示猫科动物。例如: package eg; import java.util.Set; import java.util.Date; public class Cat { private Long id; // identifier private Date birthdate; private Color color;

  • 引用test.nsi的内容: ;Sendmessage简单例子 ;WWW.Dreams8.CoM ; !include "WinMessages.nsh" !include "LogicLib.nsh" name "Sendmessage简单例子" outfile "test.exe" page custom show leave reservefile "pagecustom.ini"

  • 本文向大家介绍WordPress 简单的例子,包括了WordPress 简单的例子的使用技巧和注意事项,需要的朋友参考一下 示例 这个过滤器非常有用。开发人员的常见问题之一是如何在他们开发的插件中包含模板。 在wordpress使用wp层次结构在活动的子主题/父主题中找到适当的模板后,将立即应用该过滤器。 小心定义何时要修改模板路径。在下面的示例中,代码检查以查看当前页面是否是我们的自定义帖子类型

  • 让我们写一个计算阶乘的函数.对于阶乘的数学定义如下: n! = 1 (当 n==0 时) = n * (n-1)! (其它情况) 在Ruby里,可以这样来写: def fact(n) if n == 0 1 else n * fact(n-1) end end 你可能会发现 end 的反复出现,

  • 目录结构 首先介绍一下ruby项目的代码目录结构。通常情况下一个ruby扩展项目的目录结构如下: NEWS Rakefile README.rdoc doc/ ext/ COPYING为版权信息;NEWS包含了发行信息;Rakefile定义了rake任务;README.rdoc包含了用于生成RDoc文档的头部信息;doc目录下为该项目的文档;ext目录下为扩展程序的源代码以及ext

  • 本文向大家介绍react-native 简单的例子,包括了react-native 简单的例子的使用技巧和注意事项,需要的朋友参考一下 示例 ListView-一个核心组件,旨在有效显示更改数据的垂直滚动列表。最小的API是创建一个ListView.DataSource,用一个简单的数据Blob数组填充它,并使用该数据源和renderRow回调实例化一个ListView组件,该回调从数据数组中获取