问题：

用这个简单的例子Spark vs Hadoop？

令狐宏浚

2023-03-14

 val text = sc.textFile("mytextfile.txt") 
 val counts = text.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_) 
 counts.collect

在火花的情况下，一旦行被“”拆分，输出将存储在内存中。与函数map和reduce类似。我相信在跨分区进行处理时也是如此。

在MapReduce的情况下，每个中间结果（比如split/map/reduce之后的单词）是否会保存在磁盘上，即HDFS，这使得它比Spark慢？我们没办法把它们留在记忆中？分区结果的情况也一样？

共有1个答案

融修平

2023-03-14

是的，你是对的。

SPARK中间RDD（弹性分布式数据集）结果保存在内存中，因此延迟要低得多，作业吞吐量更高。RDDs有分区，像SPARK先生一样的数据块也提供了迭代处理，这也是需要考虑的关键点。

当然，先生确实有一个组合器来减轻一点痛苦。

类似资料：

4.1. 一个简单的 POJO 例子

大多数 Java 程序需要用一个持久化类来表示猫科动物。例如： package eg; import java.util.Set; import java.util.Date; public class Cat { private Long id; // identifier private Date birthdate; private Color color;
例子：Sendmessage简单例子

引用test.nsi的内容： ;Sendmessage简单例子 ;WWW.Dreams8.CoM ; !include "WinMessages.nsh" !include "LogicLib.nsh" name "Sendmessage简单例子" outfile "test.exe" page custom show leave reservefile "pagecustom.ini"
WordPress 简单的例子

本文向大家介绍WordPress 简单的例子，包括了WordPress 简单的例子的使用技巧和注意事项，需要的朋友参考一下示例这个过滤器非常有用。开发人员的常见问题之一是如何在他们开发的插件中包含模板。在wordpress使用wp层次结构在活动的子主题/父主题中找到适当的模板后，将立即应用该过滤器。小心定义何时要修改模板路径。在下面的示例中，代码检查以查看当前页面是否是我们的自定义帖子类型
4、简单的例子

让我们写一个计算阶乘的函数.对于阶乘的数学定义如下: n! = 1 (当 n==0 时) = n * (n-1)! (其它情况) 在Ruby里,可以这样来写: def fact(n) if n == 0 1 else n * fact(n-1) end end 你可能会发现 end 的反复出现,
第1章一个简单的例子

目录结构首先介绍一下ruby项目的代码目录结构。通常情况下一个ruby扩展项目的目录结构如下： NEWS Rakefile README.rdoc doc/ ext/ COPYING为版权信息；NEWS包含了发行信息；Rakefile定义了rake任务；README.rdoc包含了用于生成RDoc文档的头部信息；doc目录下为该项目的文档；ext目录下为扩展程序的源代码以及ext
react-native 简单的例子

本文向大家介绍react-native 简单的例子，包括了react-native 简单的例子的使用技巧和注意事项，需要的朋友参考一下示例 ListView-一个核心组件，旨在有效显示更改数据的垂直滚动列表。最小的API是创建一个ListView.DataSource，用一个简单的数据Blob数组填充它，并使用该数据源和renderRow回调实例化一个ListView组件，该回调从数据数组中获取

用这个简单的例子Spark vs Hadoop？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档