当前位置: 首页 > 面试题库 >

hadoop和spark的都是并行计算,那么他们有什么相同和区别

满玉泽
2023-03-14
本文向大家介绍hadoop和spark的都是并行计算,那么他们有什么相同和区别相关面试题,主要包含被问及hadoop和spark的都是并行计算,那么他们有什么相同和区别时的应答技巧和注意事项,需要的朋友参考一下

两者都是用mr模型来进行并行计算,hadoop的一个作业称为job,job里面分为map task和reduce task,每个task都是在自己的进程中运行的,当task结束时,进程也会结束

spark用户提交的任务成为application,一个application对应一个sparkcontext,app中存在多个job,每触发一次action操作就会产生一个job

这些job可以并行或串行执行,每个job中有多个stage,stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的,每个stage里面有多个task,组成taskset有TaskSchaduler分发到各个executor中执行,executor的生命周期是和app一样的,即使没有job运行也是存在的,所以task可以快速启动读取内存进行计算

hadoop的job只有map和reduce操作,表达能力比较欠缺而且在mr过程中会重复的读写hdfs,造成大量的io操作,多个job需要自己管理关系

spark的迭代计算都是在内存中进行的,API中提供了大量的RDD操作如join,groupby等,而且通过DAG图可以实现良好的容错。

 

 类似资料:
  • 在另一个关于将字符串作为字符数组进行单步执行的线程中,提示这个问题的具体注释是“注意,此技术给您的是字符,而不是代码点,这意味着您可能获得代理项。”我不是真的理解,所以我想最好是在一个新的问题中要求澄清,而不是对一个5年前的问题进行一系列的评论。

  • 本文向大家介绍watch和计算属性有什么区别?相关面试题,主要包含被问及watch和计算属性有什么区别?时的应答技巧和注意事项,需要的朋友参考一下 通俗来讲,既能用computed 实现又可以用 watch 监听来实现的功能,推荐用 computed,重点在于 computed 的缓存功能 computed计算属性是用来声明式的描述一个值依赖了其它的值,当所依赖的值或者变量改变时,计算属性也会跟着

  • 问题内容: 我正在尝试对术语“字符”,“代码点”和“代理”进行解释,尽管这些术语不仅限于Java,但如果存在特定于语言的差异,我希望将其解释为它与Java有关。 我发现了一些有关字符和代码点之间差异的信息,字符是为人类用户显示的内容,代码点是对该特定字符进行编码的值,但是我不知道代理。什么是代理,它们与字符和代码点有何不同?我对字符和代码点是否有正确的定义? 在另一个关于将字符串作为字符数组步进的

  • zlib中使用的压缩算法与gzip和zip中的压缩算法本质上是相同的。什么是gzip和zip?它们有何不同,又有何相同?

  • 我浏览了一下Spark中RDD和Dataframe的链接有什么区别? > 我们可以在spark上运行Pandas、numpy数据帧功能吗。对于numpy,np。像df这样的熊猫在哪里和在哪里。分组依据[“”]。agg()