百度提前批大数据二面面经

优质

小牛编辑

116浏览

2023-03-28

百度提前批大数据二面面经

1、spark shuffle过程，越具体越好，细化到组件，map task以及reduce task具体过程
2、你说bypass shuffle是每个executor节点生成对应reduce task数量的结果文件，那mergesort shuffle呢
3、reduce task 如何知道哪些map task完成了，又是怎么拉取的
4、spark 写文件流程？commit流程？
5、spark、mr commit算法不同版本之间的区别
6、spark sql 原理？全阶段代码生成？
7、结合之间说的shuffle过程，spark sql是如何实现shuffle的，比如select c,sum(a) from b group by c，根据c分组会产生shuffle，这条语句执行的细节？
8、为什么要看kafka源码？
9、说一下kafka架构
10、说一下kafka生产者如何生产数据，消费者如何消费数据

11、简单说一下LRU怎么实现，要求get和put都为O(1)

共享了，我太菜了

#大数据##面经##百度#

百度提前批大数据二面面经

热门公司

相关阅读

推荐文章

推荐题库

推荐问答

百度提前批 大数据二面面经

热门公司

相关阅读

推荐文章

推荐题库

推荐问答

百度提前批大数据二面面经