![记一次特别面试](https://imgs.xnip.cn/cj/jy/81/a71be9a3-ea98-463b-ac03-700f86f3c44b.jpg)
数据开发零意向菜鸡摆烂选手
今天的一面
起手就是spark源码
mr shuffle->spark shuffle穷追猛打
shuffle会落盘为什么spark还叫基于内存
哪里会溢写到磁盘
shuffle前后会在同一个executor吗
executor之间通讯,可以设计成直接互相拉取吗
数仓现在的解决方案存在什么问题,你觉得怎么解决
离线读取实时链路出来的数据会存在什么问题,怎么解决(说了一个面试官觉得是业务角度,追问组件技术角度呢)
设计一个数据平台你觉得需要涉及到什么
大概30min,靠面试官的良好态度支撑下来……
#秋招##校招#