2022.10.10 一面 1h
- TDL优化推动存在什么问题?
- 所有的下游修改代码由公共层实现是合理的吗?如果不合理有什么解决方法?
- 目前整个数仓多少任务?(母鸡
- 目前数仓分几层?你觉得目前分层中的平衡应该怎么做到或者有什么思考?
- SQL题:一个tb表,里面有姓名,课程分数,课程名称,目标:取最高课程分数的学生名字。我的答案用了join,然后提问:join的优化有哪些?
- Java题:反转字符串,用数组实现。提问:能不能用其他的数据结构实现?
- Java题:写一个你喜欢的排序
- 扩展:Flink OOM
总结:一面主要针对实习经历而展开,没有八股问题,主要考察对数仓的理解程度。此外还考察编码能力。
2022.10.17 二面 1h
- 未来职业规划?考不考虑做AI?
- 实习的主要工作?
- 在实时项目中的技术选型的理由?实时中最大的困难?(OOM
- 最近看什么书?(大数据之路)谈谈哪块印象深刻?
- 发表论文过程中可以总结的经验?
- SQL题:一个tb表,里面有user_id,page_id,dt。1)求每个页面每天vv? 2)求每个页面每天的uv ?3)求每天用户访问最多的页面?
- 大主播小主播求vv中数据倾斜的处理?(头部map join,剩下shuffle join,然后union)还有没有别的处理方法?怎么知道哪些是头部?
- 按照上面3)问题,讲一下SQL提交到Spark后的流程?(Catalyst + Tungsten
- Java题:一个走廊x米,现在有a米,b米,c米的木板,现在需要知道最少多少块铺满走廊?
2022.10.18 三面 40min
- 为什么从计算机视觉方向转大数据?
- 项目挨个问了一遍(科研 + 实习的三个项目)
- 科研都是自己做的吗?
- Flink项目的数据源是什么?数据结构是什么?对Flink怎么看?
- Spark的项目做了什么优化?
- 怎么解释tdl?怎么做优化?介绍一下实习的数仓?
- 读过什么书?怎么理解业务过程?
- 怎么理解数据开发的岗位?你觉得实习过程中这几个工作覆盖了数据开发的多少工作内容?
- 一个SQL题:获取每个城市销售额最高的top3商品
2022.10.20 hr面 20min
#数据仓库与数据分析实习##秋招##2023秋招##秋招面经##美团#