1.自我介绍
2.实习介绍
3.实习工作内容下游使用方主要有那些?
4.AI团队数据支持 他们使用这个数据做的什么
5.除了对表的支持之外,是否在计算层面做过一些优化
6.boradcast join和sortmergeJoin的区别和 使用场景的不同
然后面试官开始说,我觉得概念你应该都会,我就不问你了,所以我后面会从场景的角度去考验你的技术理解,本人听到这里心凉了半截,因为两段实习全是离线,这里全程拷打实时
7.FLink窗口30s 步长5s 窗口触发的时间是在5s触发还是30s之后触发
8. 如果说这个任务是从checkpoints恢复出来的 那他第一次是在5s之后触发还是30s
9.Flink 之中窗口的计算大多时候会导致整点进行触发(有可能导致很多不同的任务再同一个时间段使用资源导致资源紧张),你如何避免窗口不在整点进行触发呢
10.Flink的状态有哪些
11.valueState 和 keyState的区别 这一步回答的不太好,说想问的是这两个在使用场景上的不同
12.上游是kafka 中间存在shuffle,晚高峰出现lag 你该怎么解决 说的提高并行度
13.如果是kafka单个partition导致的lag 你该怎么解决呢 回答的窗口触发计算使用预聚合、kafka提高分区数 进而让下游Flink也提高并行度,回答的貌似不太满意,之前一直做的离线,实时确实不太会
14 kafka如何保证的数据不重复且不遗漏
15 kafka那些手段保证了吞吐量这么大
后续开始拷打计算机基础,os和计算机网络一点没复习,心理更凉了
16 操作系统进程通信有哪些方式 说了有管道和SharedMemory这几种
17 是否了解SharedMemory的实现
18 socket是否有了解 说了下socket以及spark使用netty这种通信架构
19 netty 在spark怎么使用的
20 close wait状态的理解
这里计网和os回答的不太好,开始怀疑是否是计算机科班出身
21 java的HashMap底层如何实现的
22 HashMap的数组能使用arraylist来实现吗
23 二叉树的锯齿状遍历(需要自己构建TreeNode和输入输出)自己写了20分钟 写了个reverse的版本,面试官不满意,最后口述了个双端队列的思路(减少reverse的遍历)
感觉这轮面试又G了,我不知道这是不是字节的正常难度,每次面试字节都是高强度拷打,有点自闭了