三面已经挂掉了,有兄弟找我要一二面面经。 HR说data 大数据开发工程师 会捞一下我。因此,来回忆一下前两面的内容,后续如果能被捞继续复习。
一面:一小时
spark 实时处理项目挖掘。
- 讲一下双流join?双流join 是事实表和维度表还是事实表和事实表join?
- Redis 主要是用来干什么的?
实验室项目挖掘。
- 介绍下无人车项目
- 介绍下Apollo OpenDRIVE 格式这里是用来干啥的,给下游导航模块提供数据的。
- 说一下实验环境,在哪的10公里?
两道题目手撕:
从左下角到右上角的路径个数
- dp写出来
- 用排列组合的方式会不会计算,分析分析
翻转二叉树
二面:一小时十分钟
项目介绍:
- 介绍一下自己一个做得好的项目。
- 说一下这里面难点在哪?我讲了双流join。
- 面试官反问如果存储的时候Redis 数据量过大咋解决的?这个问题在快手也被问到了 大家知道怎么回答这个问题吗?能不能告知一下
网络:
- TCP 和 UDP 的区别?
答了可靠和不可靠,答了应用场景。 - TCP 是怎么实现可靠性的?
答了:ACK机制,三次握手四次挥手,流量控制,拥塞控制。没有继续追问。 - 为啥需要三次握手和四次挥手?
为了保证全双工。发送方和接收方都有发送和接受的能力。没有继续追问。 - IP 地址和 MAC 地址的区别说一下?
IP 是网络层,MAC是数据链路层。IP可以来做路由转发,MAC主要是ARP点对点发送。 - 只用MAC 地址不用IP 地址行不行?
我说了IP可以有子网还有网段MAC不行。还有不在一个协议层。面试官说MAC地址不够?存不了这么大的范围?这个不会
数据库:
说一下事务,说一下ACID是怎么保证的。
操作系统:
说一下进程和线程的区别
算法:
写LRU cache,自己编写测试用例测试。
大数据基础:
- Hadoop 有哪几部分构成?MR,YARN,HDFS
- Hadoop 主要有哪些进程说说?NN,standByNN,ZKFailoverController,DN
反问:
- 部门技术难点?说难点主要在于业务的理解。
- 技术栈是啥?Spark 离线,Flink 实时。
- 发展方向?在实现流批一体?数据和计算分离?数据湖?
总结:
项目中存储的时候Redis 数据量过大咋解决的?有人知道这个问题怎么回答吗?能不能在评论区贴一下答案,谢谢!
#字节跳动##大数据开发工程师##秋招#