字节跳动大数据开发转正实习面经（已OC）

优质

小牛编辑

168浏览

2023-04-19

字节整体给我的感觉是不怎么问八股，他们非常想听你的理解是什么，问的很多问题网上都没有答案，高度都很高。

自我介绍
为什么选择从全栈开发转到大数据，为什么会对大数据感兴趣
有学习过大数据的一些技术栈或者项目实战么
狂问项目(国电的，问的极其极其细)
问了电商数仓项目(大概介绍了一下维度建模)
DWS层都是什么类型的事实表(不知道怎么答，感觉问的很奇怪，就直接答了事务型事实表，其实我感觉它已经不是事实表了，因为到了DWS层，这个表已经和好多维度信息结合了起来，形成了一张表)
说一下三种事实表的区别
再次问DWS层是周期快照型还是事务型(我依旧坚持说是事务型，说实话真不知道咋答)
你知道无事实的事实表吗(我只看了尚硅谷的数仓建模知识，里面木有讲，所以没答上来，阿里大数据之路里面有说这个)
星型模型和雪花模型的各自的特点以及优缺点
数仓分层的价值在哪，为什么是分5层而不是3层或者2层
Hive、SparkSQL哪个更熟悉一些(我说Hive更熟悉一些)
Hive调优方法
追问：分桶表相关
大表join时，使用SMB join，一个分桶一个没分通，会有优化效果吗
一个表分了1000个桶，一个表分了2000个桶，有优化效果吗
HiveSQL底层执行逻辑(SQL到MR的过程)
MR的执行过程（MR任务的流程）
hive.groupby.skewindata 参数调优的原理（分两个mrjob，分两次聚合）
追问：第一次聚合是用什么方法打散的
HiveSQL题(需要生成日期)
经典反问

说实话很顶，当时面完感觉自己凉了，面试官贼有想法，他会根据你的回答不断地追问，直到你答不上来，我感觉整个的底都被他挖出来了，不过一面完俩小时后就约了二面。

二面忘记录音了(当时拿到美团offer了，就摆烂了)，只能能回忆多少写多少了。

4月4号HR面

4月5号OC，然后怕被美团拉黑，就拒绝了(很恐怖，HR清明节还在工作)。