一面 8.14
自我介绍
实习内容,没有深挖
Hive 的存储格式 orc parquet
有没有了解过Cube, grouping sets
有没有了解过 group by ,sort by,cluster by ,distribute by 的区别
Mr的工作流程
Yarn的调度框架
Hive内部表外部表区别
Lag lead first_value last_value含义
Row_number , rank dense_rank 区别
shuffle含义
Hive sql的优化举例
数据倾斜,大表join小表,大表join大表怎么处理
用过哪些flume source和sink,怎么使用的,在哪里用过(某电商数仓)
sql题,user_id ,time,money 求不同组别的人均消费金额
我用了union ,问我有没有更简便的方法,提示了case when,结果长时间不用忘写最后的end了
经典反问环节,主要工作方向和内容,工作地点
50分钟左右结束,问了好多内容都是hive
二面 8.17
自我介绍
为什么离职,感觉面试官在之前实习的公司呆过
深挖实习(讲出具体的场景,感觉回答的一般)
写了sql 三道题,都不是很复杂,第二道是数据倾斜打散怎么写,说了思路但是没写过不会写em,现在想想应该是取一半的精度位数,然后再套一层group by应该就行
有没有其他秋招机会
对以后工作方向有没有什么想法
反问环节,问了团队架构和需要做的内容
总结
30分钟多结束,还是得多准备下实习的内容
感觉有点太快了,估计是要凉凉了