背景:985本硕,无实习,自学大数据相关技术栈,尚硅谷离线+实时数仓,实验室项目。
hdfs读写流程
mapreduce shuffle
maptask和reducetask数目如何确定
小文件过多对namenode有什么影响
mr优化有哪些点
进程和线程
hive sql转换为mr的过程
离线数仓项目:项目流程,思考,价值
如何保证数据一致性
如何衡量两个数仓的优劣
两道题:
1-1000的递增数组,找出导致不连续发生的那个数(遍历、二分查找)
sql 连续登录问题
自我感觉大部分答得都还行,可惜凉了,感觉没实习是个硬伤,自身经历也一般,下一家继续加油吧。