互联网:
京东物流-数据研发工程师-离线数仓(8.14 16:00)
一面30min:
1.数仓分层
2.数据治理
3.业务使用的内部表和外部表
4.数据倾斜是怎么处理的
5.三道sql(join,group by,rank窗口函数、ddl语句删表和删分区)
快手-主站-数据开发工程师
一面(通用面)-40min(8.17 11:00)
1.介绍美团项目
2.数仓分层
3.join的mr过程
4.SQL:pv和uv的计算
5.python题:装饰器模式
6.Java题:浮点数开平方、二叉树的层序遍历
二面(通用面)-45min(8.22 14:00)
1.介绍一个最满意的项目
1.1用没用过别的解析工具,知不知道spark用什么解析的,calcite对比
1.2分层建模理论
2.数仓分层理论
3.DWD层,不同主题域是怎么划分的
4.如果建立一个业务数仓,你会考虑哪些问题,开放式
5.Java:有哪些类型的内存结构,堆和栈的区别
6.算法题:找前k大的数,堆排和快排适用情况
7.如何遍历一棵树,前中后序遍历的区别,访问者模式
三面(主管面)-45min(8.29 16:00)
1.数据治理都要做什么?
2.拉链表是什么以及应用场景
3.维度建模理论
4.SQL解析的流程
5.hadoop和spark的区别
6.数据倾斜的场景和解决方案
7.数据湖和流批一体
百度-小度-数据开发工程师(提前批)
一面(KPI,没开摄像头)-45min(8.21 14:00)
1.手撕算法,区间
2.介绍项目,groupingsets
2.1谁在用
2.2目的
2.3效果,和谁比,指标是什么
小红书-数据开发工程师-社区和商业化数仓
一面-1h(9.2 10:00)
1.数仓分层,被challenge在ODS层做公共逻辑下沉,万一数据***掉了怎么办?放在DWD行不行?
2.全链路归因建设的流程?服务端和客户端交互?
3.spark查询的优化?数据倾斜
4.leetcode:用队列来实现栈
5.SQL:查询累计登录天数、连续登陆天数
二面-40min(9.2 11:10)
1.业务背景是什么,被challenge为什么要用hive离线计算进行预计算,不直接用OLAP
2.如何去推动大家去使用这个平台,现在进展是怎么样的
3.为什么count(DISTINCT)转换为bitmapunion就能实现指标的逐层上卷
4.你怎么看待数据赋能业务
字节跳动-数据开发工程师-商业化数仓
一面-45min(9.12 11:00)
1.数据倾斜
2.spark为什么比mr快
3.OSI七层模型
4.TCP和UDP协议的区别
5.数据库索引的数据结构,为什么使用B+树
6.bitmap count distinct
7.基于hash的shuffle和基于排序的shuffle的区别*
腾讯-数据开发工程师-游戏广告
一面-1h(9.19 19:00)
1.项目中遇到的最困难的点
2.排序算法都有哪些分类标准
3.哪些算法是稳定排序
4.堆排序的时间复杂度是怎么样的
5.归并排序用到了什么数据结构、堆排序用到了什么数据结构?
6.聚簇索引和非聚簇索引的区别
7.索引使用了什么数据结构、为什么索引要使用相应的数据结构
8.索引的优劣势
9.解释一下spark中的RDD,哪些操作会导致计算的执行
10.如何解决数据倾斜,广播算法如何解决数据倾斜
11.除了kimball,还有哪些数据仓库的建模理论
12.tcp协议和udp协议相比为什么是安全的
13.如果有一个非常大的数据包,如何保障它被安全发送
14.io多路复用
15.进程间和线程间的通讯方式
16.如何处理最近30天订单量类似的表设计问题
17.Spark ui中有哪些东西,定位数据倾斜,如何优化
京东-数据开发工程师-零售数据中台
一面-30min(9.22 15:00)
1.http和https的区别
2.数仓为什么要分层
3.接口和抽象类的区别
滴滴-数据开发工程师-DT
二面-50min(9.23 11:10)
1.hadoop小文件的影响
2.hadoop nn第一次和第二次启动的区别(fsimage和edits)
3.hadoop shuffle过程的三个阶段
4.hadoop数据倾斜及解决
5.spark的宽窄依赖
6.B树和B+树的区别
7.Spark的持久化&Checkpoint
8.数仓建模理论
9.数仓分层理论
10.数据库三大范式
银行:
农工简历挂
中转正