1.自我介绍 3min 2.介绍一个你最熟悉的项目 10min 问:这个项目你做了什么(被说工作内容简单,没有太大贡献) 遇到的难点是什么(被说这个难点不难) 怎么解决的 整个表的数据量大概是多少 3.你在美团用到了哪些技术栈 4.讲一下kafka怎么保证不丢数据(答了三种acks,面试官说这是生产者端的,那其他的呢,直接说忘了然后道歉) 5.kafka的offset存在哪个地方的 6.kafka
2023春招找实习的同学跟我分享了他的面试经历,在这里我进行了一些总结梳理,然后发出来供大家学习 注意这是日常实习!!! 1.自我介绍 2.刷题 冒泡排序 3.八股文 3.1 JVM JVM的内存结构 类的加载过程 静态代码块和代码块初始化的顺序,以及静态代码块在哪个阶段被加载【初始化】 垃圾回收器 一个方法报错了,怎么进行分析,比如A方法调用B方法,B方法调用C方法....【没太懂】 3.2 并
个人情况简述:本硕双非,acm银牌 群友(cpp实习生)内推投递 因为是之前面的,时间也有1个多月了,可能记不太清一些细节了 一面(总时长90分钟) 聊简历项目,一个离线大数据处理项目,flume+hadoop+hive+spark+azkaban,两个后端项目 项目扣细节,主要问设计思路,比如数仓各层的设计、flume和kafka之间如何结合使用,spark的算子等 项目一共问了40多分钟 接下
前面的IEG秒挂后2天被这个部门捞了,这几天准备了下算法,但是项目有点懈怠了 时间:3月11日 14:40 ,时长45分钟 全程拷打Java项目,掺了一些业务相关的八股 拷打查询优化细节: 因为项目亮点手贱,写了用Redis缓存优化前时间、优化后时间。结果疯狂拷打怎么得出的优化时间 其实是编的数据😭😭,引以为鉴!! ⭕查询时间是怎么测出来的? 肉眼对比效果 + 查询前时间 对比 查询后时间 ❌
10.23 非科班,只学了离线的技术栈,没项目,投了一个月全被拒了。(百度 美团 得物 滴滴 蔚来) 一面二面八股问的简单也都答出来了,但是算法题都是暴力求解,竟然过了,三面感觉八股有点冷门,算法题做出来了结果挂了,究极折磨,有点难受! 数仓分层,什么是主题 Kafka怎么保证数据一致性 Hdfs有哪些数据存储类型,有什么区别 Spark和MapReduce的比较 为什么转行 做过的数据分析案例
一面 实习介绍 mr过程 mr和spark的区别 spark shuffle 举例说明事实表和维度表的设计 拉链表设计 3道sql题 row_number rank dense_rank区别 二面 实习介绍 怎么设计数据指标 集群故障怎么排查解决的 自动化运维脚本怎么写的 实习的收获 项目介绍 讲一张你最熟悉的维度表,怎么设计的,说说都有哪些字段 拉链表优缺点 你觉得实际拉链表用的多吗 用的不多为
问的都是数据结构的问题 1.给一个整数,怎么把它翻转(123转成321) 我说用字符串他说不行 2.忘了 3.有两个整数型数组,里面的整数范围都是1-1000w,问怎么找出两个数组中相同的数字 已挂
岗位:软件开发工程师-数据开发方向 部门:核心本地商业-基础研发平台 技术岗位处女面,运气挺好,没有被问到完全不会的题,感谢团子缓解我的焦虑 4.30 一面(60min) 1.自我介绍 2.介绍项目架构,数据源等 3.项目中遇到的难点 4.数仓为什么要分层,各层的职能 5.讲一下项目中提到的零点漂移问题 6.hive结构, 7.hive优化 8.数据倾斜 9.tcp三次握手 10.进程和线程的区别
如何将数据导入数仓 ods层数据量有多大 flume如何保证数据的一致性和完整性 数仓分了哪几层 维度建模的模型,为什么使用这个模型 表的数据变化如何进行分区 dws层如何设计,举项目中例子 用到了哪些开窗函数 row number遇到数据一样如何排序 left semi join 和???的区别 orderby和sortby的区别 sparksql和hivesql的区别 arraylist和li
一面(4.24): 总体30 min 1.为什么在上一家公司离职 2.对公司有什么诉求 3.理解到你的诉求是想提升技术了,那假如在公司干活不能提升你的技术那你会怎么办(跑路) 4.你希望自己以后成为什么样的人 5.AB test 6.标准明细表(没太听懂) 7.数仓的分层 8.spark为什么比MR快 9.项目中具体干了什么活 10.你觉得沟通很重要吗 11.如果你有简单的方案可以完成业务方的需求
一面 项目深挖 数仓分几层,每一层的作用 事实表如何设计 维度表如何设计 数据域如何划分 业务总线矩阵的概念 如何设计完整的指标 开发中和上线后数据质量如何保证 如何设计调度,依据是什么 hive数据倾斜解决办法 hivesql常见优化手段 什么是spark宽窄依赖,起到什么作用 sql题:用户连续登录游戏的最大天数,允许间隔一天 反问 做什么业务 教培业务中的线下面授分析 网络问题迟到了一会,面
数据开发-电梯数据开发举例 离线数据开发 实时数据开发 数据开发-电梯数据开发举例 更新时间:2018-02-01 21:17:58 假设电梯设备,每天都会定时上传数据,每台电梯每隔1分钟会上传一次数据,包括电梯id,运行状态(上行,下行,停止),门状态(打开,关闭),数据会进入离线表和实时的METAQ。 离线数据开发 业务需求:电梯利用率情况(某个单位的电梯在某个小时段内利用率,可以减少这个单位
刚刚oc了,有没有佬可以介绍下shopee food的情况,bp搜推算法 #shopee#
已OC,评论区有意向群大家可以加入交流 一面: 挺走流程的,项目+八股+性格 二面: 项目+做题+性格,题目是一个实时指标,一个离线指标,居然要求在web上写flink,然我选择用SQL写离线,题目是统计一个直播间的最大在线人数,感觉挺好的,但是说方向偏业务,问了我的意向,我没表达出兴趣。 三面: 1.自我介绍 2.项目介绍 3.Hudi项目难点 1).FlinkJob怎么配置采集表的个数:个数太
一面30min 自我介绍 选一个最熟悉的结构 说一下原理 特点 怎么使用 hive数据倾斜 内部表外部表 文件存储格式 行转列 列转行 sql题目 项目中有用hive解析json数据吗 实习在做什么 介绍实习项目 实习公司数据仓库怎么分主题的 业务需求是你自己一直在沟通吗 想做数仓还是平台 你觉得对业务了解的怎么样 base想南京还是深圳 二面 介绍实习在干嘛 实习项目怎么做的 项目几个人做 你