一面9.18 主要是Java八股,然后Redis,MySQL,kafka,zookeeper,hive hadoop (具体的问题忘了,天天实习+准备中期实在记不住了) 算法快排 二面9.19 主要围绕实习项目展开讲述,算法链表头尾依次连接 ,第一个头连最后一个,最后一个连第二个,第二个连倒数第二个.... 9.20hr面+oc
2023.09.14 数据开发岗 1. python 中 pass 关键字、查看变量类型、string 和 unicode 区别 2. 重载和重写的区别,多态如何实现 3. 线程和进程区别 4. 实习项目按照 STAR 法则叙述一下,难点是啥 5. 第一范式、第二范式、第三范式,范式越高越好吗 6. 两道 sql 题目:city 表选 id 重复出现的数据项,student 表总分按逆序排列 7.
(被捞起来重新面) 总共40min 手写模板方法,责任链模式(项目中的) spark和mr有什么区别,为什么spark比mr快 磁盘和内存 有有向无环图的这些优化 什么更优秀呢,什么原因导致比mr更快(不知道) spark里面,checkpoint和cache有什么区别,分别用于什么场景(场景完全忘记了) 数仓是怎么分层的 什么是业务过程(不知道) 事实表设计的步奏是什么(不知道) 三范式建模和维
发面经,攒好运 面试官是个小姐姐,说话非常温柔,但万万没想到面得内容和后端确实关系不大 自我介绍 你用了redis,那能说说他有什么好处吗以及他适用于什么场景? 那redis有什么缺点呢?(我不太清楚,只能说内存要求可能比较高?以及缓存雪崩和击穿) 数据库四大特性以及四大隔离级别 说说持久性 索引以及你用过索引吗 分享一下你在做项目的时候有没有遇到什么比较大的挑战 然后考了一道简单的mysql j
1. 维度退化 和对于未来mysql发展的思考(代替olap?) 2. flink压测 3. flink Watermark 4. 排查数据倾斜 具体看什么log 5. 谈一下对于flink流批一体未来架构发展的看法 6. savepoints和checkpoint不同,状态到底保存的是什么东西 7. hadoop ha 8. spark小文件 9. spark 压缩格式 人才库了已经 #美团##
场景题: 1、有一个sql突然执行很慢有什么原因 2、从一个很大的日志表中10T,随机取出一些数据 3、有两个大表join,我说了分桶排序,他说那大key不还是分到一个桶里面,没解决问题,我说讲大key使用mapjoin或加随机数,那key如果未知怎么办 4、mysql中MyIsam相对于innodb更适合那些场景 5、hashmap为什么不直接用红黑树 问一个问题,回答完就会深挖,给我问麻了 #
首先是自我介绍:balabala 是否了解过数仓和Spark? 再Linux系统中,找到对应的Java进程并删除。 同样的在 Linux系统下,删除使用某端口的进程。 介绍一下Mysql和LSM,并分析下这两种引擎是基于什么?适用于什么场景? sql编程题:牛客每个人最近的登录日期(二)() 算法题:二叉树的最大路径和 (较难) AC Code: class Solution { public:
个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问 自我介绍 项目深挖(20min) 实习工作介绍(5min) 数据倾斜有哪几种解决方法 Group by 倾斜,join倾斜,null值倾斜 分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了 Hdfs小文件
部门:优选事业部-美团买菜 timeline: 8.24 一面 8.28二面 8.31 hr面 9.7 oc 一面: 项目介绍 什么是指标体系 指标体系包含元素 指标分类 数仓分层、分层好处 数仓分层和指标分类之间有什么关系 什么是总线矩阵 什么样的数仓是一个比较好的数仓 什么方法可以落实上面说的数仓 缓慢变化维;除了拉链表还有哪些方式 什么情况下可以使用map join 怎么解决数据倾斜问题 J
秋招第一个意向 感恩团子! 二面和hr面感觉自己发挥得并不是很好,一度以为凉了... timeline: 两次笔试都a四道多一丁点。 8.29 一面 8.31 二面 9.5 hr面 9.7 意向 一面 60min: jvm了解哪些 垃圾回收了解哪些 主线程和另外十个线程,怎样使主线程最后执行完毕 (join、await) flink checkpoint kafka有序和不丢如何保证 算法题 链表
2023-08-28-19-30,美团数开 ArrayList和LinkList HashMap的数据结构 ConcurrentHashMap,和HashMap的区别,put的过程,扩容的过程(扩容是我自己提到的) 设计一个共享变量,用什么? (我说用volatile,面试官说vol能保证原子性?面试官提醒说设计读写操作,我说弄一个读和一个写的方法,方法用Sychronized修饰,面试官没说话)
自我介绍 手撕,股票最大利润 sql 成绩排名三 数仓分层 数据倾斜 遇到的问题 为什么要分层 分析了哪些指标 介绍一下spark 介绍一下hadoop 介绍一下hbase 反问 不知道哪的问题,又凉了面了这么多0offer
刚刚结束面试,时长40分钟总结一下问到的问题 1,简历项目深挖 2,电商销售量数据异动分析 3,出租车载人去机场之后,是在机场等客,还是回市区的情景分析 4,电商有a,b两个渠道,两个渠道转化率都在提升,总体转化率下降,有可能吗 5,一个留存率SQL题 6,只往互联网行业投了简历吗 7,对就业城市有什么想法 面试总结: 1,对于数据异动题一定要详细,包括各种指标变动的情况 2,对于情景题,一定要有
时长1s5min 面试官自我介绍 自己自我介绍 简历上面两个项目讲解(20min) 项目: 后端项目的登录模块怎么实现的?(如果服务器扩容到三台还可以适用吗?) 数仓项目当中你做了什么? 实习: 实习都干了什么? 数仓: 数仓建模理论(ODS,DWD,DWS,ADS)? Kimball建模理论和范式建模的区别?他们的应用场景? 八股: web: session和cookie的区别和联系? java
一面25min 1、自我介绍 2、python项目介绍 3、随机森林优劣势,怎么判断模型优劣的 4、数据清洗做了哪些工作 缺失值填充依据 5、上课讲的关于gmv的计算 6、淘宝 拼多多京东分析 7、抖音淘宝拼多多京东四家五年后发展排序 及原因 6、如果双十一gmv没达到要求,会怎么反思原因 7、sql能力 问了很基础的左连接右连接区别(没答上来 8、到岗时间 实习时长 9、为什么不想在现在这家公司