1. mapreduce工作流程? 2. shuffle机制? 3. mapreduce进行了几次排序? 4. 环形缓冲区的溢写机制? 5. 提到了反向?反向如何理解? 6. hadoop读取文件过程? 7. 说说数据倾斜?项目中是否遇到 8. MySQL介绍下InnoDB, MyISAM区别? 9. 介绍下事务几大特性? 10. 介绍对应隔离级别? 11. 隔离级别是否可以修改? 12. 三数之
30min拷打项目,其他八股一点没问,算法和sql也没做。 跟我说如果还有后续的话还有一个hr面。 怎么就三十分钟啊?不会KPI了吧,许愿许愿许愿
3.26 美团 数据开发 到店(暑期实习二面) - 面试官是一个温柔的小姐姐 - 自我介绍 - 之前工作经历介绍 - 你觉得什么是好的数仓 - 要达到你说的好数仓的标准,应该如何建设? - 小文件具体怎么治理的(预防/滚动式 + 自动脚本) - 小文件有哪些危害 - 给你一个数据倾斜的场景,可能有点难,答不出来也没事:大表 Join 大表(10 亿级别的,比如订单 Join 商品表)可能有一些商品
一面1h: 1、自我介绍 2、项目难点、如何解决 3、布隆过滤器底层实现,项目中使用的场景 4、删除数据时布隆过滤器怎么处理 5、MySQL索引底层 6、MySQL索引分类 7、MySQL回表是在什么场景 8、Redis缓存策略 9、在项目中用到了哪些Redis数据结构 10、消息队列的应用场景 11、如何保证消息的可靠性 12、如何保证消息不被重复消费 13、数据库与缓存一致性方案 14、算法(
面试时长90min(中间穿插着写SQL和算法题) 真·内推: 我一直准备的是Java后端开发,这个岗是因为一个朋友要离职了帮他leader找个人,然后就找到了我。刚开始和我说这个岗去了主要就是写写sql(因为他们是主要用hive做数据分析,而hive和sql非常类似,会写sql就会写hql(hive sql)),然后给我说面试时需要简单准备一点hive和spark八股,并且还给我划重点,哪些是一定
1、一上来面试官问我是否了解自己投的岗位,说感觉我的项目经历与所投岗位并不是十分融合 2、聊一聊数据湖 3、数据湖的数据怎么存储? 4、考察SQL 三个问题 步步变难 而且全程面试官口述题目 5、left join和inner join的区别 6、count(*)和count(列名)的区别? 7、对建模的东西了解多吗,懂不懂星型模型 了解星型建模星型 8、星型建模的核心基点是什么? 9、星型建模和
1. 自我介绍,讲到一半说可以了 2. hadoop工作原理,我直接从作业提交开始讲讲到mr shuffle说可以了 3. 数据倾斜怎么优化sql 4. 星型模型和雪花模型区别 5. 问了离线,实时,数据挖掘熟悉哪些 6. SCD缓慢变化维怎么处理 7. 场景题,问直播带货怎么设计指标,我不懂啊乱答一通基本 8. 数据不一致怎么处理,开始我乱答的,后面引导到了指标体系上 9. 问有没有其他打算实习
面试内容 一面(乙方): 1、聊一下熟悉的数据库,关系型,非关系型都说一下? 2、介绍一下clickhouse,为什么用它? 3、说一下简历上项目,数仓的分层架构,每一层的作用? 4、入库做数据清洗吗?还是后续在数仓中过滤?说一下实际的做法 5、数据同步是怎么做的?你在项目中的角色?(说了kafka) 6、你这个是离线的数仓吗?你觉得什么需要做数仓? 7、为什么用flinkcdc? 8、spark
面试内容 一面: 1、对那些数据库比较熟悉? 2、mysql优化? 3、数仓的架构,每一层的作用? 4、你做的项目中数据清洗放在哪一层? 5、数据怎么接入数仓的? 6、实时项目也做过?说一下flink处理数据的流程 7、任务断了,有重复数据怎么办?(我以flink为例说了怎么避免) 二面:不问技术 1、之前实习交过社保没? 2、从之前的上司那里学到了什么?只说一点 3、对未来的规划? 4、整体的实
#软件开发2024笔面经# 项目: 介绍项目,项目难点以及如何解决。 C++: 指针与引用的区别 stl库(vector…set介绍) C++11特性介绍(问了智能指针的思想) C和C++的区别 设计模式(详细讲了下单例模式) linux: IO多路复用的过程 线程池的好处 计网: TCP和UDP的区别 OSI七层模型介绍 操作系统: 就问了进程和线程的区别😂 数据库: B+树相比B树优点 索引
自我介绍后根据我的项目问我了一些问题,虚拟列表,懒加载,canvas怎么压缩的(这个没答对) 项目怎么实现鉴权的,我说的jwt,巴拉巴拉 然后又问了cookie, 问了防抖节流 项目跨域是怎么解决的(项目上线后用反向代理不太好) 问了数据类型,然后就问深拷贝浅拷贝,让我实现深拷贝 问promise,让我实现all和race方法 解释下事件循环机制 nextTick 总结:还是要多写写底层源码,回答
1. 自我介绍(问的项目的场景是干嘛的,解释 GStreamer)——20min 2. std::bind、原子变量、std::packaged_task、std::move ——10min 3. 100万亿找 top100、二叉树层序遍历 ——10min 4. 算法:手写线程池、无限背包 ps: 表示面试官人很好,还给我的垃圾找了理由。体验很好,下次还来
投递【数据分析】岗位的同学可以参考一下, 1.XGBoost和GBDT有什么不同 2.SQL:找出18-25岁用户每个月最爱听的歌曲top3 3.SQL:最长连续登录天数 4.有5%的人对某事感兴趣,他们的点击率是30%;不感兴趣的人的误触率是5%,给定点击数和xx数(记不清了),求感兴趣的概率
1、自我介绍 2、今后规划,为什么不读研,爱好 3、对美团的了解 4、项目介绍以及分工 5、数仓分层介绍,为什么要分层 6、数仓建模方法(范式建模、纬度建模、实体建模) 7、平常还有什么方式巩固大数据知识(《大数据之路》、博客、课程) 8、写一个快速排序(没写出来) 9、两道简单sql ①每个用户每天访问的第一条记录 ②00后中选课人数最多的课程 10、有没有用过udf 11、hive和spark
牛客上没几个这个部门的帖子,以身试毒了 很奇怪的是我投的数据分析的岗位,简历里也都是相关经历,甚至没写我会测试,不知道为什么这个部门捞我面试 1. 自我介绍 2. 问项目:项目也没问具体的技术,问了问你在这个项目里担任的角色,怎么平衡这几份并行的工作,当组长的时候有没有遇到什么问题 3. 计网:tcp和udp的区别,分别有什么应用场景,简单说说五层网络的特点 4. 算法:快排 5. 反问 就都是很