1-4面为春招实习,很遗憾最终没有通过,5-8面为秋招投递同一个部门,hr面后通知说换了一个组加一轮技术面和hr面,总体来讲实习面试更侧重实验室项目,秋招面试会细聊实习工作,每一轮的面试官都很nice,也都是一次很好的学习经历,感恩这一年和蚂蚁的相遇~ 一面(技术面) 介绍项目 遇到了什么问题 怎么解决的 介绍一下大数据的发展历程 项目选型,为什么用这些组件 介绍另一个项目 除了准确率还用了什么指
一面: 主要还是挖简历 自我介绍 问项目经历,聊聊过往开发的项目(聊了很久) 聊聊MySQL的事务 细聊ACID 隔离级别 innodb默认级别 innodb的底层数据存储 对比mysql和hive kafka为什么吞吐量大 场景题目:100个G的文件,保存用户id和看的bookid,求top10阅读量的书 反问
一面 50分钟 自我介绍 你学过的大数据掌握的最好的是哪一个 hive里面排序一般怎么使用的 hive内部表和外部表的区别,外部表在什么场景下使用 hive视图用过吗 你对维度和事实的理解 你说到了业务过程,谈谈对它的理解 你刚刚描述的是一个业务过程还是 多个业务过程 多个业务过程放到一张事实表的你举个例子 维度建模中 星型模型和雪花模型 之间的区别 缓慢变化维表如何处理呢 全量表的数据保存多久
一、spark如何划分job,stage,task 遇到一个action算子开启一个job stage是遇到一个action开始,从后往前以shuffle为边界划分 stage划分成多个task,一个分区对应一个task 二、sql题:一个用户点击记录表t,有三个字段user_id,item_id,category_id 统计每个用户的每个商品类别的点击总量排名中,top3的商品 类别 selec
来源:http://www.techug.com/full-stack-python 前段时间,ThoughtWorks 在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用 JavaScript 进行前端、服务器端,甚至数据库(MongoDB)开发,一个 Web 应用开发人员,只需要学会一门语言,就可以实现整个应用。 受此启发,我发现 Python
面试战况为4对1拷打,虽然没有手撕,但鼠鼠受到了终极八股+项目拷打 上来自我介绍+项目 讲10min Sql相关:mvcc,事务,索引。Sql的限制(啥东西)查一个表索引重复怎么办? 给题说思路:包括连接,开窗,去重,等等各种,explain,sql优化, Binlog,undolog,redolog(这部分答的还行) Linux:蚌埠住了,不该说会linux的 改用户名,找一个文本具体某行,修改
40min 面试体验感超好,德子好感+1 Spark sql了解吗?Dateframe 是啥(不会) 项目里数据怎么拉的? Flume+kafka+flume+hdfs 有什么过滤器吗?:3个flume拦截器 判断文件类型+时间戳过滤器+落hdfs小文件检测 数据量:千万 flume拉取时间是多少?(不会,瞎编的10分钟有兄弟了解吗) Spark小文件怎么处理 Kafka 的整体结构:broke+
二面就问了20min不到,吓死我了,不过已经发offer啦,分享下二面问的一些题目。 还是挖简历。 数仓建模核心 拉链表、快照表、全量表的区别 好像就这些~
1. 简历深挖 2. mysql binlog了解吗 3. shell脚本写过吗 4. 两个集群,一张hive表如何进行数据共享,A集群如何同步到B集群中 5. 一张订单表,支付状态会发生变化,如何采集到ods? 面试官说由于每张mysql表都是在系统上有应用的,所以应该用update的方式更新支付状态,不能采用数仓的方式去思考问题,不能用拉链表。数仓可以保存历史数据,但是mysql表必须要用up
年前面试的 流程是机考,测评,再面试 (数仓)一面 聊得还行,不知道怎么挂了。。。可能是Spark这一块了解得太少了 自我介绍 你做的项目数据采集用的什么工具和原理? 有没有做过数据治理? 有没有做过数据血缘关系管理? 数据突增问题有没有遇到过?影响HDFS,如何解决? Hive表格存储用的哪个?什么原理? 数据某个阶段出现问题了,你怎么样定位出来? 数据倾斜有没有遇到过?怎么处理的? 数据之间的
#秋招# JAVA: 1.java面对对象的特征 2.Java中基本类型有哪些 3.==和equals的区别 4.为什么重写equals要重写hashcode 5.List,map,set什么区别 6.Try,catch,finally 分别作用是什么 大数据: 7.hdfs的读流程 8.项目里用到的 hive on spark 和 普通的hive有什么区别 9.数据倾斜的优化,如果group b
一面:boss直聘,拷打项目,无八股。面试官简单介绍了项目的情况,反问。 二面:电话面,面试官一眼看出项目是网上的,我狂妄发言:“我是有自己的思考的”,然后被拷打,最后只憋出来了一条。 根据我之前的回答,面试官问了 1)数仓,业务系统,大数据平台的关系 根据jd,问了 2)py如何连接数据库,数据库游标、连接不释放会怎么样 3)hive分桶表,如何分桶,如何确定分桶的数量,分桶有什么用 4)怎么处
1.自我介绍,城市相关 2.你对于大数据哪一块比较了解,展开讲讲 3.结合项目讲数仓建模理论 4.数仓分层的理解和好处,每一层的作用 5.app层如果下面有多个看板,他们有多个指标是重复的,你怎么设计app层才能保证数据查询起来容易又包装数据的一致性呢 6.指标体系的了解 7.原子指标派生指标衍生指标 8.日活留存率怎么算,要得到连续十五天相对于第一天的的留存率,如何优化 9.spark学到什么程
今天面了字节大数据开发的三面,记录一下: 面试官先自我介绍,然后开始问专业知识。 1.你了解实时领域和离线领域的哪些技术? 2.mapreduce和spark作为计算引擎的差异 3.spark的rdd是什么 4.如何理解rdd中弹性的概念 5.spark有哪些调优方法 6.spark中的join操作有哪些 7.数仓建模方法有哪些 7.介绍一下flink的双流join,以及双流join可能会遇到哪些
2024/9/12 16:40 40min - 自我介绍 - 我看你本科不是计算机的,你学过一些专业课程吗? - 你是投的大数据开发吗?还是调过来的? - 开源项目介绍 - 剩下三个项目介绍 - 你的项目Redis是单机的还是集群 - Redis 槽了解过吗 - 对Spring Boot有了解吗? - Redis中基本数据结构 - 如果一个Hash存的对象非常大,会导致什么后果? - 接口可以继承