1h 面试官没开摄像头,然后我也没开~ 1. 自我介绍 2. 项目介绍 3. Java NIO原理,与BIO有什么区别 4. 线程不安全的类有哪些 4. G1回收器原理 4. 类加载过程 4. GCROOTS由什么组成 5. 数据库索引 6. 数据库的事务和一致性 7. 计网分层结构 8. TCP和UDP的区别 9. TCP怎么实现可靠传输 10. HTTP3.0展开讲讲 11. 进程和线程的区别
40min 1面 自我介绍 项目介绍 做题:一道算法, sql2道 数据库索引有什么用 索引失效的情况 spark提交作业的流程 spark 共享变量有哪些 广播变量怎么实现的 hive外部表和内部表区别 hive优化,项目中使用到了哪些,展开讲讲 kafka是读写分离 为什么不做读写分离 mysql事务 40min 2面 自我介绍 项目介绍 算法题(20min) hard plus 没写出来最优
9.26 一面 (10.12感谢信) 20min+ 自我介绍 项目介绍 介绍下数仓分层?做了哪些数据处理? Spark反压机制? HDFS读写流程? kafka中出现数据堆积如何处理?
视频面,1h 吐槽:我8.11投递的岗位...八月底做完的笔试....10.21给我发邮箱约面,也不知道前面是哪个大佬拒了offer然后把我给捞上来了 但是,面试官人很好啊~面试体验很好~ 虽然我很多没答上来只能说分治思想贯穿了全程... 无自我介绍 实习 由于我有数据开发相关的实习,所以前30min各种问实习 做了哪些工作,怎么做的,任务挂了怎么办,怎么做的清洗,用的啥语言,用的是啥架构/工具?
10.20 一面 25min 自我介绍 Hadoop三大组件介绍 MR Shuffle的过程? Spark shuffle和 MR Shuffle概念和区别? shuffle作用? shuffle中涉及到哪些排序?快排和归并排序时间复杂度是多少? 宽窄依赖概念,如何划分? 一亿条数据如何找出top100? 归并排序 未来职业规划? 反问
hive的架构 hive外部表和内部表的区别 内部表的数据由hive管理,且存储在hive.metastore.warehouse.dir配置下的路径中;外部表的数据由HDFS存储,路径可以自己指定; 删除表时,内部表会把元数据及真实数据删除;外部表不删除真实数据。 你用过hive哪些窗口函数 可参考:面试官:你用过哪些窗口函数 一般用什么文件格式 可参考:面试官:“你们实际生产中hive用什么文
1-4面为春招实习,很遗憾最终没有通过,5-8面为秋招投递同一个部门,hr面后通知说换了一个组加一轮技术面和hr面,总体来讲实习面试更侧重实验室项目,秋招面试会细聊实习工作,每一轮的面试官都很nice,也都是一次很好的学习经历,感恩这一年和蚂蚁的相遇~ 一面(技术面) 介绍项目 遇到了什么问题 怎么解决的 介绍一下大数据的发展历程 项目选型,为什么用这些组件 介绍另一个项目 除了准确率还用了什么指
一面: 主要还是挖简历 自我介绍 问项目经历,聊聊过往开发的项目(聊了很久) 聊聊MySQL的事务 细聊ACID 隔离级别 innodb默认级别 innodb的底层数据存储 对比mysql和hive kafka为什么吞吐量大 场景题目:100个G的文件,保存用户id和看的bookid,求top10阅读量的书 反问
一面 50分钟 自我介绍 你学过的大数据掌握的最好的是哪一个 hive里面排序一般怎么使用的 hive内部表和外部表的区别,外部表在什么场景下使用 hive视图用过吗 你对维度和事实的理解 你说到了业务过程,谈谈对它的理解 你刚刚描述的是一个业务过程还是 多个业务过程 多个业务过程放到一张事实表的你举个例子 维度建模中 星型模型和雪花模型 之间的区别 缓慢变化维表如何处理呢 全量表的数据保存多久
一、spark如何划分job,stage,task 遇到一个action算子开启一个job stage是遇到一个action开始,从后往前以shuffle为边界划分 stage划分成多个task,一个分区对应一个task 二、sql题:一个用户点击记录表t,有三个字段user_id,item_id,category_id 统计每个用户的每个商品类别的点击总量排名中,top3的商品 类别 selec
来源:http://www.techug.com/full-stack-python 前段时间,ThoughtWorks 在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用 JavaScript 进行前端、服务器端,甚至数据库(MongoDB)开发,一个 Web 应用开发人员,只需要学会一门语言,就可以实现整个应用。 受此启发,我发现 Python
面试战况为4对1拷打,虽然没有手撕,但鼠鼠受到了终极八股+项目拷打 上来自我介绍+项目 讲10min Sql相关:mvcc,事务,索引。Sql的限制(啥东西)查一个表索引重复怎么办? 给题说思路:包括连接,开窗,去重,等等各种,explain,sql优化, Binlog,undolog,redolog(这部分答的还行) Linux:蚌埠住了,不该说会linux的 改用户名,找一个文本具体某行,修改
40min 面试体验感超好,德子好感+1 Spark sql了解吗?Dateframe 是啥(不会) 项目里数据怎么拉的? Flume+kafka+flume+hdfs 有什么过滤器吗?:3个flume拦截器 判断文件类型+时间戳过滤器+落hdfs小文件检测 数据量:千万 flume拉取时间是多少?(不会,瞎编的10分钟有兄弟了解吗) Spark小文件怎么处理 Kafka 的整体结构:broke+
二面就问了20min不到,吓死我了,不过已经发offer啦,分享下二面问的一些题目。 还是挖简历。 数仓建模核心 拉链表、快照表、全量表的区别 好像就这些~
1. 简历深挖 2. mysql binlog了解吗 3. shell脚本写过吗 4. 两个集群,一张hive表如何进行数据共享,A集群如何同步到B集群中 5. 一张订单表,支付状态会发生变化,如何采集到ods? 面试官说由于每张mysql表都是在系统上有应用的,所以应该用update的方式更新支付状态,不能采用数仓的方式去思考问题,不能用拉链表。数仓可以保存历史数据,但是mysql表必须要用up