25、MR工作原理 Input Spliting:输入的数据被拆分成更小数据块(Input Splits:将大文件切割成适合并行处理的小块数据,每个小块数据称为一个分片,一个分片作为MR处理的基本单元)Mapping:mapper节点将分配到数据块执行map操作,产生中间结果(k,v)键值对并写入到本地磁盘Shuffling and Sorting:Mapper节点会根据Key进行排序,并将相同K
主要问经历,问项目的比较多 hdfs的角色有哪些,功能 hdfs的写流程 Java的线程安全是什么 最熟悉的集合是什么?详细描述一下 Arraylist为什么长度可变 python的装饰器用过没?是什么东西? 手撕python编程题,给定一段字符串,统计出每个单词的频率,频率相同的按降序排序 外部表和内部表的区别? 为什么选择多益? 对游戏的流失人数进行分析? 有没有拿到其他公司的OFFER
1.自我介绍 2.实习技术难点 3.项目技术难点 4.id timestamp 位置 三个字段完全一样的去重,sql怎么做scala怎么做 挑选同个人最后一个时间戳的记录,sql怎么做scala怎么做 5.spark submit提交参数 6.内存/并行度参数优化方案和技巧 7.当出现数据倾斜的时候怎么排查,怎么处理 不能只提八股,要完善分情况的答 8.两数之和 9.小数之和 10.反问,写sca
2023春招找实习的同学跟我分享了他的面试经历,在这里我进行了一些总结梳理,然后发出来供大家学习 注意这是日常实习!!! 1.自我介绍 2.刷题 冒泡排序 3.八股文 3.1 JVM JVM的内存结构 类的加载过程 静态代码块和代码块初始化的顺序,以及静态代码块在哪个阶段被加载【初始化】 垃圾回收器 一个方法报错了,怎么进行分析,比如A方法调用B方法,B方法调用C方法....【没太懂】 3.2 并
2022-07-22 时长1h 1 自我介绍 2 数仓项目数据量多大 3 几个shell问题,监控spark日志内容并写入到另一个文件、实时监控spark日志内容 4 Java关键字、面向对象三大特征、接口和抽象类区别 5 set list map区别 6 介绍JVM内存区域,String是基本数据类型吗?基本数据类型变量存在哪里 7 垃圾回收机制 8 新生代老年代对象是如何流转的 9 创建线程的
2022-07-27 下午 时长1h5min 百度的面试官真的很好,这点没得说 1 自我介绍 2 数据倾斜——结合业务说了分组聚合和join,大表大表join怎么解决数据倾斜,展开说 3 SQL 没做出来,但是面试官全程提示,沟通交流 4 Hive和Spark哪个比较熟悉,我们聊一聊——都比较熟悉,问了Hive组件和底层执行逻辑,逻辑计划优化有哪些方法,什么是谓词下推(自己提到了) 5 算法:数组
1h 面试官没开摄像头,然后我也没开~ 1. 自我介绍 2. 项目介绍 3. Java NIO原理,与BIO有什么区别 4. 线程不安全的类有哪些 4. G1回收器原理 4. 类加载过程 4. GCROOTS由什么组成 5. 数据库索引 6. 数据库的事务和一致性 7. 计网分层结构 8. TCP和UDP的区别 9. TCP怎么实现可靠传输 10. HTTP3.0展开讲讲 11. 进程和线程的区别
40min 1面 自我介绍 项目介绍 做题:一道算法, sql2道 数据库索引有什么用 索引失效的情况 spark提交作业的流程 spark 共享变量有哪些 广播变量怎么实现的 hive外部表和内部表区别 hive优化,项目中使用到了哪些,展开讲讲 kafka是读写分离 为什么不做读写分离 mysql事务 40min 2面 自我介绍 项目介绍 算法题(20min) hard plus 没写出来最优
9.26 一面 (10.12感谢信) 20min+ 自我介绍 项目介绍 介绍下数仓分层?做了哪些数据处理? Spark反压机制? HDFS读写流程? kafka中出现数据堆积如何处理?
视频面,1h 吐槽:我8.11投递的岗位...八月底做完的笔试....10.21给我发邮箱约面,也不知道前面是哪个大佬拒了offer然后把我给捞上来了 但是,面试官人很好啊~面试体验很好~ 虽然我很多没答上来只能说分治思想贯穿了全程... 无自我介绍 实习 由于我有数据开发相关的实习,所以前30min各种问实习 做了哪些工作,怎么做的,任务挂了怎么办,怎么做的清洗,用的啥语言,用的是啥架构/工具?
10.20 一面 25min 自我介绍 Hadoop三大组件介绍 MR Shuffle的过程? Spark shuffle和 MR Shuffle概念和区别? shuffle作用? shuffle中涉及到哪些排序?快排和归并排序时间复杂度是多少? 宽窄依赖概念,如何划分? 一亿条数据如何找出top100? 归并排序 未来职业规划? 反问
hive的架构 hive外部表和内部表的区别 内部表的数据由hive管理,且存储在hive.metastore.warehouse.dir配置下的路径中;外部表的数据由HDFS存储,路径可以自己指定; 删除表时,内部表会把元数据及真实数据删除;外部表不删除真实数据。 你用过hive哪些窗口函数 可参考:面试官:你用过哪些窗口函数 一般用什么文件格式 可参考:面试官:“你们实际生产中hive用什么文
1-4面为春招实习,很遗憾最终没有通过,5-8面为秋招投递同一个部门,hr面后通知说换了一个组加一轮技术面和hr面,总体来讲实习面试更侧重实验室项目,秋招面试会细聊实习工作,每一轮的面试官都很nice,也都是一次很好的学习经历,感恩这一年和蚂蚁的相遇~ 一面(技术面) 介绍项目 遇到了什么问题 怎么解决的 介绍一下大数据的发展历程 项目选型,为什么用这些组件 介绍另一个项目 除了准确率还用了什么指
1. 自我介绍 2. 问了一下简历上的项目(研一在国电做的) 3. Spark有没有过调优 4. 基于我对Spark调优的一些回答进行追问: ● 我提到了利用RDD缓存进行RDD复用,追问Spark缓存一般可以用什么函数做到(cache,presist) ● 追问并行度的设置方法(配置文件或在代码中) ● 并行度的值一般根据什么设置(CPU核数的2-3倍) 5. Hive执行原理(SQL到MR的过
一面: 主要还是挖简历 自我介绍 问项目经历,聊聊过往开发的项目(聊了很久) 聊聊MySQL的事务 细聊ACID 隔离级别 innodb默认级别 innodb的底层数据存储 对比mysql和hive kafka为什么吞吐量大 场景题目:100个G的文件,保存用户id和看的bookid,求top10阅读量的书 反问