40min 1面 自我介绍 项目介绍 做题:一道算法, sql2道 数据库索引有什么用 索引失效的情况 spark提交作业的流程 spark 共享变量有哪些 广播变量怎么实现的 hive外部表和内部表区别 hive优化,项目中使用到了哪些,展开讲讲 kafka是读写分离 为什么不做读写分离 mysql事务 40min 2面 自我介绍 项目介绍 算法题(20min) hard plus 没写出来最优
1.先自我介绍 2.然后介绍实习,之前的实习做的是离线数仓开发,聊的时候感觉面试官不懂数仓 3.那就做题吧 第一题 剑指 Offer 19. 正则表达式匹配,我知道是原题,也知道我面试必定做不出来,就直接说我不会 第二题 124. 二叉树中的最大路径和 ,虽然之前刷过,但完全不记得了,做的时候感觉完全是新题,直接中序遍历按最大连续子序列和的思路求了一个结果,面试官说是错的(当然事实上也确实是错的)
9.26 一面 (10.12感谢信) 20min+ 自我介绍 项目介绍 介绍下数仓分层?做了哪些数据处理? Spark反压机制? HDFS读写流程? kafka中出现数据堆积如何处理?
视频面,1h 吐槽:我8.11投递的岗位...八月底做完的笔试....10.21给我发邮箱约面,也不知道前面是哪个大佬拒了offer然后把我给捞上来了 但是,面试官人很好啊~面试体验很好~ 虽然我很多没答上来只能说分治思想贯穿了全程... 无自我介绍 实习 由于我有数据开发相关的实习,所以前30min各种问实习 做了哪些工作,怎么做的,任务挂了怎么办,怎么做的清洗,用的啥语言,用的是啥架构/工具?
10.20 一面 25min 自我介绍 Hadoop三大组件介绍 MR Shuffle的过程? Spark shuffle和 MR Shuffle概念和区别? shuffle作用? shuffle中涉及到哪些排序?快排和归并排序时间复杂度是多少? 宽窄依赖概念,如何划分? 一亿条数据如何找出top100? 归并排序 未来职业规划? 反问
hive的架构 hive外部表和内部表的区别 内部表的数据由hive管理,且存储在hive.metastore.warehouse.dir配置下的路径中;外部表的数据由HDFS存储,路径可以自己指定; 删除表时,内部表会把元数据及真实数据删除;外部表不删除真实数据。 你用过hive哪些窗口函数 可参考:面试官:你用过哪些窗口函数 一般用什么文件格式 可参考:面试官:“你们实际生产中hive用什么文
1-4面为春招实习,很遗憾最终没有通过,5-8面为秋招投递同一个部门,hr面后通知说换了一个组加一轮技术面和hr面,总体来讲实习面试更侧重实验室项目,秋招面试会细聊实习工作,每一轮的面试官都很nice,也都是一次很好的学习经历,感恩这一年和蚂蚁的相遇~ 一面(技术面) 介绍项目 遇到了什么问题 怎么解决的 介绍一下大数据的发展历程 项目选型,为什么用这些组件 介绍另一个项目 除了准确率还用了什么指
线下群面: 五分钟读题,然后每人简单自我介绍+说出对题目的答案,然后讨论20分钟,最后5分钟派一个人总结。 题目:(2选1) 1、如何构建数据中台? 2、设计一个智能家居,应该有哪些功能?用什么技术实现这些功能? 测评: 性格测试+图形推理+资料分析 二面: 1、自我介绍 2、详细介绍一下项目 3、实习的数据框架和项目的数据框架有什么区别吗? 4、数据采集还了解其他工具或架构吗? 5、数据加工处理
1. 自我介绍 2. 问了一下简历上的项目(研一在国电做的) 3. Spark有没有过调优 4. 基于我对Spark调优的一些回答进行追问: ● 我提到了利用RDD缓存进行RDD复用,追问Spark缓存一般可以用什么函数做到(cache,presist) ● 追问并行度的设置方法(配置文件或在代码中) ● 并行度的值一般根据什么设置(CPU核数的2-3倍) 5. Hive执行原理(SQL到MR的过
陆续分享点面经 虽然大部分都被挂了hh 希望能帮到大家 3.15 一面 1.自我介绍 2.题外话 怎么看待数仓和算法的联系 3.项目 4.介绍一下对大数据技术生态的了解 5. 怎么理解spark和hive 6.hive的逻辑架构 7.MR的流程 8.整个MR有几次排序 9.spark的shuffle 10.怎么确定spark分解成多少个task,即spark任务的并行度怎么指定 11.stage的
前言 从2023年3月初开始投递暑期实习,几乎所有大厂都投递过了,有些简历都过不了,有些一面直接挂了,虽然说确实互联网行情不是特别的好,但是应该还是自己能力不足,做的简历不够漂亮; 4月的时候第一次刷到了@三石数据的面经帖(见下图),于是跟他聊了一下,真的收获太多了,非常非常感谢这位大佬的指导,不仅帮助我修改简历,而且还给我解答一些在面试中遇到的问题;大佬要是没女朋友的话,我愿意以身相许(开个玩笑
一面 50分钟 自我介绍 你学过的大数据掌握的最好的是哪一个 hive里面排序一般怎么使用的 hive内部表和外部表的区别,外部表在什么场景下使用 hive视图用过吗 你对维度和事实的理解 你说到了业务过程,谈谈对它的理解 你刚刚描述的是一个业务过程还是 多个业务过程 多个业务过程放到一张事实表的你举个例子 维度建模中 星型模型和雪花模型 之间的区别 缓慢变化维表如何处理呢 全量表的数据保存多久
1.Java的数据结构相关 2.HashMap怎么解决哈希冲突的 3.HashMap和HashSet区别 4.Spark shuffle 5.Maven会用吗,怎么解决版本冲突? 6.实习相关 反问 做什么的?用什么? 偏底层,主要是做Spark和Flink底层的一些东西
一、spark如何划分job,stage,task 遇到一个action算子开启一个job stage是遇到一个action开始,从后往前以shuffle为边界划分 stage划分成多个task,一个分区对应一个task 二、sql题:一个用户点击记录表t,有三个字段user_id,item_id,category_id 统计每个用户的每个商品类别的点击总量排名中,top3的商品 类别 selec
常用数据表说明: dede_archives|文档主表 dede_addonarticle|文章附加表 dede_addonimages|图片附加表 dede_addonshop|商品附加表 dede_addonsoft|软件附加表 dede_addonspec|专题附加表 dede_arctype|栏目表 dede_flink|友情链接表 dede_admin|系统管理用户表 dede_flin