10.20 一面 25min 自我介绍 Hadoop三大组件介绍 MR Shuffle的过程? Spark shuffle和 MR Shuffle概念和区别? shuffle作用? shuffle中涉及到哪些排序?快排和归并排序时间复杂度是多少? 宽窄依赖概念,如何划分? 一亿条数据如何找出top100? 归并排序 未来职业规划? 反问
hive的架构 hive外部表和内部表的区别 内部表的数据由hive管理,且存储在hive.metastore.warehouse.dir配置下的路径中;外部表的数据由HDFS存储,路径可以自己指定; 删除表时,内部表会把元数据及真实数据删除;外部表不删除真实数据。 你用过hive哪些窗口函数 可参考:面试官:你用过哪些窗口函数 一般用什么文件格式 可参考:面试官:“你们实际生产中hive用什么文
1-4面为春招实习,很遗憾最终没有通过,5-8面为秋招投递同一个部门,hr面后通知说换了一个组加一轮技术面和hr面,总体来讲实习面试更侧重实验室项目,秋招面试会细聊实习工作,每一轮的面试官都很nice,也都是一次很好的学习经历,感恩这一年和蚂蚁的相遇~ 一面(技术面) 介绍项目 遇到了什么问题 怎么解决的 介绍一下大数据的发展历程 项目选型,为什么用这些组件 介绍另一个项目 除了准确率还用了什么指
线下群面: 五分钟读题,然后每人简单自我介绍+说出对题目的答案,然后讨论20分钟,最后5分钟派一个人总结。 题目:(2选1) 1、如何构建数据中台? 2、设计一个智能家居,应该有哪些功能?用什么技术实现这些功能? 测评: 性格测试+图形推理+资料分析 二面: 1、自我介绍 2、详细介绍一下项目 3、实习的数据框架和项目的数据框架有什么区别吗? 4、数据采集还了解其他工具或架构吗? 5、数据加工处理
1. 自我介绍 2. 问了一下简历上的项目(研一在国电做的) 3. Spark有没有过调优 4. 基于我对Spark调优的一些回答进行追问: ● 我提到了利用RDD缓存进行RDD复用,追问Spark缓存一般可以用什么函数做到(cache,presist) ● 追问并行度的设置方法(配置文件或在代码中) ● 并行度的值一般根据什么设置(CPU核数的2-3倍) 5. Hive执行原理(SQL到MR的过
陆续分享点面经 虽然大部分都被挂了hh 希望能帮到大家 3.15 一面 1.自我介绍 2.题外话 怎么看待数仓和算法的联系 3.项目 4.介绍一下对大数据技术生态的了解 5. 怎么理解spark和hive 6.hive的逻辑架构 7.MR的流程 8.整个MR有几次排序 9.spark的shuffle 10.怎么确定spark分解成多少个task,即spark任务的并行度怎么指定 11.stage的
前言 从2023年3月初开始投递暑期实习,几乎所有大厂都投递过了,有些简历都过不了,有些一面直接挂了,虽然说确实互联网行情不是特别的好,但是应该还是自己能力不足,做的简历不够漂亮; 4月的时候第一次刷到了@三石数据的面经帖(见下图),于是跟他聊了一下,真的收获太多了,非常非常感谢这位大佬的指导,不仅帮助我修改简历,而且还给我解答一些在面试中遇到的问题;大佬要是没女朋友的话,我愿意以身相许(开个玩笑
一面 50分钟 自我介绍 你学过的大数据掌握的最好的是哪一个 hive里面排序一般怎么使用的 hive内部表和外部表的区别,外部表在什么场景下使用 hive视图用过吗 你对维度和事实的理解 你说到了业务过程,谈谈对它的理解 你刚刚描述的是一个业务过程还是 多个业务过程 多个业务过程放到一张事实表的你举个例子 维度建模中 星型模型和雪花模型 之间的区别 缓慢变化维表如何处理呢 全量表的数据保存多久
1.Java的数据结构相关 2.HashMap怎么解决哈希冲突的 3.HashMap和HashSet区别 4.Spark shuffle 5.Maven会用吗,怎么解决版本冲突? 6.实习相关 反问 做什么的?用什么? 偏底层,主要是做Spark和Flink底层的一些东西
一、spark如何划分job,stage,task 遇到一个action算子开启一个job stage是遇到一个action开始,从后往前以shuffle为边界划分 stage划分成多个task,一个分区对应一个task 二、sql题:一个用户点击记录表t,有三个字段user_id,item_id,category_id 统计每个用户的每个商品类别的点击总量排名中,top3的商品 类别 selec
常用数据表说明: dede_archives|文档主表 dede_addonarticle|文章附加表 dede_addonimages|图片附加表 dede_addonshop|商品附加表 dede_addonsoft|软件附加表 dede_addonspec|专题附加表 dede_arctype|栏目表 dede_flink|友情链接表 dede_admin|系统管理用户表 dede_flin
来源:http://www.techug.com/full-stack-python 前段时间,ThoughtWorks 在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用 JavaScript 进行前端、服务器端,甚至数据库(MongoDB)开发,一个 Web 应用开发人员,只需要学会一门语言,就可以实现整个应用。 受此启发,我发现 Python
面试战况为4对1拷打,虽然没有手撕,但鼠鼠受到了终极八股+项目拷打 上来自我介绍+项目 讲10min Sql相关:mvcc,事务,索引。Sql的限制(啥东西)查一个表索引重复怎么办? 给题说思路:包括连接,开窗,去重,等等各种,explain,sql优化, Binlog,undolog,redolog(这部分答的还行) Linux:蚌埠住了,不该说会linux的 改用户名,找一个文本具体某行,修改
10.23 非科班,只学了离线的技术栈,没项目,投了一个月全被拒了。(百度 美团 得物 滴滴 蔚来) 一面二面八股问的简单也都答出来了,但是算法题都是暴力求解,竟然过了,三面感觉八股有点冷门,算法题做出来了结果挂了,究极折磨,有点难受! 数仓分层,什么是主题 Kafka怎么保证数据一致性 Hdfs有哪些数据存储类型,有什么区别 Spark和MapReduce的比较 为什么转行 做过的数据分析案例
1、自我介绍 2、数仓怎么自学的 3、整个项目架构说一下 4、数据域是什么概念(提到了数据类型),那如何界定数据类型呢 5、总线矩阵构建过程 6、dwd层怎么设计的 7、了解业务过程这个概念吗 8、分域的话,在dws表中有没有可能会跨域(举了个互动域和活动域的例子),结果告诉我这样的话你的互动域设计的其实是有问题的(挖坑给我跳,悲) 9、星形模型和雪花模型 10、缓慢变化纬为什么用拉链表,他说他第