5/5一面 5/14 二面 5/18 hr面 5/19 OC 一面(1h10min) 1.自我介绍一下 2.介绍一下你的项目 2.1 Mysql全量数据规模 2.2 既然Mysql能存储,为什么要导入到hive中 3.说一下MySQL的ACID特性 4.脏读和幻读分别是什么含义 5.spark持久化的级别和作用 6.spark任务出现数据倾斜有哪些方法解决 7.hive没办法创建分区怎么理
了解哪些大数据组件 Shuffle 的作用是什么 Shuffle 中合并的操作有什么用/好处 MapReduce 中出现数据倾斜怎么处理 Yarn 有哪几个比较重要的进程 ResourceManager 主要的作用 ApplicationMaster 主要的作用 任务的监控在哪个进程 ZooKeeper leader选举机制 ZooKeeper 读写一致性具体体现在哪些地方 Spark 宽窄依赖
🍆 数仓方向 9.19 一面 第二天就挂了 自我介绍,科研项目介绍(项目相关问题提问) 1) 内部表和外部表的区别? 2) 窗口函数? 3) 知不知道比HDFS活跃度更高的产品? 4) Zookeeper常用得场景和用法?RATF协议了解吗? 5) CAP原理?一致性的概念? 6) Hadoop如何保证一致性? 7) Hadoop生态圈和MySQL等分布式数据库的区别? 8) Hive支
9.22 一面 1h 自我感觉挺好的还,9.26挂了 1)自我介绍 2)两个项目介绍 3)Hadoop的元数据存在哪里? 4)什么是缓慢变化维?拉链表的数据具体是怎么更新?并举例 5)Kafka的零拷贝机制? 6)对RDD的了解 7)哪些情况下会发生索引失效? 手撕代码 1)无重复字符的最长子串 双指针+map 2) 求出数组中最小的n个数 3) 求出每个部门的薪资前三的用
前言 星环感觉整个流程非常不错,二面面试官不是搞大数据的,但是交流上感觉到了尊重,面试实在7月份,八月份就给意向了,进展到十月份了对比看来星环流程真的不错(PDD推荐组某个面试官一生黑),看到大数据后端已经不招人了,但是可能会拒掉 一面 忘记了没有记录 二面 1.1. HBASE架构 1.2. Regionserver结构 1.3. Hbase避免热点数据(Rowkey的设计) [大白话彻底讲透
自我介绍 问对hadoop各个组件的了解 解释下mapreduce的过程 问有没看过谷歌的GFS论文 问项目里数据库咋建模设计的 对维度建模的了解 对数仓的了解,数仓一般咋分层 GGGG,这之前只关注框架底层了,,没看过数仓的东西#大数据开发面经##实习生[话题]##access#
2.9上午面试,时间不到9min 1、自我介绍(1min) 2、英文回答平时怎么学习(措手不及-答得很烂) 3、情景题 4、投递贵公司最看重的三个因素 5、希望税前月薪 6、接受其他岗位调剂吗 7、北京户口有需求吗 疑问:这次面试是秋招补录还是春招?有同一天面试的同学了解情况的能说说吗,如果有后续消息麻烦告知下lz 更新: 2.14 下午收到签约会通知 #春招# #联通面试# #国企#
返校前最后篇面经 这两次面试官感觉都挺满意的,,估计能有offer了 百度大数据研发一面(就一面) 2.22 自我介绍 项目 1.爬虫和识别匹配的细节 2.爬虫异常情况 3.内部表外部表区别 4.数据量大小 5.推荐KNN模型距离的细节 技术 6.mapreduce计算过程 7.shuffle细节 8.数据倾斜原因和处理方式 我举了两种 mapjoin 加盐 9.hive窗
首先做了三道SQL题,主要涉及分组聚合、窗口函数。 3.3 一面 28min: 1.自我介绍 2.为什么要做这个项目 3.介绍DataX 4.项目问题 5.介绍HDFS 6.Hadoop hive hdfs spark关系 7.职业规划 8.数仓分层 9.窗口函数 3.6 二面 45min: 1.自我介绍 2.项目介绍 3.维度模型 4.一道数仓场景题 5.数仓分层 6.SQL常用函数 7.ran
时长:1h 由于问题太多,分四类进行整理 0. 实习相关:之前有数据开发的实习经验,就问了之前工作有没有spark或者hivesql优化的经验;如何确保数据的有效性;实习公司数据存储格式(Parquet),还知道哪些数据存储格式 1. 大数据相关问题:为什么Spark比MR快;对Spark的了解;两个表join的优化方法(大小表join可以map-side join, join前过滤null值);
总共33min,凉透了,可能因为我是第一次面试,没经验,被面试官牵着鼻子走 1、数据仓库和数据库的区别 2、数仓的分层 3、维度建模的基本构成 4、了解缓慢变化维吗 5、说一下拉链表 6、用到了哪些用户指标作为算法的输入呢? 7、协同过滤的常用算法有了解吗? 8、Presto和Hive区别 9、Hivesql和sparksql区别 10、Sql:统计最近下单的用户是在去年12月份的用户数量 11、
- 3/9笔试 - 选择题大概三四十个 - 问答题10个,涉及python,HSFS八股,Java八股 - 3/14一面,全是快问快答25min - 问简历,项目介绍,项目中提到的模型被揪出来问了细节 - 常见的机器学习算法讲讲,深度学习会多少呢? - 编程语言?希望会Java - 各种排序算法,时间复杂度,随便介绍几个呗 - Python的装饰器 - 指针和引用的区别(这是C++,但是当时并不知
#暑期# #投递实习岗位前的准备# 3月23日--分享个经验,求个好运 时长一个小时二十分钟 自我介绍 因为学统计的,问了中心极限定理和大数据定律 机器学习-XGBoost算法简介 两道智力题:逻辑判断谁说谎了和分金条 问了为什么研究生跨专业保研了? Hive和MySQL区别 数据库的索引有什么用 说一下索引的类型,还有B+树索引 数据仓库和关系型数据库区别 Hadoop生态圈简介 问我SQL写的
CIO决策世界以全球化、互联网化的思维整合行业热点话题,为企业IT管理者提供最有价值的趋势分析和技术盘点。在这里,你会看到全球各地资深IT观察者的独家观点,你也会得到各行各业IT实践者的独家秘笈。立足中国,放眼全球,让行业趋势分析带动深度思考,让技术盘点推动IT转型。
面试10分钟不到,等了快半小时 1 自我介绍 2 项目介绍 3 hdfs读数据流程 4 linux vim命令 5 热门商品topN指标编写 6 为什么选择西安 7 期望薪资