1、自我介绍 2、MR的执行过程,用了几次排序,Reduce怎么知道拉取哪些数据 3、RDD的底层实现(Spark用的不多就没问了) 4、项目介绍(没有针对项目进行提问) 5、SQL优化思路,具体讲了关于数据倾斜这块 6、SQL题:包含班级、学生、课程、分数的表,查询每个班每门课前三的学生 7、SQL题:包含user_id和target_id的表,找到互相关注的用户,优化不用join实现 8、SQ
1、自我介绍 2、为什么要去北京 3、MR的原理 4、为什么环形缓冲区到80%之后才反向溢写 5、SQL中哪些函数走MR,max走不走 6、select a,count(distinct b) from table group by a,MR的流程 7、SQL优化,如果给你两张表,用户视频表和用户粉丝表,怎么处理数据倾斜 8、SQL题:每个用户都有5门成绩,总计6列。请生成两列,其中1列是用户ID
1、自我介绍 2、看我用Java,问我Java程序的执行过程,然后Java怎么跨平台 3、基本数据类型,是否可以相互转换 4、自动装箱自动拆箱,Integer i = 100 是什么过程 5、深拷贝浅拷贝 6、Java是值传递还是引用传递 7、JVM的理解 8、堆是怎么划分的,实际有没有用到有关JVM的地方 9、垃圾清除算法说一下,什么时候FullGC 10、多线程,线程安全,线程通信之类的 11
美团一面3.20 1、聊项目 对我研究生的课题很感兴趣,让我展开讲一讲 2、说说对数据湖的看法,企业里应用数据湖还处于探索阶段,问我觉得这是什么原因 3、hadoop的架构原理是什么呢?有哪几个部分组成 4、hadoop是如何去读取和写入一个文件的 5、HDFS存储文件,是怎么进行存储的? 6、假如我有一个千兆的文件,那是怎么上传到HDFS上呢?具体是什么一个过程? 7、Hadoop默认副本是几个
自我介绍 讲项目(but项目经历貌似不匹配)全程都是我在输出 然后问了一下java new一个对象还有其他方式吗?克隆?? 操作系统进程和线程的区别 讲一些数据科学和数据开发的区别(他说我更适合数据科学qwq) 后面反问:你们是做什么的 好像是爬取数据建数仓emmmmm Over 他让我去做一下笔试题我也不知道这是什么意思emmmmm (可能是看我笔试成绩再决定挂不挂我???)
#你都收到了哪些公司的感谢信?# #晒一晒我的offer# #数据人的面试交流地# #数据人offer决赛圈怎么选# #数据分析#
没想到实习的第一面给了团子,记录一下: 1.面试官上来直接介绍业务:美团金融,负责借贷、理赔的,对这个挺感兴趣 2.发散:说说大数据和计算机专业的区别 3.谈谈对chatgpt的理解 4.介绍一下自己的项目背景(尚硅谷电商离线数仓) 5.两阶段聚合是怎么解决数据倾斜的 6.拉链表如何解决维度缓慢变化 7.数仓的分层结构 8.数仓的建模流程 9.如果产品给了一个用目前技术无法解决的问题,该怎么办?
1.自我介绍 2.实习中需求方向源自于哪里,最终交付哪些东西 3.数据倾斜展开聊聊,数据倾斜的本质,热点数据处理 4.bitmap原理和运用场景 5.零点漂移怎么解决 6.常见的维度建模模型和方法 7.java的垃圾回收机制 8.关系型数据库介绍一下,和数据仓库的区别 9.MySQL索引 10.数仓分层介绍一下,分层的好处 11.spark宽窄依赖,算子举例 12.手撕:java二分查找,sql窗
一面:3.14 1.首先问实习经历,简单说了下是做数据处理跟分析,然后又简单问了一下实验室项目,没有深入问 2.Java的数据结构有哪些 3.聊一下数组这种数据结构,各种操作的时空复杂度,arraylist的扩容。 4.有哪几种树? 5.详细介绍一下b树跟b+树,b+数查询时间复杂度,为什么? 6.b+数有哪些商业用途(答了MySQL索引) 7.增删改比较多的情况下,为什么一段时间后要重新建立索引
时间线: 5.10一面 —— 5.14约二面 —— 5.17二面 —— 5.25直接发offer 无hr面,无oc 美团一面 1.项目 1)项目的总体架构和实现? 2)Flulme 和 Sqoop 如何保证数据不丢失? 3)数仓中的主题是什么,是根据什么来确定的? 4)数仓分层的优点和缺点 5)星座模型 6)数仓分层,每一层的作用? 7)事实表和维度表有什么关系? 8)事实表有哪些类型? 9)除了
2022/06/15 一面 35min 1:介绍项目 2:数仓分为几层?每一层作用? 3:数仓分层的意义? 4:flume导入数据到HDFS 为什么中间加kafka? 5:项目中可视化用什么做的? 6:SQL题 一列为日期 一列为金额 按月统计金额总和 7:MapRedcue原理 8:MapReduce的三个阶段 9:研究生上的课 10:接触过实时的大数据业务吗? 反问:部门技术栈 ?实习的话
二面被面试官吊锤。问到了不熟悉的平时没太注意的细节。比如,utf-8能不能存emoj。当时有点忘记是utf-8的一个变种能存了,说了utf-8能存。百度基本问算法,算法设计这些,八股(指计网,操作系统等),大数据框架基本没问。项目也问的少。
整理了一下提前批的面试 项目: 项目介绍一下 数仓建模,设计的每一层的作用?数据量有多大? Hive怎么创建分区表?项目有用到动态分区吗?用到过二级分区吗? 了解Hive调优吗?分区裁剪了解吗? HDFS写数据流程 一台DataNode宕机怎么处理 HQL语句的执行过程,验证用户权限在哪个组件?语法检查、表结构是否存在的检查在哪个组件? 对哪个大数据组件熟悉? HBase LSM树的思想说一下 M
1、实习的工作内容是什么? 2、有写过UDF吗?如何实现UDF? 3、UDF要成为永久函数怎么做?如果不加temperory,函数下次还能用吗? 4、UDTF了解吗? 5、Hive的窗口函数有了解过吗? 6、开窗函数Over()中有没有orderby有什么区别? 7、汇总数据开发是怎么做的?(实习工作) 8、Flink任务的并行度和内存怎么设置的? 9、Flink的TaskManager内存模型了
昨天hr面完就oc了,今天签了录用函,整体来说速度还是非常快的。 一面(11.25): 主要是问的暑期实习中的工作,涉及到 数仓的分层建设 主要参与建设的数据域及需求细节 数据模型的设计 数据治理等 基本上是围绕着这几个方面深挖。 二面(12.02): 实习期间负责的数据的应用场景有哪些? 项目细节 如何看待这个岗位,你觉得它在企业中的职能是什么、价值体现在哪些方面? 你觉得这个岗位未来的发展趋势