一面 50分钟 自我介绍 http协议是哪一层的协议,讲一下对http的了解 tcp协议和udp协议是哪一层的协议,讲一下他们之间的区别,以及他们各自的应用场景 你知道get和post请求吗,讲一下他们之间的区别 当我们输入美团网址的时候,这个从输入到显示页面的过程 你了解操作系统吗,linux了解吧,你说一下你用过的命令 当我们要查看文件的具体属性用什么命令 讲一下静态链表和动态链表的区别 数据
1、 面试官直接自我介绍,说HR面,开始问我问题。 2、 看专业是大数据相关的,你这是定向保研吗? 3、 你为什么选择大数据开发这个岗位? 4、 平常你怎么学习这些技术的? 5、 新技术看文档、博客、源码这些? 6、 经过两轮技术面,你对自己的评价? 7、 什么时候能来实习? #找实习多的是你不知道的事#
1、自我介绍 2、MR的执行过程,用了几次排序,Reduce怎么知道拉取哪些数据 3、RDD的底层实现(Spark用的不多就没问了) 4、项目介绍(没有针对项目进行提问) 5、SQL优化思路,具体讲了关于数据倾斜这块 6、SQL题:包含班级、学生、课程、分数的表,查询每个班每门课前三的学生 7、SQL题:包含user_id和target_id的表,找到互相关注的用户,优化不用join实现 8、SQ
1、自我介绍 2、为什么要去北京 3、MR的原理 4、为什么环形缓冲区到80%之后才反向溢写 5、SQL中哪些函数走MR,max走不走 6、select a,count(distinct b) from table group by a,MR的流程 7、SQL优化,如果给你两张表,用户视频表和用户粉丝表,怎么处理数据倾斜 8、SQL题:每个用户都有5门成绩,总计6列。请生成两列,其中1列是用户ID
1、自我介绍 2、看我用Java,问我Java程序的执行过程,然后Java怎么跨平台 3、基本数据类型,是否可以相互转换 4、自动装箱自动拆箱,Integer i = 100 是什么过程 5、深拷贝浅拷贝 6、Java是值传递还是引用传递 7、JVM的理解 8、堆是怎么划分的,实际有没有用到有关JVM的地方 9、垃圾清除算法说一下,什么时候FullGC 10、多线程,线程安全,线程通信之类的 11
岗位:数据开发 体验还不错,面试过程偏向聊天,会问一些新技术,从基础的框架为起点延申出一些问题,面试官也很友好,有些问题答不上来也说没关系 问的相对基础,但但范围较广 (忘记录屏以下为回忆,面试时长1h [蔚来数开一面] 自我介绍 实习介绍(因为前一份实习和数开相关性不是很大,只是写过sql就简单带过了没深挖 kafka相关: kafka的结构 优点,和其他消息队列相比优势在哪 数仓项目(自己做的
1.自我介绍 2.两道SQL 3.mapreduce中map阶段和reduce阶段的task的数量怎么确定 4.了解哪些建模方式,了解维度建模吗,说说他们的区别 5.rdd有哪些shuffle类算子 6.shuffle的本质是什么 7.为什么数仓要分层,分层的意义在哪 8.四个排序的区别 9.spark的提交流程 10.hive中的元数据存储了哪些内容 已过
一面: 1.自我介绍 2.数仓分层 3.来了新的业务怎么建模 4.选用的什么模型,有什么考量 5.如果现在一张事实表一对多一个维度表,此维度表又一对多一个维度表,怎么设计模型 6.实习过程中用的什么计算引擎 7.spark UI会看哪些内容 8.数据倾斜问题怎么解决 9.介绍一下项目 10.为什么有的指标在下沉的时候要拆开来 11.SQL调优,讲一个具体的例子 12.SQL题:求中位数 二面: 1
时间:一个小时 数据采集通道的搭建要用到什么能力 离线数仓项目几个人,后端做啥 datax和sqoop的区别(应用场景上的区别) maxwell的底层原理是啥 怎么理解mysql的主库和从库 主从延迟比较严重对数据的影响 数据量级,条数 在日志采集项目中有什么收获 这块是新开发的还是迭代的 现在数据采集已经封装很成熟了,那做数据采集对后面数仓开发有什么优势吗 hive中内部表和外部表怎么转换 多张
没想到实习的第一面给了团子,记录一下: 1.面试官上来直接介绍业务:美团金融,负责借贷、理赔的,对这个挺感兴趣 2.发散:说说大数据和计算机专业的区别 3.谈谈对chatgpt的理解 4.介绍一下自己的项目背景(尚硅谷电商离线数仓) 5.两阶段聚合是怎么解决数据倾斜的 6.拉链表如何解决维度缓慢变化 7.数仓的分层结构 8.数仓的建模流程 9.如果产品给了一个用目前技术无法解决的问题,该怎么办?
1.实习经历拷打 2.项目拷打 3.数仓分层 4.sql:连续登录 已OC
1.自我介绍 2.你对redis宕机后的方法 我:...... 3.你说到算法。你有刷过letcode算法? 我:很少刷letcode,一般都是刷sql的 3.kafka的副本同步 我:忘了 4.谈谈你对数仓的理解 我:..... 5.谈谈你对hbase和clickhouse的理解 我:.... 6.你说你对hive中的ads层数据导入到MySQL,为什么不是直接从hive的ads层中访问 我:不
2023春招找实习的同学跟我分享了他的面试经历,在这里我进行了一些总结梳理,然后发出来供大家学习 1. 自我介绍 2.八股文 hive的数据类型有哪些 hive中计算排名前N的函数有哪些 hive的优化手段你知道哪些 遇到过数据倾斜吗 mapjoin如何开启,参数是什么 3.SQL题 rt_ data表存放了当天每半小时的店铺销售数据,表名: rt_ data,字段名: shop id (店铺id
暑期实习(投得算是比较早),来和大家分享一下面经~😀 流程:顺丰流程个人感觉挺高效,体验也非常不错。 投递完之后就测评 4-15 显示简历通过安排面试 4-24 一面结束 代码是手写单例模式 4-25 二面结束 HR面 4-29 邮件offer (以下面试问题不是按照时间顺序,是按照个人回忆的顺序😅😅)我的技术栈是Spark方面的。 1.自我介绍,详细介绍一个个人的关于分布式系统开发的项目
6.8号电话通知简历筛选通过,问我什么时候有时间,进行电话面试。 6.9号电话技术面,30分钟,问的内容比较基础,基本上都是围绕着简历内容展开。 自我介绍 简历中项目的详细内容 Flume和Kafka如何搭配使用(项目中涉及) 项目中的数仓是如何构建的?如何分层的?分层的意义在哪里? 项目中用户画像是如何展示的? Spark和MR有什么区别 Spark启动后的程序流程 Spark宽窄依赖 Spar