1、自我介绍 2、MR的执行过程,用了几次排序,Reduce怎么知道拉取哪些数据 3、RDD的底层实现(Spark用的不多就没问了) 4、项目介绍(没有针对项目进行提问) 5、SQL优化思路,具体讲了关于数据倾斜这块 6、SQL题:包含班级、学生、课程、分数的表,查询每个班每门课前三的学生 7、SQL题:包含user_id和target_id的表,找到互相关注的用户,优化不用join实现 8、SQ
1、自我介绍 2、为什么要去北京 3、MR的原理 4、为什么环形缓冲区到80%之后才反向溢写 5、SQL中哪些函数走MR,max走不走 6、select a,count(distinct b) from table group by a,MR的流程 7、SQL优化,如果给你两张表,用户视频表和用户粉丝表,怎么处理数据倾斜 8、SQL题:每个用户都有5门成绩,总计6列。请生成两列,其中1列是用户ID
1、自我介绍 2、看我用Java,问我Java程序的执行过程,然后Java怎么跨平台 3、基本数据类型,是否可以相互转换 4、自动装箱自动拆箱,Integer i = 100 是什么过程 5、深拷贝浅拷贝 6、Java是值传递还是引用传递 7、JVM的理解 8、堆是怎么划分的,实际有没有用到有关JVM的地方 9、垃圾清除算法说一下,什么时候FullGC 10、多线程,线程安全,线程通信之类的 11
美团一面3.20 1、聊项目 对我研究生的课题很感兴趣,让我展开讲一讲 2、说说对数据湖的看法,企业里应用数据湖还处于探索阶段,问我觉得这是什么原因 3、hadoop的架构原理是什么呢?有哪几个部分组成 4、hadoop是如何去读取和写入一个文件的 5、HDFS存储文件,是怎么进行存储的? 6、假如我有一个千兆的文件,那是怎么上传到HDFS上呢?具体是什么一个过程? 7、Hadoop默认副本是几个
岗位JD 使用大数据组件对海量数据进行建模,参与数据仓库的的开发、维护及优化 岗位要求 计算机相关专业,对大数据有浓烈的兴趣 扎实的计算机基础,熟练使用python/java/scala其中至少一种语言 熟悉Hadoop生态体系,包括但不限于Hadoop/Hive/Spark/Clickhouse 学习能力强,强烈的责任心,具有较强的沟通能力及团队合作精神,细致耐心、积极主动 有大规模数据/日志处
1.问本科经历,对大数据的接触 2.问项目是否是真实项目或者实习项目,,不是demo 3.项目介绍,毕设项目讲了15分钟 4.where和having区别(having能单用) 5.Spark宽窄依赖 6.leftrightinnerjoin 7.sql写题,统计所有月销售额超过1w的员工 8.反问,ABtesting--是否是埋点-PVUV-灰度策略的流程
15min 八股 + 50min 手撕代码 八股: 如何判断java对象可以被回收 手撕:1、LRU缓存 2、mysql mysql主播表: 用户id,房间id,开播时间,下播时间,房间开启状态(0、1),日期 第一问:求每个主播每一天的开播时长 第二问:求每个主播一天内每小时的开播时长 没想到主播可以跨天直播,寄! 本java后端菜鸡,被大数据开发爆杀😂
面经:主要看学历40%、项目经历30%、籍贯30%,一共17分钟 1.自我介绍 2.负责项目和擅长的编程语言(注意:项目大小由面试官判断) 3.hdfs流程 4.编程语言八股(好笑的是说python面试官都蒙,说Java才能走流程 5.项目追问 遇到问题: 1.非硕不要报,就是刷kpi的,海外本科可以报下,有点恶心; 2.非当地省份户籍的慎重,否则同样kpi,面试官比较看重这一点,对外地很会阴阳怪
公司:一面数据 岗位:数据分析师 形式:视频面试 视频面试平台:飞书 面试官:两个数据分析师 时长:30分钟 流程: 0、面试官自我介绍 1、自我介绍 2、这个实习的岗位更偏向于商业分析,可能更偏向于洞察的产出、可视化的呈现、前端debug等。想问一下你对这一块的看法是什么? 3、过往经历中有哪些是数据分析实际落地到业务上或者有产出实际价值的,可以介绍一下吗? 4、项目经历深挖。数据可视化是基于什
10道选择题70分,两道编程题30分,共一个小时,对于这分值分配有点不理解。 编程题不难,但是很奇怪a不了,有同学和我一样吗 第一题: 题目: 小红有一个链表,链表中每个结点有一个整数值。小红想要通过删除其中的某些结点,使得剩余链表的相邻结点的数据值的和为奇数。满足条件的删除方法可能有多种,小红想要保留尽量多的结点。 解决思路 最终的链表无非就是奇数值结点开头或者偶数值结点开头两种,然后后面奇数值
最近失业了,投了一下北京安信立融科技股份有限公司郑州分公司的中级java开发工程师岗位。一共两轮首先面的是算法,然后是应用。 1、你想要多少薪资 这个中级给的是6-10k,我要了个7,领导说不行。6,不行。不愧是做基金的公司对市场了如指掌,他们领导很清楚郑州这个城市,这个时间点,应届生非常不值钱。 2、算法题,说一下思路和理解。随着城市的发展,交通路线会建设的越来越多,同样信号灯会越来越多,如果有
之前一直在牛客找面经,对自己帮助也很大,意向了也写一篇,感谢! 一面: 1、介绍项目 2、ODS和DWD怎么区分,分别存什么样的数据 4、跨数据域问题,怎么做的 5、有哪些宽表,对应什么指标和业务过程 6、留存率、漏斗分析等,是怎样的开发过程,后续使用 7、任务性能优化或代码方面的优化 8、hive on spark和spark区别,计算时间上有差异吗 9、kylin为什么快 10、两道SQL
一面:3.14 1.首先问实习经历,简单说了下是做数据处理跟分析,然后又简单问了一下实验室项目,没有深入问 2.Java的数据结构有哪些 3.聊一下数组这种数据结构,各种操作的时空复杂度,arraylist的扩容。 4.有哪几种树? 5.详细介绍一下b树跟b+树,b+数查询时间复杂度,为什么? 6.b+数有哪些商业用途(答了MySQL索引) 7.增删改比较多的情况下,为什么一段时间后要重新建立索引
时间线: 5.10一面 —— 5.14约二面 —— 5.17二面 —— 5.25直接发offer 无hr面,无oc 美团一面 1.项目 1)项目的总体架构和实现? 2)Flulme 和 Sqoop 如何保证数据不丢失? 3)数仓中的主题是什么,是根据什么来确定的? 4)数仓分层的优点和缺点 5)星座模型 6)数仓分层,每一层的作用? 7)事实表和维度表有什么关系? 8)事实表有哪些类型? 9)除了
2022/06/15 一面 35min 1:介绍项目 2:数仓分为几层?每一层作用? 3:数仓分层的意义? 4:flume导入数据到HDFS 为什么中间加kafka? 5:项目中可视化用什么做的? 6:SQL题 一列为日期 一列为金额 按月统计金额总和 7:MapRedcue原理 8:MapReduce的三个阶段 9:研究生上的课 10:接触过实时的大数据业务吗? 反问:部门技术栈 ?实习的话