荣耀:录用决策中 概况:投递的是大数据开发岗,整体面试流程较快,面试官考虑我本科商科背景也没有特别为难,更多是考察我对于一些大数据技术的基础认知。 一面: 1. 主要会什么语言?用过什么库?讲下自己使用机器学习算法做的一个项目? 2. 讲讲Hadoop的构成?遇到过数据倾斜问题没有?产生原因,以及解决方案?
1、自我介绍 2、MR的执行过程,用了几次排序,Reduce怎么知道拉取哪些数据 3、RDD的底层实现(Spark用的不多就没问了) 4、项目介绍(没有针对项目进行提问) 5、SQL优化思路,具体讲了关于数据倾斜这块 6、SQL题:包含班级、学生、课程、分数的表,查询每个班每门课前三的学生 7、SQL题:包含user_id和target_id的表,找到互相关注的用户,优化不用join实现 8、SQ
1、自我介绍 2、为什么要去北京 3、MR的原理 4、为什么环形缓冲区到80%之后才反向溢写 5、SQL中哪些函数走MR,max走不走 6、select a,count(distinct b) from table group by a,MR的流程 7、SQL优化,如果给你两张表,用户视频表和用户粉丝表,怎么处理数据倾斜 8、SQL题:每个用户都有5门成绩,总计6列。请生成两列,其中1列是用户ID
1、自我介绍 2、看我用Java,问我Java程序的执行过程,然后Java怎么跨平台 3、基本数据类型,是否可以相互转换 4、自动装箱自动拆箱,Integer i = 100 是什么过程 5、深拷贝浅拷贝 6、Java是值传递还是引用传递 7、JVM的理解 8、堆是怎么划分的,实际有没有用到有关JVM的地方 9、垃圾清除算法说一下,什么时候FullGC 10、多线程,线程安全,线程通信之类的 11
测评:行测题,难度简单—中等 线下群面:2个面试官,一位hr,一位技术面试官 1、自我介绍 2、给一个场景题,附带两个问题,35分钟,小组讨论,选两位总结 题目和智能汽车有关,涉及优点和劣势 (1)讨论智能汽车的影响 (2)说说智能汽车潜在的风险,并列出解决方案 3、技术面试官提问 (1)数据开发:说一下事实表和维度表? (2)其他岗位:忘了 4、hr提问 怎么评价自己在小组讨论里的表现? 群面凉
岗位:数据开发 体验还不错,面试过程偏向聊天,会问一些新技术,从基础的框架为起点延申出一些问题,面试官也很友好,有些问题答不上来也说没关系 问的相对基础,但但范围较广 (忘记录屏以下为回忆,面试时长1h [蔚来数开一面] 自我介绍 实习介绍(因为前一份实习和数开相关性不是很大,只是写过sql就简单带过了没深挖 kafka相关: kafka的结构 优点,和其他消息队列相比优势在哪 数仓项目(自己做的
一面: 全程围绕简历展开问 1、自我介绍 2、聊聊印象最深刻的一次竞赛经历 (简历写了) 针对这个竞赛内容抠细节 3、问实习经历中做的事情 挑了其中几个细问 这个答了好久,从事情的背景,到思考链路 4、一道算法题 一个数组先升序再降序,求最大值 5、hadoop数据的存储格式 6、spark里job、stage、task的概念 7、问flink、hudi这个有没有经验 因为简历上写了,回答说学习的
程序应该处理如果redis数据丢失时的清理redis内存和重新加载的过程。
网易哈勃数据是新一代用户行为分析产品,定位于为用户提供全套的数据解决方案。主要特点包括: 实时多维分析:提供五种自定义分析模型,支持用户对产品进行深入分析 用户分析:从多种角度对用户进行分析,帮助产品深入洞察用户 数据看板:各个用户搭建属于自己的数据门户系统 数据资产沉淀:我们帮助产品方搭建数据属于自己的数据仓库,完美支持更多数据深度分析 主要功能包括: 应用统计:提供基本的数据统计指标,帮助产品
刚笔试完,感觉是凉凉了 笔试包括30道选择题(数据库,c++语言程序(主要是给出函数代码判断输出是啥),数据结构(二叉树),代数,概率论等;还有两道编程题(一道是给定一个长为n的绳子,要求将其分割成m段,最后求所有分法中导致长度之积的最大的分法对应的值;第二道题目是给定n,输出从1到10^n-1的值) ------------------------ 好难,没有行测题,感觉纯技术题
美团一面3.20 1、聊项目 对我研究生的课题很感兴趣,让我展开讲一讲 2、说说对数据湖的看法,企业里应用数据湖还处于探索阶段,问我觉得这是什么原因 3、hadoop的架构原理是什么呢?有哪几个部分组成 4、hadoop是如何去读取和写入一个文件的 5、HDFS存储文件,是怎么进行存储的? 6、假如我有一个千兆的文件,那是怎么上传到HDFS上呢?具体是什么一个过程? 7、Hadoop默认副本是几个
选择题考的408不多,主要是HDFS、Spark、Python语法、Linux 编程题: 1.字符串,过于简单就不写了 2.三素数之和,给你一个正整数N,你需要选出3个小于N的素数A、B、C,来满足A+B=C²,输出所有可能的结果数 我的想法是狂用标记数组,差五分钟就写出最后一步了 3.SQL编程,主要考察窗口函数排名函数、窗口内分区排序,流程控制函数
一面:30min 自我介绍 实习和项目内容 数仓常问的分层、维度建模等 八股,基本是按照简历问的 Spark和MR区别和优劣? Spark的Shuffle和MR的Shuffle的区别? Standalone模式是怎么调度资源的,Yarn模式有什么变化? Kafka消息投递保证机制?有出过问题吗?怎么解决? 介绍一下HBase?优缺点?使用场景? LSM数和B+树区别? SQL题: 同时在线最多人数
1.自我介绍 2.两道SQL 3.mapreduce中map阶段和reduce阶段的task的数量怎么确定 4.了解哪些建模方式,了解维度建模吗,说说他们的区别 5.rdd有哪些shuffle类算子 6.shuffle的本质是什么 7.为什么数仓要分层,分层的意义在哪 8.四个排序的区别 9.spark的提交流程 10.hive中的元数据存储了哪些内容 已过
一面: 1.自我介绍 2.数仓分层 3.来了新的业务怎么建模 4.选用的什么模型,有什么考量 5.如果现在一张事实表一对多一个维度表,此维度表又一对多一个维度表,怎么设计模型 6.实习过程中用的什么计算引擎 7.spark UI会看哪些内容 8.数据倾斜问题怎么解决 9.介绍一下项目 10.为什么有的指标在下沉的时候要拆开来 11.SQL调优,讲一个具体的例子 12.SQL题:求中位数 二面: 1