4.27 1h B2B,百度电商部门 介绍完自己直接开始写算法题 随机数据的峰值,如 1 2 3 6 5 8 7,返回 6 或 8都行,要求时间复杂度O(lgN) 斐波那契数列,要求时间复杂度O(lgN),矩阵解法 求两个字符串的最长公共子串,如 abcedfgh 和 bcedgh 最长公共子串是bced 求两个字符串的最长公共子序列,如 abcedfgh 和 bcedgh 最长公共子序列是bce
一面: 无自我介绍环节,直接开问 1、聊实习项目,很细,聊了好久 2、yarn任务提交流程 3、spark的stage切分原理 4、spark任务提交流程 5、对比mr和spark,为什么都用spark 6、谈谈对hudi的理解 7、kafka的负载均衡原理 8、两道算法题,字符串相关的 9、反问 ps.好多过程不记得了 二面: 三个模块 开发 大数据 算法 不想回忆了,直接自闭,一点都不会 但是
二面被面试官吊锤。问到了不熟悉的平时没太注意的细节。比如,utf-8能不能存emoj。当时有点忘记是utf-8的一个变种能存了,说了utf-8能存。百度基本问算法,算法设计这些,八股(指计网,操作系统等),大数据框架基本没问。项目也问的少。
0:自我介绍必不可少的 1:数仓的数据从哪里来的?多少数据? 2:数仓分层 3:DWD层如何保证和ODS层的一样的数据粒度,如何提供数据质量保证? 4:什么阶段进行数据清洗? 5:数据量很大的时候每层都进行数据清洗吗?如何解决 6:ETL过程中,数据出现问题了如何预警? 7:团队合作的时候如何保证数仓分层的规范? 8:Hive的调优(项目写到了这个) 9:什么是zookeeper? 10:zook
2022-07-22 时长1h 1 自我介绍 2 数仓项目数据量多大 3 几个shell问题,监控spark日志内容并写入到另一个文件、实时监控spark日志内容 4 Java关键字、面向对象三大特征、接口和抽象类区别 5 set list map区别 6 介绍JVM内存区域,String是基本数据类型吗?基本数据类型变量存在哪里 7 垃圾回收机制 8 新生代老年代对象是如何流转的 9 创建线程的
三面挂,具体为啥挂的我也不是很清楚,猜测没hc被排序了 三面(08.09) 实习项目 对云的理解 实习公司的基建的理解 容器与虚拟机的区别 常见的网络攻击 自己的优缺点 有没有其他offer 一共问了30min,面完就挂了,可能hc没几个,排序挂了 二面(07.29) 问了40多min业务问题......(太顶了......) 算法:字典序排序 反问:后续流程还有三面经理面+HR 一面(07.25
2022-07-27 下午 时长1h5min 百度的面试官真的很好,这点没得说 1 自我介绍 2 数据倾斜——结合业务说了分组聚合和join,大表大表join怎么解决数据倾斜,展开说 3 SQL 没做出来,但是面试官全程提示,沟通交流 4 Hive和Spark哪个比较熟悉,我们聊一聊——都比较熟悉,问了Hive组件和底层执行逻辑,逻辑计划优化有哪些方法,什么是谓词下推(自己提到了) 5 算法:数组
1、spark shuffle过程,越具体越好,细化到组件,map task以及reduce task具体过程 2、你说bypass shuffle是每个executor节点生成对应reduce task数量的结果文件,那mergesort shuffle呢 3、reduce task 如何知道哪些map task完成了,又是怎么拉取的 4、spark 写文件流程?commit流程? 5、spar
1h 面试官没开摄像头,然后我也没开~ 1. 自我介绍 2. 项目介绍 3. Java NIO原理,与BIO有什么区别 4. 线程不安全的类有哪些 4. G1回收器原理 4. 类加载过程 4. GCROOTS由什么组成 5. 数据库索引 6. 数据库的事务和一致性 7. 计网分层结构 8. TCP和UDP的区别 9. TCP怎么实现可靠传输 10. HTTP3.0展开讲讲 11. 进程和线程的区别
发现网上百度数分的面经真的好少,决定把自己的面经和大家分享一下,希望有所帮助~ 面试的问题都比较经典,准备其他数分岗位的同学也可以参考! 9.27 一面 35分钟 介绍面试流程 自我介绍 逻辑问题: 1. AB产品利润都上升,但总利润下降,请分析可能的原因?(辛普森悖论的应用,流量分割的问题) 2. 预估北京市网约车司机的数量 (拆解出分析逻辑比较重要) 业务问题: 1. 结合业务的概率题(考
一面 1.SQL题1 表a 用户注册表: uid、注册日期、地区 表b 用户活跃表: uid、登陆日期 留存有两种活跃用户留存和新增用户留存 计算注册用户次日留存 日期的加减函数 date_sub(日期,interval 1 day) 2.SQL题2 成交信息表: uid 成交类别 成交日期 所属地区 计算最近三天每个地区top3销量的产品 3.业务题 推测五道口一家奶茶店一个月的销售额 二面 B
全程面试一个小时,先聊实习,再聊数据结构和操作系统八股文,中间给了一道设计数据库缓存的情景题,最后出了一道实现双向链表插入、查找、删除的算法题。整体感觉面试难度适中,面试官很有耐心也很温柔,面试体验不错。 实习经历 (1) 研究生期间做深度学习,为什么就业想要走开发岗? (2) 现在的实习才四个多月,为什么想要换一份实习? (3) 项目各种技术细节如何实现的(不展开说了) (4) 对你来说最有成就
2023春招找实习的同学跟我分享了他的面试经历,在这里我进行了一些总结梳理,然后发出来供大家学习 1.自我介绍 2.八股文 你写的这个实时数仓,维表是怎么更新的 flink了解吧,flink里面断流怎么处理 flink的exactly-once是怎么实现的 checkpoint的时候barrier什么时候发送 checkpoint产生了很多快照,怎么进行处理呢 sparkstreaming和str
#面经##面经#1. hdfs的shell命令,说实话没想到会问这个(平时用都是直接网上查api),让我说如何查看文件前五行,如何复制文件,详细到把命令行+参数都说一遍 2. mapreduce流程 3. mapreduce和spark区别 4. 讲一下spark的rdd 5. 讲一下hdfs架构,2ndNameNode工作机制 6. java基本类型和引用类型的区别,==和equals()的区别