选择题考的408不多,主要是HDFS、Spark、Python语法、Linux 编程题: 1.字符串,过于简单就不写了 2.三素数之和,给你一个正整数N,你需要选出3个小于N的素数A、B、C,来满足A+B=C²,输出所有可能的结果数 我的想法是狂用标记数组,差五分钟就写出最后一步了 3.SQL编程,主要考察窗口函数排名函数、窗口内分区排序,流程控制函数
一面:30min 自我介绍 实习和项目内容 数仓常问的分层、维度建模等 八股,基本是按照简历问的 Spark和MR区别和优劣? Spark的Shuffle和MR的Shuffle的区别? Standalone模式是怎么调度资源的,Yarn模式有什么变化? Kafka消息投递保证机制?有出过问题吗?怎么解决? 介绍一下HBase?优缺点?使用场景? LSM数和B+树区别? SQL题: 同时在线最多人数
1.自我介绍 2.两道SQL 3.mapreduce中map阶段和reduce阶段的task的数量怎么确定 4.了解哪些建模方式,了解维度建模吗,说说他们的区别 5.rdd有哪些shuffle类算子 6.shuffle的本质是什么 7.为什么数仓要分层,分层的意义在哪 8.四个排序的区别 9.spark的提交流程 10.hive中的元数据存储了哪些内容 已过
一面: 1.自我介绍 2.数仓分层 3.来了新的业务怎么建模 4.选用的什么模型,有什么考量 5.如果现在一张事实表一对多一个维度表,此维度表又一对多一个维度表,怎么设计模型 6.实习过程中用的什么计算引擎 7.spark UI会看哪些内容 8.数据倾斜问题怎么解决 9.介绍一下项目 10.为什么有的指标在下沉的时候要拆开来 11.SQL调优,讲一个具体的例子 12.SQL题:求中位数 二面: 1
记录一下暑期实习投递历程 5月17号开始投递 因为之前在脉脉实习 一直推到5月才开始找 基本上暑期实习都快截止了 投了很多 也都没有回信。每天都盯着boss 官网 牛客 实习s 不管三七二十一 都投了 终于零碎约到几家日常实习面试 【shein 希音】 一面:聊实习 基本上都是我在讲 。把实习的工作内容 都给他讲了一遍(不是很感兴趣)。 八股: 内部表和外部表区别 缓慢变化纬 然后问我实习多长时间
自我介绍 讲项目(but项目经历貌似不匹配)全程都是我在输出 然后问了一下java new一个对象还有其他方式吗?克隆?? 操作系统进程和线程的区别 讲一些数据科学和数据开发的区别(他说我更适合数据科学qwq) 后面反问:你们是做什么的 好像是爬取数据建数仓emmmmm Over 他让我去做一下笔试题我也不知道这是什么意思emmmmm (可能是看我笔试成绩再决定挂不挂我???)
#你都收到了哪些公司的感谢信?# #晒一晒我的offer# #数据人的面试交流地# #数据人offer决赛圈怎么选# #数据分析#
攒人品了 简单的自我介绍 介绍实习经历中的具体项目 描述项目中遇到的问题及解决方法 分享比赛经历,特别是如何提高模型得分 Python中的pandas包和numpy包的常见操作 数据仓库的四个层级(ods、dwd、dwm、dws)的具体功能 SQL的开窗函数及其执行顺序 #软件开发笔面经#
一面8.9 总共差不多100min 项目拷打30min 八股30min STL容器,vector实现,map实现,迭代器失效,map是否线程安全,如何实现一个线程安全的map 指针,malloc和new的区别,malloc后的page fault实现的虚拟内存和物理内存映射,new之后free的问题,如何排查segmentation fault,valgrind,san编译参数 TCP协议,三次握
京东一面 1.项目实习自我介绍 主要讲了自己实习中的实时项目,从开发到上线的整个流程。 2.Flink项目中广播关联要有初始化?怎么初始化的?--自己做的时候没接触没注意到。 3.怎么更新的,key by怎么进行去重的? 4.实时项目 唯独关联是关联mysql中的维度,有可能就是主流数据过来了,但是维度没来,关联不上,这个是怎么进行处理的? 5.mysql维表是数据源,还是检查全表? 是look
时间:一个小时 数据采集通道的搭建要用到什么能力 离线数仓项目几个人,后端做啥 datax和sqoop的区别(应用场景上的区别) maxwell的底层原理是啥 怎么理解mysql的主库和从库 主从延迟比较严重对数据的影响 数据量级,条数 在日志采集项目中有什么收获 这块是新开发的还是迭代的 现在数据采集已经封装很成熟了,那做数据采集对后面数仓开发有什么优势吗 hive中内部表和外部表怎么转换 多张
没想到实习的第一面给了团子,记录一下: 1.面试官上来直接介绍业务:美团金融,负责借贷、理赔的,对这个挺感兴趣 2.发散:说说大数据和计算机专业的区别 3.谈谈对chatgpt的理解 4.介绍一下自己的项目背景(尚硅谷电商离线数仓) 5.两阶段聚合是怎么解决数据倾斜的 6.拉链表如何解决维度缓慢变化 7.数仓的分层结构 8.数仓的建模流程 9.如果产品给了一个用目前技术无法解决的问题,该怎么办?
1.实习经历拷打 2.项目拷打 3.数仓分层 4.sql:连续登录 已OC
1.自我介绍 2.实习中需求方向源自于哪里,最终交付哪些东西 3.数据倾斜展开聊聊,数据倾斜的本质,热点数据处理 4.bitmap原理和运用场景 5.零点漂移怎么解决 6.常见的维度建模模型和方法 7.java的垃圾回收机制 8.关系型数据库介绍一下,和数据仓库的区别 9.MySQL索引 10.数仓分层介绍一下,分层的好处 11.spark宽窄依赖,算子举例 12.手撕:java二分查找,sql窗
在这炎热的夏天让我心底来个透心凉吧 找实习的时间太晚了所以心中很焦虑,结果就这样华丽丽的葬送了机会啊。面试官还是挺好的,问的问题基本都是数据开发的必考题目,首先是spark的shuffle机制(没答上来,这也是整个面试崩盘的开始)下面是从网络上找到的答案:前一个stage 的 ShuffleMapTask 进行 shuffle write, 把数据存储在 blockManager 上面, 并且把数