1.自我介绍 2.实习技术难点 3.项目技术难点 4.id timestamp 位置 三个字段完全一样的去重,sql怎么做scala怎么做 挑选同个人最后一个时间戳的记录,sql怎么做scala怎么做 5.spark submit提交参数 6.内存/并行度参数优化方案和技巧 7.当出现数据倾斜的时候怎么排查,怎么处理 不能只提八股,要完善分情况的答 8.两数之和 9.小数之和 10.反问,写sca
总评:一面已挂。有一些题记得不太清楚了,主要考察游戏理解、ABtest、业务。业务和ABtest还需要提升。 1. 自我介绍 2. 玩过哪些游戏。着重问了王者荣耀、决战平安京之类的MOBA手游。 3. 为什么法师一般走中路? 4. 怎么做ABtest? 5. 在完成了ABtest后,要给领导汇报,报表/汇报上该写哪些东西? 6. 游戏中的新手指引,如何从数据分析的角度来看新手指引有没有用?(提示:
字节 数据开发 8.22询问是否有意愿面试 8.28 约面 9.3 一面 自我介绍 1. 数据仓库建模理论 2.数据仓库分层相关 3.3道编程题 (2sql )很简单 面试官挺好。但是感觉要凉,面试官说如果有后续就继续推进,第一次面试,还好小姐姐好说话。
1.自我介绍 2.实习中需求方向源自于哪里,最终交付哪些东西 3.数据倾斜展开聊聊,数据倾斜的本质,热点数据处理 4.bitmap原理和运用场景 5.零点漂移怎么解决 6.常见的维度建模模型和方法 7.java的垃圾回收机制 8.关系型数据库介绍一下,和数据仓库的区别 9.MySQL索引 10.数仓分层介绍一下,分层的好处 11.spark宽窄依赖,算子举例 12.手撕:java二分查找,sql窗
面试官很好,这是我秋招面的时间最长的一个面试,整整1个小时。 1.自我介绍 2.挖项目 3.五个sql手撕,不让切屏 4.python口述手撕 5.奥数题(如何估计一个房间有多少老鼠) 6.详细问经历,每个经历都问
一面30分钟,总体感觉面试官温和还挺好的 1.自我介绍 2.根据简历提问了一点问题 3.要是给你一个场景打标的任务,你会在路口场景怎么打标(回答红绿灯车道线什么的) 4.要是没有红绿灯车道线,也没有标志物,是无保护路口,怎么做 5.怎么捕捉cut in场景,你会用什么判断 6.混淆矩阵 7.sql熟练程度,口头说了一下 8.python写快排 9.linux知道多少,了解ros系统吗 10.反问
太拷打了,我汗都流下来了 1.自我介绍 2.挑一个觉得做的最好的项目介绍一下 3.项目背景 4.你做的项目复杂度体现在哪些地方 5.数据流图是什么 6.为什么你说的数据流图是难点 7.如何确定你选的维表就是数据仓库中最合适的那张表 8.为什么要取最细粒度 9.数仓的了解渠道有哪些 10.讲讲从书中得到的数仓方法论 11.数据域是什么 12.题目:给一个10t的double类型数组,如何用一台内存1
timeline: 8.27一面(当晚发二面)---8.28二面(结束发三面)---8.30三面 一面-hr面 语速较慢,和蔼 1.工作内容和想象的不一样怎么办 2.评价其余互联网企业(大概是) 3.base地选择 二面-业务主管面 语速正常,专业性强,深挖项目 1.项目模型 2.机器学习八股简单问了问 3.业务题(感觉答得有点乱,面试官帮我梳理了夸我答的还不错) 三面-大leader面 超级专业
如何将数据导入数仓 ods层数据量有多大 flume如何保证数据的一致性和完整性 数仓分了哪几层 维度建模的模型,为什么使用这个模型 表的数据变化如何进行分区 dws层如何设计,举项目中例子 用到了哪些开窗函数 row number遇到数据一样如何排序 left semi join 和???的区别 orderby和sortby的区别 sparksql和hivesql的区别 arraylist和li
全程拷打实习和项目,问的很细,刚实习做的项目一些细节都被问到了,但我已经忘了,问了项目的各个点的技术方案对比,然后结合项目问了一些高可用方面的问题和设计,压力很大,手撕是最长回文子串。反问环节问面试在哪个组,他说他是架构师,负责给各个组指导架构设计,头一次听说还有这种人,怪不得一直拷打设计
单选考点主要是概率统计,涉及到离散分布,连续分布,贝叶斯公式,全概率公式等,sql题目总体不难。第一道分组求和,第二道比较两个月的涨幅,第三道主要需要用到窗口函数。#拼多多##数据分析##笔试#
1.自我介绍 2.实习最大收获 3.odps平台的性能调优与spark的性能调优的共同点和差异点 5.spark的countdistinct算子优化 6.bitmap作用在expload的作用是什么? 7.小文件过多的影响 8.sql countdistinct优化代码手写 9.反问 #大数据开发##数据人的面试交流地#
对Hadoop的了解 MapReduce的工作流程 虚拟内存的工作原理页面置换算法(LRU、FIFO、LFU、最佳置换) Hive的功能和优点常见的数据结构(数组、栈、队列、链表、树、图、堆、散列表) 堆的概念及分类常见的排序算法(冒泡排序、选择排序、快速排序) 平衡二叉树的定义查找平衡二叉树节点的时间复杂度
1.手撕kmeans(不会) 2.sql 百分位取数(percent rank) 字符串拆分(不会) 3.编程 滑动窗口 不用库取随机数(取当前时间毫秒作为种子)
一面: 1.涉及过数据挖掘的项目讲一讲,这里分错的样本有没有研究一下为什么会分错。 2.讲一讲SVM、XGBOOST原理。 3.知不知道决策树剪枝,具体怎么做的,在哪一步做 4.知不知道LightGBM 5.深度学习有没有了解? 6.过拟合的L1范数和L2范数有什么区别? 7.mapreduce原理和过程 8.给key,value两列,找出每个key里第二大的值并输出。用python自己定义一个数