1.自我介绍 2.两道SQL 3.mapreduce中map阶段和reduce阶段的task的数量怎么确定 4.了解哪些建模方式,了解维度建模吗,说说他们的区别 5.rdd有哪些shuffle类算子 6.shuffle的本质是什么 7.为什么数仓要分层,分层的意义在哪 8.四个排序的区别 9.spark的提交流程 10.hive中的元数据存储了哪些内容 已过
一面: 1.自我介绍 2.数仓分层 3.来了新的业务怎么建模 4.选用的什么模型,有什么考量 5.如果现在一张事实表一对多一个维度表,此维度表又一对多一个维度表,怎么设计模型 6.实习过程中用的什么计算引擎 7.spark UI会看哪些内容 8.数据倾斜问题怎么解决 9.介绍一下项目 10.为什么有的指标在下沉的时候要拆开来 11.SQL调优,讲一个具体的例子 12.SQL题:求中位数 二面: 1
一面8.9 总共差不多100min 项目拷打30min 八股30min STL容器,vector实现,map实现,迭代器失效,map是否线程安全,如何实现一个线程安全的map 指针,malloc和new的区别,malloc后的page fault实现的虚拟内存和物理内存映射,new之后free的问题,如何排查segmentation fault,valgrind,san编译参数 TCP协议,三次握
京东一面 1.项目实习自我介绍 主要讲了自己实习中的实时项目,从开发到上线的整个流程。 2.Flink项目中广播关联要有初始化?怎么初始化的?--自己做的时候没接触没注意到。 3.怎么更新的,key by怎么进行去重的? 4.实时项目 唯独关联是关联mysql中的维度,有可能就是主流数据过来了,但是维度没来,关联不上,这个是怎么进行处理的? 5.mysql维表是数据源,还是检查全表? 是look
1.实习经历拷打 2.项目拷打 3.数仓分层 4.sql:连续登录 已OC
在这炎热的夏天让我心底来个透心凉吧 找实习的时间太晚了所以心中很焦虑,结果就这样华丽丽的葬送了机会啊。面试官还是挺好的,问的问题基本都是数据开发的必考题目,首先是spark的shuffle机制(没答上来,这也是整个面试崩盘的开始)下面是从网络上找到的答案:前一个stage 的 ShuffleMapTask 进行 shuffle write, 把数据存储在 blockManager 上面, 并且把数
Timeline: 10.9 投递 10.24 笔试 11.4 一面 一面 20min: 1.自我介绍 2.专业课程 3.微分中值定理 4.竞赛经历相关 5.皮尔逊和斯皮尔曼相关系数 6.随机森林 7.数仓项目相关 8.指标体系建设 9.数仓分层 10.空值填充 11.常见统计方法 12.统计量 13.长期历史数据如何保存 面完挂 方向不太匹配 偏数分#数据人的面试交流地##24届软开
字节跳动 - 数据研发 一面(40min) 学过的数据结构,并分别讲下它们的特点 进程和线程的区别 TCP和UDP的区别 JAVA的面向对象的三大特性,并详细介绍应用场景 MySQL的事务隔离级别 MySQL的binlog的运用 数据仓库的的特点、数据治理 范式建模、维度建模 Hive内外部表的使用场景 HQL底层执行逻辑 Hive数据存储在哪,分区和分桶的区别 Sort by 和 Order b
一面电话面20min(9.28) 把能记住的问题做一个记录 java集合有哪些,从上到下,挨个说一下 锁机制,synchronized和lock(主要是Reetrantlock,例如怎么申请锁的)以及区别? 在Reetrantlock中如何实现像synchronized中的wait和notify机制 Spring中AOP的各种参数(target、joinpoint之类的)说明 Spring如何解决
50 min 一位很友好的前辈 9.2 面 9.16日挂 Warm up 自我介绍 对大疆有什么了解 为什么选择这个岗位 项目相关 无人车项目 SLAM 主要是视觉SLAM 还是激光雷达SLAM,还是两者融合的? 知道哪些点云的格式? 有用过大疆的产品做SLAM吗? 项目难点在哪? Spark项目 Kafka 在项目中主要是用来做什么的? Kafka 如何保证顺序读取消息? 如何保证幂等写? 使用
1、自我介绍 2、介绍一个自己熟悉的项目 3、针对项目进行发散性提问:几乎一个没答上来,自己学的太浅了,哎!!!! 说是针对项目,但提问大部分比自己做的深,基本不会,只能疯狂“没接触过”、“我不会”。。。 4、反问,没啥好问的,下一个吧
bg: 双9无实习有论文cpp选手,零测开经验 🕒 8.27 一面 几乎纯聊天,有说有笑就过去了。 先让自己整体介绍一遍自己的研究生项目,然后根据项目提问。因为具体细节和测开技术栈不搭边所以面试官就问了一些业务方面的问题,比如做的东西难点在哪,成本怎么降之类的。 🕒 9.19 二面 应该是leader+1面,主要考察项目细节和反思/创新能力。 深入拷打项目细节,然后连着问了两次你会去怎么改进,
7.20 笔试 三道编程全a了 8.8 一面 40min 基本都是在问项目,对着我的Webserver中的技术细节狠狠地问。然后别的项目稍微问了点。 知识点方面甚至就问了个面向对象三大特性,函数重载属于哪个,为什么。 无手撕。 8.16 二面 40min 说是业务面试,但感觉基本都是在聊天。 比如大学生活中印象最深刻的事,手机里认为最有价值的五款APP(好奇特的问题),认为最有用的一门课等问题。
0:自我介绍必不可少的 1:数仓的数据从哪里来的?多少数据? 2:数仓分层 3:DWD层如何保证和ODS层的一样的数据粒度,如何提供数据质量保证? 4:什么阶段进行数据清洗? 5:数据量很大的时候每层都进行数据清洗吗?如何解决 6:ETL过程中,数据出现问题了如何预警? 7:团队合作的时候如何保证数仓分层的规范? 8:Hive的调优(项目写到了这个) 9:什么是zookeeper? 10:zook
部门:网易云 8.23约面,8.25 一面 8.29 二面。8.30 hr面 一面: 45min左右 1.自我介绍 2.说说项目用到了哪些技术 3.你刚刚说到了即席查询,项目里是怎么做的。 4.四道sql,十分钟后对答案 5.笛卡尔积了解吗。 6.笛卡尔积会产生什么问题。 7.你刚刚说到了数据倾斜。介绍一下。 8.笛卡尔积就会产生数据倾斜吗 9.mr流程介绍一下 10.你多久能来实习 11.你刚刚