40min 面试体验感超好,德子好感+1 Spark sql了解吗?Dateframe 是啥(不会) 项目里数据怎么拉的? Flume+kafka+flume+hdfs 有什么过滤器吗?:3个flume拦截器 判断文件类型+时间戳过滤器+落hdfs小文件检测 数据量:千万 flume拉取时间是多少?(不会,瞎编的10分钟有兄弟了解吗) Spark小文件怎么处理 Kafka 的整体结构:broke+
年前面试的 流程是机考,测评,再面试 (数仓)一面 聊得还行,不知道怎么挂了。。。可能是Spark这一块了解得太少了 自我介绍 你做的项目数据采集用的什么工具和原理? 有没有做过数据治理? 有没有做过数据血缘关系管理? 数据突增问题有没有遇到过?影响HDFS,如何解决? Hive表格存储用的哪个?什么原理? 数据某个阶段出现问题了,你怎么样定位出来? 数据倾斜有没有遇到过?怎么处理的? 数据之间的
二面就问了20min不到,吓死我了,不过已经发offer啦,分享下二面问的一些题目。 还是挖简历。 数仓建模核心 拉链表、快照表、全量表的区别 好像就这些~
以为笔试挂了的厂【三周没消息了】突然打电话说简历筛选通过了 下周四准备面试 刚把目前最后一个面试面完来了新的面试机会 感觉还挺好 不知道是不是大佬们开始咕咕咕公司 所以开始名额空出来 所以给我这种菜鸟机会 一周时间 好好把c++基础 计算机相关的那些 项目好好理一下 顺便也是给大家一点希望 就三周一点动静没有不代表你挂了【不是所有公司都是大疆】 没有面试或者面试很少的兄弟们保持好心态 继续好好整理
1. 简历深挖 2. mysql binlog了解吗 3. shell脚本写过吗 4. 两个集群,一张hive表如何进行数据共享,A集群如何同步到B集群中 5. 一张订单表,支付状态会发生变化,如何采集到ods? 面试官说由于每张mysql表都是在系统上有应用的,所以应该用update的方式更新支付状态,不能采用数仓的方式去思考问题,不能用拉链表。数仓可以保存历史数据,但是mysql表必须要用up
#秋招# JAVA: 1.java面对对象的特征 2.Java中基本类型有哪些 3.==和equals的区别 4.为什么重写equals要重写hashcode 5.List,map,set什么区别 6.Try,catch,finally 分别作用是什么 大数据: 7.hdfs的读流程 8.项目里用到的 hive on spark 和 普通的hive有什么区别 9.数据倾斜的优化,如果group b
了解大数据吗? 分布式是什么? 1、list、set、map之间的区别与联系 2、arraylist和linkedlist之间的区别与联系 3、数组与链表的区别 4、线程和进程的区别?为什么要设置线程? 5、线程安全如何保证?几种方法?为什么会出现线程不安全 6、线程池用于干啥? 7、同步与异步的概念? SQL相关 1、讲一下索引?索引怎么实现 2、列排序是什么数据结构? 3、B树和B+树的区别?
#大疆求职进展汇总# #大疆信息集散地# #互联网没坑了,还能去哪里?# 单选 多选没什么太多评价的,感觉都是八股 算法第一题,思路就是直接两个for ,分别遍历高度和宽度,最后的输出相乘得注意范围。 第二题链表有序合并,用sort会超时。。然后考虑利用重载比较器和优先队列,还有一个坑点。。。输入的处理,我一开始没处理换行符导致报错
第一题 74% 第二题 45% 大家都什么情况?? 1、文件查找 输入描述 第一行,关键字 第二行,数字n,以下n行字符串,-...代表root下的一级目录,--...代表-下的目录 输出描述 找到关键字对应的文件路径 4 6 root/ -folder4 --folderrr1 ---a4.txt ---b.txt -folder1 输出: /root/folder4/ /root/folder
视频ms 前三分钟 自我介绍 数据仓库的了解 怎样设计数据分层 了解的大数据组件 spark用于解决什么问题 spark底层逻辑 sql的join实现方式 举例A(3) join B (5) 有几条数据 join底层逻辑 sql题 查询用户峰值 全程不到30分钟 **我就是一个小菜鸡。问就是面试凉凉 问的其实感觉没有特别难 但就是啥都不会。还是学的太过浅层次。总的来说 项目拷打 底层深挖。G
1.自我介绍 2.问实习经验 3.项目中的难点 4.自动化测试工具写过吗 5.linux命令提问 6.写mysql,用索引去优化【不会写】 7.算法题:1.层序遍历【没写出来】 2.简单题,写出来了 8.反问
1 引子 有幸通过了宝洁 IT 的二面,也是第一次接触到宝洁八大问这样软实力的相关东西,于是打算将其中搜集的一些资料和自身思考记录一下。 在网上搜索其他人的面经后,发现宝洁的面试流程为笔试 ->二轮技术面。笔试攻略可以去其他地方搜索下,本篇主要讨论二面中考察的八大问和工作场景题。 2 八大问 准备前:明确要准备的问题 先罗列下八大问的内容(重要程序递减,个人向排序): 领导力:请举例说明你在一项团
前言 从2023年3月初开始投递暑期实习,几乎所有大厂都投递过了,有些简历都过不了,有些一面直接挂了,虽然说确实互联网行情不是特别的好,但是应该还是自己能力不足,做的简历不够漂亮; 4月的时候第一次刷到了@三石数据的面经帖(见下图),于是跟他聊了一下,真的收获太多了,非常非常感谢这位大佬的指导,不仅帮助我修改简历,而且还给我解答一些在面试中遇到的问题;大佬要是没女朋友的话,我愿意以身相许(开个玩笑
一面 50分钟 自我介绍 你学过的大数据掌握的最好的是哪一个 hive里面排序一般怎么使用的 hive内部表和外部表的区别,外部表在什么场景下使用 hive视图用过吗 你对维度和事实的理解 你说到了业务过程,谈谈对它的理解 你刚刚描述的是一个业务过程还是 多个业务过程 多个业务过程放到一张事实表的你举个例子 维度建模中 星型模型和雪花模型 之间的区别 缓慢变化维表如何处理呢 全量表的数据保存多久
一、spark如何划分job,stage,task 遇到一个action算子开启一个job stage是遇到一个action开始,从后往前以shuffle为边界划分 stage划分成多个task,一个分区对应一个task 二、sql题:一个用户点击记录表t,有三个字段user_id,item_id,category_id 统计每个用户的每个商品类别的点击总量排名中,top3的商品 类别 selec