1.自我介绍 2.对实习展开问:(提及主要做了ods 和ads ,基本就展开ods 问) 实习项目整体是怎样的? 主要做ods层,那涉及到什么数据? 用什么工具? 线上数据能否支持删除(物理删除,逻辑删除)? DataX在同步过程的局限性在哪,在数据同步有没有遇到什么问题? 如何保障线上数据与数仓一致(即如果线上数据删除的话,数仓同步过的数据如何保证一致)?(后续有提及数据质量监控)? ods做了
一面 spark数据倾斜 实习相关 二面 Sql 找出最长连续子序列(row_number) 算法 二叉树层序遍历 mapreduce运行过程 spark.shuffle.partitions的调参原理 Spark小文件参数 怎么确定reduce的数量 bucket join优化的原理 怎么快速根据spark stage找到对应的代码 主题域划分 事实表怎么建模 数仓建模过程 事务的特性 进程和线
Timeline: 8.24 投递 9.15 笔试 10.26 一面 10.26 一面 35min: 1.Hadoop工作原理 2.Hive内外部表 3.数仓分层 4.数仓建模 5.Map和flatmap区别 6.Flink slot和并行度关系 7.Flink exactly once 精确一次消费 8.Flink窗口 9.Hive udf 10.并发实现方式 11.线程池了解吗 12.线程池有
通知的今天9.30面试,但到点了不知道为什么怎么都进不去那个咪咕的会议室最后hr换成了微信视频通话面试。 一共是两个面试官,一个技术面试,一个hr。 先是技术面 1. 自我介绍 2. 项目中用过的集合?请举一个项目中用过HashMap的场景 3. 向HashMap中添加键值对,这个操作的底层是怎么实现的? 4. Java中有哪些创建线程的方式 5. 通过实现Callable接口和实现Runnabl
等的心慌,写面经攒人品 9.15一面(25分钟,纯八股) 问实习的项目 研究生科研项目 疯狂hive,hive调优 一直问联邦学习,问了两遍 等了很久很久才二面,中间还收到了安抚短信。 ———————————————————————————— 9.26二面(30分钟,纯八股) hdfs读写流程 spark算子 spark调优 数据倾斜 对荣耀有什么想了解的(了解到我面试的部门是产品线云服务) 这个
boss上投的,三天后约面 1.自我结束 2.结合项目深挖 3.jwt的各部分的作用 4.redis怎么确认缓存的是热点数据 5.介绍redis的Redission及项目中如何使用的 5.问了下redis其他的锁 6.redis过期策略、淘汰策略 7.redis持久化 项目问完就开始问了java八股了 jvm组成 双亲委派机制,为什么要有双亲委派机制(后者没答出来,面试官很耐心解释了) 介绍下GC
从今年暑期实习开始直到秋招一共五次面试,转了四个部门,记录一下 实习篇 # IEG一面4.6 自我介绍 项目用的是什么计算方案,技术组件有用到云服务吗 讲一讲你在项目中遇到的问题 项目中计算内存不足调yarn内存,为什么不是spark内存 能讲一讲spark的相关概念吗(讲了基本架构,说任务提交流程太紧张没说完) 面试官提醒讲RDD的容错机制 小表join大表怎么优化的 多小可以叫做小表 数仓当中
秋招篇 # PCG 8.24 一面 秋招并没有投腾讯,是直接被捞起来面的 自我介绍 讲实习内容 讲实习当中做的最好的工作 面试官总结了一下我刚才讲的(好像觉得做的不够难。。) 介绍spark RDD spark程序里面不写action算子,程序会执行吗(肯定的答会。。) 数据倾斜有哪几种 mysql数据库索引有哪些 数据库事务介绍 平常mysql用的多吗 有了解过doris、clickhouse这
个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问 自我介绍 项目深挖(20min) 实习工作介绍(5min) 数据倾斜有哪几种解决方法 Group by 倾斜,join倾斜,null值倾斜 分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了 Hdfs小文件
部门:优选事业部-美团买菜 timeline: 8.24 一面 8.28二面 8.31 hr面 9.7 oc 一面: 项目介绍 什么是指标体系 指标体系包含元素 指标分类 数仓分层、分层好处 数仓分层和指标分类之间有什么关系 什么是总线矩阵 什么样的数仓是一个比较好的数仓 什么方法可以落实上面说的数仓 缓慢变化维;除了拉链表还有哪些方式 什么情况下可以使用map join 怎么解决数据倾斜问题 J
1. 自我介绍 2.简单问了一下项目,对于数仓这块,你经历两段实习有什么感受 3.你使用过程中对于spark和hive有什么见解,优劣 4. 你对于数仓的理解和看法 5.日常对于spark的优化,sql的优化 6.对于刚才的两种优化场景,你觉得在spark或hive当中是对底层的那部分进行的优化(mapjoin) 手撕sql 销售额top3 前三名销售额的差值
分享一下今天的面试情况,总体其实不难,但真的太过紧张,发挥极其不好。 首先上来是一段自我介绍,然后闲聊一些我的能力还有个人对于科研的看法,以及导师的管理松紧。 之后就是正式的面试内容: 1.TCP为什么要三次握手?这个题太经典了,想必背过八股的都知道,但我真的太紧张,完全不知道从哪里开始说起,所以结结巴巴的搞完了。 2.线程和进程的区别?这个也很简单对吧,不过我感觉我说的不够全面。 3.Mysql
机器学习树模型 GBDT与RF区别 XGB如何并行生成树 XGB优化方面对GBDT 深度学习 GRU通过什么方法保留前面时序的信息 GRU损失函数 word2vec cbow和skip-gram区别 cbow一个原理 交叉熵损失与kl散度 数据结构 单词表格,内存很大的表,运行内存很小,如何通过查询出现次数最多前100单词 python python内存管理机制 装饰器 pandas apply/
面试时间:60min 我的方向是数据开发,但感觉数开岗位比较卷,加上之前也有一段网络爬虫的实习经历,投了快手的数据采集岗。面试官人还不错,主要问了爬虫项目和我简历上一些大数据的技能,但好像还是方向不太符合,他们更想要会Java开发、app逆向的,最后还一直安慰我。 面试官介绍部门业务和流程 现在还在实习吗?有其他公司在流程吗? 自我介绍 实习介绍?(公司,部门,项目) 开发的Xpath工具介绍?
细挖项目 数据仓库和数据库的区别 维度表和事实表是什么,维度退化是什么 拉链表的作用 hive元数据 hive外部表和内部表的区别 两道sql: 1.查找不含重复行。 2.一张表,1行13列,表元素包括uid,1到12月份,值为消费额。把它转成3列12行,列包括uid,月份,消费额。