1)10道不定向选择题,共40分,包括知识点: 关系型数据库 有限自动机 进制转化 HIVE特点、复杂数据类型 Flink窗口分类、通过什么方式处理数据迟到、时间语义 SPARK RDD特性 LSM 2)1道数据库,给出一个表,包括三个小题: 1. 玩家在线时间排名 2. 计算 pv, uv 3. 计算第一天留存率 3)2道编程题,题目描述中有说 若写不出来 也可以在注释中写思路或伪代码 1. J
9.22 一面 1h 自我感觉挺好的还,9.26挂了 1)自我介绍 2)两个项目介绍 3)Hadoop的元数据存在哪里? 4)什么是缓慢变化维?拉链表的数据具体是怎么更新?并举例 5)Kafka的零拷贝机制? 6)对RDD的了解 7)哪些情况下会发生索引失效? 手撕代码 1)无重复字符的最长子串 双指针+map 2) 求出数组中最小的n个数 3) 求出每个部门的薪资前三的用
前言 星环感觉整个流程非常不错,二面面试官不是搞大数据的,但是交流上感觉到了尊重,面试实在7月份,八月份就给意向了,进展到十月份了对比看来星环流程真的不错(PDD推荐组某个面试官一生黑),看到大数据后端已经不招人了,但是可能会拒掉 一面 忘记了没有记录 二面 1.1. HBASE架构 1.2. Regionserver结构 1.3. Hbase避免热点数据(Rowkey的设计) [大白话彻底讲透
2022/10/11 一面 30min 自我介绍 实习项目介绍 项目中你做了什么任务 实习项目难点 阿里云大数据框架怎么学习的 大数据开发具体想做什么方向 hive中的开窗函数用过吗 rank、dense_rank、row_number区别 hive行转列 列转行 spark用过吗 spark为什么比MapReduce快 spark数据倾斜遇到过吗 数据倾斜怎么解决的 Java中的HashMap底
一面时间:2022.10.13 星期四 10:30-10:45 和HR聊天比较多 自我介绍 是否了解就业地点? 兴趣爱好 优缺点是什么? 现在有没有女朋友?(???这都要问,哈哈哈) 是否考虑考研?为什么? 大学期间参加过什么项目?简单介绍一下 面对一个新技术怎么去学习? 大学期间最后悔的事? 期望薪资是多少? -------------------------------------------
自我介绍 问对hadoop各个组件的了解 解释下mapreduce的过程 问有没看过谷歌的GFS论文 问项目里数据库咋建模设计的 对维度建模的了解 对数仓的了解,数仓一般咋分层 GGGG,这之前只关注框架底层了,,没看过数仓的东西#大数据开发面经##实习生[话题]##access#
笔试时间 90min 20道选择题 + 3道编程题 主要还是考数据库的操作 如何增删查改 如何检索 然后阅读数据库代码 找错误/模拟运行 只有一道算法题 是AcWing_3578题 的变式 个人感觉算是降低难度 每次操作选取两个数 ai 与 aj, 并赋值ai = ai + aj, 删除aj; 中位数计算方式为为(m+1)/2向下取整。 输入第一行数据组数t 此后每组 第一行数组长度n 操作k数
首先做了三道SQL题,主要涉及分组聚合、窗口函数。 3.3 一面 28min: 1.自我介绍 2.为什么要做这个项目 3.介绍DataX 4.项目问题 5.介绍HDFS 6.Hadoop hive hdfs spark关系 7.职业规划 8.数仓分层 9.窗口函数 3.6 二面 45min: 1.自我介绍 2.项目介绍 3.维度模型 4.一道数仓场景题 5.数仓分层 6.SQL常用函数 7.ran
时长:1h 由于问题太多,分四类进行整理 0. 实习相关:之前有数据开发的实习经验,就问了之前工作有没有spark或者hivesql优化的经验;如何确保数据的有效性;实习公司数据存储格式(Parquet),还知道哪些数据存储格式 1. 大数据相关问题:为什么Spark比MR快;对Spark的了解;两个表join的优化方法(大小表join可以map-side join, join前过滤null值);
总共33min,凉透了,可能因为我是第一次面试,没经验,被面试官牵着鼻子走 1、数据仓库和数据库的区别 2、数仓的分层 3、维度建模的基本构成 4、了解缓慢变化维吗 5、说一下拉链表 6、用到了哪些用户指标作为算法的输入呢? 7、协同过滤的常用算法有了解吗? 8、Presto和Hive区别 9、Hivesql和sparksql区别 10、Sql:统计最近下单的用户是在去年12月份的用户数量 11、
#暑期# #投递实习岗位前的准备# 3月23日--分享个经验,求个好运 时长一个小时二十分钟 自我介绍 因为学统计的,问了中心极限定理和大数据定律 机器学习-XGBoost算法简介 两道智力题:逻辑判断谁说谎了和分金条 问了为什么研究生跨专业保研了? Hive和MySQL区别 数据库的索引有什么用 说一下索引的类型,还有B+树索引 数据仓库和关系型数据库区别 Hadoop生态圈简介 问我SQL写的
1.自我介绍 2.说一下数据库范式 3.说一下Hbase 4.Hbase的rowkey怎么设计的 5.说一下Clickhouse 6.说一下你了解的数据库底层的一些知识 7.数仓为什么这样分层 8.数据表和数据视图的区别 9.实习 数仓让你觉得有成就感的地方 10.你对离线感兴趣还是对实时感兴趣 11.你知道OLAP数据库都有哪些 12.Sql题 13.Hive Spark优化掌握的怎么样? 14
#校招##秋招#
#国企#一面 约37min 1. 介绍一下项目 2. MongoDB分布式存储是怎么做的? - 数据分片是怎么做的? - 如何保证节点间数据的一致性? - 如果有节点挂掉会怎么办? 1. 地理数据如何索引? 2. 喜欢用什么开发语言? 二面 约40-50min - 自我介绍 - 问了一些奖学金的情况 - 介绍项目经历 - 对分布式事务了解吗?解释一下分布式事务是做什么的 - 如何保证分布式事务的原
自我介绍后根据我的项目问我了一些问题,虚拟列表,懒加载,canvas怎么压缩的(这个没答对) 项目怎么实现鉴权的,我说的jwt,巴拉巴拉 然后又问了cookie, 问了防抖节流 项目跨域是怎么解决的(项目上线后用反向代理不太好) 问了数据类型,然后就问深拷贝浅拷贝,让我实现深拷贝 问promise,让我实现all和race方法 解释下事件循环机制 nextTick 总结:还是要多写写底层源码,回答