1.问项目 2.数据倾斜,spark,hive,问的比较多。大多是简单的八股 3.问java很多(没复习,哭死) ①java的多态是怎么实现的、 ②java泛型了解吗 ③java反射了解吗 ④java垃圾清理机制是什么 ⑤java多线程了解吗 直接一问三不知 4.sql现场写代码
个人情况简述:本硕双非,acm银牌 群友(cpp实习生)内推投递 因为是之前面的,时间也有1个多月了,可能记不太清一些细节了 一面(总时长90分钟) 聊简历项目,一个离线大数据处理项目,flume+hadoop+hive+spark+azkaban,两个后端项目 项目扣细节,主要问设计思路,比如数仓各层的设计、flume和kafka之间如何结合使用,spark的算子等 项目一共问了40多分钟 接下
数据开发-电梯数据开发举例 离线数据开发 实时数据开发 数据开发-电梯数据开发举例 更新时间:2018-02-01 21:17:58 假设电梯设备,每天都会定时上传数据,每台电梯每隔1分钟会上传一次数据,包括电梯id,运行状态(上行,下行,停止),门状态(打开,关闭),数据会进入离线表和实时的METAQ。 离线数据开发 业务需求:电梯利用率情况(某个单位的电梯在某个小时段内利用率,可以减少这个单位
【字节提前批-大数据开发工程师-Data 一面】 0 面试官自我介绍,介绍面试流程 有些奇怪的是 首先提到这个岗位不是xxx(记不清原话),偏向开发,询问是否能接受,当时我的理解是:可能这个岗位偏向大数据组件的开发,而我简历里没提及java,所以面试官想知道我是否还愿意继续面试该岗位? 随表示接受 1 自我介绍: 学校,专业,目前的实习单位和岗位,在校项目简述 2 对实习参与的项目的展开介绍:我实
个人情况简述:本硕双非,acm银牌 随便找群友要了个内推投递 笔试4.2题,投递选择的是都喜欢,笔试完在人才池待了十几天,被数仓部门捞了 一面(总时长50分钟) 聊实习经历和简历项目,聊了约30分钟 聊天环节把整个技术栈聊的差不多了,还有离线、实时数仓的很多点,后面又问了几个问题 离线数仓分层设计、实时数仓设计,spark、flink相关生成经验,S3、OSS的使用理解,k8s的使用心得等都在聊项
先自我介绍 我看你是Java ,c和c++了解吗?(只在本科学过c基础,没有实际开发过 平时用windows 还是Linux开发?(win写代码,部署需要用Linux Linux 关于网络和查询命令用过哪些?(ps Grep 查看运行程序,docker 的命令,还有nohup 这种,网络防火墙的firewall 有用过查看网络状态,网络接口之类的命令吗?没有 那你说一下哪个命令?忘了,我都没记
我只记得这些了 一、java 1.String、StringBuffer、StringBuilder的区别;String为什么是不可变的字符序列?String类是final的吗? 2.java创建一个新对象的过程是什么样的?第一步是类加载器 3.java的垃圾回收机制 4.java的内存机制,方法区主要存的是什么? 5.hashmap的底层原理?使用链表的时候是头插还是尾插,为什么换为尾插了?什么
1.先自我介绍 2.然后介绍实习,之前的实习做的是离线数仓开发,聊的时候感觉面试官不懂数仓 3.那就做题吧 第一题 剑指 Offer 19. 正则表达式匹配,我知道是原题,也知道我面试必定做不出来,就直接说我不会 第二题 124. 二叉树中的最大路径和 ,虽然之前刷过,但完全不记得了,做的时候感觉完全是新题,直接中序遍历按最大连续子序列和的思路求了一个结果,面试官说是错的(当然事实上也确实是错的)
线下群面: 五分钟读题,然后每人简单自我介绍+说出对题目的答案,然后讨论20分钟,最后5分钟派一个人总结。 题目:(2选1) 1、如何构建数据中台? 2、设计一个智能家居,应该有哪些功能?用什么技术实现这些功能? 测评: 性格测试+图形推理+资料分析 二面: 1、自我介绍 2、详细介绍一下项目 3、实习的数据框架和项目的数据框架有什么区别吗? 4、数据采集还了解其他工具或架构吗? 5、数据加工处理
陆续分享点面经 虽然大部分都被挂了hh 希望能帮到大家 3.15 一面 1.自我介绍 2.题外话 怎么看待数仓和算法的联系 3.项目 4.介绍一下对大数据技术生态的了解 5. 怎么理解spark和hive 6.hive的逻辑架构 7.MR的流程 8.整个MR有几次排序 9.spark的shuffle 10.怎么确定spark分解成多少个task,即spark任务的并行度怎么指定 11.stage的
1、自我介绍 2、数仓怎么自学的 3、整个项目架构说一下 4、数据域是什么概念(提到了数据类型),那如何界定数据类型呢 5、总线矩阵构建过程 6、dwd层怎么设计的 7、了解业务过程这个概念吗 8、分域的话,在dws表中有没有可能会跨域(举了个互动域和活动域的例子),结果告诉我这样的话你的互动域设计的其实是有问题的(挖坑给我跳,悲) 9、星形模型和雪花模型 10、缓慢变化纬为什么用拉链表,他说他第
#软件开发2024笔面经# 二战字节 一面 自我介绍 介绍实习工作 平时做什么 数据量多大 数据仓库理解 怎么分层的 Spark执行流程 Spark内存划分 SQL优化方式 布隆过滤器 JVM内存模型 垃圾回收 双亲委派 SQL题 连续登录 算法题 LRU 二面 自我介绍 介绍实习 数仓为什么分层 主要解决什么问题 两道算法题 链表删除元素 和 在数组中快速查询数据 布隆过滤器 半连接查询 gro
一面(4.24): 总体30 min 1.为什么在上一家公司离职 2.对公司有什么诉求 3.理解到你的诉求是想提升技术了,那假如在公司干活不能提升你的技术那你会怎么办(跑路) 4.你希望自己以后成为什么样的人 5.AB test 6.标准明细表(没太听懂) 7.数仓的分层 8.spark为什么比MR快 9.项目中具体干了什么活 10.你觉得沟通很重要吗 11.如果你有简单的方案可以完成业务方的需求
1.自我介绍 2.你的优势是什么 3.对数仓怎么看 4.sql,有id,score。怎么实现按score排序并且要排名,不能使用开窗函数。
40min 1. 自我介绍 2. 用户行为漏斗分析,从ods层开始全链路步骤,埋点如何设计,应该关注哪些触发的动作 采集到ods层的数据什么样的,有哪些字段 dwd层设计了哪些事实表 dim维度又有哪些表 dws层汇总聚合了哪些表与用户行为漏斗有关,这些表怎么设计的 最后ads层漏斗分析怎么做,如何可视化 3. 手撕sql 连续7天登录 4. 反问