字节面经 项目的数据来源和的数据的规模 Spark Shuffle spark的宽窄依赖 数据倾斜问题(★★★★★) 产生数据倾斜的原因 遇到过的数据倾斜的实际情况 数据倾斜的解决办法 介绍一下hadoop的NameNode NameNode高可用架构 NameNode主节点宕机,之后的选取机制 Zookeeper的选取机制 NameNode中的元数据是否会丢失?(★★★★★) 怎么保证元数据不丢
今天面了电商数据分析一面,来写写面经,感觉问的问题倒是不难可惜自己没准备好,还是蛮可惜的,emo中~ 面试下午五点开始,面试官胖胖的很可爱,像我的博士学长哈哈~但是还是很紧张,可能是第一次面大厂 SQL题: 1:dense_rank(),rank()和row_number()三个函数的区别 2:用户登录日期的最大间隔是多少 这个我当时有点慌,采用了计算用户连续登录天数的做法,当时也想到了用
上周面了字节的日常实习,这里来记录下面经吧,为秋招积攒人品~ 首先,是时间线(两轮业务面+一轮HR面): 6.1 HR电话约面试(当时听说字节有面评,所以想花时间准备下,就约了端午节后面试) 6.6 一面 6.7 HR微信通知一面通过了 6.8 二面(二面面试官在最后口头告诉我二面通过啦,2个小时后HR微信通知我二面通过并约三面时间) 6.10 三面(原先约的是9号三面,但那天面试官临时有事,就改
全是业务题,刚面完,就知道自己凉了,问的业务场景都不会,也没怎么回答出来 无笔试 1.自我介绍 2.针对特定人群,上了某个策略以提高策略的转化率,怎么衡量指标上涨是否显著(说了假设检验的思想,但她说不是,是怎么排除时间因素,衡量指标变化的显著性) 3.之前的实习中,坏体验指标怎么构建的指标体系(因为是各方面的加总,说了可以赋予不同权重) 4.追问怎么确定不同权重 5.点击率某一天下降百分之10%
前言 本菜鸡20年提前批收获了字节的意向书,正好今天字节研发提前批开启,把面经整理出来分享给大家,也借此把好运分享给大家。 简单介绍下面试前的个人情况: 面试前:剑指 offer 刷完,Leetcode 大概 70 道。操作系统复习完毕,数据库不会,计网不会。 后来:一面前一周学了数据库,三面前三天学了计网。两周时间陆续刷了 80 道 Leetcode。 希望这篇文章能对大家有所帮助,祝各位 of
下午四点半打电话问我五点半能面试吗,字节节奏好快,直接就面了 面试形式:下载飞书视频面试 时间:2022/7/18 17:30 0、自我介绍 1、飞书上考了一道SQL,要用窗口函数,case when语句等,写完代码讲思路(解出来了,但面试官提醒我要在外层关联另外一张表,我在内层关联可能会丢失一些数据。没注意到这个小细节) 2、实习相关: 讲一个自己负责的AB test实验分析。 AB test涉
1面(1h)8.2 项目介绍 MapReduce提交作业流程 MapReduce和spark的区别 HDFS架构 HDFS写流程 groupByKey和reduceBykey的区别 算法题(实现一个类,插值(已存在就false,不存在就插入),删除值(不存在这个值就返回false,存在就删除),随机获取已存储的值,三个功能时间复杂度为O(1)) 2面(45min)8.10 项目介绍 数仓理解 ja
【字节提前批-大数据开发工程师-Data 一面】 0 面试官自我介绍,介绍面试流程 有些奇怪的是 首先提到这个岗位不是xxx(记不清原话),偏向开发,询问是否能接受,当时我的理解是:可能这个岗位偏向大数据组件的开发,而我简历里没提及java,所以面试官想知道我是否还愿意继续面试该岗位? 随表示接受 1 自我介绍: 学校,专业,目前的实习单位和岗位,在校项目简述 2 对实习参与的项目的展开介绍:我实
一面 面我的是国际化广告产品部:数据科学组的负责人,30来岁,男。人真的超级超级好,超级有耐心,不会嫌弃你一问三不知,而是会努力引导。 主要是4个部分。 一、自我介绍 我自我介绍前,面试官有跟我说希望我在自我介绍的时候能突出“自己与这个岗位的匹配度”! 然后我主要还是按照自己原来准备过的3 part来说: 1)硬核能力(代码+统计知识) 2)业务、商业洞察力(之前实习积累的经验+2次商赛经历) 3
一面 8.15 45min 0. 现在状况,职业规划 1. 问简历上数据建模的项目 2. 你的理解数据建模应该怎么进行 3. 了解数据库事务吗 4. 主键和唯一索引知道吗 5. 用过hive吗,数据倾斜怎么回事 6. 数据结构/算法怎么样?了解排序吗?哪几种排序?稳定性问题? 7. 编程题 python 给有3个或更多个数的数组,返回最大能组成三角形的周长 8. sql题 简单的group by
字节 火山引擎-大数据开发 提前批二面凉经 一面0804 项目问题 LRU缓存 反转链表 二面0810 介绍一下你最熟悉的项目 项目细节提问 说一下数据库中的锁 一条SQL的执行流程 Join的NLJ方法 MySQL的Join操作都有哪些优化方法 RBO、CBO概念 B+树的索引结构 分库分表的方式 分库分表后如何进行一个查询操作 两道算法题 #2023秋招##字节提前批#
1. 自我介绍,项目介绍 2. 自我介绍的时候问我这些东西是自己学的还是学校讲的。 内心:在说什么。。。 3. 因为简历上第一个写的是使用爬虫进行数据挖掘,但是没用flume进行数据采集,所以就简单的说一下当时是把数据采集成csv或者data格式的文件,直接上传到的Hdfs,直接使用load path加载到hive当中。 并且当时介绍了数据集的大小,以及介绍了可能会产生的问题, 4. 面试
复盘一下,感觉可能🈚️了…… 感觉非常偏产品…… 1、项目深挖,挖的太细了,会一直追问为什么为什么为什么背后的逻辑是什么 引申出的问题:辛普森悖论的后验、如何衡量一个活动的效果、ROI分子分母讨论,都是基于实习 2、产品题目 最喜欢的app 举了一个策略要上线的例子,问一开始怎么设计指标体系、怎么预估要不要上线、上线时怎么设计实验、ab实验怎么评估、要哪些指标、如果显著了怎么证明是因为策略 3、
本地生活部门 1. 自我介绍 2. 举一个印象比较深的项目说一下 3. GMV下降如何分析? 4. 刚才的下降从商家和买家角度如何分析? 5. 举一个自己用过的产品,提优缺点,做什么样的改进比较好? 6. AB实验最小样本量问题 7. 直接拿大盘做实验可不可行?为啥? 8. 反问:工作内容 其他一些内容有点忘了,大致来说是这些主要问题 自我感觉答得很好,过了几天还是寄了 #数据分析师##校招#
字节大数据开发工程师- 人力科技面经 一面 网络模型,每一层的功能 访问一个网页的流程 tcp是如何保证可靠 线程和进程的区别 JVM的内存区域 垃圾回收算法 类加载的过程 Spark和MR的区别 Spark任务调度过程 spark中stag,job,task是如何划分的 spark宽窄依赖 为什么spark比MR快 Hadoop的框架 Hadoop提交作业的流程 Hadoop中是如何找到文件对应