1.自我介绍 3min 2.介绍一个你最熟悉的项目 10min 问:这个项目你做了什么(被说工作内容简单,没有太大贡献) 遇到的难点是什么(被说这个难点不难) 怎么解决的 整个表的数据量大概是多少 3.你在美团用到了哪些技术栈 4.讲一下kafka怎么保证不丢数据(答了三种acks,面试官说这是生产者端的,那其他的呢,直接说忘了然后道歉) 5.kafka的offset存在哪个地方的 6.kafka
问的都是数据结构的问题 1.给一个整数,怎么把它翻转(123转成321) 我说用字符串他说不行 2.忘了 3.有两个整数型数组,里面的整数范围都是1-1000w,问怎么找出两个数组中相同的数字 已挂
给了三道题,两道SQL,还有一个程序设计题。 1、银行交易记录表,字段有(id,存取金额(存为+,取为-),交易id) (1)求每个人的总余额 (2)求每次交易后的余额 2、学生成绩表,字段为:学生id、成绩(内容格式为:"数学:xxx,语文:xxx") 将成绩字段拆分为科目和成绩两个字段,每个学生拥有的科目不一定相同 3、一个文件里是一个整数占一个G大小,求该
#软件开发2024笔面经# 2024字节跳动面试 数据岗位 1.模型开发的流程,需求调研过程中有哪些人员参加,调研过程,你会输出什么文档? 2.如何保障数据质量(准确性)? 3.spark有什么优缺点?在使用过程如何规避缺点? 4.spark内存模型? 5.spark和MR为什么会进行shuffle,如何减少shuffle? 6.小文件治理的方式? 7.主题域建设的流程? 8.大表join大表的优
#软件开发2024笔面经# 二战字节 一面 自我介绍 介绍实习工作 平时做什么 数据量多大 数据仓库理解 怎么分层的 Spark执行流程 Spark内存划分 SQL优化方式 布隆过滤器 JVM内存模型 垃圾回收 双亲委派 SQL题 连续登录 算法题 LRU 二面 自我介绍 介绍实习 数仓为什么分层 主要解决什么问题 两道算法题 链表删除元素 和 在数组中快速查询数据 布隆过滤器 半连接查询 gro
1.自我介绍 2.实习 关注准确性和效率等指标的权衡 3.项目 4.sql全勤员工 两天没消息了忍不住打电话问了,hr接起来电话来第一句“你是浙大同学吧,我们交叉面隔壁部门面试官忙” ????浙大去网易干外包做数开?????我是不能理解
岗位:软件开发工程师-数据开发方向 部门:核心本地商业-基础研发平台 技术岗位处女面,运气挺好,没有被问到完全不会的题,感谢团子缓解我的焦虑 4.30 一面(60min) 1.自我介绍 2.介绍项目架构,数据源等 3.项目中遇到的难点 4.数仓为什么要分层,各层的职能 5.讲一下项目中提到的零点漂移问题 6.hive结构, 7.hive优化 8.数据倾斜 9.tcp三次握手 10.进程和线程的区别
最难绷的一集,感觉KPI面 1.自我介绍 2.介绍项目,你这不就是最普通的广告曝光么,有什么区别,客群标签是你们加工的吗,数据流图是什么,有啥用 3.项目难点,业务上的难点,你这种方法也没解决业务的难点啊(我真难绷,业务对接过程的问题我咋解决,我最多减缓) 4.介绍hive or spark 5.数仓开发的关键点,每一层的作用 6.反问:我终于说出了那句一直想说但不敢说的“我没有什么问题要问”,润
如何将数据导入数仓 ods层数据量有多大 flume如何保证数据的一致性和完整性 数仓分了哪几层 维度建模的模型,为什么使用这个模型 表的数据变化如何进行分区 dws层如何设计,举项目中例子 用到了哪些开窗函数 row number遇到数据一样如何排序 left semi join 和???的区别 orderby和sortby的区别 sparksql和hivesql的区别 arraylist和li
一面(4.24): 总体30 min 1.为什么在上一家公司离职 2.对公司有什么诉求 3.理解到你的诉求是想提升技术了,那假如在公司干活不能提升你的技术那你会怎么办(跑路) 4.你希望自己以后成为什么样的人 5.AB test 6.标准明细表(没太听懂) 7.数仓的分层 8.spark为什么比MR快 9.项目中具体干了什么活 10.你觉得沟通很重要吗 11.如果你有简单的方案可以完成业务方的需求
一面 项目深挖 数仓分几层,每一层的作用 事实表如何设计 维度表如何设计 数据域如何划分 业务总线矩阵的概念 如何设计完整的指标 开发中和上线后数据质量如何保证 如何设计调度,依据是什么 hive数据倾斜解决办法 hivesql常见优化手段 什么是spark宽窄依赖,起到什么作用 sql题:用户连续登录游戏的最大天数,允许间隔一天 反问 做什么业务 教培业务中的线下面授分析 网络问题迟到了一会,面
了解大数据吗? 分布式是什么? 1、list、set、map之间的区别与联系 2、arraylist和linkedlist之间的区别与联系 3、数组与链表的区别 4、线程和进程的区别?为什么要设置线程? 5、线程安全如何保证?几种方法?为什么会出现线程不安全 6、线程池用于干啥? 7、同步与异步的概念? SQL相关 1、讲一下索引?索引怎么实现 2、列排序是什么数据结构? 3、B树和B+树的区别?
游戏开发——数据工程,50分钟 问的都是八股 四类访问权限;四种内部类;反射机制;JMM内存模型;ArrayList和LinkedList;final VS finalize VS finally; 两道编程题: 有序列表合并;最长回文串 等消息
史无前例的快,整个面试流程,从进去会议室到结束,共计6分钟! 不知道是不是拿我刷KPI 简单记录下 自我介绍 为什么想来上海 自身的不足 有没有想过怎么去改变 有什么想问的?(问了两个问题) #兴业数金校招##面试流程#
工程发布方法 我们服务化后的工程都使用CRP 进行持续交付,我们将代码提交到Git 仓库之后即可进行自动编译,进行单元测试,JavaDoc 生成,以及点击 按钮实现发布。 本章节 将带领大家 一步一步 的配置进行发布的工作。