23.9.21 广立微 共计半小时 在阿里做的项目介绍一下 充电场站项目。。。 用户画像项目详细介绍 java大数据去重的方法 python数据清洗用的什么方法 你们阿里的数据中台中表是以什么格式存储的 模型的评级标准是什么样的 python直接取一行数据 hive窗口函数,一个省一个市,取人口最多的两个城市 hive的行转列和列转行用什么函数 lead和lag是干什么的 mysql不同的关键字的
面试内容 一面(乙方): 1、聊一下熟悉的数据库,关系型,非关系型都说一下? 2、介绍一下clickhouse,为什么用它? 3、说一下简历上项目,数仓的分层架构,每一层的作用? 4、入库做数据清洗吗?还是后续在数仓中过滤?说一下实际的做法 5、数据同步是怎么做的?你在项目中的角色?(说了kafka) 6、你这个是离线的数仓吗?你觉得什么需要做数仓? 7、为什么用flinkcdc? 8、spark
1、自我介绍 2、跳槽理由 3、介绍团队 4、自己感觉做的最好的项目(扣的很细,聊了很久) 5、遇到过的技术问题 6、数据倾斜如何解决 7、缓慢变化维怎么解决 8、周期变化事实数据,比如七天累计订单表应该放哪一层?为什么? 9、什么数仓才算一个好的数仓 10、雪花模型跟星型模型区别 11、写sql题 12、反问 面了三家 淘天、字节、pdd,都offer了,这个草稿也是当时写的一直忘发了,后面有空
115、Spark的任务执行流程 driver和executor,结构式一主多从模式,driver:spark的驱动节点,用于执行spark任务中的main方法,负责实际代码的执行工作;主要负责:将代码逻辑转换为任务、在executor之间调度任务、跟踪executor的执行情况。 Executor:spark的执行节点,是jvm的一个进程,负责在spark作业中运行具体的任务,任务之间相互独立,
Subversion 中的分支、标记和合并 虽然很多开发团队都使用版本控制系统管理代码变更,但当多个开发人员并行地使用不同的代码库进行编码时,还是会出现问题的。在本期的 让开发自动化 中,自动化专家 Paul Duvall 展示了如何运用开源的、免费的 Subversion 版本控制系统来有效地进行标记、分支和合并。 说到源代码分支,可以将大多数的软件开发团队大致划分为两大阵营:有些是根本不分支;
问问有没有大佬们大数据开发的实习经历啊,我怎么感觉隔着天天写sql 老是遇到这种实习岗,一天全面试完,急招岗, 没什么参考价值,应该oc了,因为我不想立马去,发of要排序吧 一面(9.6 上午 50min) 1.自我介绍 2.问实习经历问了很久 3..五道sql题 4.数仓理论 二面(9.6 晚上 1小时) 1.自我介绍 2.问实习经历 3.sql题 4.mapreduce的流程及其shuffle
面试时间:1h 10min 自我介绍 实习工作的一些问题 项目相关的一些问题 Java基本数据类型? String为什么不是基本数据类型?能不能继承? 如果需要频繁地拼接字符串用什么?为什么? StringBuffer、StringBuilder 的区别? Java的集合类了解吗?都有那些?它们的继承关系是怎么的? 讲讲HashMap? HashMap多线程下怎么办?多线程的HashMap它的原理
40道选择题,涉及Hadoop、Kafka、MySQL、数据结构、数学(高中水平)、Linux,里面两道Linux选择题真恶心,给了一堆Shell脚本,看不懂
1.问了我项目的问题,spark整合kafka这阶段做了什么事? 答:jdbc工具类向mysql表中插入数据,产生binlog日志文件,maxwell捕获到,kafka进行消费,然后javaapi上面编写kafka工具类,获取主题,编写配置信息,get到消费的内容,是JSON格式,转换json格式为row,然后转换为dataframe表,使用sparksql处理。 2.kafka的acks值有了解
项目: 1 netty服务器怎么实现的,消息怎么传播 2 怎么实现历史消息推送?怎么优化性能 3 怎么实现消息群发 4 为什么选择rocketmq 5 项目有什么性能瓶颈?考虑怎么优化? 说了netty消息群发可能会有积压问题?用户接口有个走的是sharding全分片 6 项目的架构 八股 1 mysql索引 B+树的结构 2 mysql 存储引擎都有哪些?区别是什么 3 怎么实现一个秒杀系统?
字节商业化技术大数据一面45min 自我介绍; 介绍熟悉的项目,说了数仓项目,重点问了分层中的DWB层数据降维;DWS层中的事实表; MR流程; spark为什么比mr块; sparksql执行流程; 缓慢变化维; sql部分最高薪资员工; sql用户最高连胜次数; 实习时间; 是否准备秋招??? 反问
#软件开发2024笔面经# 项目: 介绍项目,项目难点以及如何解决。 C++: 指针与引用的区别 stl库(vector…set介绍) C++11特性介绍(问了智能指针的思想) C和C++的区别 设计模式(详细讲了下单例模式) linux: IO多路复用的过程 线程池的好处 计网: TCP和UDP的区别 OSI七层模型介绍 操作系统: 就问了进程和线程的区别😂 数据库: B+树相比B树优点 索引
时长:28min 1、自我介绍(说了实习期间做的工作,主要是做数仓) 2、面试官拿着简历开始问,问着问着我发现不对劲, 我:“您好,您是不是拿错简历了?”, 面试:“你不是XXX吗?” 我:“不是” 面试官:“稍等,我找一下,你继续说你的”。(我又把做了一遍自我介绍) 3、你说一下你在实习期间做的工作。。。(又说了一遍实习工作) 4、你说的都是业务上的问题,有没有技
9.13 一面 40min 竟然是个群面。。。。 6个人面试 + 1个HR + 1个技术面试官 1)首先是每人三分钟的自我介绍,并阐述自己优势 第一次参加群面有点紧张,一分钟快速介绍完了,优势也没说😂很多奖和论文也忘了说 2)然后6个人讨论一个场景问题,最后由一个人总结 12min 群面的时候有个人老是打断别人发言,自己一直在那说,体验感很差。 3)然后是面试官专业针对每个人在场景讨论的时候发言
问题: ·问了一下实习和项目 ·哪些数据库有跳表这个基础类型 ·c++类的缺省函数4个有哪些 ·new、delete、malloc、free区别 ·讲一下虚函数的作用 ·进程线程区别 ·介绍一下数据库事务ACID ·介绍一下数据隔离级别 ·讲一下hash索引和b+树索引 ·临时表了解吗 编程题: ************ (和去年的面经一样,我提前准备过) Q&A: 面试流程 对于HTAP的看法