一、前言 在继续阅读之前,请先思考一下是否曾经遇到过以下问题: 对大数据源码一无所知 不擅长突出项目亮点 缺乏算法刷题技巧 难以理解面试笔记V5.0中的答案 ...... 如果你曾经或者正在面对以上问题,那么面试笔记V6.0可能会成为你的解决之道 大数据开发面试笔记V5.0发布已有半年,现在V6.0终于推出,本次更新的主要内容如下: 二、核心目录 V6.0笔记包含大数据篇、计算机语言篇、计算机基础
介绍项目 说一下遇到的难点 项目的核心指标就是**的占有率吗? 怎么验证数据的准确性? 有遇到过数据对不齐的时候吗,怎么发现的。 讲一下数仓分层的好处 如果需求方想临时插一条数据进数仓,怎么解决。答找后端更新数据,我再重刷。 除了这个办法呢?能不能在数仓中直接insert一条数据。 为什么不建议直接往同一个分区追加新的数据? 为什么要选择数据开发?别人都说数据开发是sql boy,你怎么看这句话。
一面6.14 45min 挖简历项目 机器学习线性模型口诉原理(简历提到机器学习) 手写最大子数组和(ac通过),要求nlogn复杂度。(提示递归,未答出) 无八股 二面6.18 1h 挖简历项目(详细介绍项目、随口问了下springboot与jdk版本 、MongoDB原理,elasticsaerch等) 场景题:抢购平台,有哪些与异常相关的字段,比如用户订单等信息。如何设计异常检测大数据平台
2023年4月,大数据开发面试笔记V3.0发布,过去已经两个月,V4.0终于来了,这次主要新增了企业级调优手法以及数据湖基础等内容。如今面试越来越难,常常会被问到大数据的前沿知识比如数据湖,以及企业级调优手段有哪些等,于是我结合自己在大厂的工作经历进行了补充,最终汇聚成一份全面的大数据开发面试笔记。 此笔记包含大数据开发、Java、计算机基础、数仓理论、常考SQL、大数据开发场景题
在boss上投了简历,沟通之后,今天接到了可以线上面试的电话 (面试官说之前打电话都没有人接,因为之前我一直开的手机免骚扰,最近才发现这个问题,友友们记得看看拦截的设置,真的会错过面试电话) 问题(顺序有点乱,因为有的后面才想起来是前面问的) 1.自我介绍 2.介绍一下做的项目 3.项目详情 4.学校教授的课程有哪些、学python多久了、有哪些是用python的、python的基本知识 (插一个
10.11 蚂蚁一面(共 20min) 电话面,随便聊了聊,说我要做笔试才有进一步进展,但我没时间做这个笔试 自我介绍 对部门业务的了解 对数据仓库的了解 询问项目具体内容 说我聊的还行,催笔试,笔试后才有相应反馈,笔试安排在10.11晚,有事没空做,再看吧 反问 部门重点在数据仓库构建还是在数据处理 #蚂蚁金服##秋招##数据#
一面 8.14 自我介绍 实习内容,没有深挖 Hive 的存储格式 orc parquet 有没有了解过Cube, grouping sets 有没有了解过 group by ,sort by,cluster by ,distribute by 的区别 Mr的工作流程 Yarn的调度框架 Hive内部表外部表区别 Lag lead first_value last_value含义 Row_numb
一面 实习深挖 聊数据治理(链路、模型、作业) spark作业调优具体案例 数据质量评价体系,如何保证数据质量 全链路数据建模怎么做 指标设计方法 数据结构有哪些,分别有什么作用 计网各层都有什么协议,分别有什么作用 mr和spark区别 shuffle原理 MySQL索引有哪些 MySQL索引数据结构 数据倾斜解决办法 算法 前k个大数 SQL 1.薪资TOP3 2.各个部门入职最早的员工 #美
1. 自我介绍 2. 科大讯飞比赛做了什么,是用到了讯飞平台的某些功能吗 3. API开放平台详细介绍一下 4. 但是你做的这个接口调用具体收益,作用是干嘛的呢 5. 接口调用高并发情况时用户使用延迟之间如何进行优化 6. 用户访问时的延迟黑洞是什么,如何优化 7. 软引用、弱引用分别是什么 8. 如何提升系统的处理能力,如何优化 9. 手撕: 1. 多线程去查询数据库,并将查询结果放入List<
投nlp挂,转岗大数据开发 一面 算法题:一个只包含1,2,3的数组,排序使得3在最前,2在中间,1在最后。要求时间复杂度O(n),空间复杂度O(1)。 用双指针,类似快排的思路。 二面 算法题:数组中,第一个非0的数位置索引,时间复杂度O(log n)。 二分查找。 两个面试官都很nice,没有因为岗位不匹配为难。#我的秋招日记#
一面 项目相关 说一说第三方登录涉及的设计模式 工厂模式有几种实现? AOP的实现原理 动态代理的使用场景 如何实现前缀树 对应MySQL的慢查询如何排查和优化 Linux如何实时查看日志输出 Docker compose是否使用过 聊天 反问#我的实习日记##我的实习求职记录#
一面 9.1 1. 自我介绍 2. go channel 底层 3. go 写 channel 的时候什么时候阻塞什么时候不阻塞 4. 函数传入 slice 作为参数的时候 函数内部的修改是否会影响外部的值 5. k8s 创建一个 pod 的过程 6. k8s 如何从外部访问集群内部的 pod 7. slice 底层 8. 虚拟内存怎么实现的 9. TCP 三握四挥 10. 算法题 从一个字符串变
一面:2023.2.7 30min 自我介绍 为什么要换实习 了不了解数仓知识 sql题,各城市观看量前10的用户,能不能保证每次刷数的结果一致 sql题,连续登陆 数据倾斜啥情况,怎么解决 了解即时查询组件吗?CK ES Durid之类? hive2ck有啥要注意的 反问 二面:2023.2.8 40min 自我介绍 为啥要换实习 之前实习有没有什么遇到难点,怎么解决的 你觉得什么样的数仓是好数
9.20 24届非科班本发面筋攒好运! 第一次面+太紧张+基础不好+算法出没见过的hard = 寄 组是偏基础架构的 自我介绍到一半简介项目的时候就被打断了开始撕项目(乐 学习的方法 离线项目: 1.分层的好处,为什么分层 2.idmapping 3.拉链表的逻辑(用户活跃区间的中间表),下次还应该解释一下这个中间表的好处以及为什么方便。 实时项目: 1.维表动态注入的意义在哪里,为什么不直接写入
这轮比较关注底层 1.自我介绍 2.个人信息和实习时长进一步沟通 3.问项目,进一步阐明下项目细节 4.HDFS备份文件数量 5.HDFS读文件底层原理 6.HDFS写文件底层原理 7.追问是写完一个文件就返回还是所有备份写完才返回 8.问MapReduce原理 9.问Hive内部表和外部表的区别 10.问Hivesql咋转换到MapReduce的 11.问Hive可以用啥作为元数据库 12.Hi