#牛客创作赏金赛# 面过的数据分析也有几十场了,给大家汇总一下亲历的高频考点,面试前一定要反复练习哦 问题清单: 1. SQL查询过慢,如何解决? 2. union v.s. Union all 3. SQL执行顺序 4. 视图 v.s. 表 5. 第一范数,第二范式,第三范式
1、自我介绍 2、实习经历介绍 3、实习项目难点介绍 4、你比别人的优势是什么 5、hive相比与传统数据库的优势是什么 6、hive集成了mapreduce,如何将hive语句转换为mapreduce 7、hive on spark和spark on hive的区别 8、spark调优你做过哪些? 9、数据倾斜调参和不调参的方法你知道有哪些 10、数仓的存储介质有哪些 11、数仓建模的话你会如何
让我印象最深的是最后SQL,要求是输出一个保留一位小数的比例,题干都没给具体是哪天。 题目:运营想知道《某天》的用户中30天后再次打车的占比。(没了) 然后给了个表 示例:0.4 应该凉了 part1-----行测 很少会的,规律是一点找不出来 -1,-2,-1,2,7,(),23 -----()里是什么 part2----excel 如果不熟练,我感觉是每天都用的程度,做的很慢,还不一定对 我直
1.自我介绍 2.实习介绍 3.实习工作内容下游使用方主要有那些? 4.AI团队数据支持 他们使用这个数据做的什么 5.除了对表的支持之外,是否在计算层面做过一些优化 6.boradcast join和sortmergeJoin的区别和 使用场景的不同 然后面试官开始说,我觉得概念你应该都会,我就不问你了,所以我后面会从场景的角度去考验你的技术理解,本人听到这里心凉了半截,因为两段实习全是离线,这
字节数据开发oc了,写面经还愿~ 一面 深挖项目 快手的数仓分层 dws层建设的必要性 hudi应用中的收益和不足 开发过程中遇到过什么优化的case,分不同类型来说 说一下mr shuffle的过程 row_number、rank、dense_rank的区别 sql:新用户次留率 算法:二分查找 二面 项目 具体介绍一下数仓自学和实习中接触到的不同的案例 介绍一下mr原理 map端和reduce
最喜欢的一种面试方式,全程问实习和项目。 1.自我介绍+技术栈介绍+实习介绍+难点介绍(第一次做了十多分钟的自我介绍) 2.你的难点为什么不用oltp引擎解决呢,应该多拓展一下oltp的宽度(针对oltp讨论了快⑩分钟) 3.bitmap详细讨论 4.用户怎么使用你们的数据产品 5.实时了解吗 6.base地只考虑武汉还是都可以 许愿hr面 #数据人的面试交流地#
1.自我介绍,城市相关 2.你对于大数据哪一块比较了解,展开讲讲 3.结合项目讲数仓建模理论 4.数仓分层的理解和好处,每一层的作用 5.app层如果下面有多个看板,他们有多个指标是重复的,你怎么设计app层才能保证数据查询起来容易又包装数据的一致性呢 6.指标体系的了解 7.原子指标派生指标衍生指标 8.日活留存率怎么算,要得到连续十五天相对于第一天的的留存率,如何优化 9.spark学到什么程
2024.9.11 60min 一、自我介绍 二、实习 介绍数据流架构,实习做的事 用的框架、一些细节(没有技术问题) 三、项目 讲讲lazy allocation 这个操作系统有没有能应用的场景 四、c++ c++相对c的特性 c++11新特征 虚函数和纯虚函数 五、做题 反转链表 快排 六、反问 业务方向:推荐,在线c++离线Java
1.自我介绍 2.学校大数据有哪些课程,做了哪些实践 3.你觉得大数据是什么,对于社会的帮助 4.大数据和大模型的联系,你在实习或者写sql的时候有没有用过大模型 5.你觉得大模型可以取代你做的这些数据开发工作吗,把大模型甩给业务人员,他们可以用大模型完成数据开发吗 6.针对大模型和大数据,总结一下,从短期来看和长期来看 7.对于spark3.0的新特性了解吗 8.spark的join有几种,和M
JD 20个选择题 全是大数据 概率论 怀疑是数开的题目 三道编程: 贪心 SQL 一道简单 顺丰:四十个选择题 还是全是概率论和大数据 一道简答:设计箱子 一道编程:堆 维护k个最小值
笔试 90min 选择题+sql*1+算法*2 简单sql,困难算法 一面 共 50min 自我介绍 sql 3小问 15min 实习经历 项目经历 数仓分层的意义 从hdfs如何到ODS层 介绍维度表和事实表 有没有使用zookeeper hadoop节点之间如何进行联系 hive sql脚本是在哪里运行 一共有多少张表,都是自己写的吗 做数仓的时候遇到了哪些困难,怎么解决的 在实习期间的困难和
最难绷的一集,感觉KPI面 1.自我介绍 2.介绍项目,你这不就是最普通的广告曝光么,有什么区别,客群标签是你们加工的吗,数据流图是什么,有啥用 3.项目难点,业务上的难点,你这种方法也没解决业务的难点啊(我真难绷,业务对接过程的问题我咋解决,我最多减缓) 4.介绍hive or spark 5.数仓开发的关键点,每一层的作用 6.反问:我终于说出了那句一直想说但不敢说的“我没有什么问题要问”,润
一面 共 30min 自我介绍 实习经历介绍 项目介绍:数仓分层的理解 为什么用spark而不用hadoop 为什么spark比hadoop快 spark开始计算的标志 java抽象类和接口的区别 对继承和多态的理解 最近有想要学习的新技术吗 #科大讯飞##秋招##大数据#
9.7做的笔试,9.10武汉地区线下面试 总共三十分钟左右,面试官技术很强,人也很nice 体验很好。 主要拷打的项目和八股,问得很底层,感觉八股答的不好应该是寄了 自我介绍; 问了实习,主要做的工作内容; 项目架构,数据流,涉及到的组件,为什么选择,不同源的数据怎么汇总,项目的数据量是多少; flink的check point机制,存储位置; kafka的架构,用了多少个节点; Hbase的结构
#歌尔# 项目 ETL部分 拉链表的设计与作用 数据量的大小 为什么选择kmeans,介绍一下其他的聚类方法 八股 介绍下数据仓库的分层 大数据中的数据倾斜 hive开窗函数 spark streaming和flink的区别 sort by 和 order by的区别 有没有用过doris等 (没用过) 什么时候可以来实习