timeline 到家 8.21 一面 寄 介绍项目,问了问不多 1.InnoDB和MyISAM的区别 2.MySQL有几种索引 3.MySQL索引的实现方式 4.数仓分层体系 5.指标体系 6.数仓的建设流程 7.维度建模和范式建模 8.星座和雪花模型的异同 9.Spark的执行过程 10.RDD包含什么 10.Task Job Stage的关系 11.Worker Driver的关系 12.怎
一面 1.自我介绍 2.实习经历介绍,负责的项目模块,有多少张表,为什么要做这些表,涉及哪些方面的建设 3.对业务的了解,是你和需求方直接对接吗,参与过砍需求的过程吗 4.模型设计到最后交付的数据开发全流程,有没有中途变更过需求,最终有多少个指标和维度 5.你怎么把这么多维度放到一张表里面呢,oltp引擎怎么样使用的 6.指标都是可以累加的吗,有没有想过把可加的和不可加的指标分别放到不同的表中 7
感觉自己和快手的相性不是很好,每次都和面试官不和,感觉应该是无缘快手 1.自我介绍,大数据组件是自学的吗 2.工作内容,定位,成果介绍 3.前期调研也是你做的吗,怎么调研出的指标体系,耗时多久 4.复购率是几日复购率,为什么选择这个天数不选择15天,你这个调研不够深刻,调研他的打法和业务目标不才是第一步要做的事吗 5.有多少个维度和指标,为什么用grouping sets不用cube,介绍coun
问项目 根据项目问了一个sql如何写 聊七聊八 20min 挂了
1.自我介绍 2.项目细节介绍 3.针对一个指标讲讲你整个链路怎么设计的 4.数据交付时数据质量如何保证 5.如果现在调度的表都是高优先级,你这个表延迟产出了,怎么办 6.hive架构介绍 7.hive优化器会做什么,详细讲讲谓词下推 8.小文件产生原因,危害,解决方法 9.spark遇到的挑战 10.实时了解过吗 11.你们公司的数据链路,数仓分层是怎么样的 12.数据怎么采集的,binglog
1.transfomer底层 2.用户分级进行优惠促销 如何做 3.F1值含义 4.手撕sql 5.掷硬币的数学期望
#牛客创作赏金赛# 面过的数据分析也有几十场了,给大家汇总一下亲历的高频考点,面试前一定要反复练习哦 问题清单: 1. SQL查询过慢,如何解决? 2. union v.s. Union all 3. SQL执行顺序 4. 视图 v.s. 表 5. 第一范数,第二范式,第三范式
1、自我介绍 2、实习经历介绍 3、实习项目难点介绍 4、你比别人的优势是什么 5、hive相比与传统数据库的优势是什么 6、hive集成了mapreduce,如何将hive语句转换为mapreduce 7、hive on spark和spark on hive的区别 8、spark调优你做过哪些? 9、数据倾斜调参和不调参的方法你知道有哪些 10、数仓的存储介质有哪些 11、数仓建模的话你会如何
让我印象最深的是最后SQL,要求是输出一个保留一位小数的比例,题干都没给具体是哪天。 题目:运营想知道《某天》的用户中30天后再次打车的占比。(没了) 然后给了个表 示例:0.4 应该凉了 part1-----行测 很少会的,规律是一点找不出来 -1,-2,-1,2,7,(),23 -----()里是什么 part2----excel 如果不熟练,我感觉是每天都用的程度,做的很慢,还不一定对 我直
1.自我介绍 2.实习介绍 3.实习工作内容下游使用方主要有那些? 4.AI团队数据支持 他们使用这个数据做的什么 5.除了对表的支持之外,是否在计算层面做过一些优化 6.boradcast join和sortmergeJoin的区别和 使用场景的不同 然后面试官开始说,我觉得概念你应该都会,我就不问你了,所以我后面会从场景的角度去考验你的技术理解,本人听到这里心凉了半截,因为两段实习全是离线,这
字节数据开发oc了,写面经还愿~ 一面 深挖项目 快手的数仓分层 dws层建设的必要性 hudi应用中的收益和不足 开发过程中遇到过什么优化的case,分不同类型来说 说一下mr shuffle的过程 row_number、rank、dense_rank的区别 sql:新用户次留率 算法:二分查找 二面 项目 具体介绍一下数仓自学和实习中接触到的不同的案例 介绍一下mr原理 map端和reduce
最喜欢的一种面试方式,全程问实习和项目。 1.自我介绍+技术栈介绍+实习介绍+难点介绍(第一次做了十多分钟的自我介绍) 2.你的难点为什么不用oltp引擎解决呢,应该多拓展一下oltp的宽度(针对oltp讨论了快⑩分钟) 3.bitmap详细讨论 4.用户怎么使用你们的数据产品 5.实时了解吗 6.base地只考虑武汉还是都可以 许愿hr面 #数据人的面试交流地#
1.自我介绍,城市相关 2.你对于大数据哪一块比较了解,展开讲讲 3.结合项目讲数仓建模理论 4.数仓分层的理解和好处,每一层的作用 5.app层如果下面有多个看板,他们有多个指标是重复的,你怎么设计app层才能保证数据查询起来容易又包装数据的一致性呢 6.指标体系的了解 7.原子指标派生指标衍生指标 8.日活留存率怎么算,要得到连续十五天相对于第一天的的留存率,如何优化 9.spark学到什么程
2024.9.11 60min 一、自我介绍 二、实习 介绍数据流架构,实习做的事 用的框架、一些细节(没有技术问题) 三、项目 讲讲lazy allocation 这个操作系统有没有能应用的场景 四、c++ c++相对c的特性 c++11新特征 虚函数和纯虚函数 五、做题 反转链表 快排 六、反问 业务方向:推荐,在线c++离线Java
1.自我介绍 2.学校大数据有哪些课程,做了哪些实践 3.你觉得大数据是什么,对于社会的帮助 4.大数据和大模型的联系,你在实习或者写sql的时候有没有用过大模型 5.你觉得大模型可以取代你做的这些数据开发工作吗,把大模型甩给业务人员,他们可以用大模型完成数据开发吗 6.针对大模型和大数据,总结一下,从短期来看和长期来看 7.对于spark3.0的新特性了解吗 8.spark的join有几种,和M