JD 20个选择题 全是大数据 概率论 怀疑是数开的题目 三道编程: 贪心 SQL 一道简单 顺丰:四十个选择题 还是全是概率论和大数据 一道简答:设计箱子 一道编程:堆 维护k个最小值
笔试 90min 选择题+sql*1+算法*2 简单sql,困难算法 一面 共 50min 自我介绍 sql 3小问 15min 实习经历 项目经历 数仓分层的意义 从hdfs如何到ODS层 介绍维度表和事实表 有没有使用zookeeper hadoop节点之间如何进行联系 hive sql脚本是在哪里运行 一共有多少张表,都是自己写的吗 做数仓的时候遇到了哪些困难,怎么解决的 在实习期间的困难和
最难绷的一集,感觉KPI面 1.自我介绍 2.介绍项目,你这不就是最普通的广告曝光么,有什么区别,客群标签是你们加工的吗,数据流图是什么,有啥用 3.项目难点,业务上的难点,你这种方法也没解决业务的难点啊(我真难绷,业务对接过程的问题我咋解决,我最多减缓) 4.介绍hive or spark 5.数仓开发的关键点,每一层的作用 6.反问:我终于说出了那句一直想说但不敢说的“我没有什么问题要问”,润
一面 共 30min 自我介绍 实习经历介绍 项目介绍:数仓分层的理解 为什么用spark而不用hadoop 为什么spark比hadoop快 spark开始计算的标志 java抽象类和接口的区别 对继承和多态的理解 最近有想要学习的新技术吗 #科大讯飞##秋招##大数据#
9.7做的笔试,9.10武汉地区线下面试 总共三十分钟左右,面试官技术很强,人也很nice 体验很好。 主要拷打的项目和八股,问得很底层,感觉八股答的不好应该是寄了 自我介绍; 问了实习,主要做的工作内容; 项目架构,数据流,涉及到的组件,为什么选择,不同源的数据怎么汇总,项目的数据量是多少; flink的check point机制,存储位置; kafka的架构,用了多少个节点; Hbase的结构
#歌尔# 项目 ETL部分 拉链表的设计与作用 数据量的大小 为什么选择kmeans,介绍一下其他的聚类方法 八股 介绍下数据仓库的分层 大数据中的数据倾斜 hive开窗函数 spark streaming和flink的区别 sort by 和 order by的区别 有没有用过doris等 (没用过) 什么时候可以来实习
part1 十道选择题 ,简单概率题,场景题,行测,不难 part2 两道SQL编程题,涉及窗口函数,太久没刷题只A了一道 part3 分析题两道,关于去哪儿业务的深入分析,主要考察业务思维
自我介绍 new String() == "" new Integer(100) == 100 说一说集合List和Map java中的锁 写一个双重锁单例模式 mysql 几种锁,怎么设计一个联合索引 多线程的实现方式,区别 SpringBoot 用过哪些注解,怎么定义一个接口 手撕单链表排序(写过但是忘干净了,寄) 总结:偏后端,寄就寄吧#数据开发##数据开发工程师面经##好未来面经#
前言 题目挺难,涉及hadoop、spark等内容,且计算机网络、操作系统、数据结构与算法也均涉及。 20题选择题(多选、单选均有),40分 3题编程算法题,分值分别为 15、20和25分。 惭愧,只a了最后一题算法题。 第二题看着有点复杂,时间不太够了,就一点没做 第一题 给n个正整数组成的数组,a1、a2、a3,...., an,任意 l, r (l <= r) ,al + ... + ar
👥面试题目 一个商场的客流量符合什么分布? 怎么判断数据是否符合这个分布?有哪些方法? 这个问题考察的是统计学中的数据分布识别以及假设检验的知识。在数据分析领域,理解数据的分布是非常重要的一步,因为它能够帮助我们更好地建模和预测。对于商场客流量这种场景,了解其分布可以帮助商场管理层优化资源配置、提高顾客满意度以及提升销售业绩。为了准确回答这个问题,我们需要从以下几个方面来考虑: 数据分布类型:识
1.自我介绍 2.介绍项目,数据哪来的,数据量级,数仓模型,曝光率怎么算的 3.难点介绍,随spark版本变化会不会有一些函数不适用 4.bitmap的JAVA实现,哈希冲突怎么做的 5.数据倾斜介绍 6.除了数据倾斜,还有哪些优化手段 7.开窗函数 8.udf用过吗 9.JAVA实现过什么项目 10.sql:去掉一个最高分去掉一个最低分求用户平均分 很常规的一次面试,没什么好细说的 #数据人的面
个人信息 自我介绍 最大的优点 最大的缺点 核心竞争力 未来五年的职业规划 他人对你的评价 工作中遇到的最大困难 理想的上级类型 对公司和产品的了解 应聘该岗位的原因 能为公司带来的价值 最快入职时间 期望薪资有什么 反问
介绍项目 说一下遇到的难点 项目的核心指标就是**的占有率吗? 怎么验证数据的准确性? 有遇到过数据对不齐的时候吗,怎么发现的。 讲一下数仓分层的好处 如果需求方想临时插一条数据进数仓,怎么解决。答找后端更新数据,我再重刷。 除了这个办法呢?能不能在数仓中直接insert一条数据。 为什么不建议直接往同一个分区追加新的数据? 为什么要选择数据开发?别人都说数据开发是sql boy,你怎么看这句话。
数据开发岗位,第一批次 题型:选择题10道,算法题3道,sql题一道 作答情况:算法题:1.5 sql题:1 1、 一看题目吓一跳,写的跟小作文一样,,,最长上升子序列和字典序,不过仔细看了下不是很难,做出来了 2、字符串权值,又是小作文。不会做,和同门讨论了下好像只看第一位就可以? 3、0-n 中取m位数,找出大于k的个数,50% 4、sql题,计算总销售额,平均销售额,不算很难 #携程校招笔试
数仓有哪几层,每层作用 星型模型和雪花模型 累计快照事实表,拉链表 如何进行维度建模 遇到的数据倾斜问题 大小表join 内部表和外部表区别 拉链表如何设计 spark为什么快 指标体系的建设和管理 用过bi报表之类的吗 炸裂函数,开窗函数 rdd和dataframe的区别