一、spark如何划分job,stage,task 遇到一个action算子开启一个job stage是遇到一个action开始,从后往前以shuffle为边界划分 stage划分成多个task,一个分区对应一个task 二、sql题:一个用户点击记录表t,有三个字段user_id,item_id,category_id 统计每个用户的每个商品类别的点击总量排名中,top3的商品 类别 selec
来源:http://www.techug.com/full-stack-python 前段时间,ThoughtWorks 在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用 JavaScript 进行前端、服务器端,甚至数据库(MongoDB)开发,一个 Web 应用开发人员,只需要学会一门语言,就可以实现整个应用。 受此启发,我发现 Python
面试战况为4对1拷打,虽然没有手撕,但鼠鼠受到了终极八股+项目拷打 上来自我介绍+项目 讲10min Sql相关:mvcc,事务,索引。Sql的限制(啥东西)查一个表索引重复怎么办? 给题说思路:包括连接,开窗,去重,等等各种,explain,sql优化, Binlog,undolog,redolog(这部分答的还行) Linux:蚌埠住了,不该说会linux的 改用户名,找一个文本具体某行,修改
40min 面试体验感超好,德子好感+1 Spark sql了解吗?Dateframe 是啥(不会) 项目里数据怎么拉的? Flume+kafka+flume+hdfs 有什么过滤器吗?:3个flume拦截器 判断文件类型+时间戳过滤器+落hdfs小文件检测 数据量:千万 flume拉取时间是多少?(不会,瞎编的10分钟有兄弟了解吗) Spark小文件怎么处理 Kafka 的整体结构:broke+
二面就问了20min不到,吓死我了,不过已经发offer啦,分享下二面问的一些题目。 还是挖简历。 数仓建模核心 拉链表、快照表、全量表的区别 好像就这些~
1. 简历深挖 2. mysql binlog了解吗 3. shell脚本写过吗 4. 两个集群,一张hive表如何进行数据共享,A集群如何同步到B集群中 5. 一张订单表,支付状态会发生变化,如何采集到ods? 面试官说由于每张mysql表都是在系统上有应用的,所以应该用update的方式更新支付状态,不能采用数仓的方式去思考问题,不能用拉链表。数仓可以保存历史数据,但是mysql表必须要用up
年前面试的 流程是机考,测评,再面试 (数仓)一面 聊得还行,不知道怎么挂了。。。可能是Spark这一块了解得太少了 自我介绍 你做的项目数据采集用的什么工具和原理? 有没有做过数据治理? 有没有做过数据血缘关系管理? 数据突增问题有没有遇到过?影响HDFS,如何解决? Hive表格存储用的哪个?什么原理? 数据某个阶段出现问题了,你怎么样定位出来? 数据倾斜有没有遇到过?怎么处理的? 数据之间的
#秋招# JAVA: 1.java面对对象的特征 2.Java中基本类型有哪些 3.==和equals的区别 4.为什么重写equals要重写hashcode 5.List,map,set什么区别 6.Try,catch,finally 分别作用是什么 大数据: 7.hdfs的读流程 8.项目里用到的 hive on spark 和 普通的hive有什么区别 9.数据倾斜的优化,如果group b
一面:boss直聘,拷打项目,无八股。面试官简单介绍了项目的情况,反问。 二面:电话面,面试官一眼看出项目是网上的,我狂妄发言:“我是有自己的思考的”,然后被拷打,最后只憋出来了一条。 根据我之前的回答,面试官问了 1)数仓,业务系统,大数据平台的关系 根据jd,问了 2)py如何连接数据库,数据库游标、连接不释放会怎么样 3)hive分桶表,如何分桶,如何确定分桶的数量,分桶有什么用 4)怎么处
1.自我介绍,城市相关 2.你对于大数据哪一块比较了解,展开讲讲 3.结合项目讲数仓建模理论 4.数仓分层的理解和好处,每一层的作用 5.app层如果下面有多个看板,他们有多个指标是重复的,你怎么设计app层才能保证数据查询起来容易又包装数据的一致性呢 6.指标体系的了解 7.原子指标派生指标衍生指标 8.日活留存率怎么算,要得到连续十五天相对于第一天的的留存率,如何优化 9.spark学到什么程
今天面了字节大数据开发的三面,记录一下: 面试官先自我介绍,然后开始问专业知识。 1.你了解实时领域和离线领域的哪些技术? 2.mapreduce和spark作为计算引擎的差异 3.spark的rdd是什么 4.如何理解rdd中弹性的概念 5.spark有哪些调优方法 6.spark中的join操作有哪些 7.数仓建模方法有哪些 7.介绍一下flink的双流join,以及双流join可能会遇到哪些
2024/9/12 16:40 40min - 自我介绍 - 我看你本科不是计算机的,你学过一些专业课程吗? - 你是投的大数据开发吗?还是调过来的? - 开源项目介绍 - 剩下三个项目介绍 - 你的项目Redis是单机的还是集群 - Redis 槽了解过吗 - 对Spring Boot有了解吗? - Redis中基本数据结构 - 如果一个Hash存的对象非常大,会导致什么后果? - 接口可以继承
1.自我介绍 3min 2.介绍一个你最熟悉的项目 10min 问:这个项目你做了什么(被说工作内容简单,没有太大贡献) 遇到的难点是什么(被说这个难点不难) 怎么解决的 整个表的数据量大概是多少 3.你在美团用到了哪些技术栈 4.讲一下kafka怎么保证不丢数据(答了三种acks,面试官说这是生产者端的,那其他的呢,直接说忘了然后道歉) 5.kafka的offset存在哪个地方的 6.kafka
早上去了盛泉恒元,公司感觉不错,小姐姐都很漂亮,基金公司没有想象中的西装革履,大家穿着都很随意。工作压力似乎也不大,就是面试有点狠,三个人审讯我,主管一顿说我项目不是企业实践的不行,太教科书。 我估计他们数据量小,数仓不需要分层那么多。不过嫌我数仓分层太多——太教科书就有点离谱了。还问我知不知道mr不用yarn,我寻思yarn那么好用,你为啥不用,你降级处理还要嫌我不实习实践所以不懂。然后告诉我就
1、自我介绍 2、自己的优点和缺点 3、兴趣爱好 4、社团经历 5、接受不接受转岗 个人感受:没意思,后悔说接受转岗了,另外就算面试时间不合适也可以直接换面试时间