Kubernetes 从 v1.8 开始支持原生的Apache Spark应用(需要Spark支持Kubernetes,比如v2.2.0-kubernetes-0.4.0),可以通过 spark-submit 命令直接提交Kubernetes任务。比如计算圆周率 bin/spark-submit --deploy-mode cluster --class org.apache.spark.
Microsoft Excel 的功能真的可以用博大精深来形容。特别是自Excel 2007 在原有的基础上又增加了一些更简单易用的功能。 特别是数据透视表功能,更被认为是Excel 的精华所在。 本文从创建数据透视表到使用数据透视表查看、汇总、分析数据,还包括数据透视表的布局控制,数据透视表的数据源更新与链接等功能都做了详尽的介绍。
大数据通用处理平台 Spark Flink Hadoop Drill 分布式协调 ZooKeeper 分布式存储 HDFS Alluxio(tachyon) Ignite 存储格式 Parquet ORC CarbonData Kudu 数据库 HBase 资源调度 Yarn Mesos Kubernetes 工作流调度 Oozie Azkaban 机器学习工具 Mahout Spark Mlib
上来20min先做题,两道sql,一道数学,一道概率 问数据相关,接触过什么数据库,数据体量,mysql优劣势,mapresduce数据倾斜,hive,sql内置函数 自定义函数 复盘:熟悉应用场景 问答风格无八股,侧重于考察真正理解程度 寄。
一面 英文自我介绍 mr的shuffle zookeeper选举 spark内存管理 hbase中region的拆分 数仓中都有什么表 怎么处理缓慢变化维,拉链表有用过吗 yarn的架构 namenode ha的实现 namenode启动过程中怎么确定哪个是active哪个是standby spark sql用的多吗 手撕 中等leetcoode,合并区间 二面 自我介绍 家哪里的 对博世有什么了
最开始发来的邮件说是电话面,当天走完了一面二面,中间只间隔了二十多分钟,当晚HR面,第二天看状态结束了。。。。凉凉 这次幸亏是电话面,手机直接录音了,记录的详细一些。 一面 面试时间:20min 自我介绍? 实习工作介绍,实习内容,所用的技术栈。。。 怎么和同事配合的?自己有开发了那些?有什么提高? 你们这个项目,你觉得还有那些地方可以做优化? 离线和实时结合,未来发展的一些看法? Hive的组成
1.自我介绍 2.对于岗位理解 3.对于大数据经典组件的简要介绍 4.spark出现明显解决hadoop什么问题 5.sparkrdd的内存管理机制 6.spark提交任务后集群的内存管理机制 7.实习工作介绍 8.谈论对于优化的理解 9.评价方法论,衡量优化工作的指标 10.对于最左匹配原则的理解 11.为什么联合索引的后面字段不走联合索引 12.sql,直播间峰值问题,说了开窗函数排序的思路,
一面 面试时间:70min 自我介绍 Java数据类型? String builder和String buffer区别? String为什么是不可变的?为什么要设计成不可变? 泛型了解吗? 反射了解吗?常用的反射方法? Java集合类型? 数组和链表的区别? 讲讲HashMap原理?转换成红黑树条件?为什么这么设计? 线程安全的HashMap?ConcurrentHashMap和HashTable
30min拷打项目,其他八股一点没问,算法和sql也没做。 跟我说如果还有后续的话还有一个hr面。 怎么就三十分钟啊?不会KPI了吧,许愿许愿许愿
已挂 实习时间 自我介绍 了不了解 go(不了解) redis 为什么快 redis 多线程 redis 实现分布式锁 MySQL 底层索引 B+树 事务四大特性 分库分表 分库分表怎么精准定位 TCP 三次握手、四次挥手 HTTP、HTTPS 的区别 SSL/TLS 消息队列的作用 堆和栈的区别(数据结构) 了不了解 linux(不了解) 线程和进程的区别 死锁的概念 死锁产生的条件 项目 反问
40min左右 1.自我介绍 2.关系型数据库与非关系型数据库的区别,并举例 3.介绍hadoop 4.hadoop与hdfs的关系 5.spark的RDD的几个特点 6.RDD相对于mapreduce的优点缺点 7.hive join的几个方式,说明其原理 8.使用python是否做过大项目 9.为什么rdd处理速度比mp快,为什么mp没有被淘汰依然在使用。 10.提问项目 11.排序有哪些算法
自我介绍 数据结构 数组和链表的区别 java中哪里用到了这两个数据结构 栈和队列的区别 网页的前进和后退都是使用哪个数据结构 arraylist和linkedlist的区别 看过哪些书 mysql的索引 b树和b+树的区别,b+树的优点 如果使用mysql存1000w行数据,设计方案 如果设置索引,那么存储索引也会占用很大的空间,怎么解决 数仓的项目,怎么分层的 为什么要分层 每层干了什么事 反
1.去公司线下面试,有笔试题 1.填资料,个人信息,以及有关职业发展问题 1.比如,你的缺点和优点是什么,对你个人产生怎样的影响? 2.如果你和他人有不同的观点,你该如何和他人讨论? 等等,基本就是情商面 笔试题 1.中科软是一家主做保险的外包公司,所以用到的sql主要是oracle, 选择题有几道oracle的题, 2.然后有简答题,也比较简单 面试环节 1.自我介绍 2.对于shell部分的提
让我印象最深的是最后SQL,要求是输出一个保留一位小数的比例,题干都没给具体是哪天。 题目:运营想知道《某天》的用户中30天后再次打车的占比。(没了) 然后给了个表 示例:0.4 应该凉了 part1-----行测 很少会的,规律是一点找不出来 -1,-2,-1,2,7,(),23 -----()里是什么 part2----excel 如果不熟练,我感觉是每天都用的程度,做的很慢,还不一定对 我直
处女面,很紧张 1. 问项目 2. 项目中为什么使用kafka作为缓冲队列。 3. mapreduce原理。 4. 如果mapreduce发生数据倾斜该如何解决。 5. 解释一下列式存储、列式存储的文件格式。 6. 星型模型、雪花模型、星座模型的区别和应用场景。 7. 拉链表是什么、一般解决什么问题。 8. 什么是指标体系、如何明确指标体系。 9. zookeeper、datax等(项目上写的组件