#互联网公司爆料# 这个公司也是搞物流的吧,估计是做国外的,面试我的第一面是大数据组长,应该是数仓的组长,主要是数仓建模,hive基础,以及spark,以及数据服务以及做的项目的细节,整体面试还可以,终面是技术最高负责人,估计是个副总有40多岁,问了我大数据集群怎么搭建的,服务器是怎么设计的,对于大数据的架构的分布等等吧,感觉是以架构师来问的,薪资好像是15乘14,年终估计拿不满吧,终面还挂了,好
写面经攒人品,同时也是对自己的实习面试的一个记录吧 1.介绍项目,因为是密码学项目,面试官可能不是很了解,但是抠得很细,一直问到他大概明白是做了什么为止 2.智能指针 3.协程 4.Java线程池 5.Redis布隆过滤器 6.数据结构中序遍历 7.有没有在C++中引用过第三方包 8.手撕算法:给一个数字串,相邻两个字符相加为10可以消去,问最终字符串长度 9.介绍了一下所接触过的其他加密算法 面
一面 4.23 当天下午约二面 (点错成周四4.27了摔😤 lz面过最长时间的面试,足足1h40min,10:15开始,结束都快12点了🥲也不知道是面试官工作比较闲还是lz太话唠了🤣 Part1: 实习经历 团子的面试官好像对我的实习经历非常感兴趣,一直在深挖,问得非常非常细,到具体什么指标、数据是多少这样子,这一part直接干了四五十分钟😳有记不得的lz就直接说记不得…但是面试官挺好滴,
1h16min 1、将一下对大数据开发的理解 2、是通过什么接触到大数据开发的?为什么选的是实时? 3、大数据专业有没有学过flink相关课程,你是自动化学院的,如果我招你来你会不会只是学一下就算了,毕竟培养一个人要耗费很多精力 4、对于实习时长能接收多久,后续会不会考虑留在北京 5、有没有了解过美团 6、为什么项目中要使用flink,相比于其他的使用flink的好处在哪里 7、数仓分层为什么是五
1小时,全程 LSM tree 深挖 LSM-tree 存储引擎和 Raft 的关系 LSM-tree 原理和特点 为什么要追加写 LSM-tree 的工业实现 LSM-tree 的合并方式(合并超出阈值的部分还是全部?优缺点 Bloom filter 的实现 Bloom filter 如何持久化 缓存的索引怎么做缓存淘汰 缓存的索引一个 SSTable 对应一个 map 和用一个全局 map 的
1.Spark的运行机制 2.union是宽依赖还是窄依赖 3.常见的action算子 4.reduceByKey和groupByKey的区别 5.Spark的checkpoint 6.Spark的cache和persist区别 7.Flink的checkpoint和Spark的checkpoint区别 8.Flink的两阶段提交问题 反问 用什么做什么 基本大数据组件都会用,shein数据量大而
Kubeflow 是 Google 发布的用于在 Kubernetes 集群中部署和管理 tensorflow 任务的框架。主要功能包括 用于管理 Jupyter 的 JupyterHub 服务 用于管理训练任务的 Tensorflow Training Controller 用于模型服务的 TF Serving 容器 部署 部署之前需要确保 一套部署好的 Kubernetes 集群或者 Mini
Kubernetes 从 v1.8 开始支持原生的Apache Spark应用(需要Spark支持Kubernetes,比如v2.2.0-kubernetes-0.4.0),可以通过 spark-submit 命令直接提交Kubernetes任务。比如计算圆周率 bin/spark-submit --deploy-mode cluster --class org.apache.spark.
Microsoft Excel 的功能真的可以用博大精深来形容。特别是自Excel 2007 在原有的基础上又增加了一些更简单易用的功能。 特别是数据透视表功能,更被认为是Excel 的精华所在。 本文从创建数据透视表到使用数据透视表查看、汇总、分析数据,还包括数据透视表的布局控制,数据透视表的数据源更新与链接等功能都做了详尽的介绍。
大数据通用处理平台 Spark Flink Hadoop Drill 分布式协调 ZooKeeper 分布式存储 HDFS Alluxio(tachyon) Ignite 存储格式 Parquet ORC CarbonData Kudu 数据库 HBase 资源调度 Yarn Mesos Kubernetes 工作流调度 Oozie Azkaban 机器学习工具 Mahout Spark Mlib
上来20min先做题,两道sql,一道数学,一道概率 问数据相关,接触过什么数据库,数据体量,mysql优劣势,mapresduce数据倾斜,hive,sql内置函数 自定义函数 复盘:熟悉应用场景 问答风格无八股,侧重于考察真正理解程度 寄。
一面 英文自我介绍 mr的shuffle zookeeper选举 spark内存管理 hbase中region的拆分 数仓中都有什么表 怎么处理缓慢变化维,拉链表有用过吗 yarn的架构 namenode ha的实现 namenode启动过程中怎么确定哪个是active哪个是standby spark sql用的多吗 手撕 中等leetcoode,合并区间 二面 自我介绍 家哪里的 对博世有什么了
最开始发来的邮件说是电话面,当天走完了一面二面,中间只间隔了二十多分钟,当晚HR面,第二天看状态结束了。。。。凉凉 这次幸亏是电话面,手机直接录音了,记录的详细一些。 一面 面试时间:20min 自我介绍? 实习工作介绍,实习内容,所用的技术栈。。。 怎么和同事配合的?自己有开发了那些?有什么提高? 你们这个项目,你觉得还有那些地方可以做优化? 离线和实时结合,未来发展的一些看法? Hive的组成
1.自我介绍 2.对于岗位理解 3.对于大数据经典组件的简要介绍 4.spark出现明显解决hadoop什么问题 5.sparkrdd的内存管理机制 6.spark提交任务后集群的内存管理机制 7.实习工作介绍 8.谈论对于优化的理解 9.评价方法论,衡量优化工作的指标 10.对于最左匹配原则的理解 11.为什么联合索引的后面字段不走联合索引 12.sql,直播间峰值问题,说了开窗函数排序的思路,
一面 面试时间:70min 自我介绍 Java数据类型? String builder和String buffer区别? String为什么是不可变的?为什么要设计成不可变? 泛型了解吗? 反射了解吗?常用的反射方法? Java集合类型? 数组和链表的区别? 讲讲HashMap原理?转换成红黑树条件?为什么这么设计? 线程安全的HashMap?ConcurrentHashMap和HashTable