上来先做了一道 最近登录日期 的sql题 然后开始问大数据八股,,,, 1. mapreduce map端的shuffle过程 2. spark stage 划分的依据 3. 宽依赖和窄依赖 4. 了解kafka吗 5. spark sql与mysql sql的区别 6. spark dataframe 和dataset的区别 7. 数据库中id设计 除了uuid和时间戳,还有什么方式 #招银网络
视频面,1h 吐槽:我8.11投递的岗位...八月底做完的笔试....10.21给我发邮箱约面,也不知道前面是哪个大佬拒了offer然后把我给捞上来了 但是,面试官人很好啊~面试体验很好~ 虽然我很多没答上来只能说分治思想贯穿了全程... 无自我介绍 实习 由于我有数据开发相关的实习,所以前30min各种问实习 做了哪些工作,怎么做的,任务挂了怎么办,怎么做的清洗,用的啥语言,用的是啥架构/工具?
线下群面: 五分钟读题,然后每人简单自我介绍+说出对题目的答案,然后讨论20分钟,最后5分钟派一个人总结。 题目:(2选1) 1、如何构建数据中台? 2、设计一个智能家居,应该有哪些功能?用什么技术实现这些功能? 测评: 性格测试+图形推理+资料分析 二面: 1、自我介绍 2、详细介绍一下项目 3、实习的数据框架和项目的数据框架有什么区别吗? 4、数据采集还了解其他工具或架构吗? 5、数据加工处理
1. 自我介绍 2. 问了一下简历上的项目(研一在国电做的) 3. Spark有没有过调优 4. 基于我对Spark调优的一些回答进行追问: ● 我提到了利用RDD缓存进行RDD复用,追问Spark缓存一般可以用什么函数做到(cache,presist) ● 追问并行度的设置方法(配置文件或在代码中) ● 并行度的值一般根据什么设置(CPU核数的2-3倍) 5. Hive执行原理(SQL到MR的过
一面: 主要还是挖简历 自我介绍 问项目经历,聊聊过往开发的项目(聊了很久) 聊聊MySQL的事务 细聊ACID 隔离级别 innodb默认级别 innodb的底层数据存储 对比mysql和hive kafka为什么吞吐量大 场景题目:100个G的文件,保存用户id和看的bookid,求top10阅读量的书 反问
陆续分享点面经 虽然大部分都被挂了hh 希望能帮到大家 3.15 一面 1.自我介绍 2.题外话 怎么看待数仓和算法的联系 3.项目 4.介绍一下对大数据技术生态的了解 5. 怎么理解spark和hive 6.hive的逻辑架构 7.MR的流程 8.整个MR有几次排序 9.spark的shuffle 10.怎么确定spark分解成多少个task,即spark任务的并行度怎么指定 11.stage的
一面群面
投递时间是今年的六月份,整个流程完全没有拖泥带水,很迅速且高效的就走完了(现已入职)。下面说一下大概情况给大家参考叭(不过内部不同组之间还是面的会有差别 笔试一次面试2次 笔经 时间90min两个编程题一个问答 编程:都不难,没啥算法需要,就是怎么处理它的输入会比较难一点(比如怎么分割输入) 问答:问项目,了解你的项目就ok 一面经(技术面40min) 这个和其他公司挺不一样的,没有照着题库死板的
我是霸面终端研发的圳,见到面试官,但面试官一直忙于找我笔试成绩,我就一直推销自己,项目经验如何,linux如何,内核如何,TCP/IP网络 如何,嵌入式开发如何。终于面试官问了几个小题,写了几个编程之美上面的小题。答的还可以,但因为霸面,他一直不爽我。 这次霸面非常失败,自己也备受打击。不过后来还是接到通知面试的电话了 1.一面 设计数据结构及改进。我坦言数据结构及算法一般,但项目经验及linux
1.可能简历上几个项目写得比较详细,hr小姐姐扣了很多项目细节(基本上都是自己做的)√ 2.问了安卓的开发(没有用过)❌ 3.这几年我用的基本是c,hr问有没有java.python的使用经验❌ 4.问了通讯iic.spi.usart和具体的模块(用得比较频繁)√ 5.项目难点和解决方案√ 6.算法的使用,说了滤波算法和pid(...) 7.团队开发和个人开发的优缺点√ 8.团队有不喜欢的人怎么办
自我介绍 接受重庆地区否 成绩排名 介绍下做过什么项目 做过商用项目吗
一面(技术面) 自我介绍 hadoop架构 namenode的功能,对namenode影响最大的计算机资源 介绍一下hive 宽依赖,窄依赖 写过复杂sql吗,介绍一下 sql分组过滤 java的hashmap c++和java的区别 介绍一下hbase 数据库三范式 二面(hr面) 自我介绍 为什么选择中移互联网 了解中移互联网吗(这里尬住了,压根不了解) #中移互联网##数据研发#
一面:80min 1、自我介绍 2、介绍部门情况 3、介绍下部门的数仓建设情况 4、简述实习里的三个实习做的项目,聊背后的逻辑 聊了好久好久 5、聊聊在字节认为部门最厉害的技术是什么 6、聊聊自己的爱好 7、觉得自己有什么有优点 8、团队协作和个人工作区别是什么,各自的优点和缺点 9、一道sql题,有两个数组,展开数据,角标相对应的取出数据 10、sql的job和stage划分,窗口函数是否会sh
一面 50分钟 自我介绍 你学过的大数据掌握的最好的是哪一个 hive里面排序一般怎么使用的 hive内部表和外部表的区别,外部表在什么场景下使用 hive视图用过吗 你对维度和事实的理解 你说到了业务过程,谈谈对它的理解 你刚刚描述的是一个业务过程还是 多个业务过程 多个业务过程放到一张事实表的你举个例子 维度建模中 星型模型和雪花模型 之间的区别 缓慢变化维表如何处理呢 全量表的数据保存多久
一面: 无自我介绍环节,直接开问 1、聊实习项目,很细,聊了好久 2、yarn任务提交流程 3、spark的stage切分原理 4、spark任务提交流程 5、对比mr和spark,为什么都用spark 6、谈谈对hudi的理解 7、kafka的负载均衡原理 8、两道算法题,字符串相关的 9、反问 ps.好多过程不记得了 二面: 三个模块 开发 大数据 算法 不想回忆了,直接自闭,一点都不会 但是