当前位置：首页 > 专题 >

《大数据开发》专题

大数据开发面试题【MapReduce篇】
25、MR工作原理 Input Spliting：输入的数据被拆分成更小数据块（Input Splits：将大文件切割成适合并行处理的小块数据，每个小块数据称为一个分片，一个分片作为MR处理的基本单元）Mapping：mapper节点将分配到数据块执行map操作，产生中间结果（k,v）键值对并写入到本地磁盘Shuffling and Sorting：Mapper节点会根据Key进行排序，并将相同K
多益大数据开发提前批
主要问经历，问项目的比较多 hdfs的角色有哪些，功能 hdfs的写流程 Java的线程安全是什么最熟悉的集合是什么？详细描述一下 Arraylist为什么长度可变 python的装饰器用过没？是什么东西？手撕python编程题，给定一段字符串，统计出每个单词的频率，频率相同的按降序排序外部表和内部表的区别？为什么选择多益？对游戏的流失人数进行分析？有没有拿到其他公司的OFFER
9.3 汇量科技大数据开发
1.自我介绍 2.实习技术难点 3.项目技术难点 4.id timestamp 位置三个字段完全一样的去重，sql怎么做scala怎么做挑选同个人最后一个时间戳的记录，sql怎么做scala怎么做 5.spark submit提交参数 6.内存/并行度参数优化方案和技巧 7.当出现数据倾斜的时候怎么排查，怎么处理不能只提八股，要完善分情况的答 8.两数之和 9.小数之和 10.反问，写sca
滴滴-国际化数据部-大数据开发面经
2023春招找实习的同学跟我分享了他的面试经历，在这里我进行了一些总结梳理，然后发出来供大家学习注意这是日常实习！！！ 1.自我介绍 2.刷题冒泡排序 3.八股文 3.1 JVM JVM的内存结构类的加载过程静态代码块和代码块初始化的顺序，以及静态代码块在哪个阶段被加载【初始化】垃圾回收器一个方法报错了，怎么进行分析，比如A方法调用B方法，B方法调用C方法....【没太懂】 3.2 并
百度大数据开发一面面经
2022-07-22 时长1h 1 自我介绍 2 数仓项目数据量多大 3 几个shell问题，监控spark日志内容并写入到另一个文件、实时监控spark日志内容 4 Java关键字、面向对象三大特征、接口和抽象类区别 5 set list map区别 6 介绍JVM内存区域，String是基本数据类型吗？基本数据类型变量存在哪里 7 垃圾回收机制 8 新生代老年代对象是如何流转的 9 创建线程的
百度大数据开发二面面经
2022-07-27 下午时长1h5min 百度的面试官真的很好，这点没得说 1 自我介绍 2 数据倾斜——结合业务说了分组聚合和join，大表大表join怎么解决数据倾斜，展开说 3 SQL 没做出来，但是面试官全程提示，沟通交流 4 Hive和Spark哪个比较熟悉，我们聊一聊——都比较熟悉，问了Hive组件和底层执行逻辑，逻辑计划优化有哪些方法，什么是谓词下推（自己提到了） 5 算法：数组
百度大数据开发一面已挂
１ｈ面试官没开摄像头，然后我也没开～ 1. 自我介绍 2. 项目介绍 3. Java NIO原理，与BIO有什么区别 4. 线程不安全的类有哪些 4. G1回收器原理 4. 类加载过程 4. GCROOTS由什么组成 5. 数据库索引 6. 数据库的事务和一致性 7. 计网分层结构 8. TCP和UDP的区别 9. TCP怎么实现可靠传输 10. HTTP3.0展开讲讲 11. 进程和线程的区别
招银大数据开发 1 2 3面
40min 1面自我介绍项目介绍做题：一道算法， sql2道数据库索引有什么用索引失效的情况 spark提交作业的流程 spark 共享变量有哪些广播变量怎么实现的 hive外部表和内部表区别 hive优化，项目中使用到了哪些，展开讲讲 kafka是读写分离为什么不做读写分离 mysql事务 40min 2面自我介绍项目介绍算法题（20min） hard plus 没写出来最优
佳都科技大数据开发（凉经）
9.26 一面（10.12感谢信） 20min+ 自我介绍项目介绍介绍下数仓分层？做了哪些数据处理？ Spark反压机制？ HDFS读写流程？ kafka中出现数据堆积如何处理？
美团大数据开发一面（凉经）
视频面，1h 吐槽：我8.11投递的岗位...八月底做完的笔试....10.21给我发邮箱约面，也不知道前面是哪个大佬拒了offer然后把我给捞上来了但是，面试官人很好啊~面试体验很好~ 虽然我很多没答上来只能说分治思想贯穿了全程... 无自我介绍实习由于我有数据开发相关的实习，所以前30min各种问实习做了哪些工作，怎么做的，任务挂了怎么办，怎么做的清洗，用的啥语言，用的是啥架构/工具？
一点资讯大数据开发（凉经）
10.20 一面 25min 自我介绍 Hadoop三大组件介绍 MR Shuffle的过程？ Spark shuffle和 MR Shuffle概念和区别？ shuffle作用？ shuffle中涉及到哪些排序？快排和归并排序时间复杂度是多少？宽窄依赖概念，如何划分？一亿条数据如何找出top100？归并排序未来职业规划？反问
大数据开发面试题之Hive篇
hive的架构 hive外部表和内部表的区别内部表的数据由hive管理，且存储在hive.metastore.warehouse.dir配置下的路径中；外部表的数据由HDFS存储，路径可以自己指定；删除表时，内部表会把元数据及真实数据删除；外部表不删除真实数据。你用过hive哪些窗口函数可参考：面试官：你用过哪些窗口函数一般用什么文件格式可参考：面试官：“你们实际生产中hive用什么文
蚂蚁十面面经-大数据开发
1-4面为春招实习，很遗憾最终没有通过，5-8面为秋招投递同一个部门，hr面后通知说换了一个组加一轮技术面和hr面，总体来讲实习面试更侧重实验室项目，秋招面试会细聊实习工作，每一轮的面试官都很nice，也都是一次很好的学习经历，感恩这一年和蚂蚁的相遇～一面（技术面）介绍项目遇到了什么问题怎么解决的介绍一下大数据的发展历程项目选型，为什么用这些组件介绍另一个项目除了准确率还用了什么指
小米大数据开发实习面经
1. 自我介绍 2. 问了一下简历上的项目（研一在国电做的） 3. Spark有没有过调优 4. 基于我对Spark调优的一些回答进行追问： ● 我提到了利用RDD缓存进行RDD复用，追问Spark缓存一般可以用什么函数做到（cache，presist） ● 追问并行度的设置方法（配置文件或在代码中） ● 并行度的值一般根据什么设置（CPU核数的2-3倍） 5. Hive执行原理（SQL到MR的过
ihandy 大数据开发工程师面经
一面：主要还是挖简历自我介绍问项目经历，聊聊过往开发的项目（聊了很久）聊聊MySQL的事务细聊ACID 隔离级别 innodb默认级别 innodb的底层数据存储对比mysql和hive kafka为什么吞吐量大场景题目：100个G的文件，保存用户id和看的bookid，求top10阅读量的书反问

首页

1

2

3

4

5

6

7

8

9

尾页

最新发布

影石360 AI平台开发一面手子感谢信山东移动一面面经 PDD四面面经不鸣科技 - ai工程师一面抑郁经验

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

30. 串联所有单词的子串 c++自己解答无法通过,可以帮我看看代码错在哪里吗？web - 在Deepin23系统中设置虚拟域名，但在浏览器中无法访问？amh - 7.2版本的集中管理服务器列表非常不方便可以优化一下么？javascript - vue input 文件上传为什么@change不触发？vue.js - Vuetify 框架怎么查看有哪些CSS 类名，如何查询？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

awesome-datascience libpcap safe-start-koa2 Workerman smart-servlet Eurasia bLazy.js Vertical Swipe Views

文档资料

MOAC 链中文文档 TweenMax 插件帮助文档数据结构思维 Unity 5.5 手册 Java 高并发核心编程 NIO、Netty、Redis、ZooKeeper 卷1