当前位置：首页 > 专题 >

《大数据开发工程师》专题

大数据开发面试题之Hive篇
hive的架构 hive外部表和内部表的区别内部表的数据由hive管理，且存储在hive.metastore.warehouse.dir配置下的路径中；外部表的数据由HDFS存储，路径可以自己指定；删除表时，内部表会把元数据及真实数据删除；外部表不删除真实数据。你用过hive哪些窗口函数可参考：面试官：你用过哪些窗口函数一般用什么文件格式可参考：面试官：“你们实际生产中hive用什么文
蚂蚁十面面经-大数据开发
1-4面为春招实习，很遗憾最终没有通过，5-8面为秋招投递同一个部门，hr面后通知说换了一个组加一轮技术面和hr面，总体来讲实习面试更侧重实验室项目，秋招面试会细聊实习工作，每一轮的面试官都很nice，也都是一次很好的学习经历，感恩这一年和蚂蚁的相遇～一面（技术面）介绍项目遇到了什么问题怎么解决的介绍一下大数据的发展历程项目选型，为什么用这些组件介绍另一个项目除了准确率还用了什么指
小米大数据开发实习面经
1. 自我介绍 2. 问了一下简历上的项目（研一在国电做的） 3. Spark有没有过调优 4. 基于我对Spark调优的一些回答进行追问： ● 我提到了利用RDD缓存进行RDD复用，追问Spark缓存一般可以用什么函数做到（cache，presist） ● 追问并行度的设置方法（配置文件或在代码中） ● 并行度的值一般根据什么设置（CPU核数的2-3倍） 5. Hive执行原理（SQL到MR的过
大数据开发暑期实习总结
前言从2023年3月初开始投递暑期实习，几乎所有大厂都投递过了，有些简历都过不了，有些一面直接挂了，虽然说确实互联网行情不是特别的好，但是应该还是自己能力不足，做的简历不够漂亮； 4月的时候第一次刷到了@三石数据的面经帖（见下图），于是跟他聊了一下，真的收获太多了，非常非常感谢这位大佬的指导，不仅帮助我修改简历，而且还给我解答一些在面试中遇到的问题；大佬要是没女朋友的话，我愿意以身相许（开个玩笑
大数据开发面经【字节跳动】
一面 50分钟自我介绍你学过的大数据掌握的最好的是哪一个 hive里面排序一般怎么使用的 hive内部表和外部表的区别，外部表在什么场景下使用 hive视图用过吗你对维度和事实的理解你说到了业务过程，谈谈对它的理解你刚刚描述的是一个业务过程还是多个业务过程多个业务过程放到一张事实表的你举个例子维度建模中星型模型和雪花模型之间的区别缓慢变化维表如何处理呢全量表的数据保存多久
京东暑期大数据开发二面
一、spark如何划分job，stage，task 遇到一个action算子开启一个job stage是遇到一个action开始，从后往前以shuffle为边界划分 stage划分成多个task，一个分区对应一个task 二、sql题：一个用户点击记录表t，有三个字段user_id，item_id，category_id 统计每个用户的每个商品类别的点击总量排名中，top3的商品类别 selec
大数据全栈式开发语言 – Python
来源：http://www.techug.com/full-stack-python 前段时间，ThoughtWorks 在深圳举办一次社区活动上，有一个演讲主题叫做“Fullstack JavaScript”，是关于用 JavaScript 进行前端、服务器端，甚至数据库（MongoDB）开发，一个 Web 应用开发人员，只需要学会一门语言，就可以实现整个应用。受此启发，我发现 Python
某小厂大数据开发终面 1h
面试战况为4对1拷打，虽然没有手撕，但鼠鼠受到了终极八股+项目拷打上来自我介绍+项目讲10min Sql相关：mvcc，事务，索引。Sql的限制（啥东西）查一个表索引重复怎么办？给题说思路：包括连接，开窗，去重，等等各种，explain，sql优化， Binlog，undolog，redolog（这部分答的还行） Linux：蚌埠住了，不该说会linux的改用户名，找一个文本具体某行，修改
宁德时代大数据开发面经
40min 面试体验感超好，德子好感+1 Spark sql了解吗？Dateframe 是啥（不会）项目里数据怎么拉的？ Flume+kafka+flume+hdfs 有什么过滤器吗？：3个flume拦截器判断文件类型+时间戳过滤器+落hdfs小文件检测数据量：千万 flume拉取时间是多少？（不会，瞎编的10分钟有兄弟了解吗） Spark小文件怎么处理 Kafka 的整体结构：broke+
滴滴大数据开发二面面经
二面就问了20min不到，吓死我了，不过已经发offer啦，分享下二面问的一些题目。还是挖简历。数仓建模核心拉链表、快照表、全量表的区别好像就这些~
滴滴大数据开发一面面经
1. 简历深挖 2. mysql binlog了解吗 3. shell脚本写过吗 4. 两个集群，一张hive表如何进行数据共享，A集群如何同步到B集群中 5. 一张订单表，支付状态会发生变化，如何采集到ods？面试官说由于每张mysql表都是在系统上有应用的，所以应该用update的方式更新支付状态，不能采用数仓的方式去思考问题，不能用拉链表。数仓可以保存历史数据，但是mysql表必须要用up
荣耀大数据开发凉面面经
年前面试的流程是机考，测评，再面试 (数仓)一面聊得还行，不知道怎么挂了。。。可能是Spark这一块了解得太少了自我介绍你做的项目数据采集用的什么工具和原理？有没有做过数据治理？有没有做过数据血缘关系管理？数据突增问题有没有遇到过？影响HDFS，如何解决？ Hive表格存储用的哪个？什么原理？数据某个阶段出现问题了，你怎么样定位出来？数据倾斜有没有遇到过？怎么处理的？数据之间的
字节面试-大数据开发实习
视频ms 前三分钟自我介绍数据仓库的了解怎样设计数据分层了解的大数据组件 spark用于解决什么问题 spark底层逻辑 sql的join实现方式举例A（3） join B （5）有几条数据 join底层逻辑 sql题查询用户峰值全程不到30分钟 **我就是一个小菜鸡。问就是面试凉凉问的其实感觉没有特别难但就是啥都不会。还是学的太过浅层次。总的来说项目拷打底层深挖。G
百度大数据开发一面 #秋招
#秋招# JAVA: 1.java面对对象的特征 2.Java中基本类型有哪些 3.==和equals的区别 4.为什么重写equals要重写hashcode 5.List，map，set什么区别 6.Try，catch，finally 分别作用是什么大数据： 7.hdfs的读流程 8.项目里用到的 hive on spark 和普通的hive有什么区别 9.数据倾斜的优化，如果group b
星环大数据开发两面面经
一面：boss直聘，拷打项目，无八股。面试官简单介绍了项目的情况，反问。二面：电话面，面试官一眼看出项目是网上的，我狂妄发言：“我是有自己的思考的”，然后被拷打，最后只憋出来了一条。根据我之前的回答，面试官问了 1）数仓，业务系统，大数据平台的关系根据jd，问了 2）py如何连接数据库，数据库游标、连接不释放会怎么样 3）hive分桶表，如何分桶，如何确定分桶的数量，分桶有什么用 4）怎么处

首页

6

7

8

9

10

11

12

13

14

尾页

最新发布

影石360 AI平台开发一面手子感谢信山东移动一面面经 PDD四面面经不鸣科技 - ai工程师一面抑郁经验

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

30. 串联所有单词的子串 c++自己解答无法通过,可以帮我看看代码错在哪里吗？web - 在Deepin23系统中设置虚拟域名，但在浏览器中无法访问？amh - 7.2版本的集中管理服务器列表非常不方便可以优化一下么？javascript - vue input 文件上传为什么@change不触发？vue.js - Vuetify 框架怎么查看有哪些CSS 类名，如何查询？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

XMMultiSelectView JEECG Multiavatar OneVideo Habitica 猪齿鱼 Choerodon jekyll-dash Gudong

文档资料

Internet Explorer 维护帮助手册 Spring Boot 中文教程廖雪峰 JavaScript 教程 Canvas 实操教程 F-Secure Policy Manager - 管理员指南 v13.10