我一直在使用SE上发布的问题的一个极好的答案来确定分区的数量,以及跨数据帧的分区分布需要知道数据帧Spark中的分区详细信息 有人能帮我扩展答案来确定数据帧的分区大小吗? 谢谢
找了半个月的实习,面试了20多家,在同程HR面之后还被挂的惨痛经历之后,终于找到了一家不错的公司。(现在大环境下大数据实习太难找了,基本都是外包要人,BAT我都是一面挂,有些是简历挂) 下面讲讲我记得的一些问题 一面(40分钟) 自我介绍 熟悉二叉树吗,细说有多少种二叉树,哪些二叉树是用来排序的,并且将各个树的特点讲讲 了解MySQL存储引擎嘛,说说自己看法 计算机网络,TCP,UDP区别。Htt
字节大数据开发工程师- 人力科技面经 一面 网络模型,每一层的功能 访问一个网页的流程 tcp是如何保证可靠 线程和进程的区别 JVM的内存区域 垃圾回收算法 类加载的过程 Spark和MR的区别 Spark任务调度过程 spark中stag,job,task是如何划分的 spark宽窄依赖 为什么spark比MR快 Hadoop的框架 Hadoop提交作业的流程 Hadoop中是如何找到文件对应
30min 1. 自我介绍 2. 为什么走大数据 3. 项目介绍 4. hive和spark的区别 5. MR和spark有哪些区别,分别适用什么场景 6. 为什么不选择spark做离线 7. 开窗函数有哪些 8. 数仓怎么设计的 9. ODS层存在的意义 10. DWD和DIM怎么设计的,有什么指标 11. DWS层存放的哪些指标 12. 下一步准备学习什么?怎么学习? 反问 1. 部门做什么业
1、自我介绍 2、什么是维度建模?什么是关系建模? 3、星型模型和雪花模型有什么区别? 4、数据仓库分层的意义是什么? 5、对哪些大数据框架比较熟悉?(答了Hadoop和Kafka) 6、Hadoop的进程有哪些?作用分别是什么? 7、Kafka的特点是什么? 8、Kafka为什么可以支持海量数据吞吐? 9、问实习工作内容,以及实习收获 10、能否接受加班? 11、有什么问题要问我的?问了日常工作
去年秋招拿了携程-大数据底层框架开发岗位的offer,想着还是把面试回顾下吧,给后面的朋友一个参考。 这个岗位是做大数据组件底层二次开发的,我面试的是偏向离线方面,因此面试都是围绕hadoop、spark、hbase、hive这几个组件的底层原理去问,因为是偏向底层,所以也会注重java语言和多线程并发的知识。 HDFS的写入流程?如果一台机器宕机,HDFS怎么保证数据的一致性?如果只存活一台机器
选一个你觉得做的最好的项目,说一说 深挖项目,多问为什么这样设计,为什么这样做 选一个Java的项目,说一下 三级缓存是怎么实现的 那么一级缓存(nginx访问redis)和三级缓存redis的区别是什么,去掉了三级缓存可以么 介绍一下令牌桶算法数据结构,和漏斗桶的区别,为什么选令牌桶不用漏斗桶 如何保证mq消费者端更新数据库可以成功 如何保证消息可以不重复消费,使用redis做幂等是完全安全的么
目前已offer。 面试内容: 1.自我介绍:我就说了一下学校专业学的课然后之前的几段实习是做什么的。 2.SQL:这一块没有问具体的题目,问了一些窗口函数比如三个求rank的函数,sum() over 和groupby求和的区别,join后面跟where和on的区别,inner join 和left join使用场景这种,其他的记不清了。 3.Hadoop:问了Hadoop的组成,操作HDFS的
HR面感觉挺好的不知道咋挂了 1、自我介绍 2、如何看待实习和学校学习 3、期望薪资 (感觉是这个问题,我答的是:该岗位一般是10k-15k,所以我觉得不能少于10k) 3、为什么来广州,为什么不在武汉找工作 4、手里有Offer 吗,不满意的点,(我答的薪资和公司文化) 5、抽取的问卷题,物业不让养狗,怎么看 今天看到消息,挂掉了,没搞懂为何挂了,自我感觉答得还不错,也不紧张 心里还好没有多大落
开局自我介绍,然后问我两段实习经历,分别做了什么?照实回答,问我有没有接触过BI工具,我说是内部封装好的;日常工作,处理的数仓规模,人员规模,主要负责内容,处理的数据的大小。之后让我写一道题目,求连续三天消费金额大于100的用户ID,不想用排序函数再写了所以用了LAG函数来写,面试官给了我一个不置可否的表情(坏了可能写错了......)然后说我明白你的思路了,我解释说因为不想用排序函数来写所以尝试
投递岗位:大数据开发工程师(广州) 时间线:9.5投递,9.13技术一面,9.17技术+hr二面,9.19测评,10.7 意向 JD如下,岗位偏数据平台建设,非数仓 面经 技术 自我介绍 项目中最大的收获是什么,数据治理讲一下 hive分区表怎么创建(具体到关键字),分区的好处,怎么设计分区 hive分桶表怎么创建(具体到关键字),分桶的好处 hive外部表建表语句 (具体到关键字) hive s
自我介绍 实习中遇到什么难题吗 项目中mq是用来做什么的 git命令 之前做过大数据的项目吗 就15min,也不知道咋筛人 但估计凉,因为没有大数据的项目
1 介绍下你自己 我按照常规的套路,先自我介绍,然后介绍我的项目,想引导着问些八股,但是好像没用😂 2 32位和64位你能联想到什么,从机组操作系统,数据结构等角度,开放性的谈一下你的理解😂😂 这个问题直接问了15分钟 3 手撕代码 给你一个应用场景,设计合适的数据结构,并完成两个功能函数 看出来是树了😂😂,但是没咋刷算法,以为只问sql,我的格局小了,写了二十分钟,一点不会😂😂 总
1.数仓和数据库的区别 2.数仓建模 3.hive用到的函数 4.rank,dense_rank,row_number的区别 5.hive数据倾斜的原因有哪些 7.如何理解数据质量? 6.java,scala会用吗? 7.期望薪资多少?(感觉说出来就无了) 面的初级岗位。
🧐背景:211交通工程出身,读研转到本校航运学院,做船舶交通大数据挖掘,涉及机器学习。 🧐自身情况:sci在投,一篇会议论文接受,一个专利发表。 🤐一志愿是九月初的技术支持工程师,因为后知后觉,发现不懂网络协议,没参加笔试。 👾10.25投大数据算法,以交通认知方向。笔试主要是机器学习内容,选择题,问答题,以及一道编程。 👾11.7日收到电话面试,讲了一下基本情况。 👾11.8日一面技