一面30min 自我介绍 选一个最熟悉的结构 说一下原理 特点 怎么使用 hive数据倾斜 内部表外部表 文件存储格式 行转列 列转行 sql题目 项目中有用hive解析json数据吗 实习在做什么 介绍实习项目 实习公司数据仓库怎么分主题的 业务需求是你自己一直在沟通吗 想做数仓还是平台 你觉得对业务了解的怎么样 base想南京还是深圳 二面 介绍实习在干嘛 实习项目怎么做的 项目几个人做 你
一面: 8.26--HR面 1.自我介绍 2.特别的经历 3.专业方向 4.做过的项目 5.薪资期待 6.公司的简单介绍,问有些情况是否能接受 二面:9.14--技术面 1.关于大数据技术的认识 2.对Hadoop和Spark的了解 3.对其区别的认识 4.对hadoop特定函数的认识 5.介绍自己了解的窗口函数 6.介绍一个算法,比如支持向量机 7.对自己做过的社会实践的感受 8.反问 三面:9
1自我介绍 2.项目中数据量 3.用户分析维度 4.客户流失分析模型指标 5.oracle和hadoop的了解 等了一个多小时,这就是国内甲方和卑微求职乙方吗?要不是面试官是个声音好听的女生,我大概会骂人吧。 岗位和个人经历不算匹配,我个人经历更偏向数据挖掘,感觉这个岗位更偏向业务分析和数据库。 最后还是再感叹一下,虽然今年秋招求职者的确处于弱势地位,但也不是说招聘单位可以不尊重人吧,起码自己定的
一面 1h20min 0824 由于过去时间太久了,差不多都忘记了,只能回忆起部分。 部门是CTO线-技术与产品部,当时只有1个校招hc和1个社招hc 1. 写题:一个文件系统,有文件夹有文件,需要找到某个特定的文件(好像是这样)递归后要求用BFS写,然后BFS写了一遍; 2. SQL题:题目有些复杂,现在想不起来了,约等于leetcode hard难度的sql题目,用开窗和几个select即可;
一面 30min 仍然记不得了,努力回忆一下 实习数据有多大? 这么大的数据量需要多少资源? 多线程的三要素? Java的内存模型? 宽窄依赖? Spark为什么快? Spark的Shuffle有几种? (不记得了 二面 20min 用ES或者HBase跟用Hive有什么区别? 怎么技术选型? 总结:是吉利下面的子部门,主做出行方面数据,数据量较小,且人员较少。 #数据仓库与数据分析实习##秋招#
三轮面试,进度很快,一周内结束。 第一轮,hr面试 问一些基本情况,8分钟结束。 第二轮,技术面 项目竞赛,过拟合怎么解决,特征筛选方法等等, 12分钟。 第三轮,终面+签约 问了一些基本家庭情况,职业规划等等。面试官长的有点像我初中同学,亲切感倍增。 然后hr介绍薪资。 20w左右薪资,单人单间免费住宿一年,八险二金,房补2500,食堂早中晚分别3,7,7元自助餐,电话网络全免费,感觉不错。 #
面试时长18分钟,问的问题很基础,还是看简历或者学历下菜吧 1、学大数据学了多久,我说今年1月开始学的,他说这么短的时间能明白吗?这8个月还能一点都学不明白吗? 2、问了下实习内容,没深挖 3、hdfs的高可用,太紧张把namenode说成nodemanager了,后来才反应过来,就这个问题回答的有问题 4、hive的窗口函数 5、hive和rdbms的区别 6、hive的调优方面 7、spark
二面 1、为什么用seatunnel进行同步,不用dataX? 2、seatunnel底层引擎是spark,那为什么不直接用原生的spark进行同步呢? 3、项目有什么做的不够好的? ODPS相当于hive,多进程写入会产生表锁,没法利用spark的并发优势——1.统一管理ODPS表,每个分区写入一张表,读取的时候直接读取表,然后每天定时进行聚合。这个过程对于用户来说是无感的。2.分布式锁,阻塞的
面试时间:1h 10min 自我介绍 实习工作的一些问题 项目相关的一些问题 Java基本数据类型? String为什么不是基本数据类型?能不能继承? 如果需要频繁地拼接字符串用什么?为什么? StringBuffer、StringBuilder 的区别? Java的集合类了解吗?都有那些?它们的继承关系是怎么的? 讲讲HashMap? HashMap多线程下怎么办?多线程的HashMap它的原理
面经:主要看学历40%、项目经历30%、籍贯30%,一共17分钟 1.自我介绍 2.负责项目和擅长的编程语言(注意:项目大小由面试官判断) 3.hdfs流程 4.编程语言八股(好笑的是说python面试官都蒙,说Java才能走流程 5.项目追问 遇到问题: 1.非硕不要报,就是刷kpi的,海外本科可以报下,有点恶心; 2.非当地省份户籍的慎重,否则同样kpi,面试官比较看重这一点,对外地很会阴阳怪
40道选择题,涉及Hadoop、Kafka、MySQL、数据结构、数学(高中水平)、Linux,里面两道Linux选择题真恶心,给了一堆Shell脚本,看不懂
一面: 感觉一上来就是主管面,主业务面,考验业务能力和沟通能力 介绍下专业的课程,说说最喜欢哪一门,为什么 直接问实习经历 实习中的项目,扣细节(大部分时间都在问这个) 在同程做了什么业务 广告业务数仓负责哪些东西 广告投放的指标,如曝光、转化等等 广告有哪些类型 聊聊广告投放流程,投前、投中、投后 投中的过程每一轮具体的事情 对比hive和spark 为什么业界都用spark不用mr了 聊聊fl
对于 Linux 系统小白,如何用最快的方式搭建一套简易的大数据系统。 安装 JDK # tar -xvf jdk*.tar.gz /home/softwares #解压java的tar包 将/etc/profile添加附录B文件profile中内容。 export JAVA_HOME=/home/softwares/ jdk1.7.0_67 PATH=$PATH:$JAVA_HOME/bin
1.问了我项目的问题,spark整合kafka这阶段做了什么事? 答:jdbc工具类向mysql表中插入数据,产生binlog日志文件,maxwell捕获到,kafka进行消费,然后javaapi上面编写kafka工具类,获取主题,编写配置信息,get到消费的内容,是JSON格式,转换json格式为row,然后转换为dataframe表,使用sparksql处理。 2.kafka的acks值有了解
我是学数学的2024应届,本科阶段有选过大数据的专业选修课,但是编程语言真的不太会,跟科班出身的计院同学没法比,今年数分岗又卷到爆炸,双选会问了几个公司都说数分岗爆满(快手中移信息技术中心),只好一并找找其他方向,上周笔试以为铁挂了就没怎么准备,结果昨天晚上22点发今天的一面邀,一个晚上加上午恶补大数据知识。面试官非常和蔼: 问项目: 大数据技术实验做了什么东西?是为了实现什么?(本科课程里的实验