一面 1h20min 0824 由于过去时间太久了,差不多都忘记了,只能回忆起部分。 部门是CTO线-技术与产品部,当时只有1个校招hc和1个社招hc 1. 写题:一个文件系统,有文件夹有文件,需要找到某个特定的文件(好像是这样)递归后要求用BFS写,然后BFS写了一遍; 2. SQL题:题目有些复杂,现在想不起来了,约等于leetcode hard难度的sql题目,用开窗和几个select即可;
一面 30min 仍然记不得了,努力回忆一下 实习数据有多大? 这么大的数据量需要多少资源? 多线程的三要素? Java的内存模型? 宽窄依赖? Spark为什么快? Spark的Shuffle有几种? (不记得了 二面 20min 用ES或者HBase跟用Hive有什么区别? 怎么技术选型? 总结:是吉利下面的子部门,主做出行方面数据,数据量较小,且人员较少。 #数据仓库与数据分析实习##秋招#
三轮面试,进度很快,一周内结束。 第一轮,hr面试 问一些基本情况,8分钟结束。 第二轮,技术面 项目竞赛,过拟合怎么解决,特征筛选方法等等, 12分钟。 第三轮,终面+签约 问了一些基本家庭情况,职业规划等等。面试官长的有点像我初中同学,亲切感倍增。 然后hr介绍薪资。 20w左右薪资,单人单间免费住宿一年,八险二金,房补2500,食堂早中晚分别3,7,7元自助餐,电话网络全免费,感觉不错。 #
二面 1、为什么用seatunnel进行同步,不用dataX? 2、seatunnel底层引擎是spark,那为什么不直接用原生的spark进行同步呢? 3、项目有什么做的不够好的? ODPS相当于hive,多进程写入会产生表锁,没法利用spark的并发优势——1.统一管理ODPS表,每个分区写入一张表,读取的时候直接读取表,然后每天定时进行聚合。这个过程对于用户来说是无感的。2.分布式锁,阻塞的
面试时间:1h 10min 自我介绍 实习工作的一些问题 项目相关的一些问题 Java基本数据类型? String为什么不是基本数据类型?能不能继承? 如果需要频繁地拼接字符串用什么?为什么? StringBuffer、StringBuilder 的区别? Java的集合类了解吗?都有那些?它们的继承关系是怎么的? 讲讲HashMap? HashMap多线程下怎么办?多线程的HashMap它的原理
40道选择题,涉及Hadoop、Kafka、MySQL、数据结构、数学(高中水平)、Linux,里面两道Linux选择题真恶心,给了一堆Shell脚本,看不懂
对于 Linux 系统小白,如何用最快的方式搭建一套简易的大数据系统。 安装 JDK # tar -xvf jdk*.tar.gz /home/softwares #解压java的tar包 将/etc/profile添加附录B文件profile中内容。 export JAVA_HOME=/home/softwares/ jdk1.7.0_67 PATH=$PATH:$JAVA_HOME/bin
1.问了我项目的问题,spark整合kafka这阶段做了什么事? 答:jdbc工具类向mysql表中插入数据,产生binlog日志文件,maxwell捕获到,kafka进行消费,然后javaapi上面编写kafka工具类,获取主题,编写配置信息,get到消费的内容,是JSON格式,转换json格式为row,然后转换为dataframe表,使用sparksql处理。 2.kafka的acks值有了解
主要是问了实习还有一些mysql的问题,没有手撕 1.自我介绍 2.实习内容 3.实习内容有什么难点或者贡献比较多的点,说了点sql优化的问题 4.那你怎么优化的慢sql呢? 5.我就说了实习的一个慢sql优化的流程,然后讲了我怎么优化的 6.问了为什么这么优化,用了哪些字段 7.mysql有什么结构索引,底层是什么 8.又问了一下项目里面的tcp还有工作池怎么实现的 反问:部门主要做的什么?一些
信息爆炸这个词,想必对于大家来说,已经没有多少新鲜感了,而信息爆炸所引发的大数据,却日益成为了企业的宠儿,越来越多的企业也逐步认识到了大数据的重要性,但是大部分企业往往只看表面,盲目跟风,大量收集数据,有用的无用的,企业的行业的,生怕没有抓住大数据的风口导致自己的落后,上马各种信息化项目,结果往往导致企业虽然存有大量数据,但却发挥不出数据应有的作用,甚至形成一个个的信息孤岛,非但不能成为助力企业发
项目: 1 netty服务器怎么实现的,消息怎么传播 2 怎么实现历史消息推送?怎么优化性能 3 怎么实现消息群发 4 为什么选择rocketmq 5 项目有什么性能瓶颈?考虑怎么优化? 说了netty消息群发可能会有积压问题?用户接口有个走的是sharding全分片 6 项目的架构 八股 1 mysql索引 B+树的结构 2 mysql 存储引擎都有哪些?区别是什么 3 怎么实现一个秒杀系统?
虽然如此,我还是很喜欢大数据 但是大数据要会的实在太多了,Hadoop,spark,flink,kafka等,问的可以是又细又杂,每个组件可以问你架构,可以问你原理,可以问你某种机制,又可以问你调优,还可以问到组件与组件之间的配合 然后大数据吧,你要会Java,就是别人面Java的你也要会,sql还要会,Java并发,jvm,MySQL索引,锁 其实我是菜,我承认,大数据的面经800多页,除开fl
二面40分钟左右结束,没问项目 问对kafka、数仓分层理解 在学校干啥了,学习大数据的途径方式 然后就是两个类似场景题目,讲思路不用写代码 一个是大数据单机处理:对10Tb数据全局排序 一个是判断链表相交 第 一个回答的💩一样,第二个还好 第二天收到感谢信😭 #面试# #大数据# #字节#
字节商业化技术大数据一面45min 自我介绍; 介绍熟悉的项目,说了数仓项目,重点问了分层中的DWB层数据降维;DWS层中的事实表; MR流程; spark为什么比mr块; sparksql执行流程; 缓慢变化维; sql部分最高薪资员工; sql用户最高连胜次数; 实习时间; 是否准备秋招??? 反问
背景:双211,研究方向:计算机视觉(遥感变化检测) 一志愿:AI算法(应该是挂了一志愿) 二志愿:数分 10.26上午 腾讯会议视频面试 1个hr/3个面试官 1.自我介绍 2.有没有实习? 3.介绍一个项目所做的工作 4.技术栈:会什么编程语言,数据处理都是自己用python写的方法吗?有没有使用过什么大型数据处理软件或许使用过哪些python数据分析库 ? 5.了不了解结构化数据,大数据?(