问问有没有大佬们大数据开发的实习经历啊,我怎么感觉隔着天天写sql 老是遇到这种实习岗,一天全面试完,急招岗, 没什么参考价值,应该oc了,因为我不想立马去,发of要排序吧 一面(9.6 上午 50min) 1.自我介绍 2.问实习经历问了很久 3..五道sql题 4.数仓理论 二面(9.6 晚上 1小时) 1.自我介绍 2.问实习经历 3.sql题 4.mapreduce的流程及其shuffle
一面30min 自我介绍 选一个最熟悉的结构 说一下原理 特点 怎么使用 hive数据倾斜 内部表外部表 文件存储格式 行转列 列转行 sql题目 项目中有用hive解析json数据吗 实习在做什么 介绍实习项目 实习公司数据仓库怎么分主题的 业务需求是你自己一直在沟通吗 想做数仓还是平台 你觉得对业务了解的怎么样 base想南京还是深圳 二面 介绍实习在干嘛 实习项目怎么做的 项目几个人做 你
一面: 8.26--HR面 1.自我介绍 2.特别的经历 3.专业方向 4.做过的项目 5.薪资期待 6.公司的简单介绍,问有些情况是否能接受 二面:9.14--技术面 1.关于大数据技术的认识 2.对Hadoop和Spark的了解 3.对其区别的认识 4.对hadoop特定函数的认识 5.介绍自己了解的窗口函数 6.介绍一个算法,比如支持向量机 7.对自己做过的社会实践的感受 8.反问 三面:9
一面 1h20min 0824 由于过去时间太久了,差不多都忘记了,只能回忆起部分。 部门是CTO线-技术与产品部,当时只有1个校招hc和1个社招hc 1. 写题:一个文件系统,有文件夹有文件,需要找到某个特定的文件(好像是这样)递归后要求用BFS写,然后BFS写了一遍; 2. SQL题:题目有些复杂,现在想不起来了,约等于leetcode hard难度的sql题目,用开窗和几个select即可;
一面 30min 仍然记不得了,努力回忆一下 实习数据有多大? 这么大的数据量需要多少资源? 多线程的三要素? Java的内存模型? 宽窄依赖? Spark为什么快? Spark的Shuffle有几种? (不记得了 二面 20min 用ES或者HBase跟用Hive有什么区别? 怎么技术选型? 总结:是吉利下面的子部门,主做出行方面数据,数据量较小,且人员较少。 #数据仓库与数据分析实习##秋招#
面试时长18分钟,问的问题很基础,还是看简历或者学历下菜吧 1、学大数据学了多久,我说今年1月开始学的,他说这么短的时间能明白吗?这8个月还能一点都学不明白吗? 2、问了下实习内容,没深挖 3、hdfs的高可用,太紧张把namenode说成nodemanager了,后来才反应过来,就这个问题回答的有问题 4、hive的窗口函数 5、hive和rdbms的区别 6、hive的调优方面 7、spark
二面 1、为什么用seatunnel进行同步,不用dataX? 2、seatunnel底层引擎是spark,那为什么不直接用原生的spark进行同步呢? 3、项目有什么做的不够好的? ODPS相当于hive,多进程写入会产生表锁,没法利用spark的并发优势——1.统一管理ODPS表,每个分区写入一张表,读取的时候直接读取表,然后每天定时进行聚合。这个过程对于用户来说是无感的。2.分布式锁,阻塞的
对于 Linux 系统小白,如何用最快的方式搭建一套简易的大数据系统。 安装 JDK # tar -xvf jdk*.tar.gz /home/softwares #解压java的tar包 将/etc/profile添加附录B文件profile中内容。 export JAVA_HOME=/home/softwares/ jdk1.7.0_67 PATH=$PATH:$JAVA_HOME/bin
1.问了我项目的问题,spark整合kafka这阶段做了什么事? 答:jdbc工具类向mysql表中插入数据,产生binlog日志文件,maxwell捕获到,kafka进行消费,然后javaapi上面编写kafka工具类,获取主题,编写配置信息,get到消费的内容,是JSON格式,转换json格式为row,然后转换为dataframe表,使用sparksql处理。 2.kafka的acks值有了解
我是学数学的2024应届,本科阶段有选过大数据的专业选修课,但是编程语言真的不太会,跟科班出身的计院同学没法比,今年数分岗又卷到爆炸,双选会问了几个公司都说数分岗爆满(快手中移信息技术中心),只好一并找找其他方向,上周笔试以为铁挂了就没怎么准备,结果昨天晚上22点发今天的一面邀,一个晚上加上午恶补大数据知识。面试官非常和蔼: 问项目: 大数据技术实验做了什么东西?是为了实现什么?(本科课程里的实验
主要是问了实习还有一些mysql的问题,没有手撕 1.自我介绍 2.实习内容 3.实习内容有什么难点或者贡献比较多的点,说了点sql优化的问题 4.那你怎么优化的慢sql呢? 5.我就说了实习的一个慢sql优化的流程,然后讲了我怎么优化的 6.问了为什么这么优化,用了哪些字段 7.mysql有什么结构索引,底层是什么 8.又问了一下项目里面的tcp还有工作池怎么实现的 反问:部门主要做的什么?一些
岗位JD 使用大数据组件对海量数据进行建模,参与数据仓库的的开发、维护及优化 岗位要求 计算机相关专业,对大数据有浓烈的兴趣 扎实的计算机基础,熟练使用python/java/scala其中至少一种语言 熟悉Hadoop生态体系,包括但不限于Hadoop/Hive/Spark/Clickhouse 学习能力强,强烈的责任心,具有较强的沟通能力及团队合作精神,细致耐心、积极主动 有大规模数据/日志处
发面经,攒好运 面试官是个小姐姐,说话非常温柔,但万万没想到面得内容和后端确实关系不大 自我介绍 你用了redis,那能说说他有什么好处吗以及他适用于什么场景? 那redis有什么缺点呢?(我不太清楚,只能说内存要求可能比较高?以及缓存雪崩和击穿) 数据库四大特性以及四大隔离级别 说说持久性 索引以及你用过索引吗 分享一下你在做项目的时候有没有遇到什么比较大的挑战 然后考了一道简单的mysql j
首先是自我介绍:balabala 是否了解过数仓和Spark? 再Linux系统中,找到对应的Java进程并删除。 同样的在 Linux系统下,删除使用某端口的进程。 介绍一下Mysql和LSM,并分析下这两种引擎是基于什么?适用于什么场景? sql编程题:牛客每个人最近的登录日期(二)() 算法题:二叉树的最大路径和 (较难) AC Code: class Solution { public:
一面 redis: RDB和AOF的区别 AOF中记录的是什么,RDB中记录了什么 过期数据的删除策略 使用这些删除策略可能会出现哪些问题 定期删除是所有数据删除吗 内存淘汰机制 allkeys详细说说 redis使用场景 redis和memcached有什么区别 为什么用单线程不用多线程 clickhouse(实习里用的主要是这个): 简单介绍一下clickhouse,说说为什么用这个 说一下R