### 一面 自我介绍+实习经历 (31608)### 二面 1. 自我介绍 2. 实习经历,我说了JVM的重用 3. JVM重用的底层原理 4. sql输出排名前七的学生 5. hive处理小文件的方式 6. hive组件,原理 7. hiveSQL转化为mapreduce的执行过程 8. hive执行过程中的优化 9. 为什么使用环形缓冲区 10. HDFS组件 11. secondnamen
#兴业数金一面 ,二面 #数据开发 #23校招 9.23二面(糟心) 全程不看屏幕,全程听不到说啥,全程氛围尬住 1.介绍自己,balabala 2.说说你对数金的了解(他笑了,你知道还挺多) 3.说说你的优势(声音巨小) 4.上个面试咋样 我???那个面试,我,,,那个???? 然后把一面给他复述一遍 5.还记得你的笔试题吗 鬼才记得 6.记得笔试的编程题吗
两个面试官 一个负责问java一个负责大数据 自我介绍 1.为什么要使用线程池 2.说一下线程池创建时的核心参数 3.如何查看当前线程池最大线程数 4.说一下jvm内存区域 5.说一下有哪些垃圾回收 算法 6.linux通过什么命令查看日志 7.通过什么命令杀死进程 8.说一下spark shuffle 和mr shuffle区别 9.说一下hive有哪几种存储格式 哪种存储格式压缩率更高 10.
面试官设备有问题临时改为电话面 1.项目拷打 2.指标下沉怎么做的 3.数据从业务数据库到数仓,怎么估算数仓需要的存储资源 4.了解哪些窗口函数 就记得这些了,其他的一会想不起来
前言 从2023年3月初开始投递暑期实习,几乎所有大厂都投递过了,有些简历都过不了,有些一面直接挂了,虽然说确实互联网行情不是特别的好,但是应该还是自己能力不足,做的简历不够漂亮; 4月的时候第一次刷到了@三石数据的面经帖(见下图),于是跟他聊了一下,真的收获太多了,非常非常感谢这位大佬的指导,不仅帮助我修改简历,而且还给我解答一些在面试中遇到的问题;大佬要是没女朋友的话,我愿意以身相许(开个玩笑
来源:http://www.techug.com/full-stack-python 前段时间,ThoughtWorks 在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用 JavaScript 进行前端、服务器端,甚至数据库(MongoDB)开发,一个 Web 应用开发人员,只需要学会一门语言,就可以实现整个应用。 受此启发,我发现 Python
1.自我介绍 3min 2.介绍一个你最熟悉的项目 10min 问:这个项目你做了什么(被说工作内容简单,没有太大贡献) 遇到的难点是什么(被说这个难点不难) 怎么解决的 整个表的数据量大概是多少 3.你在美团用到了哪些技术栈 4.讲一下kafka怎么保证不丢数据(答了三种acks,面试官说这是生产者端的,那其他的呢,直接说忘了然后道歉) 5.kafka的offset存在哪个地方的 6.kafka
给了三道题,两道SQL,还有一个程序设计题。 1、银行交易记录表,字段有(id,存取金额(存为+,取为-),交易id) (1)求每个人的总余额 (2)求每次交易后的余额 2、学生成绩表,字段为:学生id、成绩(内容格式为:"数学:xxx,语文:xxx") 将成绩字段拆分为科目和成绩两个字段,每个学生拥有的科目不一定相同 3、一个文件里是一个整数占一个G大小,求该
1.自我介绍 2.项目细节介绍 3.针对一个指标讲讲你整个链路怎么设计的 4.数据交付时数据质量如何保证 5.如果现在调度的表都是高优先级,你这个表延迟产出了,怎么办 6.hive架构介绍 7.hive优化器会做什么,详细讲讲谓词下推 8.小文件产生原因,危害,解决方法 9.spark遇到的挑战 10.实时了解过吗 11.你们公司的数据链路,数仓分层是怎么样的 12.数据怎么采集的,binglog
自我介绍 项目用的什么数据库(hive) hive内部表和外部表的区别 可以实习多久 关系型数据库和非关系型数据库区别 你知道哪些非关系型数据库 mysql有哪些索引 spark的join优化方式(没答上来) sort merge join和map join的区别(只讲了map join) map join的过程 flink有了解吗 描述flink保证端到端一致性的方法 描述一下两阶段提交(面试时
本不合适,是我硬凑上去的 9.12 一面 自我介绍 介绍项目 问Redis作用(项目相关) 单例模式是啥?分为?共享屏幕,手写单例模式饿汉式和懒汉式 面向对象三大特性 了解Kafka吗 了解并发编程三大特性吗 反问环节:有几面?多久通知下一面?他说下一面是线下,知道我在南京之后说很快,一周内 9.20感谢信,预料之中,大数据我也不合适 #24届软开秋招面试经验大赏#
1. mapreduce工作流程? 2. shuffle机制? 3. mapreduce进行了几次排序? 4. 环形缓冲区的溢写机制? 5. 提到了反向?反向如何理解? 6. hadoop读取文件过程? 7. 说说数据倾斜?项目中是否遇到 8. MySQL介绍下InnoDB, MyISAM区别? 9. 介绍下事务几大特性? 10. 介绍对应隔离级别? 11. 隔离级别是否可以修改? 12. 三数之
3.26 美团 数据开发 到店(暑期实习二面) - 面试官是一个温柔的小姐姐 - 自我介绍 - 之前工作经历介绍 - 你觉得什么是好的数仓 - 要达到你说的好数仓的标准,应该如何建设? - 小文件具体怎么治理的(预防/滚动式 + 自动脚本) - 小文件有哪些危害 - 给你一个数据倾斜的场景,可能有点难,答不出来也没事:大表 Join 大表(10 亿级别的,比如订单 Join 商品表)可能有一些商品
1、自我介绍 2、今后规划,为什么不读研,爱好 3、对美团的了解 4、项目介绍以及分工 5、数仓分层介绍,为什么要分层 6、数仓建模方法(范式建模、纬度建模、实体建模) 7、平常还有什么方式巩固大数据知识(《大数据之路》、博客、课程) 8、写一个快速排序(没写出来) 9、两道简单sql ①每个用户每天访问的第一条记录 ②00后中选课人数最多的课程 10、有没有用过udf 11、hive和spark
1、自我介绍 2、spark宽窄依赖,stage划分 3、rdd的弹性体现在什么方面 4、group by 和reduce by的区别 5、spark内存划分,内存调优参数 6、spark的join有哪些,sort merge(没答出来) 7、spark的shuffle过程,和mr的区别 8、数仓总线业务矩阵是什么 9、数仓分层,dws层存在的必要性是什么 10、spark以及sql的优化经验(数