个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问 自我介绍 项目深挖(20min) 实习工作介绍(5min) 数据倾斜有哪几种解决方法 Group by 倾斜,join倾斜,null值倾斜 分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了 Hdfs小文件
部门:优选事业部-美团买菜 timeline: 8.24 一面 8.28二面 8.31 hr面 9.7 oc 一面: 项目介绍 什么是指标体系 指标体系包含元素 指标分类 数仓分层、分层好处 数仓分层和指标分类之间有什么关系 什么是总线矩阵 什么样的数仓是一个比较好的数仓 什么方法可以落实上面说的数仓 缓慢变化维;除了拉链表还有哪些方式 什么情况下可以使用map join 怎么解决数据倾斜问题 J
面试时间:50min 自我介绍 实习内容 工作部门是数据中台,数据中台是什么?和数据仓库有什么区别? 项目用什么采集数据?原理?还了解过其他采集工具吗? 对数仓分层的理解? 你们是按什么标准分主题的?用的什么数仓模型? MR的工作流程? Spark原理?和MR的区别? RDD依赖关系? Job、stage、task划分? Hive介绍,原理?Hsql转换到MR的过程? Hive的文件存储格式? 知
官网投递完成测评后一周收到了一面通知,没有笔试,准备了半天的八股最后完全没有用到,有两个面试官,一个面试官介绍了一下自己的部门,问了一些技术不相关的问题,一个面试官问了一下项目,也没有多问,整体下来不到三十分钟。当天收到了 hr 面试邮件,感觉好像 kpi 啊啊啊啊啊😰😰😰 补一个后续7.9 周日正在床上摸鱼,收到了录用函,本菜鸟也终于有offer啦! 感谢东子,我爱东子!!!
时间:120min 选择题:Hadoop+Spark+Linux+408 编程题: 小红的不动点:直接用HashMap就行 每个部门薪资排名前两名员工:rank开窗 小红删数字:这题应该是后端笔试的第二题,逆序dp,只过了96%
一个小姐姐打电话告诉我会议号的。 进去之后,先自我介绍,然后让我讲项目。 hdfs的读写机制 雪花模型星型模型的区别和适用场景 小文件的弊端 又在问项目 20分钟结束了,反问环节都没有。。。
一面:(1h) 1.自我介绍 2.选一个熟悉的项目介绍一下吧 3.看你简历上写了进行过数仓的搭建,那你说一下数仓分几层合适? 4.每一层干了那些事儿? 5.你说一下数仓为何要进行分层? 6.数仓的建模方法知道吗? 7.指标分类有哪些?(回答的是原子指标,派生指标,衍生指标) 8.你的ods层为何选择gzip压缩呢? 9.除了gzip压缩还有哪些压缩方法?介绍他们的区别?10.项目中你的hive表使
自我介绍 项目用的什么数据库(hive) hive内部表和外部表的区别 可以实习多久 关系型数据库和非关系型数据库区别 你知道哪些非关系型数据库 mysql有哪些索引 spark的join优化方式(没答上来) sort merge join和map join的区别(只讲了map join) map join的过程 flink有了解吗 描述flink保证端到端一致性的方法 描述一下两阶段提交(面试时
题型:10道单项、5道不定项、2道算法、1道SQL,难度还可以 单项题 1. 哪个程序通常与NameNode在一个节点启动?Jobtracker 2. HIVE的建表描述,错误的是:STORED AS 指定存储路径 正确应该是指定表的格式 3. 维度建模中雪花模型和星型模型的描述不正确的是:星型模型是多个事实表和多个维度表组成 正确应该是 1个事实表和多个维度表组成 4. hive中用get_js
一面 50分钟 自我介绍 http协议是哪一层的协议,讲一下对http的了解 tcp协议和udp协议是哪一层的协议,讲一下他们之间的区别,以及他们各自的应用场景 你知道get和post请求吗,讲一下他们之间的区别 当我们输入美团网址的时候,这个从输入到显示页面的过程 你了解操作系统吗,linux了解吧,你说一下你用过的命令 当我们要查看文件的具体属性用什么命令 讲一下静态链表和动态链表的区别 数据
一面 电话面 40分钟 自我介绍 介绍实时数仓的项目 你这里用到了clickhouse,clickhouse的写入和读取为什么快 flink有哪些算子 flink的窗口函数了解吗 flink的精准一次性如何保证的 kafka是如何保证数据不丢失和不重复的,从生产者和消费者考虑 hbase用过吗,rowkey的设计原则是什么 如何解决热点现象 redis的数据结构了解吗 java的spring会吗
1.平常是用python还是java?python和java掌握程度? 2.hadoop的组成,每部分有什么用。 3.spark掌握的怎么样,SQL练过哪些题。 4.mapreduce源码看过吗? 5.wordcount的流程。 6.Scala有没有学过? 然后开始挖简历,还问了我一些业务的问题。 说后面会通知二面,也不知道有没有...
Spark 出问题如何排查 Spark 分区和hdfs block的关系 10000个小文件场景,spark是调整内存配置参数还是调整并行度参数 Spark sql 底层原理 Spark sql如何优化 Hbase region的分裂 #美团#
学习各种组件和工具帮助你对Django应用进行改进和测试:
如果您打算使用SOP做开放平台开发,流程大致如下: cd到/SOP/sop-common目录,执行命令mvn clean deploy,把jar上传到maven私服,如果没有maven私服,可以打包到本地mvn clean install 打包sop-gateway(网关)、sop-admin(后台管理)、sop-website(文档),部署到服务器上 以上服务是固定的,启动一次即可,后续不用做改