1)10道不定向选择题,共40分,包括知识点: 关系型数据库 有限自动机 进制转化 HIVE特点、复杂数据类型 Flink窗口分类、通过什么方式处理数据迟到、时间语义 SPARK RDD特性 LSM 2)1道数据库,给出一个表,包括三个小题: 1. 玩家在线时间排名 2. 计算 pv, uv 3. 计算第一天留存率 3)2道编程题,题目描述中有说 若写不出来 也可以在注释中写思路或伪代码 1. J
2022/10/11 一面 30min 自我介绍 实习项目介绍 项目中你做了什么任务 实习项目难点 阿里云大数据框架怎么学习的 大数据开发具体想做什么方向 hive中的开窗函数用过吗 rank、dense_rank、row_number区别 hive行转列 列转行 spark用过吗 spark为什么比MapReduce快 spark数据倾斜遇到过吗 数据倾斜怎么解决的 Java中的HashMap底
一面时间:2022.10.13 星期四 10:30-10:45 和HR聊天比较多 自我介绍 是否了解就业地点? 兴趣爱好 优缺点是什么? 现在有没有女朋友?(???这都要问,哈哈哈) 是否考虑考研?为什么? 大学期间参加过什么项目?简单介绍一下 面对一个新技术怎么去学习? 大学期间最后悔的事? 期望薪资是多少? -------------------------------------------
笔试时间 90min 20道选择题 + 3道编程题 主要还是考数据库的操作 如何增删查改 如何检索 然后阅读数据库代码 找错误/模拟运行 只有一道算法题 是AcWing_3578题 的变式 个人感觉算是降低难度 每次操作选取两个数 ai 与 aj, 并赋值ai = ai + aj, 删除aj; 中位数计算方式为为(m+1)/2向下取整。 输入第一行数据组数t 此后每组 第一行数组长度n 操作k数
一面6.14 45min 挖简历项目 机器学习线性模型口诉原理(简历提到机器学习) 手写最大子数组和(ac通过),要求nlogn复杂度。(提示递归,未答出) 无八股 二面6.18 1h 挖简历项目(详细介绍项目、随口问了下springboot与jdk版本 、MongoDB原理,elasticsaerch等) 场景题:抢购平台,有哪些与异常相关的字段,比如用户订单等信息。如何设计异常检测大数据平台
10.11 蚂蚁一面(共 20min) 电话面,随便聊了聊,说我要做笔试才有进一步进展,但我没时间做这个笔试 自我介绍 对部门业务的了解 对数据仓库的了解 询问项目具体内容 说我聊的还行,催笔试,笔试后才有相应反馈,笔试安排在10.11晚,有事没空做,再看吧 反问 部门重点在数据仓库构建还是在数据处理 #蚂蚁金服##秋招##数据#
一面 8.14 自我介绍 实习内容,没有深挖 Hive 的存储格式 orc parquet 有没有了解过Cube, grouping sets 有没有了解过 group by ,sort by,cluster by ,distribute by 的区别 Mr的工作流程 Yarn的调度框架 Hive内部表外部表区别 Lag lead first_value last_value含义 Row_numb
一面 实习深挖 聊数据治理(链路、模型、作业) spark作业调优具体案例 数据质量评价体系,如何保证数据质量 全链路数据建模怎么做 指标设计方法 数据结构有哪些,分别有什么作用 计网各层都有什么协议,分别有什么作用 mr和spark区别 shuffle原理 MySQL索引有哪些 MySQL索引数据结构 数据倾斜解决办法 算法 前k个大数 SQL 1.薪资TOP3 2.各个部门入职最早的员工 #美
一面 8.30 50min 1.java常用的容器,数组和链表区别?hashmap,put的过程 2.解决hash冲突的方式?(开放定址法(线性探测法、平方探测法前后寻找)、链地址法、建立公共溢出区) 3.上面解决hash冲突引出了threadlocal,threadlocal为什么需要要用弱引用?(把源码从头到尾讲了一遍,面试官说理解的不错) 4.AQS用过吗?提供哪些接口? 5.TCP、Ip
40min 面试官问的很细,来自数据平台,技术感觉很强很全面。 warm-up 自我介绍 有其他意向吗?能来北京吗 挑一个做得好的项目介绍下全流程 难点在哪,讲一下 ElasticSearch ES有用到集群吗?有设置分片吗?有设置副本吗?副本数是多少? 你是怎么建立索引的?为什么这么建立索引? Hive 离线处理有用过Spark 吗?没有,主要用的是Hive 说一下Hive 构造UDF 的过程?
全程面试一个小时,先聊实习,再聊数据结构和操作系统八股文,中间给了一道设计数据库缓存的情景题,最后出了一道实现双向链表插入、查找、删除的算法题。整体感觉面试难度适中,面试官很有耐心也很温柔,面试体验不错。 实习经历 (1) 研究生期间做深度学习,为什么就业想要走开发岗? (2) 现在的实习才四个多月,为什么想要换一份实习? (3) 项目各种技术细节如何实现的(不展开说了) (4) 对你来说最有成就
1.自我介绍 2.一周能实习多少天 3.是否考研,为什么不考 4.linux基本操作 5.手撕SQL,没答上来。请求提示,有个函数没听说过。 6.在学习的时候哪里用到了SQL 7.MySQLDDL是否了解(太紧张突然想不起来DDL是啥了,就说了没有。。),结束那一刻我才反应过来,麻中麻。。 8.反问环节 hr挺和蔼的。但是我实在又紧张又菜。。估计是凉了。 过两天还有百度的面试,更是重量级,看到自己
面试官:你学过计算机网络吗 我:没有 面试官:你会flink嘛 我:不会 面试官:你用过spark嘛 我:没用过,不会 面试官:hadoop这些了解吗 我:不好意思,不了解。。。。 面试官:那我们来看一下MySQL吧,会联合索引判断嘛 我(思考十秒钟,发现没听说过):不好意思,不太了解。 面试官:那写一个sql题吧。 我(八分钟后):你好,我写完了。 面试官:没问题,你说哪里可以优化一下,不用操作
1面(1h)8.2 项目介绍 MapReduce提交作业流程 MapReduce和spark的区别 HDFS架构 HDFS写流程 groupByKey和reduceBykey的区别 算法题(实现一个类,插值(已存在就false,不存在就插入),删除值(不存在这个值就返回false,存在就删除),随机获取已存储的值,三个功能时间复杂度为O(1)) 2面(45min)8.10 项目介绍 数仓理解 ja
面试官是个小姐姐,很温柔 自我介绍 了解大数据组件吗 不了解 了解数据仓库吗 不了解 简单讲一下项目 rabbitMQ 在项目中怎么用的 了解kafka吗 不了解 springboot 打包方式 jar包、war包 怎么部署Linux 没部署过 说一下慢sql排查以及优化手段 慢查询日志,explain,索引