1.自我介绍 3min 2.介绍一个你最熟悉的项目 10min 问:这个项目你做了什么(被说工作内容简单,没有太大贡献) 遇到的难点是什么(被说这个难点不难) 怎么解决的 整个表的数据量大概是多少 3.你在美团用到了哪些技术栈 4.讲一下kafka怎么保证不丢数据(答了三种acks,面试官说这是生产者端的,那其他的呢,直接说忘了然后道歉) 5.kafka的offset存在哪个地方的 6.kafka
给了三道题,两道SQL,还有一个程序设计题。 1、银行交易记录表,字段有(id,存取金额(存为+,取为-),交易id) (1)求每个人的总余额 (2)求每次交易后的余额 2、学生成绩表,字段为:学生id、成绩(内容格式为:"数学:xxx,语文:xxx") 将成绩字段拆分为科目和成绩两个字段,每个学生拥有的科目不一定相同 3、一个文件里是一个整数占一个G大小,求该
了解大数据吗? 分布式是什么? 1、list、set、map之间的区别与联系 2、arraylist和linkedlist之间的区别与联系 3、数组与链表的区别 4、线程和进程的区别?为什么要设置线程? 5、线程安全如何保证?几种方法?为什么会出现线程不安全 6、线程池用于干啥? 7、同步与异步的概念? SQL相关 1、讲一下索引?索引怎么实现 2、列排序是什么数据结构? 3、B树和B+树的区别?
已OC,评论区有意向群大家可以加入交流 一面: 挺走流程的,项目+八股+性格 二面: 项目+做题+性格,题目是一个实时指标,一个离线指标,居然要求在web上写flink,然我选择用SQL写离线,题目是统计一个直播间的最大在线人数,感觉挺好的,但是说方向偏业务,问了我的意向,我没表达出兴趣。 三面: 1.自我介绍 2.项目介绍 3.Hudi项目难点 1).FlinkJob怎么配置采集表的个数:个数太
7.10一面 手机面,也没提前约时间,电话打过来就直接面了😭😭😭都没准备好 了解java的内存分配吗? 什么是内存泄露,如何解决内存泄***r>介绍一下java垃圾回收机制。 介绍一下java线程和进程。 多线程的好处。 java创建多线程的方式。 java如何保证线程安全。 说几个java集合。 什么场景下使用什么集合? hashmap是线程安全的吗,hashtable如何保证线程安全的?
简历没写算法和机器学习的东西,就只是方向是这个,然后面试的时候机器学习问好多?真的是有点懵 一面问nlp,二面问我会不会协同过滤,明明招数仓,数仓东西又不问,真的是服 8.29 一面 全程 30min不到 自我介绍 数仓的优势 介绍下数据库的范式 介绍项目中的Flume 常用的语言有哪些?Java和Scala的区别?什么是范式编程? 设计模式了解多少? ETL步骤 常用的机器学习算法?随机森林主
2023春招找实习的同学跟我分享了他的面试经历,在这里我进行了一些总结梳理,然后发出来供大家学习 1. 自我介绍 2.八股文 hive的数据类型有哪些 hive中计算排名前N的函数有哪些 hive的优化手段你知道哪些 遇到过数据倾斜吗 mapjoin如何开启,参数是什么 3.SQL题 rt_ data表存放了当天每半小时的店铺销售数据,表名: rt_ data,字段名: shop id (店铺id
一面30min 自我介绍 选一个最熟悉的结构 说一下原理 特点 怎么使用 hive数据倾斜 内部表外部表 文件存储格式 行转列 列转行 sql题目 项目中有用hive解析json数据吗 实习在做什么 介绍实习项目 实习公司数据仓库怎么分主题的 业务需求是你自己一直在沟通吗 想做数仓还是平台 你觉得对业务了解的怎么样 base想南京还是深圳 二面 介绍实习在干嘛 实习项目怎么做的 项目几个人做 你
面试时长18分钟,问的问题很基础,还是看简历或者学历下菜吧 1、学大数据学了多久,我说今年1月开始学的,他说这么短的时间能明白吗?这8个月还能一点都学不明白吗? 2、问了下实习内容,没深挖 3、hdfs的高可用,太紧张把namenode说成nodemanager了,后来才反应过来,就这个问题回答的有问题 4、hive的窗口函数 5、hive和rdbms的区别 6、hive的调优方面 7、spark
面经:主要看学历40%、项目经历30%、籍贯30%,一共17分钟 1.自我介绍 2.负责项目和擅长的编程语言(注意:项目大小由面试官判断) 3.hdfs流程 4.编程语言八股(好笑的是说python面试官都蒙,说Java才能走流程 5.项目追问 遇到问题: 1.非硕不要报,就是刷kpi的,海外本科可以报下,有点恶心; 2.非当地省份户籍的慎重,否则同样kpi,面试官比较看重这一点,对外地很会阴阳怪
一面: 感觉一上来就是主管面,主业务面,考验业务能力和沟通能力 介绍下专业的课程,说说最喜欢哪一门,为什么 直接问实习经历 实习中的项目,扣细节(大部分时间都在问这个) 在同程做了什么业务 广告业务数仓负责哪些东西 广告投放的指标,如曝光、转化等等 广告有哪些类型 聊聊广告投放流程,投前、投中、投后 投中的过程每一轮具体的事情 对比hive和spark 为什么业界都用spark不用mr了 聊聊fl
我是学数学的2024应届,本科阶段有选过大数据的专业选修课,但是编程语言真的不太会,跟科班出身的计院同学没法比,今年数分岗又卷到爆炸,双选会问了几个公司都说数分岗爆满(快手中移信息技术中心),只好一并找找其他方向,上周笔试以为铁挂了就没怎么准备,结果昨天晚上22点发今天的一面邀,一个晚上加上午恶补大数据知识。面试官非常和蔼: 问项目: 大数据技术实验做了什么东西?是为了实现什么?(本科课程里的实验
发面经,攒好运 面试官是个小姐姐,说话非常温柔,但万万没想到面得内容和后端确实关系不大 自我介绍 你用了redis,那能说说他有什么好处吗以及他适用于什么场景? 那redis有什么缺点呢?(我不太清楚,只能说内存要求可能比较高?以及缓存雪崩和击穿) 数据库四大特性以及四大隔离级别 说说持久性 索引以及你用过索引吗 分享一下你在做项目的时候有没有遇到什么比较大的挑战 然后考了一道简单的mysql j
首先是自我介绍:balabala 是否了解过数仓和Spark? 再Linux系统中,找到对应的Java进程并删除。 同样的在 Linux系统下,删除使用某端口的进程。 介绍一下Mysql和LSM,并分析下这两种引擎是基于什么?适用于什么场景? sql编程题:牛客每个人最近的登录日期(二)() 算法题:二叉树的最大路径和 (较难) AC Code: class Solution { public:
岗位JD 使用大数据组件对海量数据进行建模,参与数据仓库的的开发、维护及优化 岗位要求 计算机相关专业,对大数据有浓烈的兴趣 扎实的计算机基础,熟练使用python/java/scala其中至少一种语言 熟悉Hadoop生态体系,包括但不限于Hadoop/Hive/Spark/Clickhouse 学习能力强,强烈的责任心,具有较强的沟通能力及团队合作精神,细致耐心、积极主动 有大规模数据/日志处