9.11 一面(30min) 纯八股: 介绍下hadoop(hdfs、mapreduce、yarn) 介绍下hbase 介绍下flink flink checkpoint、connect和union的区别、flink如何处理数据倾斜 介绍下kafka kafka如果有台机器挂掉会发生什么 链表反转 面试官全程表情和语气冷淡,体验不是很好..当然答得感觉也很一般
1.自我介绍 2.实习介绍 3.实习工作内容下游使用方主要有那些? 4.AI团队数据支持 他们使用这个数据做的什么 5.除了对表的支持之外,是否在计算层面做过一些优化 6.boradcast join和sortmergeJoin的区别和 使用场景的不同 然后面试官开始说,我觉得概念你应该都会,我就不问你了,所以我后面会从场景的角度去考验你的技术理解,本人听到这里心凉了半截,因为两段实习全是离线,这
2024.1.9 面试 Boss直聘沟通 公司要求驻场开发,接受加班,接受出差 你是25届是吧?能在六个月左右是吗?目前在校吗? 后续有什么规划? 你怎么理解数据开发这个岗位的? 讲讲简历上这两个项目?是你在学校做的是吧? 项目你是全程参与是吧? 聊天这个项目的数据源是哪里来的呀? 项目整体是落在HDFS上是吧? 单一架构,嗷,然后可视化,是哇? 下一个电商项目介绍一下? 数据来源讲讲? 那意思是
7.10一面 手机面,也没提前约时间,电话打过来就直接面了😭😭😭都没准备好 了解java的内存分配吗? 什么是内存泄露,如何解决内存泄***r>介绍一下java垃圾回收机制。 介绍一下java线程和进程。 多线程的好处。 java创建多线程的方式。 java如何保证线程安全。 说几个java集合。 什么场景下使用什么集合? hashmap是线程安全的吗,hashtable如何保证线程安全的?
简历没写算法和机器学习的东西,就只是方向是这个,然后面试的时候机器学习问好多?真的是有点懵 一面问nlp,二面问我会不会协同过滤,明明招数仓,数仓东西又不问,真的是服 8.29 一面 全程 30min不到 自我介绍 数仓的优势 介绍下数据库的范式 介绍项目中的Flume 常用的语言有哪些?Java和Scala的区别?什么是范式编程? 设计模式了解多少? ETL步骤 常用的机器学习算法?随机森林主
6.27一面 20min 问简历,介绍项目提到的各种模型,做了什么优化 有没有spark实践的经历 介绍一下hadoop 了解哪些机器学习算法 xgboost和随机森林的区别 有用Java做过项目吗(无...) 反问 6.28二面 35min 简历项目一个一个详细讲 transformer编码器解码器区别 transformer位置编码的情况 spark实践经历 反问
视频面,1h 吐槽:我8.11投递的岗位...八月底做完的笔试....10.21给我发邮箱约面,也不知道前面是哪个大佬拒了offer然后把我给捞上来了 但是,面试官人很好啊~面试体验很好~ 虽然我很多没答上来只能说分治思想贯穿了全程... 无自我介绍 实习 由于我有数据开发相关的实习,所以前30min各种问实习 做了哪些工作,怎么做的,任务挂了怎么办,怎么做的清洗,用的啥语言,用的是啥架构/工具?
1. 自我介绍 2. 问了一下简历上的项目(研一在国电做的) 3. Spark有没有过调优 4. 基于我对Spark调优的一些回答进行追问: ● 我提到了利用RDD缓存进行RDD复用,追问Spark缓存一般可以用什么函数做到(cache,presist) ● 追问并行度的设置方法(配置文件或在代码中) ● 并行度的值一般根据什么设置(CPU核数的2-3倍) 5. Hive执行原理(SQL到MR的过
一面: 主要还是挖简历 自我介绍 问项目经历,聊聊过往开发的项目(聊了很久) 聊聊MySQL的事务 细聊ACID 隔离级别 innodb默认级别 innodb的底层数据存储 对比mysql和hive kafka为什么吞吐量大 场景题目:100个G的文件,保存用户id和看的bookid,求top10阅读量的书 反问
一面 50分钟 自我介绍 你学过的大数据掌握的最好的是哪一个 hive里面排序一般怎么使用的 hive内部表和外部表的区别,外部表在什么场景下使用 hive视图用过吗 你对维度和事实的理解 你说到了业务过程,谈谈对它的理解 你刚刚描述的是一个业务过程还是 多个业务过程 多个业务过程放到一张事实表的你举个例子 维度建模中 星型模型和雪花模型 之间的区别 缓慢变化维表如何处理呢 全量表的数据保存多久
40min 面试体验感超好,德子好感+1 Spark sql了解吗?Dateframe 是啥(不会) 项目里数据怎么拉的? Flume+kafka+flume+hdfs 有什么过滤器吗?:3个flume拦截器 判断文件类型+时间戳过滤器+落hdfs小文件检测 数据量:千万 flume拉取时间是多少?(不会,瞎编的10分钟有兄弟了解吗) Spark小文件怎么处理 Kafka 的整体结构:broke+
被kpi了,还是我太菜了 sparkstreaming和flink有什么区别? sparkstreaming如何确保只被精准消费一次 spark下的执行流程划分? hivesql平常用的多不多,sql不合理如何进行优化 数据库设计的主要的原则 平常做项目面临的最大困难是什么,如何解决的 反问:工作的业务场景是什么? 公司开发中使用的技术栈,回答:hive+es还有个没听清楚
1面:写题目easy+问基础知识+抓只线程池一直问到了系统资源分配,解答部门做大数据的解决方案,不涉及开发 2面:写题目easy+问简历,全程我在讲,然后没了,反问对我的了解,还说部门主要做解决方案 3面:聊人生,主管很好,推荐一下解决方案部门,感觉主管很年轻,然后给了我意见说做非技术不一定不好,校招生不要带着偏见。 整体:3面都是我单方面开摄像头,整个流程很简单,主管面也挺好的,唯一就是不搞技术
#24届找实习方向# 1. 介绍基于Spark实时项目 2. Spark在这个项目中做了哪些工作 3. Spark中,说说Action算子和Transform算子的区别?常见的行动算子有哪些? 4. 这个项目有考虑使用Flink处理吗? 5. Flink中窗口的种类有哪些 6. 了解数据库的底层逻辑吗 7. 说说主键索引和外键索引的区别 8. 计算机网络中OSI七层协议,说说他们的作用 9. 如果
一面 4.23 当天下午约二面 (点错成周四4.27了摔😤 lz面过最长时间的面试,足足1h40min,10:15开始,结束都快12点了🥲也不知道是面试官工作比较闲还是lz太话唠了🤣 Part1: 实习经历 团子的面试官好像对我的实习经历非常感兴趣,一直在深挖,问得非常非常细,到具体什么指标、数据是多少这样子,这一part直接干了四五十分钟😳有记不得的lz就直接说记不得…但是面试官挺好滴,