45min 自我介绍 数仓项目的数据采集模块怎么做的 flume组成,各个模块的功能 为什么要使用这些source或者是sink file channel和memory channel有什么区别,分别在什么场景使用 flume内部原理 sink消费能力弱,channel会不会丢失数据 数千台机器需要采集日志小文件到hdfs上,该怎么办? 数千个flume要怎么统一配置,修改就分发吗? maxwel
蔚来一面 数据开发 24届 日常实习 base武汉 看了jd,感觉岗位更偏向数仓方面的,面试过程中疯狂拷打框架底层原理 我本人不是很match 1. 自我介绍 2. 问了我简历上的项目,在项目中遇到的问题 3. 然后项目集群环境,在搭建节点服务器过程中遇到的问题 4. 高可用集群这些 怎么实现 出错了怎么办 怎么排错 5. 造成高可用集群脑裂的原因是什么 6. Hadoop 如果配置的zkfc无法
大概是今年五月初面试了荣耀大数据的Java开发港,面试官全程基本什么都没有问。也没有问一些八股文的问题,也没有问算法题。 就是轻蔑地看了一眼我的简历,然后问你的项目是自己做的,还是根据别人的来做的,然后直接说你做的这个项目怎么这么简单,因为我还有一个机器学习的项目,然后他就随便问了项目做什么的。 最离谱的是他说你有机器学习的经历,那么我推荐你去客户端。 总之全程什么技术问题都没有问你,也没有问项目
🍆 数仓方向 9.19 一面 第二天就挂了 自我介绍,科研项目介绍(项目相关问题提问) 1) 内部表和外部表的区别? 2) 窗口函数? 3) 知不知道比HDFS活跃度更高的产品? 4) Zookeeper常用得场景和用法?RATF协议了解吗? 5) CAP原理?一致性的概念? 6) Hadoop如何保证一致性? 7) Hadoop生态圈和MySQL等分布式数据库的区别? 8) Hive支
1)10道不定向选择题,共40分,包括知识点: 关系型数据库 有限自动机 进制转化 HIVE特点、复杂数据类型 Flink窗口分类、通过什么方式处理数据迟到、时间语义 SPARK RDD特性 LSM 2)1道数据库,给出一个表,包括三个小题: 1. 玩家在线时间排名 2. 计算 pv, uv 3. 计算第一天留存率 3)2道编程题,题目描述中有说 若写不出来 也可以在注释中写思路或伪代码 1. J
9.22 一面 1h 自我感觉挺好的还,9.26挂了 1)自我介绍 2)两个项目介绍 3)Hadoop的元数据存在哪里? 4)什么是缓慢变化维?拉链表的数据具体是怎么更新?并举例 5)Kafka的零拷贝机制? 6)对RDD的了解 7)哪些情况下会发生索引失效? 手撕代码 1)无重复字符的最长子串 双指针+map 2) 求出数组中最小的n个数 3) 求出每个部门的薪资前三的用
前言 星环感觉整个流程非常不错,二面面试官不是搞大数据的,但是交流上感觉到了尊重,面试实在7月份,八月份就给意向了,进展到十月份了对比看来星环流程真的不错(PDD推荐组某个面试官一生黑),看到大数据后端已经不招人了,但是可能会拒掉 一面 忘记了没有记录 二面 1.1. HBASE架构 1.2. Regionserver结构 1.3. Hbase避免热点数据(Rowkey的设计) [大白话彻底讲透
2022/10/11 一面 30min 自我介绍 实习项目介绍 项目中你做了什么任务 实习项目难点 阿里云大数据框架怎么学习的 大数据开发具体想做什么方向 hive中的开窗函数用过吗 rank、dense_rank、row_number区别 hive行转列 列转行 spark用过吗 spark为什么比MapReduce快 spark数据倾斜遇到过吗 数据倾斜怎么解决的 Java中的HashMap底
一面时间:2022.10.13 星期四 10:30-10:45 和HR聊天比较多 自我介绍 是否了解就业地点? 兴趣爱好 优缺点是什么? 现在有没有女朋友?(???这都要问,哈哈哈) 是否考虑考研?为什么? 大学期间参加过什么项目?简单介绍一下 面对一个新技术怎么去学习? 大学期间最后悔的事? 期望薪资是多少? -------------------------------------------
笔试时间 90min 20道选择题 + 3道编程题 主要还是考数据库的操作 如何增删查改 如何检索 然后阅读数据库代码 找错误/模拟运行 只有一道算法题 是AcWing_3578题 的变式 个人感觉算是降低难度 每次操作选取两个数 ai 与 aj, 并赋值ai = ai + aj, 删除aj; 中位数计算方式为为(m+1)/2向下取整。 输入第一行数据组数t 此后每组 第一行数组长度n 操作k数
总共33min,凉透了,可能因为我是第一次面试,没经验,被面试官牵着鼻子走 1、数据仓库和数据库的区别 2、数仓的分层 3、维度建模的基本构成 4、了解缓慢变化维吗 5、说一下拉链表 6、用到了哪些用户指标作为算法的输入呢? 7、协同过滤的常用算法有了解吗? 8、Presto和Hive区别 9、Hivesql和sparksql区别 10、Sql:统计最近下单的用户是在去年12月份的用户数量 11、
1.自我介绍 2.说一下数据库范式 3.说一下Hbase 4.Hbase的rowkey怎么设计的 5.说一下Clickhouse 6.说一下你了解的数据库底层的一些知识 7.数仓为什么这样分层 8.数据表和数据视图的区别 9.实习 数仓让你觉得有成就感的地方 10.你对离线感兴趣还是对实时感兴趣 11.你知道OLAP数据库都有哪些 12.Sql题 13.Hive Spark优化掌握的怎么样? 14
#国企#一面 约37min 1. 介绍一下项目 2. MongoDB分布式存储是怎么做的? - 数据分片是怎么做的? - 如何保证节点间数据的一致性? - 如果有节点挂掉会怎么办? 1. 地理数据如何索引? 2. 喜欢用什么开发语言? 二面 约40-50min - 自我介绍 - 问了一些奖学金的情况 - 介绍项目经历 - 对分布式事务了解吗?解释一下分布式事务是做什么的 - 如何保证分布式事务的原
秋招第一个意向 感恩团子! 二面和hr面感觉自己发挥得并不是很好,一度以为凉了... timeline: 两次笔试都a四道多一丁点。 8.29 一面 8.31 二面 9.5 hr面 9.7 意向 一面 60min: jvm了解哪些 垃圾回收了解哪些 主线程和另外十个线程,怎样使主线程最后执行完毕 (join、await) flink checkpoint kafka有序和不丢如何保证 算法题 链表
1、自我介绍 2、实习经历介绍 3、实习项目难点介绍 4、你比别人的优势是什么 5、hive相比与传统数据库的优势是什么 6、hive集成了mapreduce,如何将hive语句转换为mapreduce 7、hive on spark和spark on hive的区别 8、spark调优你做过哪些? 9、数据倾斜调参和不调参的方法你知道有哪些 10、数仓的存储介质有哪些 11、数仓建模的话你会如何