1.自我介绍 2.布隆过滤器如何减少误判? 3.介绍一下点赞系统是怎么做的? 4.点赞系统中的缓存和数据库一致性怎么做的? 5.学习进度记录是如何减少与数据库的写操作的? 6.Java重写和重载的区别? 7.JVM垃圾回收算法介绍一下? 8.ArrayList和LinkedList之间的区别? 9.乐观锁和悲观锁的区别? 10.MySQL中的索引是如何实现的? 11.手撕二叉树中序遍历,非递归 1
1.自我介绍 2.解释数据库,表,索引 3.索引一遍加在哪里 4.问索引为什么能加快查找速度 5.解释第三范式 6.出了七八道走不走索引的判断题,解释理由(有个范围查找的走没走索引答错了,呜呜呜呜) 7.解释二叉树 8.问二叉树的几种遍历方式 9.算法题,问二叉树存不存在根节点到叶子结点路径上的数据和为一个target。 反问,问了部门业务场景,还稍微聊了一点数仓的东西。 12.16update,
自我介绍 什么是数据仓库,和数据库有什么区别? 数仓是怎么构建的?(然后开始细抠项目的内容,可怕) Hive的存储格式有哪些? 实习做了什么工作?有哪些难点?为什么离职?(寒冬哪有我的位置?) Spark和Flink的区别是什么?(简单说了一两点,感觉不是面试官要的答案) Spark Streaming接收Kafka数据的两种方式?(这题真不会) 都学过哪些专业课程? 结束 整个流程挺快的,会就是
1. hadoop如何实习高可用 2. 实习的需求(异步io) 3. 进程和线程的区别,通信方式有何不同,在开发过程中,需要注意的地方? 4. 物理地址空间和逻辑地址空间 5. 两道算法题,一道二分,另一道是改进之后的二分
1.自我介绍 2.项目 3.实习优化工作 4.强化学习原理 5.sql和java/python的区别 6.写题 统计每个年级,最高分数学生 7.numpy\pandas有没有一种可变机制的修改(没听过,真没听过) 8.对于RDD不可变的理解 9.对谓词和谓词下推的理解
思特奇一面 19min(已进终面)总体来说不难,但是网上风评不太好 1. 自我介绍 2. 介绍一下你在实习中用到最多,掌握最好的技术? 3. 介绍一下你项目中,从数据采集,到数据加工到标签生成,整个流程能介绍一下吗? 4. 标签用什么语言开发?能简单介绍一下hive吗?hive的分区?hive表能单条删数据吗? 5. 你能说一下hive sql的性能优化吗?参数+代码 6. 说一下你的比赛内容?你
项目,根据项目问一些八股 略 记录没答好的 mapreduce的shuffle算法有哪些? mapreduce说的时候忘记切片过程了,导致后面问map分区数懵了,这都能忘废了 雪花和星型模型的区别,我只答了join和冗余,没答全
1.问实习问项目问成绩 2.机器学习算法了解哪些,分类算法?特征工程? 3.kafka原理,spark优势 反问:业务技术有哪些—离线实时都有,和国外电商有关 总结:时间较短二十分钟,比较轻松,不知道有没有二面
24届秋招 一面电话面 自我介绍 介绍实习工作 数据倾斜怎么解决 map join 原理 维度缓慢变化了解吗 二面视频面 介绍实习 实习工作具体内容 口述SQL题 了解哪些数据治理 数据仓库迁移介绍下 过了几天HR面 OC
这是一本关于大数据学习记录的手册,主要针对初学者.做为一个老IT工作者,学习是一件很辛苦的事情.希望这本手册对帮助大家快速的学习与认识大数据(特指Hadoop Spark),为了不让初学者一下接触爆炸式的新概念,我们会以实验先行,概念跟进的方式进行课程学习,这样有利于大家快速进入状态,而不至于一直深陷逻辑概念出不来,但是每个人的学习方式不一样,仁者见仁智者见智吧。
#数据人的面试交流地# 今年找实习和秋招都很难,很多公司投了都不理,在这里记录一下自己面过的一些公司面经,顺便拿个奖励 2023届实习面经:音泰思(大数据开发实习生) 好像是个对日外包公司,这是我的第一次面试,第一次就体验到了10分钟的面试 下边是面试内容: 2022/03/15 一面: 自我介绍 介绍下项目 jvm垃圾回收机制 为什么要用kafka mr flume断点续传 2022/03/15
#数据人的面试交流地# 第二次实习面试 巨杉数据库 一面 数据库应用开发工程师 2022/03/17 常用的容器,Arraylist hashmap的区别 iolist和listnext(这个可能听错了,当时没听懂是什么) 数组、链表、栈、队列的不同 tcp udp 流量控制 进程和线程 mysql了解啥,说一下高并发 项目 hive sql 用过哪些优化 MVCC用来干嘛 进程间通信的方式 Li
#数据人的面试交流地# 十方融海 大数据开发实习生(秋招提前批) 一面:2022/05/30 自我介绍 this super 值和引用 垃圾回收算法 多线程用过吗 回收算法 进程线程 Linux子系统: linux内核的子系统有5个: 1、 进程调度控制系统(SCHED); 2、内存管理系统(MM),主要作用是控制多个进程安全地共享主内存区域; 3、虚拟文件系统(VFS); 4、网络接口(NET)
#数据人的面试交流地# 广州丰石科技 大数据开发实习生 2022/06/07 一面:感觉就是kpi 进去之后做一份面试题,hr叫我做小题,后边的大题不需要做,做完之后面试的时候给面试官看,第一句就是后面的题不会做吗? 蚌埠住了。。。 自我介绍 spark中数据迟到怎么处理 hive权限管理 cdh kafka分区策略 sparkstream对接kafka的方式, hashmap键和值允许为空吗,
#数据人的面试交流地# 赫基集团 大数据开发实习生 一面:电话面 2022/06/21 1.sql判断是否有重复数据 2.数据库引擎的区别 3.说一下项目 4.项目中转化率数据异常怎么进行清除 二面:主管加hr面 2022/06/31 项目和经历 建模(雪花模型和星型模型) 渐变字段 笛卡尔积用在什么场景?没想出来,最后面试官说这是个坑,说没人愿意遇见笛卡尔积 还有普遍hr问题 反问 科大讯飞 A