自我介绍 什么是数据仓库,和数据库有什么区别? 数仓是怎么构建的?(然后开始细抠项目的内容,可怕) Hive的存储格式有哪些? 实习做了什么工作?有哪些难点?为什么离职?(寒冬哪有我的位置?) Spark和Flink的区别是什么?(简单说了一两点,感觉不是面试官要的答案) Spark Streaming接收Kafka数据的两种方式?(这题真不会) 都学过哪些专业课程? 结束 整个流程挺快的,会就是
#软件开发2023笔面经# 个人感觉是根据简历内容来的,尤其是项目,简历涉及大数据,神经网络,数据库 数据库范式SQL和NoSQL 的区别,各自的优缺点 Hive 数据结构特点 Hive 导入数据有哪几种方法 Hive 和 Hbase 区别 Python 和 Java 区别,特点 说一下这个神经网络,搭建过程,激活函数为什么选这个 HBase数据结构特点,Hbase 的优缺点 说一下TextCNN
问题: 1. sql和python用得怎么样 2. sql小问题:分组求和的两种写法 3. 缺失值处理的思路,用到的函数 4. 实习期间做的有意思的一件事 + 模型细节追问 5. 异动分析:近七日GMV下降怎么分析 6. 选择一个分析角度详细选取指标进行分析 反问: 1. 目前的业务方向 2. 转正标准和流程 3. 偏好的候选人特征 挖得蛮细的,但技术问题考得不难,主要看分析思路和沟通能力。另,他
项目,根据项目问一些八股 略 记录没答好的 mapreduce的shuffle算法有哪些? mapreduce说的时候忘记切片过程了,导致后面问map分区数懵了,这都能忘废了 雪花和星型模型的区别,我只答了join和冗余,没答全
mapreduce中有哪些排序 yarn的事件驱动 hbase写热点问题 建表时怎么指定空region spark sql中dataframe怎么把表中的字段提取出来 hive怎么提取出来 yarn中的container怎么实现 写一个sql,学生不同学科的得分排名前三 手写单例模式,策略模式,工厂模式,并描述在什么场景下使用,口述一下装饰者模式 arraylist和linkedlist的区别,什
hdfs读写流程 spark内存管理 项目中遇到的问题,怎么解决的 项目中都有哪些表 怎么处理缓慢变化维 拉链表怎么做,开链闭链怎么 数仓和数据湖 维度建模,星型模型,雪花模型 数据倾斜,小表join小表,大表join大表 遇到过的数据倾斜,怎么做的 手撕,二叉树中序遍历,非递归写法
数据倾斜问题 写个sql吧 再写一个sql吧, 写挺好啊,在写一个吧 这些你是练习过原题吗,在写一个sql吧 说一下数仓的分层,每层干了什么事? 说一下归并排序的过程 xgboost原理 线性回归,逻辑回归 聚类了解吗 说一下spark怎么实现map join
1.问实习问项目问成绩 2.机器学习算法了解哪些,分类算法?特征工程? 3.kafka原理,spark优势 反问:业务技术有哪些—离线实时都有,和国外电商有关 总结:时间较短二十分钟,比较轻松,不知道有没有二面
自我介绍 专业课程、成绩 是否学过计算机专业课(408) 线程、进程的区别 编译型语言和解释性语言区别、使用场景 计算机32位、64位存储空间多大 Java内存存储 Linux通过文件名、文件内容查找 介绍Redash 比较ClickHouse、Doris和Mysql架构、使用场景和优缺点 b+树的优势 实习主要工作 反问: 如何使用好一个数据模型 对我的建议
自我介绍 深挖实习经历 (介绍实习主要工作、场景复盘等等延伸) hive相关 (hive原理、hive sql区别) 数据倾斜的常见case ClickHouse相关 group by原理 left join与right join区别与特点 主要技术栈 对岗位的理解 反问: 部门与产品业务线 校招生定位
腾讯会议一面(30分钟) 自我介绍 项目介绍 数据如何采集,整个流程叙述一遍 项目难点说一下 两个项目的区别讲一下 数仓分层里面的表叙述一下有什么 分析一下两个事物之间的关系,怎么分析(有点抽象的问题),有什么经验
1.自我介绍 2.熟悉flink还是spark 答:flink 3.介绍下flink架构吧 答:这里越深越好,我就讲到了flink的jobmanager(dispathcer,jobmaster)和taskmanager 4.flink有哪些算子? 答:map,flatmap,filter,window,union等,RichFunction提供生命周期open close,上下文环境。 5.fl
自我介绍 实习工作介绍 事实表与维度表如何搭建 星型模型与雪花模型 维度冗余 业务场景理解 数据倾斜原因和常见手段 手撕 一道sql: 连续登录7天用户 两道算法: 二维动态规划 n! 尾数0的个数
4.27 1h B2B,百度电商部门 介绍完自己直接开始写算法题 随机数据的峰值,如 1 2 3 6 5 8 7,返回 6 或 8都行,要求时间复杂度O(lgN) 斐波那契数列,要求时间复杂度O(lgN),矩阵解法 求两个字符串的最长公共子串,如 abcedfgh 和 bcedgh 最长公共子串是bced 求两个字符串的最长公共子序列,如 abcedfgh 和 bcedgh 最长公共子序列是bce
字节面经 项目的数据来源和的数据的规模 Spark Shuffle spark的宽窄依赖 数据倾斜问题(★★★★★) 产生数据倾斜的原因 遇到过的数据倾斜的实际情况 数据倾斜的解决办法 介绍一下hadoop的NameNode NameNode高可用架构 NameNode主节点宕机,之后的选取机制 Zookeeper的选取机制 NameNode中的元数据是否会丢失?(★★★★★) 怎么保证元数据不丢