自我介绍 专业课程、成绩 是否学过计算机专业课(408) 线程、进程的区别 编译型语言和解释性语言区别、使用场景 计算机32位、64位存储空间多大 Java内存存储 Linux通过文件名、文件内容查找 介绍Redash 比较ClickHouse、Doris和Mysql架构、使用场景和优缺点 b+树的优势 实习主要工作 反问: 如何使用好一个数据模型 对我的建议
自我介绍 深挖实习经历 (介绍实习主要工作、场景复盘等等延伸) hive相关 (hive原理、hive sql区别) 数据倾斜的常见case ClickHouse相关 group by原理 left join与right join区别与特点 主要技术栈 对岗位的理解 反问: 部门与产品业务线 校招生定位
腾讯会议一面(30分钟) 自我介绍 项目介绍 数据如何采集,整个流程叙述一遍 项目难点说一下 两个项目的区别讲一下 数仓分层里面的表叙述一下有什么 分析一下两个事物之间的关系,怎么分析(有点抽象的问题),有什么经验
1.自我介绍 2.熟悉flink还是spark 答:flink 3.介绍下flink架构吧 答:这里越深越好,我就讲到了flink的jobmanager(dispathcer,jobmaster)和taskmanager 4.flink有哪些算子? 答:map,flatmap,filter,window,union等,RichFunction提供生命周期open close,上下文环境。 5.fl
#歌尔# 项目 ETL部分 拉链表的设计与作用 数据量的大小 为什么选择kmeans,介绍一下其他的聚类方法 八股 介绍下数据仓库的分层 大数据中的数据倾斜 hive开窗函数 spark streaming和flink的区别 sort by 和 order by的区别 有没有用过doris等 (没用过) 什么时候可以来实习
自我介绍 实习工作介绍 事实表与维度表如何搭建 星型模型与雪花模型 维度冗余 业务场景理解 数据倾斜原因和常见手段 手撕 一道sql: 连续登录7天用户 两道算法: 二维动态规划 n! 尾数0的个数
项目 垃圾回收,JVM调优 Elasticsearch 结构 索引 集群分片 redis 数据结构 mysql优化,事务 ,索引,MVCC 聊天
4.27 1h B2B,百度电商部门 介绍完自己直接开始写算法题 随机数据的峰值,如 1 2 3 6 5 8 7,返回 6 或 8都行,要求时间复杂度O(lgN) 斐波那契数列,要求时间复杂度O(lgN),矩阵解法 求两个字符串的最长公共子串,如 abcedfgh 和 bcedgh 最长公共子串是bced 求两个字符串的最长公共子序列,如 abcedfgh 和 bcedgh 最长公共子序列是bce
对于工作计划应用程序,我需要为w周(=7w天)生成许多可能的员工计划。员工时间表由计划期内每天的班次(早班、晚班、夜班、Rest日)列表组成。应用程序是用Java编程的。 此时,我代表员工时间表如下: 移位是表示分配移位的枚举,定义为: 我在枚举声明和方法中也有一些shift属性来比较属性,但我认为这与此无关。 每个员工都有一份他可能的时间表列表: 我的问题是,我实际上有50名员工,我想为每个员工
面试官都没开摄像头,然后让我开了。 两个面试官一男一女 1. 先讲讲对索引的理解和概念。 2.出了一道sql题学生成绩表: 学号,姓名,性别,班级,分数 按照分数倒叙,以班级分组,姓名排序 如果 分数相同 并列。 3. 删除表中 学号 为10010的数据: 4.讲讲join 5.python 中的闭包理解 6.split 和 join理解 7.给一个txt文件找出所有大写字母的个数 口述pytho
一面(11/3) 自我介绍 拷打项目 然后问了一个Flink反压的问题 二面(11/10) 自我介绍 拷打项目 问了前端展示大量数据,如何考虑?(可能大佬就是前端的) 问了用了哪些数据库? 问了Kafka 和 Flume 的应用场景? (可能时间比较紧张,所以问的比较急,二面没有遇到反问环节了)
项目为sgg经典离线数仓 1. 自我介绍 2. 项目介绍(难点、亮点) 3. 根据难点亮点提问 4. 数据域是什么,如何划分数据域,为什么这样划分数据域 5. DIM层维度表的设计原则 6. DWD层事实表设计要点 7. mapreduce shuffle流程 8. maptask和reduce task 与哪些因素有关 9. 数据热点(数据倾斜)在哪些场景下出现,如何解决 10. spark是为
主要内容:1.数据核心原理:从“流程”核心转变为“数据”核心,2.数据价值原理:有功能是价值转变为数据是价值,3.全样本原理:从抽样转变为需要全部数据样本,4.关注效率原理:由关注精确度转变为关注效率,5.关注相关性原理:由因果关系转变为关注相关性,6.预测原理:从不能预测转变为可以预测,7.信息找人原理:从人找信息,转变为信息找人,8.机器懂人原理:由人懂机器转变为机器更懂人,9.电子商务智能原理:大数据改变了电子商务模式,让电子商务更智能,科学进步越来越多地由数据来推动,海量数据给数据分析既
一面 共 30min 自我介绍 实习经历介绍 项目介绍:数仓分层的理解 为什么用spark而不用hadoop 为什么spark比hadoop快 spark开始计算的标志 java抽象类和接口的区别 对继承和多态的理解 最近有想要学习的新技术吗 #科大讯飞##秋招##大数据#
主要内容:1.数仓构建,2.数仓最重要的是什么,3.如何保证数据的准确性,4.如何做数据治理?数据资产管理呢,5.如何控制数据质量,6.元数据的理解?元数据管理系统,7.数仓如何分层的?及每一层的作用,8.为什么要分层1.数仓构建 1). 前期业务调研 需求调研 数据调研 技术选型 2). 提炼业务模型,总线矩阵,划分主题域; 3). 定制规范 命名规范、开发规范、流程规范 4). 数仓架构分层:一般分为操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS),其中公共维度模型层包括