腾讯会议一面(30分钟) 自我介绍 项目介绍 数据如何采集,整个流程叙述一遍 项目难点说一下 两个项目的区别讲一下 数仓分层里面的表叙述一下有什么 分析一下两个事物之间的关系,怎么分析(有点抽象的问题),有什么经验
1.自我介绍 2.熟悉flink还是spark 答:flink 3.介绍下flink架构吧 答:这里越深越好,我就讲到了flink的jobmanager(dispathcer,jobmaster)和taskmanager 4.flink有哪些算子? 答:map,flatmap,filter,window,union等,RichFunction提供生命周期open close,上下文环境。 5.fl
#歌尔# 项目 ETL部分 拉链表的设计与作用 数据量的大小 为什么选择kmeans,介绍一下其他的聚类方法 八股 介绍下数据仓库的分层 大数据中的数据倾斜 hive开窗函数 spark streaming和flink的区别 sort by 和 order by的区别 有没有用过doris等 (没用过) 什么时候可以来实习
自我介绍 实习工作介绍 事实表与维度表如何搭建 星型模型与雪花模型 维度冗余 业务场景理解 数据倾斜原因和常见手段 手撕 一道sql: 连续登录7天用户 两道算法: 二维动态规划 n! 尾数0的个数
项目 垃圾回收,JVM调优 Elasticsearch 结构 索引 集群分片 redis 数据结构 mysql优化,事务 ,索引,MVCC 聊天
4.27 1h B2B,百度电商部门 介绍完自己直接开始写算法题 随机数据的峰值,如 1 2 3 6 5 8 7,返回 6 或 8都行,要求时间复杂度O(lgN) 斐波那契数列,要求时间复杂度O(lgN),矩阵解法 求两个字符串的最长公共子串,如 abcedfgh 和 bcedgh 最长公共子串是bced 求两个字符串的最长公共子序列,如 abcedfgh 和 bcedgh 最长公共子序列是bce
我需要向一个外部api发送数据,但是这个API对每个endpoint的请求有一个限制(即:每分钟60个请求)。 数据来自 Kafka,然后每条消息都会转到 redis(因为我可以发送包含 200 个项目的请求)。因此,我使用简单的缓存来帮助我,我可以保证如果我的服务器出现故障,我不会丢失任何消息。 问题是,有些时候,Kafka开始向许多消息发送消息,然后redis开始增长(超过100万条消息发送到
对于工作计划应用程序,我需要为w周(=7w天)生成许多可能的员工计划。员工时间表由计划期内每天的班次(早班、晚班、夜班、Rest日)列表组成。应用程序是用Java编程的。 此时,我代表员工时间表如下: 移位是表示分配移位的枚举,定义为: 我在枚举声明和方法中也有一些shift属性来比较属性,但我认为这与此无关。 每个员工都有一份他可能的时间表列表: 我的问题是,我实际上有50名员工,我想为每个员工
面试官都没开摄像头,然后让我开了。 两个面试官一男一女 1. 先讲讲对索引的理解和概念。 2.出了一道sql题学生成绩表: 学号,姓名,性别,班级,分数 按照分数倒叙,以班级分组,姓名排序 如果 分数相同 并列。 3. 删除表中 学号 为10010的数据: 4.讲讲join 5.python 中的闭包理解 6.split 和 join理解 7.给一个txt文件找出所有大写字母的个数 口述pytho
一面(11/3) 自我介绍 拷打项目 然后问了一个Flink反压的问题 二面(11/10) 自我介绍 拷打项目 问了前端展示大量数据,如何考虑?(可能大佬就是前端的) 问了用了哪些数据库? 问了Kafka 和 Flume 的应用场景? (可能时间比较紧张,所以问的比较急,二面没有遇到反问环节了)
2024.1.9 面试 Boss直聘沟通 先简单做下自我介绍吧 你项目中设计的技术选型,你都有使用过是吗? 这个项目的团队规模介绍一下 在数据部分,详细讲一下主要工作,在数据采集,处理等方面 这些工具是学校教的呢?还是自学 目前居住地 工作地点能接受吗 对加班怎么看? 你个人的发展方向 反问环节: 团队或者部门的主要工作 具体技术和工具 Hive 可视化看板 埋点工具 数据查询 数据量 上亿,需要
项目为sgg经典离线数仓 1. 自我介绍 2. 项目介绍(难点、亮点) 3. 根据难点亮点提问 4. 数据域是什么,如何划分数据域,为什么这样划分数据域 5. DIM层维度表的设计原则 6. DWD层事实表设计要点 7. mapreduce shuffle流程 8. maptask和reduce task 与哪些因素有关 9. 数据热点(数据倾斜)在哪些场景下出现,如何解决 10. spark是为
based on:serverless-kinesis-streams, but auto create Kinesis streams 在尝试了使用 Kinesis Stream 处理数据之后,我发现它并不能做什么。接着,便开始找寻其它方式,其中一个就是:Amazon Kinesis Firehose Amazon Kinesis Firehose 是将流数据加载到 AWS 的最简单方式。它可以
主要内容:1.数据核心原理:从“流程”核心转变为“数据”核心,2.数据价值原理:有功能是价值转变为数据是价值,3.全样本原理:从抽样转变为需要全部数据样本,4.关注效率原理:由关注精确度转变为关注效率,5.关注相关性原理:由因果关系转变为关注相关性,6.预测原理:从不能预测转变为可以预测,7.信息找人原理:从人找信息,转变为信息找人,8.机器懂人原理:由人懂机器转变为机器更懂人,9.电子商务智能原理:大数据改变了电子商务模式,让电子商务更智能,科学进步越来越多地由数据来推动,海量数据给数据分析既
一面 共 30min 自我介绍 实习经历介绍 项目介绍:数仓分层的理解 为什么用spark而不用hadoop 为什么spark比hadoop快 spark开始计算的标志 java抽象类和接口的区别 对继承和多态的理解 最近有想要学习的新技术吗 #科大讯飞##秋招##大数据#