自我介绍 手撕,股票最大利润 sql 成绩排名三 数仓分层 数据倾斜 遇到的问题 为什么要分层 分析了哪些指标 介绍一下spark 介绍一下hadoop 介绍一下hbase 反问 不知道哪的问题,又凉了面了这么多0offer
主要内容:1.现有数据存在的问题,2.系统架构1.现有数据存在的问题 1.1 开发数据服务门槛高 数据开发工程师除了开发完数据表外,通常还需要思考如下问题: 数据如何交付:业务通常期望使用数据接口方式来使用数据,而非数据表,这会更加灵活、解耦、高效。数据开发工程师因此需要建立对应的数据服务 服务如何开发:数据服务有多种形式,通常要求开发工程师有微服务知识、服务发现注册、高并发等 权限、可用性问题:开发完数据服务后,需要考虑权限问题,确保数据资
主要内容:1.开源OLAP综述,2.开源数仓解决方案1.开源OLAP综述 如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求。现在ROLAP计算存储一体的数据仓库主要有三种,即StarRocks(DorisDB),ClickHouse和Apache Doris。应用最广的数据查询系统主要有Druid,Kylin和HBase。MPP引擎主要有Trino,PrestoDB和Impala。这些引擎在行业内有着广泛的应用。 在云资源层,主要有E
主要内容:1.关系,2.区别1.关系 现在,没有什么流行词比大数据和人工智能更常见了。无数的分析家向我们保证,将从根本上重塑我们的日常生活。事实上,对于围绕人工智能和大数据的所有讨论,很少有人提到这两种新兴技术的融合,尤其是在解释人工智能为什么迫切需要大数据以取得成功的时候。 这是人工智能和大数据操作之间的秘密联系,以及这两种新兴趋势将如何主导21世纪。 没有大数据就不能拥有智能机器 在开始描述人工智能和大数据如何一起工作之
就面了十几分钟 面试官说我更适合去做算法 1.实习经历 2.数仓和数仓建模的理论知识(我说了维度建模 范式建模 问知不知道维度退化 不知 3.SQL:怎么找A表有B表没有的数据 数据倾斜怎么处理(不会 #发面经攒人品#
update: 9.30 约 10 月中旬 HR 面了,许愿 OC 🤗 --- 9.29 字节四面,问了 HR 四面技术好像是这个部门的正常情况😅,I'm like, well... - 自我介绍 - 上来先做了一道题:Leetcode 解码方法(动态规划) - 实习具体负责哪些工作,占比是怎样的 - 你们数仓团队几个人,数仓怎么分层、分主题 - 分层的意义 - 你在商品域的工作中是否会涉及边
9.12 一面结束后半小时飞速约了二面,9.14 二面 - 自我介绍 - 为什么读研 - 为什么转专业 - 你对大数据的理解 - 介绍一下实习组内的分工、数仓架构 - 以商品域为例,数据的模型/表有哪些,从哪些角度评价数据模型 - 你们组具体的宏观的业务流程 - 具体是怎么和其他部门协作的,流程是怎么样 - 你是怎么理解数开的工作的,你个人的偏好是哪方向 - 数据库的范式、事务 - 范式建模、维度
中秋假期所以二面三面间隔了挺久的,9.23 三面,面试时间很短,35 分钟左右 - 自我介绍 - 实习介绍 - 看你做了很多任务优化,讲讲优化的思路,从哪些方面去考虑 - 介绍一下 Cube 表去重优化 - 介绍一下***识别项目 - 你们商品维表数据量 - 你们实习部门的数仓分层 - 用户域和流量域的区别 - SQL:今天登录但昨天没登录的用户 - 算法:二叉树层序遍历,自己构造输入输出 - 你
👥 面试题目 hadoop的三个核心组件,以及hdfs的读写原理 hive的内部表与外部表有什么区别 hive里面的数据倾斜是什么?怎么去处理?该怎么去预防? 数据仓库的分为几层?每一层是做什么的?是根据什么进行分层的? hive里面的窗口函数有没有用过?rank(),,dense_rank(),row_number()这三个有什么区别? hive里面数据表合并是怎么合并的? hive里面的列
1.数据分层概念 2.Hadoop 和spark 优缺点 3.数据倾斜 场景题 大表和小表join 4.宽窄依赖 5.sql题 6.走楼梯算法 7.hive的用户自定义方法区别
五一前收到了暑期实习oc,记录一下时间线~ 4.8投递 4.23上午一面 4.27下午二面 4.28傍晚收到短信、邮箱、hr电话,收oc啦! 5.4今天上午收到邮件填了入职信息 base北京(望京东,要合租的女宝子请戳我!) 总结一下,我暑期实习4月份才开始投,算是比较晚,所以团子一面我的第一场面试,当时感觉回答的很不好,心里准备是直接进人才库的,收到二面通知时挺惊讶的,然后好好准备了项目,想要抓
问题内容: 我的redis实例似乎正在变得非常大,我想找出我那里的多个数据库中的哪个消耗了多少内存。Redis的命令仅向我显示了每个数据库的总大小和密钥数,这并没有给我带来太多的了解…因此,在监视Redis服务器时为我提供更多信息的任何工具/想法都将受到赞赏。 Redis文档没有显示任何可以返回某些键消耗的内存的命令,因此我想如果有错误代码会为Redis写很多“废纸t”,这可能很难找到… 问题答案
中午两点打过来,我说暂时没空约了晚上八点 面试时间控的很准,也没有反问就结束了 一面15min [项目]- [ ] Linux起一个服务端的过程 -[ ] 使用哪种epoll工作方式 - [ ] 水平触发与边缘触发编写时要注意些什么 - [ ] 多进程如何通信 - [ ] fork如何判断父子进程 - [ ] 虚函数的作用 - [ ] 虚函数的使用场景 - [ ] 了解的C++智能指针 - [ ]
面试官介绍了一下部门主要业务(数据挖掘、分布式存储、机器学习、虚拟化) 动态多态的实现原理 虚函数表是属于类的还是类对象的 静态成员函数可以是虚函数吗 为什么析构函数默认不是虚函数 内存对齐的作用 vector和map用迭代器一边遍历容器一边删除元素,迭代器会失效吗 map是有序的还是无序的,底层实现是什么 map为什么底层实现是红黑树而不是AVL IP层有MTU报文分段策略,那TCP是不是可以不
一面:9.26 二面:10.8 HR面:10.10 意向:10.18 offer:10.25 ----- 一面(20min): 1.你这边比较擅长的开发类语言是什么是? 2.Python 的话,我们定义函数的时候,输入参数有带一个型号和2个型号的参数,这是什么定义,这是什么含义? 3.假如说有一个随机字符串,里面有字母符号空格标点,就各种各样的字符,我要去除里面的空格怎么实现? 4.说一下就是JV