主要内容:1.开源OLAP综述,2.开源数仓解决方案1.开源OLAP综述 如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求。现在ROLAP计算存储一体的数据仓库主要有三种,即StarRocks(DorisDB),ClickHouse和Apache Doris。应用最广的数据查询系统主要有Druid,Kylin和HBase。MPP引擎主要有Trino,PrestoDB和Impala。这些引擎在行业内有着广泛的应用。 在云资源层,主要有E
主要内容:1.关系,2.区别1.关系 现在,没有什么流行词比大数据和人工智能更常见了。无数的分析家向我们保证,将从根本上重塑我们的日常生活。事实上,对于围绕人工智能和大数据的所有讨论,很少有人提到这两种新兴技术的融合,尤其是在解释人工智能为什么迫切需要大数据以取得成功的时候。 这是人工智能和大数据操作之间的秘密联系,以及这两种新兴趋势将如何主导21世纪。 没有大数据就不能拥有智能机器 在开始描述人工智能和大数据如何一起工作之
update: 9.30 约 10 月中旬 HR 面了,许愿 OC 🤗 --- 9.29 字节四面,问了 HR 四面技术好像是这个部门的正常情况😅,I'm like, well... - 自我介绍 - 上来先做了一道题:Leetcode 解码方法(动态规划) - 实习具体负责哪些工作,占比是怎样的 - 你们数仓团队几个人,数仓怎么分层、分主题 - 分层的意义 - 你在商品域的工作中是否会涉及边
9.12 一面结束后半小时飞速约了二面,9.14 二面 - 自我介绍 - 为什么读研 - 为什么转专业 - 你对大数据的理解 - 介绍一下实习组内的分工、数仓架构 - 以商品域为例,数据的模型/表有哪些,从哪些角度评价数据模型 - 你们组具体的宏观的业务流程 - 具体是怎么和其他部门协作的,流程是怎么样 - 你是怎么理解数开的工作的,你个人的偏好是哪方向 - 数据库的范式、事务 - 范式建模、维度
中秋假期所以二面三面间隔了挺久的,9.23 三面,面试时间很短,35 分钟左右 - 自我介绍 - 实习介绍 - 看你做了很多任务优化,讲讲优化的思路,从哪些方面去考虑 - 介绍一下 Cube 表去重优化 - 介绍一下***识别项目 - 你们商品维表数据量 - 你们实习部门的数仓分层 - 用户域和流量域的区别 - SQL:今天登录但昨天没登录的用户 - 算法:二叉树层序遍历,自己构造输入输出 - 你
👥 面试题目 hadoop的三个核心组件,以及hdfs的读写原理 hive的内部表与外部表有什么区别 hive里面的数据倾斜是什么?怎么去处理?该怎么去预防? 数据仓库的分为几层?每一层是做什么的?是根据什么进行分层的? hive里面的窗口函数有没有用过?rank(),,dense_rank(),row_number()这三个有什么区别? hive里面数据表合并是怎么合并的? hive里面的列
1.数据分层概念 2.Hadoop 和spark 优缺点 3.数据倾斜 场景题 大表和小表join 4.宽窄依赖 5.sql题 6.走楼梯算法 7.hive的用户自定义方法区别
问题内容: 我的redis实例似乎正在变得非常大,我想找出我那里的多个数据库中的哪个消耗了多少内存。Redis的命令仅向我显示了每个数据库的总大小和密钥数,这并没有给我带来太多的了解…因此,在监视Redis服务器时为我提供更多信息的任何工具/想法都将受到赞赏。 Redis文档没有显示任何可以返回某些键消耗的内存的命令,因此我想如果有错误代码会为Redis写很多“废纸t”,这可能很难找到… 问题答案
中午两点打过来,我说暂时没空约了晚上八点 面试时间控的很准,也没有反问就结束了 一面15min [项目]- [ ] Linux起一个服务端的过程 -[ ] 使用哪种epoll工作方式 - [ ] 水平触发与边缘触发编写时要注意些什么 - [ ] 多进程如何通信 - [ ] fork如何判断父子进程 - [ ] 虚函数的作用 - [ ] 虚函数的使用场景 - [ ] 了解的C++智能指针 - [ ]
1. 自我介绍(讲了两个项目,面试官就根据这两个项目开问) 2. 挑一段学习比较多的项目介绍(我回答了一个医院临床信息系统) 3. 项目是基于什么语言开发的? 4. 使用Redis集群实现数据分区是怎么实现控制不同数据在不同分区的(回答无法准确控制,是用哈希函数实现的,随机分配) 5. 怎么考虑缓存的数据更新,做了什么工作(回答设置Redis缓存设置过期的时间) 6. Redis数据过期机制(回答
1.自我介绍 2.python的编译为什么比golang慢? 3.golang是怎么编译的(编译过程)? 4.发送http的请求中发生了什么? 5.https了解么? 6.go的模块了解么 7.mysql的事务讲一下 8.mysql的锁 9.讲一下gin框架 10.给gin搭建了什么脚手架 11.http长连接 12.https比http在OSI模型层里哪个方面有区别,有什么区别? 13.go b
lz大概7月份的时候在百度官网投递的,大概9月份突然某一天hr打电话过来面试,base上研大厦,然后现在已经在这干了差不多两个多月,现在有点空回过头来写个面经。总体比较简单,就是招人进来干活的。 一面 50min 自我介绍 Java基础 泛型 接口的意义 JVM垃圾回收算法 Mysql索引相关 算法题 1.括号匹配 2.合并两个有序数组 然后聊了些七七八八的 二面 30min 聊了下Kafka在之
自我介绍 大四没课吗? 实习为什么只实习了2个月。 可以实习多久。 HTTP1.0和HTTP2.0的区别 HTTPS加密原理 TCP和UDP的区别 TCP为什么稳定 TCP重传机制、流量控制 TLS加密 动态代理 JVM内存结构 类加载过程 手写单例模式 MySQL日志 算法题大数加法 被问老实了,其中还问我熟悉哪块,最近刚好复习了MySQL的索引然后吟唱了一波。 反问
我正在开发一个应用程序,希望在实时事件和过去事件上运行Flink SQL。我尝试了一个POC,其中Flink在Kafka等流源上运行SQL,SQL查询只返回新的事件/更改。但是,我想对所有数据运行SQL,有些数据可能会随着时间的推移而改变。基本上我的要求就是连续查询整个数据。如何通过Flink或其他流媒体解决方案实现这一点?