我有一个问题是这个问题的变体:Flink:如何存储状态和在另一个流中使用? 我有两条流: val ipStream:DataStream[IP地址]= <代码>val routeStream:数据流[路由表]= 我想知道哪个包裹使用哪条路线。通常可以通过以下方式完成: 这里的问题是,我无法在这里真正为流设置密钥,因为这既需要完整的表,也需要ip地址(并且密钥必须独立计算)。 对于中的每个元素,我需
# 一、索引和约束 # 何时使用索引 索引能够轻易将查询性能提升几个数量级。 什么情况适用索引: 表经常进行 SELECT 操作; 表的数据量比较大; 列名经常出现在 WHERE 或连接条件中 什么情况不适用索引: 表经常进行 INSERT/UPDATE/DELETE 操作; 表的数据量比较小; 列名不经常出现在 WHERE 或连接条件中 # 索引的优缺点 索引的优点: 索引大大减少了服务器需要扫
#面经# #秋招# #博世# 1面是和hr,问了一些简历相关的实习和项目,再聊了聊对公司的了解。hr小哥哥人很好。 2面是和欧洲老板,全英面试50min。全程像平时与欧洲人聊天的风格,准备的问题都没考,比较轻松的氛围。问的专业问题不多,一直在夸我(熟悉的欧式捧杀风格),但面完更没底了。
#数据人的面试交流地# 今年找实习和秋招都很难,很多公司投了都不理,在这里记录一下自己面过的一些公司面经,顺便拿个奖励 2023届实习面经:音泰思(大数据开发实习生) 好像是个对日外包公司,这是我的第一次面试,第一次就体验到了10分钟的面试 下边是面试内容: 2022/03/15 一面: 自我介绍 介绍下项目 jvm垃圾回收机制 为什么要用kafka mr flume断点续传 2022/03/15
#数据人的面试交流地# 第二次实习面试 巨杉数据库 一面 数据库应用开发工程师 2022/03/17 常用的容器,Arraylist hashmap的区别 iolist和listnext(这个可能听错了,当时没听懂是什么) 数组、链表、栈、队列的不同 tcp udp 流量控制 进程和线程 mysql了解啥,说一下高并发 项目 hive sql 用过哪些优化 MVCC用来干嘛 进程间通信的方式 Li
#数据人的面试交流地# 十方融海 大数据开发实习生(秋招提前批) 一面:2022/05/30 自我介绍 this super 值和引用 垃圾回收算法 多线程用过吗 回收算法 进程线程 Linux子系统: linux内核的子系统有5个: 1、 进程调度控制系统(SCHED); 2、内存管理系统(MM),主要作用是控制多个进程安全地共享主内存区域; 3、虚拟文件系统(VFS); 4、网络接口(NET)
#数据人的面试交流地# 广州丰石科技 大数据开发实习生 2022/06/07 一面:感觉就是kpi 进去之后做一份面试题,hr叫我做小题,后边的大题不需要做,做完之后面试的时候给面试官看,第一句就是后面的题不会做吗? 蚌埠住了。。。 自我介绍 spark中数据迟到怎么处理 hive权限管理 cdh kafka分区策略 sparkstream对接kafka的方式, hashmap键和值允许为空吗,
#数据人的面试交流地# 赫基集团 大数据开发实习生 一面:电话面 2022/06/21 1.sql判断是否有重复数据 2.数据库引擎的区别 3.说一下项目 4.项目中转化率数据异常怎么进行清除 二面:主管加hr面 2022/06/31 项目和经历 建模(雪花模型和星型模型) 渐变字段 笛卡尔积用在什么场景?没想出来,最后面试官说这是个坑,说没人愿意遇见笛卡尔积 还有普遍hr问题 反问 科大讯飞 A
#数据人的面试交流地# 中数通 数据岗 2022/11/02 毕设做好了吗,方向是什么 什么是大数据 用过的存储工具 Hadoop和hive的区别 用过的采集工具采集 数据的过滤是怎么做的,再flume定义的拦截器,json异常怎么进行处理 kafka是什么 用过的数据挖掘,体现再哪里 数据的展示 flume和spark分别是什么,什么时候采用 参加过的比赛 比赛中是如何完成,分工,时间,设计,流
#数据人的面试交流地# 2022/09/30 闻泰科技 大数据开发 一面: 为什么当程序员? 加班接受? 家人愿意让你去深圳发展吗? 职业规划 mysql: 索引了解吗 性别适合做索引吗,经常改变的字段适合做索引吗 MySQL的锁 事务的四大特性 事务内增删查改的语句是按顺序执行的吗 视图是什么 数据是怎么存储的 hive:hive在hdfs上的存储格式 怎么看hive表的存储路径 show ta
hr先介绍工作内容-excel报表人,数据库无权限 确认最快入职事件,最长实习时间 自我介绍环节 提问:偏感性or理性,用实例佐证 反问环节
阅前预警:俺是社招,和校招的同学面试可能略有不同 1-HR电面 自我介绍 讲一个过往项目 了解SHEIN吗 目前坐标,为什么要来广州,求职地理范围 过往薪资,意向薪资 2-业务负责人视频面(商品企划) 自我介绍 自我介绍深挖,讲一个和过往经历相关的项目 项目深挖,选取哪些指标,怎么发现问题,实施哪些策略,如何确定不是另一方面的问题 是否会SQL(就问了一句,没细挖。。。 反问 “后续和hr联系,谢
没看到cvte有什么产品岗,所以瞎投了数据挖掘,结果笔试都没有,早上忽然打电话要电话面试。 什么都没准备就这样去浪费hr时间了。 主要还是聊简历上的项目,很喜欢问xx和xx的区别,但项目不会全问,只问了我介绍的那个。 然后问了一些编程和数据库的基础知识,但我大脑一片空白,回答得稀烂,尴尬到脚趾抓地只想赶紧结束。 全程持续了二十六分钟,面试官人很nice,不会过度刁难,希望凉掉吧不要再有技术二面了?
#软件开发2024笔面经# 0)项目中遇到哪些问题? 1)业务数据采集框架选择(FlinkCDC,Maxwell,Canal) 2)Dwd 层新老访客修复、Dws层用户回流状态过大,选择状态后端不合理导致OOM3)状态后端选择 RocksDB导致链路延迟过高 4)Dws层读取外部数据库维度数据网络延迟过高导致反压 5)数据倾斜导致的反压 6)Flink SQL 未设置 TTL 导致的 OOM 7)
#软件开发2024笔面经# 阿里云数据开发岗位面试公司名称:阿里云 面试岗位:大数据开发 整个是大数据开发,我以为是数仓开发,结果问的全是Spark问题,被搞自闭了。1,自我介绍 2,park中RDD的Task数量由什么决定?3,Spark怎么实现算子中的变量共享?4,Spark共享变量的使用条件? 5,可序列化?连接池实例是在算子内还是在算子外? 我一开始没想好,先回答了连接池的作业:是为了连接