04-09 一面 04-16 二面 04-25 hr面 04-28 offer 差不多每周推一次进度, 暑期实习唯一一个offer, 很满意了
上海一家小公司,啥也没问,然后就过了,会不会有诈啊我靠,就说实习生也不要求干啥,但是他那边说干数据库的,开发为辅,感觉对技术提升不是很大,而且感觉有坑😅
时间流程:我是在boss上投递的,其实去官网投递更好。建信金科,厦门的数据分析建模岗位。4.17上午初面,下午就发了笔试通知。4.19上午二面,4.20笔试,选择题,一道字符串题,一道SQL题,需要用手机扫二维码,占用了手机设备,导致我当时查不成信息。 面试内容: 自我介绍。后面主要是针对项目内容详细询问,两次都问到做的评分卡模型是怎样筛选特征的,不平衡处理方法。 期刊是几作,论文等级,论文相关内
一面(4.24): 总体30 min 1.为什么在上一家公司离职 2.对公司有什么诉求 3.理解到你的诉求是想提升技术了,那假如在公司干活不能提升你的技术那你会怎么办(跑路) 4.你希望自己以后成为什么样的人 5.AB test 6.标准明细表(没太听懂) 7.数仓的分层 8.spark为什么比MR快 9.项目中具体干了什么活 10.你觉得沟通很重要吗 11.如果你有简单的方案可以完成业务方的需求
来源:boss 内容:自我介绍 校内数据分析的课程用到的工具 为什么选择南京 上一份工作中数据处理的内容是怎么做的 期望薪资 用axure干嘛 经济学课程有没有涉及到数据 平时数据来源在哪 家里有没有兄弟姐妹 去南京家里有没有意见 现在在哪 什么时候可以到岗 有没有关注财经的信息(想问一些证券的内容,抱歉,我一点不懂) sql查询的语句,因为不会而延伸到access实验课成 未来工作规划 能不能接
我傻了,一个八股没问,而且我好像说错话了,完蛋了😭 团子给我个机会吧
👥 面试题目 1.自我介绍,能不能从几个方面说一下项目 2.有什么收获 3.简历里面哪个技术学的最好 4.spark的client模式和集群模式 5.yarn 6.能够重分区的算子 7.为什么用rdd,不用df和ds,他们的区别 8.为什么spark比mapreduce更快(磁盘io和进程线程模型) 9.spark也会OOM和溢写磁盘啊,mapreduce也有缓冲区啊,都是内存计算,为什么更快(
一面 项目深挖 数仓分几层,每一层的作用 事实表如何设计 维度表如何设计 数据域如何划分 业务总线矩阵的概念 如何设计完整的指标 开发中和上线后数据质量如何保证 如何设计调度,依据是什么 hive数据倾斜解决办法 hivesql常见优化手段 什么是spark宽窄依赖,起到什么作用 sql题:用户连续登录游戏的最大天数,允许间隔一天 反问 做什么业务 教培业务中的线下面授分析 网络问题迟到了一会,面
自我介绍下吧 你这个中台有压测过吗 你写的高并发海量数据存储有哪些体现 分库分表怎么分的 有没有遇到过数据倾斜,已经上线的项目发现分片数据有倾斜怎么解决 讲讲这个项目有哪些技术亮点 布隆过滤器误判对系统不会有影响吗 Apache开源贡献做了什么 再讲一下这个通过删除缓存策略保证数据一致性 其他保证数据一致性的方法有了解过吗 介绍mysql的binlog 介绍其他的日志,redo log undo
1.自我介绍 2.对公司有没有了解 3.inner join的底层实现,有哪些算法 4.两个数组,数组的大小都在数千万级以上,但是值域是在一千万以内,找到两个数组相同的元素(说了bitmap) 换了部门负责人来面试 5.有了解过数仓整体的架构吗(面试官说现在是存算分离,实时和离线一体) 6.有写过UDF吗,当时的场景是什么样的 7.假设现在用的是yarn,pyspark从提交文件到让代码分布到各个
#软件开发2024笔面经# 数据开发面试经历 上海的亿沓科技 Kafka数据重复怎么办? zookeeper了解吗? flume架构 展开说说flume的channel? Kafka架构说说? sql底层原理了解吗? Kafka丢数据咋办? 可以说下Kafka的分配分区策略吗? 讲下数仓项目的全流程 为什么做这个数仓项目?有什么用? hdfs小文件怎么处理? python会吗? 反问 感觉问的还是
#软件开发2024笔面经# 阿里云数据开发岗位面试公司名称:阿里云 面试岗位:大数据开发 整个是大数据开发,我以为是数仓开发,结果问的全是Spark问题,被搞自闭了。1,自我介绍 2,park中RDD的Task数量由什么决定?3,Spark怎么实现算子中的变量共享?4,Spark共享变量的使用条件? 5,可序列化?连接池实例是在算子内还是在算子外? 我一开始没想好,先回答了连接池的作业:是为了连接
#软件开发2024笔面经# mapreduce运行流程 spark hadoop区别 mpp数据库怎么理解 优势是啥,你用过哪些mpp数据库 pb级别数据怎么处理 你是否使用过cube 项目中你们用的什么模型,星型还是雪花 还是其他 讲讲这几种模型的区别和优势 为什么数据仓库不推荐使用三范式,你们用的范式建模还是维度建模 你还有切莫想问的吗? 你之后怎么规划路线的? 有没有想好以后重点往那方面发展
一面——60mins 自我介绍 拉链表的制作,数据量有多少,为什么不用快照表呢 项目有哪些表 数仓分层有哪些,具体做了什么,数仓分层作用 怎么设计表,怎么建模,DIM DWD层的主题分了哪些 如何做的可视化 什么是数据倾斜,数据倾斜的解决方案 Hadoop和spark的区别 Spark的shuffle流程是怎么样的 对哪些数据库了解 Shuffle有哪几种类型 在shuffle的过程中会进行排序吗
投数科打死没有面试 刚刚改成产品了,半小时发面试,阿巴阿巴 #春招##数据分析师#