1. 自我介绍 2. 讲解一下项目 3. 项目中数仓为什么要这样分层。 4. 关于数模比赛项目的问题。xxx 5. 写sql题。 用户访问日志:user_id, device_id, date 求1. 给定时间2024-06-17 用户、设备的数量,都有重复值,都有可能为空 第一次写法: select count(distinct user_id) user_cnt count(distinct
9.21号下午一面的,忘记发牛客了,现在补上 一个年轻并且非常友好的面试官,沟通也比较顺畅,完全按照我的简历一条条过,八股很少,问也只会问涉及项目的八股 - 介绍实习部门的业务,数仓架构 - 以下内容都是我简历具体的内容,可能没啥参考意义,中间穿插的一些细节问题有点忘了: - Cube表性能优化,还有其他优化的方法吗 - 表分桶优化,一般表关联还能怎么优化 - 小文件治理 - SLA治理 - 数据
25、MR工作原理 Input Spliting:输入的数据被拆分成更小数据块(Input Splits:将大文件切割成适合并行处理的小块数据,每个小块数据称为一个分片,一个分片作为MR处理的基本单元)Mapping:mapper节点将分配到数据块执行map操作,产生中间结果(k,v)键值对并写入到本地磁盘Shuffling and Sorting:Mapper节点会根据Key进行排序,并将相同K
#软件开发2024笔面经# 1说说你对数仓里分层的理解,越详细越好? 2说说你对数仓里数据建模的认知理解,越详细越好? 3之前做过数仓么? 4请简要说明什么是数据仓库,以及它与数据库的主要区别。 5列举几种常见的数据抽取、转换和加载(ETL)工具,并简述其特点。 6如何处理数据中的缺失值?请举例说明至少两种方法。 7讲一讲你对分布式数据处理框架(如 Hadoop、Spark 等)的理解。 8在大数
1.自我介绍 2.介绍项目,数据哪来的,数据量级,数仓模型,曝光率怎么算的 3.难点介绍,随spark版本变化会不会有一些函数不适用 4.bitmap的JAVA实现,哈希冲突怎么做的 5.数据倾斜介绍 6.除了数据倾斜,还有哪些优化手段 7.开窗函数 8.udf用过吗 9.JAVA实现过什么项目 10.sql:去掉一个最高分去掉一个最低分求用户平均分 很常规的一次面试,没什么好细说的 #数据人的面
发帖只是做个记录,给其他朋友做个分享,也欢迎交流。 我的情况 国内双非本科大三,统计学。想从事数据分析、数据挖掘方面的工作。 一面(2022年07月20日16时00分) 以下的问题都是当时随手记的,现在回忆可能不要准确,见谅 自我介绍 你有哪些技能?你学过什么课程? 你做过什么项目,具体是什么业务?遇到了什么问题?使用了什么技术? 你的技术、技能都是你自学的吗? 你讲讲你对结构化数据和非结构化数据
首先hr先让做了两道C语言的题,都不太难,一道是输入一串数字,按照从大到小排序。 另一道是给一串字符串,判断子字符串出现的次数,然后是技术面试。 然后是项目,在项目中是做什么的,问的比较细,还有是做项目过程中遇到的问题,做的产品采用的是哪款MCU,用到了哪种通信方式,编写代码时常用的函数: 1.memcopy函数的实现 2.编写函数,显示一遍文章中最常见的十个单词 3.#define和typede
离线数仓项目介绍 hdfs读流程 hdfs 中datanode怎么与namenode交互 mr过程 hive数据倾斜,介绍原因和解决方案 介绍一下网络结构,tcp在哪一层 java有哪些集合类 介绍java接口 MySQL索引 数据结构(B+树) 反问 上海银行数仓技术框架
毕业时间, 对网络工程师的理解对 特斯拉的了解,特斯拉主营业务,说几个特斯拉产品型号 英语水平怎么样?口语能简单交流吗?用英语简单介绍一下自己 特斯拉在上海郊区可以接受吗?期望薪资是多少?冬奥会主要负责什么? 如果发offer可以提前实习吗?多久能到
前排狗头保命希望现公司认识我的朋友们别gank我。(doge 前几天刚看到华子的网工还在招人就投了一个,今天面试完了就来写个面经吧,个人理解仅供参考。 时长:一小时=1min/人 自我介绍+5mins题目阅读思考+20mins讨论+3-5mins总结发言+10-20mins面试官提问 个人评价:题目正常,保持个人持续输出就行,面试官提问也是几个常规提问。(经典你觉得谁表现得好谁表现得差) 个人建议
1. 自我介绍(学校专业+项目经历) 其实我说的很少,我刚开始就一句话介绍,把面试官搞尬住了。然后他说:就这些吗?我:啊啊啊啊我没有好的项目经历啊啊啊 2. 介绍项目——SM4加密算法流程 3. 对称加密与非对称加密的区别 4. Qt界面如何实现 5. 常用编程语言:C、Python,熟悉C++ 6. C中的sizeof和strlen的区别 7. 想要在函数中传入一个数组该如何操作?指针 8. 链
一面:30min 自我介绍 实习和项目内容 数仓常问的分层、维度建模等 八股,基本是按照简历问的 Spark和MR区别和优劣? Spark的Shuffle和MR的Shuffle的区别? Standalone模式是怎么调度资源的,Yarn模式有什么变化? Kafka消息投递保证机制?有出过问题吗?怎么解决? 介绍一下HBase?优缺点?使用场景? LSM数和B+树区别? SQL题: 同时在线最多人数
首先想说面试官真的好!很善解人意,听出到菜鸡的紧张不停地安慰我 总时长大概一个小时 1.自我介绍。 2.python的lambda函数举例实现。 3.说说python内置的数据解构。 4.ACID。 5.撕项目,大概20多分钟。 6.你知道的排序算法有哪些,HR选了一个排序,说一下基本的算法思想。 7.是否用过索引,介绍一下你所了解的索引 8.(因为简历)java的熟悉程度如何。 9.窄依赖和宽依
一面(30min) 自我介绍 手撕(1-n)整数中1的个数 手撕最小覆盖子串(滑动窗口),没撕出来,讲了讲思路 问了问项目里面遇到的难题以及如何解决 二面(30min) 自我介绍 问那个项目对自己提升最大,学到了那些 问TCP三次握手交换了那些信息(只答了序列号,应该还有MSS,窗口大小) 介绍操作系统中的锁,讲了讲(自旋锁、互斥锁、信号量实现以及应用场景) 场景题,A B一个客户端一个服务端,问
当然,肯定不是最优解,算是暴力破解,但是可以参考一下解题思路啦。 主要通过集合来记录了之前的数据信息,算了,我也不多说了,代码我都写了注释的,应该很好理解。 (题外话:包括第三题也是,可以通过 map 来记录当前节点的父节点,一旦发现不平衡,直接 map.get() 就可以获取父节点,随之做相关的处理) #哔哩哔哩秋招#