1、 是找大数据还是算法? 2、 对大数据领域的了解? 3、 从0-1建设数仓,你怎么做? 4、 数仓建设规范,依据? 5、 没想一块去,他想问建模思想之类的。维度、范式 6、 会哪些技术栈? 7、 Hadoop讲讲吧? 8、 为什么要有Hive,Hive作用? 9、 详细讲讲MR? 10、 数据倾斜发生的位置? 11、 Combiner了解吗? 12、 什么情况下不能用Combiner? 13、
1、 在XX实习,目前没有offer吗? 2、 实习和你项目的区别、实习项目主要做的内容? 3、 实习的难点? 4、 系统主要做的什么? 5、 讲讲MR? 6、 数据倾斜遇到过吗? 7、 除了null值呢? 8、 除了随机打散还有别的方案解决吗?
一面 1. 自我介绍。 2. 两道SQL。①订单表(订单id,用户id,产品id,订单金额),用户表(用户id,用户年龄),产品表(产品id,品牌)三张表,提取不同品牌产品在不同年龄段消费者人群中的平均消费金额。②分组求前十。 3. 详细介绍一个项目。 4. 介绍一下多元线性回归的优缺点、朴素贝叶斯的优缺点。 5. 如果某天发现后台数据指标下降,怎么分析? 6. 之前没有数据分析的实习经验,为什么
一面 1. 自我介绍。 2. 深挖简历项目。 3. 如果抖音在东北地区发起了一个红包活动,怎么看效果?(答:AB实验) 4. 如果有一部分人收到红包,另一部分没有,会引起用户不好的反响,怎么办?(答:可以用DID方法,找个类似APP作对照,比如火山,面试官肯定了一下思路,说更好的方式是用两个地理位置较远的城市作对照) 5. 解释一下具体效果怎么算?(答:DID方法比较变化量的差值) 6. 如果两组
面试官全程微笑,体验感极好。 上来大佬先来了个礼貌式微笑。 然后自我介绍。问了问我的研究方向(多模态) 聊了聊大数据相关的技术? 如果来大数据部门想做什么? 问了一下我做的数据挖掘的比赛? 然后30min一道题。 二叉树的z字遍历和阻塞队列二选一 问了一下时间复杂度和空间复杂度。 反问环节: 部门培养人的计划是什么? 您是做什么的? 整体感觉很流畅,体验很好,期待过 ps:滴滴23秋储 一共几面?
问题难,麦听不清,摄像头也不开。 1.怎么从0开始学习一个大型的数据库内核项目,没人指导的情况下,出bug怎么找,发现是内存坏了(非硬件)怎么解决 2.讲讲智能指针,聊到了move,函数内部创建了一个临时对象a,最后return move(a),问返回值类型分别是A, A&, A&&时分别会发生什么? 3.c++14之后了解啥 4.lambda表达式捕获外部变量时传引用会有什么问题? 5.读写锁怎
本文向大家介绍3个用于数据科学的顶级Python库,包括了3个用于数据科学的顶级Python库的使用技巧和注意事项,需要的朋友参考一下 Python有许多吸引力,如效率,代码可读性和速度,使其成为数据科学爱好者的首选编程语言。Python通常是希望升级其应用程序功能的数据科学家和机器学习专家的首选。 由于其广泛的用途,Python拥有大量的库,使数据科学家可以更轻松地完成复杂的任务,而无需很多编写
9.2 一面 18min 自我介绍 介绍下做过的项目 科研经历 反问 。。。无了 都没专业问题 听着像是搞实施,写文档,还得出差驻场那种 --------------- 9.14 收到 9.19二面通知 9.19 二面 50min 自我介绍 项目介绍 数仓分层概念 拉链表具体细节?更新数据得方式? #秋招#
已oc。 星环科技-大数据产品经理-面经 一面:3.17日下午2:00 写在前面----- 面试官是一位很有亲和力的小姐姐,但也是我面试以来唯一一位没有开摄像头的面试官。 自我介绍后,下面是一些提问: 1.简历深挖,主要讲了我在两个项目中负责的部分,想看看我作为主导解决了什么问题,以及相应能力。 2.有没有用过数据安全相关的产品。(我回答我们日常生活中大多接触的都是to C端产品,to B端除了企
了解哪些大数据组件 Shuffle 的作用是什么 Shuffle 中合并的操作有什么用/好处 MapReduce 中出现数据倾斜怎么处理 Yarn 有哪几个比较重要的进程 ResourceManager 主要的作用 ApplicationMaster 主要的作用 任务的监控在哪个进程 ZooKeeper leader选举机制 ZooKeeper 读写一致性具体体现在哪些地方 Spark 宽窄依赖
🍆 数仓方向 9.19 一面 第二天就挂了 自我介绍,科研项目介绍(项目相关问题提问) 1) 内部表和外部表的区别? 2) 窗口函数? 3) 知不知道比HDFS活跃度更高的产品? 4) Zookeeper常用得场景和用法?RATF协议了解吗? 5) CAP原理?一致性的概念? 6) Hadoop如何保证一致性? 7) Hadoop生态圈和MySQL等分布式数据库的区别? 8) Hive支
9.22 一面 1h 自我感觉挺好的还,9.26挂了 1)自我介绍 2)两个项目介绍 3)Hadoop的元数据存在哪里? 4)什么是缓慢变化维?拉链表的数据具体是怎么更新?并举例 5)Kafka的零拷贝机制? 6)对RDD的了解 7)哪些情况下会发生索引失效? 手撕代码 1)无重复字符的最长子串 双指针+map 2) 求出数组中最小的n个数 3) 求出每个部门的薪资前三的用
笔试时间 90min 20道选择题 + 3道编程题 主要还是考数据库的操作 如何增删查改 如何检索 然后阅读数据库代码 找错误/模拟运行 只有一道算法题 是AcWing_3578题 的变式 个人感觉算是降低难度 每次操作选取两个数 ai 与 aj, 并赋值ai = ai + aj, 删除aj; 中位数计算方式为为(m+1)/2向下取整。 输入第一行数据组数t 此后每组 第一行数组长度n 操作k数
岗位:数据科学家 面试体验:数分也太卷了,面熟馆年纪看上去不大,亲和力很强。自我感觉答得其实还可以,但是第二天秒挂,还是回来卷算法吧,复活了一个算法工程师岗位,已约面。 字节跳动 9/7 60分钟 1. 自我介绍 2. 经济学中因果推断的相关介绍,算法测如何实现 3. 实习当中遇到的推荐问题的相关解决方案 4. 大科研中模型是如何设计,如何评估的 5. A/B test中,假设检验是什么 6. 第
因为来学校宣讲,直接打电话让去面试,笔试也没参加;听完宣讲会后直接面试,因为宣讲会开得比较久,怕太晚结束不了,每次面三个,所有的科技岗都是一个面试官,这个面试官经历挺丰富的,我这组数分和研发的他都能问不少问题; 首先是三个人每个轮着自我介绍,接着就主要问简历,没啥技术问题,我是主要问了我项目,数学建模建的啥,具体是干啥的,遇到了什么问题,收货有什么;然后问为什么选择银行;每个人都是差不多10分钟,