全程拷打实习和项目,问的很细,刚实习做的项目一些细节都被问到了,但我已经忘了,问了项目的各个点的技术方案对比,然后结合项目问了一些高可用方面的问题和设计,压力很大,手撕是最长回文子串。反问环节问面试在哪个组,他说他是架构师,负责给各个组指导架构设计,头一次听说还有这种人,怪不得一直拷打设计
单选考点主要是概率统计,涉及到离散分布,连续分布,贝叶斯公式,全概率公式等,sql题目总体不难。第一道分组求和,第二道比较两个月的涨幅,第三道主要需要用到窗口函数。#拼多多##数据分析##笔试#
1.自我介绍 2.实习最大收获 3.odps平台的性能调优与spark的性能调优的共同点和差异点 5.spark的countdistinct算子优化 6.bitmap作用在expload的作用是什么? 7.小文件过多的影响 8.sql countdistinct优化代码手写 9.反问 #大数据开发##数据人的面试交流地#
对Hadoop的了解 MapReduce的工作流程 虚拟内存的工作原理页面置换算法(LRU、FIFO、LFU、最佳置换) Hive的功能和优点常见的数据结构(数组、栈、队列、链表、树、图、堆、散列表) 堆的概念及分类常见的排序算法(冒泡排序、选择排序、快速排序) 平衡二叉树的定义查找平衡二叉树节点的时间复杂度
1.手撕kmeans(不会) 2.sql 百分位取数(percent rank) 字符串拆分(不会) 3.编程 滑动窗口 不用库取随机数(取当前时间毫秒作为种子)
一面: 1.涉及过数据挖掘的项目讲一讲,这里分错的样本有没有研究一下为什么会分错。 2.讲一讲SVM、XGBOOST原理。 3.知不知道决策树剪枝,具体怎么做的,在哪一步做 4.知不知道LightGBM 5.深度学习有没有了解? 6.过拟合的L1范数和L2范数有什么区别? 7.mapreduce原理和过程 8.给key,value两列,找出每个key里第二大的值并输出。用python自己定义一个数
自我介绍 实习工作介绍 事实表与维度表如何搭建 星型模型与雪花模型 维度冗余 业务场景理解 数据倾斜原因和常见手段 手撕 一道sql: 连续登录7天用户 两道算法: 二维动态规划 n! 尾数0的个数
场景题:上游订单数据有问题,时间也是错误的,你怎么从 ODS 中找到这张订单表的位置?(不会) 第一种思路:全表扫描 第二种思路:做一张表,对表id进行hash,表中存储该表id对应的分区 DWS 层能不能没有(答:模型设计中我们一般要做到公共处理逻辑的下沉和单一,所以一般我们会把汇总逻辑放到DWS层,不把它暴露到APP层去实现,所以一般总会设计DWS层的) FlinkCDC MySQL 连接器的
#浪潮25提前批# 时长10分钟 1.为什么投数据岗 2.了解和使用过哪些数据库 3.如何提高MSQL查询效率 4.接触过python脚本吗 5.python中的命名空间是什么 6.java开发过程中遇到最多的报错是什么 7.数组越界产生的原因,如何解决 8.空指针在什么情况下会产生,如何解决 9.equals和==的区别 10.还有哪些方面的知识想更多学习一下 11.对大数据比较感兴趣吗
8月04日 网申 8月10日 笔试 8月29日 一面 自我介绍 深挖项目 手撕 对未来工作的期望与要求 无八股,无场景 反问了几个问题 一志愿到店挂了,面的是二志愿到家。 一个小时纯纯拷打项目,挖得很深,好几次险些答不上。 最后十分钟问了对工作的期望,一道easy手撕,反问了几个问题。 三个小时后邮件约了二面,效率真高。 [8月30日更新] 8月30日 二面 自我介绍 项目 来工作的期望与要求 无
腾讯teg云平台架构 一共面了1小时40分钟,全程拷打项目 一个场景题:对于一个实时的日志流,如何采样30% 三个手撕题: 1. 求一个数组的第k大的数,要求O(n)的时间复杂度 2. 使用mutex实现一个读写锁,并问在读多写少的情况下有什么问题,进行优化。 3. 买鱼的问题,题干太长了。。。 第二天就挂了,为什么一面就这么大的压力啊,还是我太菜了
自我介绍(尽量与职位相关) 数据仓库的分层结构 如何为新业务建模 选择模型的依据和考量 设计一个一对多关系的事实表和维度表 实习中使用的计算引擎 Spark UI的关键内容 数据倾斜问题的解决方法 项目介绍 指标下沉时为何要拆分 SQL调优的具体案例 SQL题:求中位数
自我介绍 为什么这么快找实习 离线数仓介绍 数据哪里来的 有什么数据 实时数仓和离线数仓的数据是用的同一份数据吗 有什么需要去聚合的指标 做这个项目有什么收获,难点 sql题 第二大薪水 排序秒了 8.19 oc
昨天面的今天就挂了,一共俩人,中间进来一个应该是主管,面试体验感官很差 楼主投的岗位是【数据管理/恢复】要求是熟悉STL/Boost库使用,了解操作系统内核编译/文件系统/数据存储/编译器/加解密 (1)项目内存管理中的遇到的问题? 从实模式的内存分配到保护模式,从映射内核空间到fork创建新进程。从我自己的项目到linux,不敢说讲的多细,该讲的都讲了。好,不问,直接下一个环节。 (2)智能指针
介绍开源项目 介绍离线数仓 可视化用的什么框架 spark的submit的参数 了解和做过数据清洗吗 数据怎么清洗 数据倾斜的优化思路 了解scala吗 给场景进行去重 和 选最近一条数据 两道代码 两数之和 数组的小和 1个小时 有些忘了