一面:投的数研,实际数科 1.自我介绍 2.实习内容 3.实习团队架构 4.map reduce原理 5.数据倾斜有没有遇到过?怎么解决 6.ab实验原理、流程、如何分析 7.假设检验原理 8.口述sql题目:求连续登陆三天的用户 9.假设检验概率论场景题:求置信区间 10.常用的机器学习算法 11.随机森林原理 12.求职意向,数科还是数研,安排下一轮面试官(回数研后第二天结束流程) 13.反问
8-3: 自我介绍 实习项目以及实习日常(20min左右) 论文(3分钟左右) 问你对大数据哪个组件比较熟悉 说一下MR的底层原理。。。。。。自己在那不知道从哪里开始说,就从map开始巴拉巴拉到写出数据,自己都讲蒙了。(五六分钟左右) 反转链表,自己处理输入输出以及链表定义(七八分钟),也没给输入输出,就只写了方法体。 先问对hive函数了解咋样,都还行。写SQL:uid,login_time,连
第一次写面经 快手音视频部门 感觉技术挺好就接了 一面 6.13 主要问了Flink的相关问题以及实习的流批一体项目 具体问的Flink问题就是数据倾斜、反压以及状态后端、checkpoint相关 面试的时候面试官提了个flink相关的名词 问我了解过吗 表示从没听说过 面试官说问题不大 具体细节问题忘记了 然后就是jvm、多线程相关的知识 这部分答的不好 没咋看java 最后就是两道算法 二面
技术一面 1,自我介绍 2,做过最难的一个功能模块,遇到最难的问题 3,现场做一道设计题,比较T1,T2两个表的数据,找出ID相同的数据(1)数据大小256M;(2)数据大小为4G; 4,面向对象的特征,如何实现多态。
9.4一面 30分钟 深挖项目,简单问了点python和transformer的八股 9.7二面 30分钟 简单问了项目,根据项目出了几个场景题,后面就一直讨论业务相关的问题 9.18 oc
面试官介绍了一下部门主要业务(数据挖掘、分布式存储、机器学习、虚拟化) 动态多态的实现原理 虚函数表是属于类的还是类对象的 静态成员函数可以是虚函数吗 为什么析构函数默认不是虚函数 内存对齐的作用 vector和map用迭代器一边遍历容器一边删除元素,迭代器会失效吗 map是有序的还是无序的,底层实现是什么 map为什么底层实现是红黑树而不是AVL IP层有MTU报文分段策略,那TCP是不是可以不
9月22,腾讯会议,两个面试官 面试时长:35min 面试官1:技术官 自我介绍 1、String类的常用方法 2、用过StringUtil工具类吗 3、常用集合 4、hashmap的put流程 5、set转list怎么转 6、说一下我的高并发项目 7、nginx的负载均衡算法 8、springcloud主要使用 9、Linux常用命令 10、docker常用命令,Jenkins怎么使用的 11、
1. 自我介绍 2. 问了一下简历上的项目(研一在国电做的) 3. Spark有没有过调优 4. 基于我对Spark调优的一些回答进行追问: ● 我提到了利用RDD缓存进行RDD复用,追问Spark缓存一般可以用什么函数做到(cache,presist) ● 追问并行度的设置方法(配置文件或在代码中) ● 并行度的值一般根据什么设置(CPU核数的2-3倍) 5. Hive执行原理(SQL到MR的过
前言 从2023年3月初开始投递暑期实习,几乎所有大厂都投递过了,有些简历都过不了,有些一面直接挂了,虽然说确实互联网行情不是特别的好,但是应该还是自己能力不足,做的简历不够漂亮; 4月的时候第一次刷到了@三石数据的面经帖(见下图),于是跟他聊了一下,真的收获太多了,非常非常感谢这位大佬的指导,不仅帮助我修改简历,而且还给我解答一些在面试中遇到的问题;大佬要是没女朋友的话,我愿意以身相许(开个玩笑
视频ms 前三分钟 自我介绍 数据仓库的了解 怎样设计数据分层 了解的大数据组件 spark用于解决什么问题 spark底层逻辑 sql的join实现方式 举例A(3) join B (5) 有几条数据 join底层逻辑 sql题 查询用户峰值 全程不到30分钟 **我就是一个小菜鸡。问就是面试凉凉 问的其实感觉没有特别难 但就是啥都不会。还是学的太过浅层次。总的来说 项目拷打 底层深挖。G
给了三道题,两道SQL,还有一个程序设计题。 1、银行交易记录表,字段有(id,存取金额(存为+,取为-),交易id) (1)求每个人的总余额 (2)求每次交易后的余额 2、学生成绩表,字段为:学生id、成绩(内容格式为:"数学:xxx,语文:xxx") 将成绩字段拆分为科目和成绩两个字段,每个学生拥有的科目不一定相同 3、一个文件里是一个整数占一个G大小,求该
了解大数据吗? 分布式是什么? 1、list、set、map之间的区别与联系 2、arraylist和linkedlist之间的区别与联系 3、数组与链表的区别 4、线程和进程的区别?为什么要设置线程? 5、线程安全如何保证?几种方法?为什么会出现线程不安全 6、线程池用于干啥? 7、同步与异步的概念? SQL相关 1、讲一下索引?索引怎么实现 2、列排序是什么数据结构? 3、B树和B+树的区别?
系统组 1.自我介绍 2.实习拷打 3.项目拷打 4.spark任务提交过程 5.sparkrdd运行过程shuffle阶段拆分 6.hdfs上文件存储方式 7.hdfs写数据流程 8.算法:判断链表是否有环 9.反问 23大概40min 4567 10min 8 5min
1.自我介绍 2.项目细节介绍 3.针对一个指标讲讲你整个链路怎么设计的 4.数据交付时数据质量如何保证 5.如果现在调度的表都是高优先级,你这个表延迟产出了,怎么办 6.hive架构介绍 7.hive优化器会做什么,详细讲讲谓词下推 8.小文件产生原因,危害,解决方法 9.spark遇到的挑战 10.实时了解过吗 11.你们公司的数据链路,数仓分层是怎么样的 12.数据怎么采集的,binglog
快手数据研发一面(45min) 一面:技术面 一位面试官:一位特别特别特别特别好的面试官【我真的好走运,遇到面试官真不错】但是个人太菜了,估计凉了。 1、个人介绍 2、硕士期间的课程(与大数据相关的软件会在课程教吗,还是自己学的) 3、本科期间获得的最高奖项 4、项目中搭建Hadoop集群是用集成好的,还是单个组件搭建的 5、集群中用了几个节点,每个节点的存储配置。 6、HDFS的读写流程,大致说