1、实习的工作是什么? 2、SQL调优有哪些? 3、介绍一下项目,主要做什么工作?(项目介绍还不顺畅) 4、为什么学大数据? 5、项目里的Flume是怎么用的? 6、TailDir为什么可以断点重传?(面试官说不能) 7、Linux什么指令可以监听文件? 8、Flume的事务是怎样的?(因为上一题提到了事务) 9、Kafka的基本架构? 10、RXR队列(不知道是什么东西) 11、Kafka的pa
一面:电话面试 1、自我介绍 2、挑一个实习项目讲一讲 3、项目里的数据是怎么处理的? 4、数据研发选择哪一块?(数据仓库、数据平台、数据算法、数据挖掘) 5、讲讲MapReduce的原理 6、环形缓冲区为什么要反向? 7、实习的存储计算用的是什么组件 8、有金融相关知识的储备吗? 反问: 1、这一面算是第一面吗(是)?算专业面吗(是)? 2、做什么工作的?(国外金融银行业务) 3、用到哪些技术栈
面试岗位:数据库工程师 两个面试官,一个主要问知识点,另一个主要问实习、项目 介绍一下HDFS的写流程 Spark、Flink有哪些部署模式? Standlone和Yarn(Client、Cluster),会话模式、单作业模式、应用模式 有没有写过Flink平台的开发代码? Yarn由哪些角色组成?各自的任务是什么? Yarn的调度器有哪些? Hive和HBase的区别是什么? 项目中Kafka的
1、Spark的作业提交流程? 2、Spark的核心组件有哪些? 3、宽窄依赖的理解,为什么要分宽窄依赖? 4、SparkContext在工作时做了什么事? 5、Spark shuffle有哪些? 6、Hashpartitioner与RangePartitioner的实现 7、对维度建模的理解? 8、雪花模型和星形模型的理解以及优劣对比? 9、线程安全有了解么?介绍下 面试官很友好,是我太菜了,全
无心插柳柳成荫,随便投的厂子,没想到好像是最适合,聊的最好的一家。时间太久了,回忆的面经缺失内容会比较多。 收到意向书的同学可以加意向群:640262555 备注意向岗位即可 timeline: 10.11 一面 一小时 部门内大哥 10.14 笔试 一小时 10.21 二面 一小时 部门leader 10.26 三面 半小时 团队大boss 11.7 hr面 半小时 11.15 意向 面试流程
摘要 数据工程的全流程(数仓建设-数据接入-数据运维-数据分析-数据挖掘)的各个阶段都有涉及... 自我介绍,问了我在百度和蔚来做的工作(数仓),对简历项目中对数据倾斜的发现、解决方法和效果 回答是通过sparkUi中task的输入量和运行时间发现,解决方法是用count估算不同维度下各value的数据条目,然后数量最多的top key进行再赋值后与其他表join 感觉这个地方可以从spark运行
新手入门 - 开发者数据合规与安全承诺书 开发者数据合规与安全承诺书 尊敬的百度统计平台, 为合法合规地使用百度统计产品,我方在使用过程中承诺遵守如下规定: 一、严禁利用百度统计产品传播含有下列内容的信息: 反对宪法所确定的基本原则的; 危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的; 损坏国家荣誉和利益的; 煽动民族仇恨、民族歧视,破坏民族团结的; 破坏国家民族宗教政策,宣扬邪教和封建
根本没想到会进面,笔试算法题全空,突然约面啥都没准备,本来已经放弃Java开始投非技术岗了。自我介绍的时候提前说了我Java是自学的几个月速成的,所以面试官问的都非常基础。 1 JVM内存结构 2 双亲委派 3 Java的常见集合 4 线程安全的集合 5 HashMap的实现以及并发下线程安全问题 6 是否用过Redis集群(无,直接跳过了) 7 Redis的持久化 8 与数据库的数据一致性问题
9.8 一面(30min) 介绍下自己的项目,项目的内容和使用的技术栈 细挖离线数仓项目 mysql三范式 hive内部表和外部表 hive数据倾斜 一道sql题 9.11 二面(30min) 两张亿级大表join有什么优化方案 场景题:公司通过银行给员工发工资,银行要完成公司账户的扣款和员工账户的收款,这个场景要如何设计,要考虑哪些问题? 介绍下离线数仓项目,几个人完成,多久完成,有哪些难点,现
快手二面(已挂): 两道算法题: 1. topk 快排以及快排的优化 2. 二叉树最大路径和 flink相关的一些题 其他忘了... 饿了么二面(已挂): 介绍下实验室的项目 简历上的实时数仓项目 平时学习方式是什么? 你有哪些主动走出舒适区的经历? 你的优点/缺点有哪些?为改正自己的缺点做过哪些努力? 你受过最大的挫折和困难是什么? 你有哪些有成就感的经历? 你选择岗位和公司有哪些考虑?
一、选择题 总计20道 408内容+大数据框架(Hadoop、Spark、Flink等) 有单选,也有多选 二、编程题 第一题:小红书推荐系统 统计热点词频;输入一个字符串,统计词频后,按照词频从高到低打印热搜单词(出现次数超过3,同时对于两个词频相同的单词,要按单词字典序打印 public static void main(String[] args) { Scanner sc = n
最近面试强度上来了...两天四场 饿了么一面(40min): 介绍下实时项目 对DWD和DIM层的理解,构建过程(背了套理论,面试官听笑了..) 开发DWS层的目的(避免重复建设,数据一致性) Hive倾斜优化 kafka底层数据存储(log文件分段,稀疏索引,mmap,零拷贝) flink状态 flink checkpoint作用 一道sql题 没实习被diss了,面试官说做数仓的话更看重对业务
不知道是不是KPI,感觉这个过程也有点奇妙。 刚从腾讯云智回来,9月底的时候,突然就邀请我面试了?!没有打电话问时间。而且最重要的是,我不符合他的岗位要求呀,我不会大数据的东西呀,简历上也没写,结果他突然捞我了。那时候我就已经开始担心是不是KPI。 不过我那时候才刚回校太累了,就延期,好家伙结果面试官直接给延期到国庆后。 然后面试那天,面试官提前15分钟进入会议。我那时候本来在等时间到,结果会议突
京东零售,从后端调剂到大数据,hr之前说的不会问大数据,也确实没问,但是不妨碍我拉了一泡大的 1.自我介绍 2.写题-搜索螺旋排序数组(两个月没写过lc了,大汗淋漓,之后还是没写出来) 3.常见的排序算法,时间复杂度,空间复杂度 4.synchronized关键字的使用 5.volatile关键字,和synchronized的区别 6.Java的内存回收怎么做的 7.hashmap和treemap
巨人网络\春招\数据开发\笔试\hard 数仓-SQL面试题-实录 字段:uid 用户ID、artical_id 文章ID、in_time 进入时间、out_time 离开时间、sign_cin 是否签到 问题:统计每天的日活数及新用户占比 注: 新用户占比 = 当天的新用户数/当天活跃用户数(日活数) 如果in_time 进入时间 和 out_time 离开世界跨天了,在跨天的每天都记为该用户活