5/5一面 5/14 二面 5/18 hr面 5/19 OC 一面(1h10min) 1.自我介绍一下 2.介绍一下你的项目 2.1 Mysql全量数据规模 2.2 既然Mysql能存储,为什么要导入到hive中 3.说一下MySQL的ACID特性 4.脏读和幻读分别是什么含义 5.spark持久化的级别和作用 6.spark任务出现数据倾斜有哪些方法解决 7.hive没办法创建分区怎么理
大概是今年五月初面试了荣耀大数据的Java开发港,面试官全程基本什么都没有问。也没有问一些八股文的问题,也没有问算法题。 就是轻蔑地看了一眼我的简历,然后问你的项目是自己做的,还是根据别人的来做的,然后直接说你做的这个项目怎么这么简单,因为我还有一个机器学习的项目,然后他就随便问了项目做什么的。 最离谱的是他说你有机器学习的经历,那么我推荐你去客户端。 总之全程什么技术问题都没有问你,也没有问项目
前言 星环感觉整个流程非常不错,二面面试官不是搞大数据的,但是交流上感觉到了尊重,面试实在7月份,八月份就给意向了,进展到十月份了对比看来星环流程真的不错(PDD推荐组某个面试官一生黑),看到大数据后端已经不招人了,但是可能会拒掉 一面 忘记了没有记录 二面 1.1. HBASE架构 1.2. Regionserver结构 1.3. Hbase避免热点数据(Rowkey的设计) [大白话彻底讲透
时长:1h 由于问题太多,分四类进行整理 0. 实习相关:之前有数据开发的实习经验,就问了之前工作有没有spark或者hivesql优化的经验;如何确保数据的有效性;实习公司数据存储格式(Parquet),还知道哪些数据存储格式 1. 大数据相关问题:为什么Spark比MR快;对Spark的了解;两个表join的优化方法(大小表join可以map-side join, join前过滤null值);
#暑期# #投递实习岗位前的准备# 3月23日--分享个经验,求个好运 时长一个小时二十分钟 自我介绍 因为学统计的,问了中心极限定理和大数据定律 机器学习-XGBoost算法简介 两道智力题:逻辑判断谁说谎了和分金条 问了为什么研究生跨专业保研了? Hive和MySQL区别 数据库的索引有什么用 说一下索引的类型,还有B+树索引 数据仓库和关系型数据库区别 Hadoop生态圈简介 问我SQL写的
1.自我介绍 2.说一下数据库范式 3.说一下Hbase 4.Hbase的rowkey怎么设计的 5.说一下Clickhouse 6.说一下你了解的数据库底层的一些知识 7.数仓为什么这样分层 8.数据表和数据视图的区别 9.实习 数仓让你觉得有成就感的地方 10.你对离线感兴趣还是对实时感兴趣 11.你知道OLAP数据库都有哪些 12.Sql题 13.Hive Spark优化掌握的怎么样? 14
根本没想到会进面,笔试算法题全空,突然约面啥都没准备,本来已经放弃Java开始投非技术岗了。自我介绍的时候提前说了我Java是自学的几个月速成的,所以面试官问的都非常基础。 1 JVM内存结构 2 双亲委派 3 Java的常见集合 4 线程安全的集合 5 HashMap的实现以及并发下线程安全问题 6 是否用过Redis集群(无,直接跳过了) 7 Redis的持久化 8 与数据库的数据一致性问题
自我介绍后根据我的项目问我了一些问题,虚拟列表,懒加载,canvas怎么压缩的(这个没答对) 项目怎么实现鉴权的,我说的jwt,巴拉巴拉 然后又问了cookie, 问了防抖节流 项目跨域是怎么解决的(项目上线后用反向代理不太好) 问了数据类型,然后就问深拷贝浅拷贝,让我实现深拷贝 问promise,让我实现all和race方法 解释下事件循环机制 nextTick 总结:还是要多写写底层源码,回答
9.8 一面(30min) 介绍下自己的项目,项目的内容和使用的技术栈 细挖离线数仓项目 mysql三范式 hive内部表和外部表 hive数据倾斜 一道sql题 9.11 二面(30min) 两张亿级大表join有什么优化方案 场景题:公司通过银行给员工发工资,银行要完成公司账户的扣款和员工账户的收款,这个场景要如何设计,要考虑哪些问题? 介绍下离线数仓项目,几个人完成,多久完成,有哪些难点,现
一面 面试官会一步一步引导, 也会给出自己的见解,体验很好 简单介绍一下自己 接口优化,讲讲背景,怎么做的 八张表同时并发去查的话,会不会对数据库的压力很大,有没有考虑这方面?数据库的负载怎么样? 什么情况会导致索引失效?索引命中的原理? select .... where b = xx and c = xx 会命中索引吗,怎么优化这个问题? 有个字段叫city,你觉得用city建索引合适吗 用单
1. 自我介绍 2. 科大讯飞比赛做了什么,是用到了讯飞平台的某些功能吗 3. API开放平台详细介绍一下 4. 但是你做的这个接口调用具体收益,作用是干嘛的呢 5. 接口调用高并发情况时用户使用延迟之间如何进行优化 6. 用户访问时的延迟黑洞是什么,如何优化 7. 软引用、弱引用分别是什么 8. 如何提升系统的处理能力,如何优化 9. 手撕: 1. 多线程去查询数据库,并将查询结果放入List<
一、前言 在继续阅读之前,请先思考一下是否曾经遇到过以下问题: 对大数据源码一无所知 不擅长突出项目亮点 缺乏算法刷题技巧 难以理解面试笔记V5.0中的答案 ...... 如果你曾经或者正在面对以上问题,那么面试笔记V6.0可能会成为你的解决之道 大数据开发面试笔记V5.0发布已有半年,现在V6.0终于推出,本次更新的主要内容如下: 二、核心目录 V6.0笔记包含大数据篇、计算机语言篇、计算机基础
介绍项目 说一下遇到的难点 项目的核心指标就是**的占有率吗? 怎么验证数据的准确性? 有遇到过数据对不齐的时候吗,怎么发现的。 讲一下数仓分层的好处 如果需求方想临时插一条数据进数仓,怎么解决。答找后端更新数据,我再重刷。 除了这个办法呢?能不能在数仓中直接insert一条数据。 为什么不建议直接往同一个分区追加新的数据? 为什么要选择数据开发?别人都说数据开发是sql boy,你怎么看这句话。
2023年4月,大数据开发面试笔记V3.0发布,过去已经两个月,V4.0终于来了,这次主要新增了企业级调优手法以及数据湖基础等内容。如今面试越来越难,常常会被问到大数据的前沿知识比如数据湖,以及企业级调优手段有哪些等,于是我结合自己在大厂的工作经历进行了补充,最终汇聚成一份全面的大数据开发面试笔记。 此笔记包含大数据开发、Java、计算机基础、数仓理论、常考SQL、大数据开发场景题
在boss上投了简历,沟通之后,今天接到了可以线上面试的电话 (面试官说之前打电话都没有人接,因为之前我一直开的手机免骚扰,最近才发现这个问题,友友们记得看看拦截的设置,真的会错过面试电话) 问题(顺序有点乱,因为有的后面才想起来是前面问的) 1.自我介绍 2.介绍一下做的项目 3.项目详情 4.学校教授的课程有哪些、学python多久了、有哪些是用python的、python的基本知识 (插一个