问的都是数据结构的问题 1.给一个整数,怎么把它翻转(123转成321) 我说用字符串他说不行 2.忘了 3.有两个整数型数组,里面的整数范围都是1-1000w,问怎么找出两个数组中相同的数字 已挂
岗位:软件开发工程师-数据开发方向 部门:核心本地商业-基础研发平台 技术岗位处女面,运气挺好,没有被问到完全不会的题,感谢团子缓解我的焦虑 4.30 一面(60min) 1.自我介绍 2.介绍项目架构,数据源等 3.项目中遇到的难点 4.数仓为什么要分层,各层的职能 5.讲一下项目中提到的零点漂移问题 6.hive结构, 7.hive优化 8.数据倾斜 9.tcp三次握手 10.进程和线程的区别
如何将数据导入数仓 ods层数据量有多大 flume如何保证数据的一致性和完整性 数仓分了哪几层 维度建模的模型,为什么使用这个模型 表的数据变化如何进行分区 dws层如何设计,举项目中例子 用到了哪些开窗函数 row number遇到数据一样如何排序 left semi join 和???的区别 orderby和sortby的区别 sparksql和hivesql的区别 arraylist和li
一面(4.24): 总体30 min 1.为什么在上一家公司离职 2.对公司有什么诉求 3.理解到你的诉求是想提升技术了,那假如在公司干活不能提升你的技术那你会怎么办(跑路) 4.你希望自己以后成为什么样的人 5.AB test 6.标准明细表(没太听懂) 7.数仓的分层 8.spark为什么比MR快 9.项目中具体干了什么活 10.你觉得沟通很重要吗 11.如果你有简单的方案可以完成业务方的需求
一面 项目深挖 数仓分几层,每一层的作用 事实表如何设计 维度表如何设计 数据域如何划分 业务总线矩阵的概念 如何设计完整的指标 开发中和上线后数据质量如何保证 如何设计调度,依据是什么 hive数据倾斜解决办法 hivesql常见优化手段 什么是spark宽窄依赖,起到什么作用 sql题:用户连续登录游戏的最大天数,允许间隔一天 反问 做什么业务 教培业务中的线下面授分析 网络问题迟到了一会,面
TimeLine:一面20211102 当时的BG:北邮本硕,管理类专业,一段实习经历:美团商业分析师 写在前面的话:该文档记录日常实习面试的相关问题,面试时间为2021年。以下问题的答案可能存在错误,敬请读者批评指正 一面 1. 介绍一下假设检验 假设检验是用来判断样本与样本之间的差异究竟是抽样误差导致还是存在本质差别的统计推断方法,本质上是反证法(证实一个命题需要穷尽所有可能,证伪一个命题只需
1. 自我介绍 2. 实习做了些什么 最有成就感的需求 最难的需求 等等 3.反问 没有问什么技术问题,没有做题,全程就20min,感觉要挂
2023春招找实习的同学跟我分享了他的面试经历,在这里我进行了一些总结梳理,然后发出来供大家学习 1. 自我介绍 2.八股文 hive的数据类型有哪些 hive中计算排名前N的函数有哪些 hive的优化手段你知道哪些 遇到过数据倾斜吗 mapjoin如何开启,参数是什么 3.SQL题 rt_ data表存放了当天每半小时的店铺销售数据,表名: rt_ data,字段名: shop id (店铺id
返校前最后篇面经 这两次面试官感觉都挺满意的,,估计能有offer了 百度大数据研发一面(就一面) 2.22 自我介绍 项目 1.爬虫和识别匹配的细节 2.爬虫异常情况 3.内部表外部表区别 4.数据量大小 5.推荐KNN模型距离的细节 技术 6.mapreduce计算过程 7.shuffle细节 8.数据倾斜原因和处理方式 我举了两种 mapjoin 加盐 9.hive窗
个人情况简述:本硕双非,acm银牌 测评答的个人感觉不错,笔试AK 测评隔天笔试(第一批),之后就跟大部队流程差不多约了一、二面 一面(总时长50分钟),二面(总时长40分钟) 纯业务理解,深挖实习经历和项目经历 提出的问题多为数仓设计问题和开放性问题,基本都是大量的对话和交流,因为很多想法是结合项目经验的临场idea,个人没有记录 携程给我的感觉就是,如果你做过很多项目,阅读过大量相关设计的学习
base深圳,要求全勤实习6个月以上,问了一下HR,一面是30min,一共有两面 自我介绍 拷打之前的实习(主要是做ETL开发),包括但不限于工作背景、工作意义、指标异常处理、异常来源分析、大规模数据处理方式和逻辑。 对数仓理论的理解 数据仓库的分层,每层是干什么的 介绍一下你对数据库和数据仓库的理解 怎么理解根据不同的任务背景,对数据仓库进行技术选型和设计 sql题:找出连续3天登录的用户 对区
面试时间:30min 自我介绍 对大数据的认识? 对Hadoop生态系统的了解? 分布式数据库用过那些? HBase介绍一下? Clickhouse与HBase区别? 分布式数据库要考虑的问题有那些?我讲了讲DDIA的东西,面试官还问我在哪里看的 MapReduce介绍一下? Spark架构介绍一下,里面的进程? Flink有学过吗? 在学校遇到过什么困难的问题吗?怎么解决的?有什么收获? 反问:
四月底投的这家公司,我现在都入职实习了,才给我安排笔试,本来想着今晚打打游戏的,但一看笔试时间才一个小时就进来做一下。 单选5道 不定项选择8题:涉及Java、数据结构、大数据、数据库等 填空4题:ACID是啥?MySQL四个事务隔离级别?数据结构 问答题:JVM内存区域划分 编程题:ACM模式,合并两个有序数组
面试时间:15min 昨晚正在吃饭,接到了电话,我都没反应过来时哪家公司,还问了一遍,说是亚信,我心里还吐槽,官网投了快两个月了,咋现在才来面试。 自我介绍 都用过什么数据库,介绍一下 数据库优化方法? 实习项目都是怎么存数据的? 一道SQL题,聚合函数? Linux熟练不,了不了解Linux 三剑客? 反问: 部门业务是什么?电信数据 技术栈?Hadoop、Spark、Hive、ClickHou
9.20 24届非科班本发面筋攒好运! 第一次面+太紧张+基础不好+算法出没见过的hard = 寄 组是偏基础架构的 自我介绍到一半简介项目的时候就被打断了开始撕项目(乐 学习的方法 离线项目: 1.分层的好处,为什么分层 2.idmapping 3.拉链表的逻辑(用户活跃区间的中间表),下次还应该解释一下这个中间表的好处以及为什么方便。 实时项目: 1.维表动态注入的意义在哪里,为什么不直接写入