hive的架构 hive外部表和内部表的区别 内部表的数据由hive管理,且存储在hive.metastore.warehouse.dir配置下的路径中;外部表的数据由HDFS存储,路径可以自己指定; 删除表时,内部表会把元数据及真实数据删除;外部表不删除真实数据。 你用过hive哪些窗口函数 可参考:面试官:你用过哪些窗口函数 一般用什么文件格式 可参考:面试官:“你们实际生产中hive用什么文
一、spark如何划分job,stage,task 遇到一个action算子开启一个job stage是遇到一个action开始,从后往前以shuffle为边界划分 stage划分成多个task,一个分区对应一个task 二、sql题:一个用户点击记录表t,有三个字段user_id,item_id,category_id 统计每个用户的每个商品类别的点击总量排名中,top3的商品 类别 selec
面试战况为4对1拷打,虽然没有手撕,但鼠鼠受到了终极八股+项目拷打 上来自我介绍+项目 讲10min Sql相关:mvcc,事务,索引。Sql的限制(啥东西)查一个表索引重复怎么办? 给题说思路:包括连接,开窗,去重,等等各种,explain,sql优化, Binlog,undolog,redolog(这部分答的还行) Linux:蚌埠住了,不该说会linux的 改用户名,找一个文本具体某行,修改
#秋招# JAVA: 1.java面对对象的特征 2.Java中基本类型有哪些 3.==和equals的区别 4.为什么重写equals要重写hashcode 5.List,map,set什么区别 6.Try,catch,finally 分别作用是什么 大数据: 7.hdfs的读流程 8.项目里用到的 hive on spark 和 普通的hive有什么区别 9.数据倾斜的优化,如果group b
1.自我介绍,城市相关 2.你对于大数据哪一块比较了解,展开讲讲 3.结合项目讲数仓建模理论 4.数仓分层的理解和好处,每一层的作用 5.app层如果下面有多个看板,他们有多个指标是重复的,你怎么设计app层才能保证数据查询起来容易又包装数据的一致性呢 6.指标体系的了解 7.原子指标派生指标衍生指标 8.日活留存率怎么算,要得到连续十五天相对于第一天的的留存率,如何优化 9.spark学到什么程
2024/9/12 16:40 40min - 自我介绍 - 我看你本科不是计算机的,你学过一些专业课程吗? - 你是投的大数据开发吗?还是调过来的? - 开源项目介绍 - 剩下三个项目介绍 - 你的项目Redis是单机的还是集群 - Redis 槽了解过吗 - 对Spring Boot有了解吗? - Redis中基本数据结构 - 如果一个Hash存的对象非常大,会导致什么后果? - 接口可以继承
了解大数据吗? 分布式是什么? 1、list、set、map之间的区别与联系 2、arraylist和linkedlist之间的区别与联系 3、数组与链表的区别 4、线程和进程的区别?为什么要设置线程? 5、线程安全如何保证?几种方法?为什么会出现线程不安全 6、线程池用于干啥? 7、同步与异步的概念? SQL相关 1、讲一下索引?索引怎么实现 2、列排序是什么数据结构? 3、B树和B+树的区别?
1.自我介绍 2.rdd变dataframe,再变dataset中间发生的过程 3.项目拷打 4.说说文本处理方法 5.说说数据采集经历 6.颜色分类,操这题还没写对,麻了
9.4 下午面完全部 9.9 已意向 一面 40min warm-up 自我介绍? 介绍数仓分层架构? 写SQL temp表 user_id,order_date 求出每位用户的第一次下单信息? 如何优化SQL?利用 Hive 按照日期分区的特点进行优化,写SQL。 留存率是如何计算的?写一下? 再写一个如何计算7日内留存率? 基础知识 说一下数据倾斜的概念? 说一下MapReduce Map端会
介绍最拿手的项目,我讲的实习 计网一些八股 最长不重复子串,秒了 以为轻松过了,结果没消息了?
一面(约50分钟) 1、自我介绍 2、详细说明工作经历做了什么,有什么成果即工作业绩 3、SQL用的最多的函数有哪些 4、窗口函数rank()、dense_rank()、row_number()的区别 4、两道SQL口述题目 一个表三列分别是:id,顾客的问题,对问题的回答 a)获得顾客问的最多的10个问题 b)获得每个顾客问的最多的10个问题 5、讲述ABtest的过程 6、怎么分析ABtest
字节跳动 字节的面试算是体验最好的,泪目了。 投递2024-02-27 内推投递。 番茄小说,数据策略工程师。 一面2024-03-01 1小时30分 自我介绍 看了你的博客,感觉你对技术有追求(大概是这个意思)。你一般怎么样去学习新的知识? 目前有哪些正在学习的东西? 介绍项目1。 4.1. 介绍数据、模型、介绍LRP的流程。 4.2. 是否有除了GNN外提取特征的方法(在你们的数据上)。 介绍
2022/11/18 应该算是开启了本人第一次正经的实习面试吧,之前的面试感觉都好水,这次感觉比较正式。 本人末流985研二在读,本科211,均计算机技术专业。职业规划比较想做前端开发,因此想要找一份正经的前端开发实习,本科学校教学风格比较偏底层语言,C使用很多,研究生更是和开发毫不相关,研究生基本每天都在读文献,看算法,做调研阶段。 因此暂时还没有像样的项目经验,由于本科的时候太懒了,每次假期都
实习工作 问项目 hashmap底层原理 以自己创建的类的对象作为key需要重写什么方法 volatile关键字 线程的生命周期 线程池 事务的隔离级别 可重复读隔离级别能否解决幻读 索引的最左匹配原则 为什么要最左匹配 http和https的区别 ssl协议 算法 合并k个有序数组的思路 合并两个有序链表 #字节面经##飞书#
岗位是暑期转正,当天投递当天约面,因为私事推到7/10。包括笔试时间总共面了100分钟左右。 结果:结束后第三天hr说面评还不错,但是手撕题调试太久不太熟练,没给过。面试体验不错,面试官也很给机会,让我调试了挺久。 1、自我介绍 2、项目难点介绍(我做的是知识图谱系统balabala) 3、围绕项目提问+就着项目的界面实现给了场景题(答出来了) 项目答的不错,开始八股 4、IoC和AOP的原理、优