1. 自我介绍 2. 问了一下简历上的项目(研一在国电做的) 3. Spark有没有过调优 4. 基于我对Spark调优的一些回答进行追问: ● 我提到了利用RDD缓存进行RDD复用,追问Spark缓存一般可以用什么函数做到(cache,presist) ● 追问并行度的设置方法(配置文件或在代码中) ● 并行度的值一般根据什么设置(CPU核数的2-3倍) 5. Hive执行原理(SQL到MR的过
#面经##面经#1. hdfs的shell命令,说实话没想到会问这个(平时用都是直接网上查api),让我说如何查看文件前五行,如何复制文件,详细到把命令行+参数都说一遍 2. mapreduce流程 3. mapreduce和spark区别 4. 讲一下spark的rdd 5. 讲一下hdfs架构,2ndNameNode工作机制 6. java基本类型和引用类型的区别,==和equals()的区别
一面: 主要还是挖简历 自我介绍 问项目经历,聊聊过往开发的项目(聊了很久) 聊聊MySQL的事务 细聊ACID 隔离级别 innodb默认级别 innodb的底层数据存储 对比mysql和hive kafka为什么吞吐量大 场景题目:100个G的文件,保存用户id和看的bookid,求top10阅读量的书 反问
以为是做大数据分析早上起来看了半天项目,结果面试问得是机器学习和数据建模竞赛 1 自我介绍 2 介绍一下数学建模比赛(太早了我都忘了) 3 介绍用了什么算法 优化还是分类balabala 4 用什么语言写的 你在项目中的工作是什么 5 看你的描述你好像比较擅长机器学习 然后就给我看代码 让我说他这个是干啥的 没太看懂 说的很混乱 后面面试官都不想听了 然后就挂了估计 #数据人的面试交流地# #如何
前言 从2023年3月初开始投递暑期实习,几乎所有大厂都投递过了,有些简历都过不了,有些一面直接挂了,虽然说确实互联网行情不是特别的好,但是应该还是自己能力不足,做的简历不够漂亮; 4月的时候第一次刷到了@三石数据的面经帖(见下图),于是跟他聊了一下,真的收获太多了,非常非常感谢这位大佬的指导,不仅帮助我修改简历,而且还给我解答一些在面试中遇到的问题;大佬要是没女朋友的话,我愿意以身相许(开个玩笑
一面 50分钟 自我介绍 你学过的大数据掌握的最好的是哪一个 hive里面排序一般怎么使用的 hive内部表和外部表的区别,外部表在什么场景下使用 hive视图用过吗 你对维度和事实的理解 你说到了业务过程,谈谈对它的理解 你刚刚描述的是一个业务过程还是 多个业务过程 多个业务过程放到一张事实表的你举个例子 维度建模中 星型模型和雪花模型 之间的区别 缓慢变化维表如何处理呢 全量表的数据保存多久
自我介绍 项目介绍:(国模详细介绍、面对的困难) 实习介绍:实习中有没有做一些本职之外的有趣的事情。怎么样对数据预处理,有没有什么提炼的策略。 nlp介绍 用户画像怎么做的 sql窗口函数三个 反问:业务、实习时间 面试官是小姐姐,感觉还挺好的:) 等一个结果
1.自我介绍问项目细节。说亮点,没啥问的。 2.考察map、shuffle、reduce执行过程 3.考察sql 语句逻辑上执行过程,出个题引导。 4.问string常量池三个场景,串相加判断是否相等 5.最后只留10分钟给我做算法题,蛇形矩阵。。 就问了数据库Java几个概念。啥八股文也没问,项目随便问了下。KPI面吧。最后问了下只有4个hc。。。。。
一、spark如何划分job,stage,task 遇到一个action算子开启一个job stage是遇到一个action开始,从后往前以shuffle为边界划分 stage划分成多个task,一个分区对应一个task 二、sql题:一个用户点击记录表t,有三个字段user_id,item_id,category_id 统计每个用户的每个商品类别的点击总量排名中,top3的商品 类别 selec
1. 前言 在正式的小节学习之前,我们先来探讨一个问题,你究竟是否有必要使用类似于MongoDB这样的文档性数据库? 这些年,NoSQL以及NewSQL都刮起过一番浪潮,而SQL终究还是岿然不动,不仅没有被打垮,反而变得更加大。PostgreSQL号称世界上最先进的关系数据库,很早的时候便已经开始支持文档性数据类型了,而且在9.3以后的每一个版本,都提供了更多的新特性。 PostgreSQL 最重
大数据面临数据规模大、数据变化快、数据类型多、价值密度低4个挑战,而传统的数据可视化工具难以应对。传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息。近年来,随着云和大数据时代的来临,数据可视化产品已经不再满足于使用传统的数据可视化工具来对数据仓库中的数据抽取、归纳并简单的展现。新型的数据可视化产品必须满足互联网爆发的大数据需求,必须快速的收集、筛选、
统计图表是最早的数据可视化形式之一,作为基本的可视化元素仍然被广泛的使用。对于很多复杂的大型可视化系统来说,这类图表更是作为基本的组成元素而不可或缺。同时,随着大数据可视化渲染技术的发展,涌现出很多优秀的开源图表库,例如ECharts、highcharts、LoongChart等,可制作更直观漂亮的图表。 表达内容 图表类型 描述 项目 柱状图/条形图(column/Bar) 表现多个类目数据的大
来源:http://www.techug.com/full-stack-python 前段时间,ThoughtWorks 在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用 JavaScript 进行前端、服务器端,甚至数据库(MongoDB)开发,一个 Web 应用开发人员,只需要学会一门语言,就可以实现整个应用。 受此启发,我发现 Python
9.11 一面 35min: 1.自我介绍 2.专业介绍 3.Mysql索引 4.Mysql事务并发导致的问题 5.Mysql两种引擎的对比 6.Hadoop运行模式 7.job tracker 作用 8.Hdfs小文件问题 9.Hadoop调度器 10.Hadoop脑裂出现的原因 11.Kafka 怎样保证不丢数据 12.Flink task和subtask 的区别 13.并行度和slot的关系
面试战况为4对1拷打,虽然没有手撕,但鼠鼠受到了终极八股+项目拷打 上来自我介绍+项目 讲10min Sql相关:mvcc,事务,索引。Sql的限制(啥东西)查一个表索引重复怎么办? 给题说思路:包括连接,开窗,去重,等等各种,explain,sql优化, Binlog,undolog,redolog(这部分答的还行) Linux:蚌埠住了,不该说会linux的 改用户名,找一个文本具体某行,修改