这是一本关于大数据学习记录的手册,主要针对初学者.做为一个老IT工作者,学习是一件很辛苦的事情.希望这本手册对帮助大家快速的学习与认识大数据(特指Hadoop Spark),为了不让初学者一下接触爆炸式的新概念,我们会以实验先行,概念跟进的方式进行课程学习,这样有利于大家快速进入状态,而不至于一直深陷逻辑概念出不来,但是每个人的学习方式不一样,仁者见仁智者见智吧。
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据学习指南,从零开始学习大数据开发,包含大数据学习各个阶段资汇总。
介绍 对于大量数据输出,采用ExcelWriter容易引起内存溢出,因此有了BigExcelWriter,使用方法与ExcelWriter完全一致。 使用 List<?> row1 = CollUtil.newArrayList("aa", "bb", "cc", "dd", DateUtil.date(), 3.22676575765); List<?> row2 = CollUtil.newA
自我介绍 ssm会吗? 本科会 安卓懂吗? 不会 java.线程创建的方式 内存泄露说一下? 额,忘了 学习一个新技术的过程? 碰到bug怎么解决 反问 已offer😂😂😂
Timeline: 10.9 投递 10.24 笔试 11.4 一面 一面 20min: 1.自我介绍 2.专业课程 3.微分中值定理 4.竞赛经历相关 5.皮尔逊和斯皮尔曼相关系数 6.随机森林 7.数仓项目相关 8.指标体系建设 9.数仓分层 10.空值填充 11.常见统计方法 12.统计量 13.长期历史数据如何保存 面完挂 方向不太匹配 偏数分#数据人的面试交流地##24届软开
一面 9.1 1. 自我介绍 2. go channel 底层 3. go 写 channel 的时候什么时候阻塞什么时候不阻塞 4. 函数传入 slice 作为参数的时候 函数内部的修改是否会影响外部的值 5. k8s 创建一个 pod 的过程 6. k8s 如何从外部访问集群内部的 pod 7. slice 底层 8. 虚拟内存怎么实现的 9. TCP 三握四挥 10. 算法题 从一个字符串变
研究生学的机器学习,结果今年算法岗全军覆没,倒是开发岗被捞了。由于是三个多月之前的面试,有些问题记不清了,特此抱歉。 23.11.30 一面 自我介绍 JVM的组成,垃圾回收机制 MapReduce的流程,Spark与Hadoop的优劣 快速排序的原理,是否是稳定的(估计是前面答得不太熟,太久都忘了) BEV的原理和流程(简历项目) 笔试第一题的思路 手撕(只记得是一道滑动窗口的题,用两层for就
mapreduce中有哪些排序 yarn的事件驱动 hbase写热点问题 建表时怎么指定空region spark sql中dataframe怎么把表中的字段提取出来 hive怎么提取出来 yarn中的container怎么实现 写一个sql,学生不同学科的得分排名前三 手写单例模式,策略模式,工厂模式,并描述在什么场景下使用,口述一下装饰者模式 arraylist和linkedlist的区别,什
hdfs读写流程 spark内存管理 项目中遇到的问题,怎么解决的 项目中都有哪些表 怎么处理缓慢变化维 拉链表怎么做,开链闭链怎么 数仓和数据湖 维度建模,星型模型,雪花模型 数据倾斜,小表join小表,大表join大表 遇到过的数据倾斜,怎么做的 手撕,二叉树中序遍历,非递归写法
数据倾斜问题 写个sql吧 再写一个sql吧, 写挺好啊,在写一个吧 这些你是练习过原题吗,在写一个sql吧 说一下数仓的分层,每层干了什么事? 说一下归并排序的过程 xgboost原理 线性回归,逻辑回归 聚类了解吗 说一下spark怎么实现map join
自我介绍 专业课程、成绩 是否学过计算机专业课(408) 线程、进程的区别 编译型语言和解释性语言区别、使用场景 计算机32位、64位存储空间多大 Java内存存储 Linux通过文件名、文件内容查找 介绍Redash 比较ClickHouse、Doris和Mysql架构、使用场景和优缺点 b+树的优势 实习主要工作 反问: 如何使用好一个数据模型 对我的建议
自我介绍 深挖实习经历 (介绍实习主要工作、场景复盘等等延伸) hive相关 (hive原理、hive sql区别) 数据倾斜的常见case ClickHouse相关 group by原理 left join与right join区别与特点 主要技术栈 对岗位的理解 反问: 部门与产品业务线 校招生定位
腾讯会议一面(30分钟) 自我介绍 项目介绍 数据如何采集,整个流程叙述一遍 项目难点说一下 两个项目的区别讲一下 数仓分层里面的表叙述一下有什么 分析一下两个事物之间的关系,怎么分析(有点抽象的问题),有什么经验
1.自我介绍 2.熟悉flink还是spark 答:flink 3.介绍下flink架构吧 答:这里越深越好,我就讲到了flink的jobmanager(dispathcer,jobmaster)和taskmanager 4.flink有哪些算子? 答:map,flatmap,filter,window,union等,RichFunction提供生命周期open close,上下文环境。 5.fl