当前位置: 首页 > 软件库 > 云计算 > 云原生 >

BigData-Notes

大数据入门指南 ⭐
授权协议 Readme
开发语言 Java
所属分类 云计算、 云原生
软件类型 开源软件
地区 不详
投 递 者 武彭薄
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

BigData-Notes


大数据入门指南

Hadoop Hive Spark Storm Flink HBase Kafka Zookeeper Flume Sqoop Azkaban Scala

如果需要离线阅读,可以在公众号上发送 “bigdata” 获取《大数据入门指南》离线阅读版!

✒️ 前 言

  1. 大数据学习路线
  2. 大数据技术栈思维导图
  3. 大数据常用软件安装指南

一、Hadoop

  1. 分布式文件存储系统 —— HDFS
  2. 分布式计算框架 —— MapReduce
  3. 集群资源管理器 —— YARN
  4. Hadoop 单机伪集群环境搭建
  5. Hadoop 集群环境搭建
  6. HDFS 常用 Shell 命令
  7. HDFS Java API 的使用
  8. 基于 Zookeeper 搭建 Hadoop 高可用集群

二、Hive

  1. Hive 简介及核心概念
  2. Linux 环境下 Hive 的安装部署
  3. Hive CLI 和 Beeline 命令行的基本使用
  4. Hive 常用 DDL 操作
  5. Hive 分区表和分桶表
  6. Hive 视图和索引
  7. Hive 常用 DML 操作
  8. Hive 数据查询详解

三、Spark

Spark Core :

  1. Spark 简介
  2. Spark 开发环境搭建
  3. 弹性式数据集 RDD
  4. RDD 常用算子详解
  5. Spark 运行模式与作业提交
  6. Spark 累加器与广播变量
  7. 基于 Zookeeper 搭建 Spark 高可用集群

Spark SQL :

  1. DateFrame 和 DataSet
  2. Structured API 的基本使用
  3. Spark SQL 外部数据源
  4. Spark SQL 常用聚合函数
  5. Spark SQL JOIN 操作

Spark Streaming :

  1. Spark Streaming 简介
  2. Spark Streaming 基本操作
  3. Spark Streaming 整合 Flume
  4. Spark Streaming 整合 Kafka

四、Storm

  1. Storm 和流处理简介
  2. Storm 核心概念详解
  3. Storm 单机环境搭建
  4. Storm 集群环境搭建
  5. Storm 编程模型详解
  6. Storm 项目三种打包方式对比分析
  7. Storm 集成 Redis 详解
  8. Storm 集成 HDFS/HBase
  9. Storm 集成 Kafka

五、Flink

  1. Flink 核心概念综述
  2. Flink 开发环境搭建
  3. Flink Data Source
  4. Flink Data Transformation
  5. Flink Data Sink
  6. Flink 窗口模型
  7. Flink 状态管理与检查点机制
  8. Flink Standalone 集群部署

六、HBase

  1. Hbase 简介
  2. HBase 系统架构及数据结构
  3. HBase 基本环境搭建 (Standalone /pseudo-distributed mode)
  4. HBase 集群环境搭建
  5. HBase 常用 Shell 命令
  6. HBase Java API
  7. HBase 过滤器详解
  8. HBase 协处理器详解
  9. HBase 容灾与备份
  10. HBase的 SQL 中间层 —— Phoenix
  11. Spring/Spring Boot 整合 Mybatis + Phoenix

七、Kafka

  1. Kafka 简介
  2. 基于 Zookeeper 搭建 Kafka 高可用集群
  3. Kafka 生产者详解
  4. Kafka 消费者详解
  5. 深入理解 Kafka 副本机制

八、Zookeeper

  1. Zookeeper 简介及核心概念
  2. Zookeeper 单机环境和集群环境搭建
  3. Zookeeper 常用 Shell 命令
  4. Zookeeper Java 客户端 —— Apache Curator
  5. Zookeeper ACL 权限控制

九、Flume

  1. Flume 简介及基本使用
  2. Linux 环境下 Flume 的安装部署
  3. Flume 整合 Kafka

十、Sqoop

  1. Sqoop 简介与安装
  2. Sqoop 的基本使用

十一、Azkaban

  1. Azkaban 简介
  2. Azkaban3.x 编译及部署
  3. Azkaban Flow 1.0 的使用
  4. Azkaban Flow 2.0 的使用

十二、Scala

  1. Scala 简介及开发环境配置
  2. 基本数据类型和运算符
  3. 流程控制语句
  4. 数组 —— Array
  5. 集合类型综述
  6. 常用集合类型之 —— List & Set
  7. 常用集合类型之 —— Map & Tuple
  8. 类和对象
  9. 继承和特质
  10. 函数 & 闭包 & 柯里化
  11. 模式匹配
  12. 类型参数
  13. 隐式转换和隐式参数

十三、公共内容

  1. 大数据应用常用打包方式

�� 后 记

资料分享与开发工具推荐


  • 1. cloudera官网 http://www.cloudera.com/ 2. cloudera文档 http://www.cloudera.com/documentation.html 3. 文档分为三个部分   3.1 cloudera enterprise: cdh, cloudera manger, search, impala, spark。   3.2 cloudera direc

  • -- 安装需要的软件包: # yum -y install rlwrap unzip -- 解压软件: # unzip OGG_BigData_Linux_x64_12.3.2.1.1.zip Archive: OGG_BigData_Linux_x64_12.3.2.1.1.zip inflating: OGGBD-12.3.2.1-README.txt inflating: O

  • 数据缺失与共线性 在ZestFinsnce , Ondeck以及海量风控建模中一般使用来自申请书报告,政府数据,征信报告,网站和APP数据采集。企业合作,互联网公开数据资源,体现出维度特别高,来源特别广,数据结构特别复杂的特征。多种原始数据的聚合(data——fusion)的方法。在参考使用中出现大量的数据确实和数据间相关性太强,这样出现过拟合问题。 一旦关键变量缺失,在逻辑回归中这类线性模型便会

 相关资料
  • 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

  • MathJax允许你在你的网页中包含公式,无论是使用LaTeX、MathML或者AsciiMath符号,这些公式都会被javascript处理为HTML、SVG或者MathML符号。 这里有三种方法获取MathJax:最简单的方法就是使用分布式网络服务中的MathJax的副本,它位于 cdn.mathjax.org ,但是你也可以下载并安装一个MathJax的副本到你的服务器,或者使用在你本地硬盘

  • 让我们开始 Rust 之旅!在本章中,我们会讨论:

  • 第一个 Tendermint 应用 作为一个通用的区块链引擎,Tendermint 与您想要运行的应用程序无关。因此,要运行一个完整的区块链来做一些有用的事情,您必须启动两个程序:一个是 Tenderint Core,另一个是您的应用程序,它可以用任何编程语言编写。回想一下介绍 ABCI, Tendermint Core 处理所有的 p2p 和协商一致的东西,当它们需要验证时,或者当它们准备提交到

  • 入门指南 我们首先介绍如何配置开发环境,编译流程,以及代码规范。 开发环境 在Ubuntu 14.04下安装最新版的Rust: $ curl -sSf https://static.rust-lang.org/rustup.sh | sh -s -- --channel=nightly 为Atom编辑器安装Rust语法高亮支持: $ apm install language-rust 如果需要一个

  • 使用当前稳定版本的 PHP (7.1) 如果你刚开始学习 PHP,请使用最新的稳定版本 PHP 7.1。相对于老版本的 5.x 来说,PHP 7.1 非常新,并且增加了很多令人惊喜的 新特性 。由于底层引擎大部分被重写了,现在新版本的 PHP 比老版本运行得更快。 通常你会在将来的工作中遇到还在使用 PHP 5.x 的情况,5.x 系列的最新版本是 5.6。虽然这个版本也还不坏,但是你应当尽量升级