大数据工程师技能图谱

优质
小牛编辑
140浏览
2023-12-01

大数据通用处理平台

  • Spark
  • Flink
  • Hadoop
  • Drill

分布式协调

  • ZooKeeper

分布式存储

  • HDFS
  • Alluxio(tachyon)
  • Ignite

存储格式

  • Parquet
  • ORC
  • CarbonData
  • Kudu

数据库

  • HBase

资源调度

  • Yarn
  • Mesos
  • Kubernetes

工作流调度

  • Oozie
  • Azkaban

机器学习工具

  • Mahout
  • Spark Mlib
  • TensorFlow
  • DeepLearning4J
  • Torch
  • Theano
  • Caffe
  • MxNet
  • Keras
  • CNTK
  • Amazon Machine Learning
  • DMTK (微软分布式机器学习工具)

数据安全

  • Sentry
  • Apache Eagle

部署工具

  • Cloudera Manager
  • Ambari

数据分析/数据仓库(SQL类)

  • Pig
  • Kylin
  • Presto
  • Impala
  • Hive
  • Spark SQL/DataFrame/DataSet
  • Phoenix
  • ELK
    • ElasticSearch
    • Logstash
    • Kibana

消息队列

  • Kafka(纯日志类,大吞吐量)
  • RocketMQ
  • ZeroMQ
  • ActiveMQ
  • RabbitMQ

流式计算

  • Storm/JStorm
  • Spark Streaming
  • Fink

日志收集

  • Scribe
  • Flume
  • Sqoop

编程语言

  • Java/Scala
  • Python
  • R

数据分析挖掘

  • MATLAB
  • SPSS
  • SAS

数据探索/可视化

  • R
  • D3.js
  • ECharts
  • Excle
  • Tableau
  • Zeppelin
  • Hue

机器学习

机器学习基础

  • 聚类
  • 时间序列
  • 推荐系统
  • 回归分析
  • 文本挖掘
  • 决策树
  • 支持向量机
  • 贝叶斯分类
  • 神经网络

算法

一致性

  • paxos
  • raft
  • gossip

数据结构

  • 栈,队列,链表
  • 散列表
  • 二叉树,红黑树,B树

常用算法

  • 排序
    • 插入排序
    • 桶排序
    • 堆排序
    • 快速排序
  • 最大子数组
  • 最长公共子序列
  • 最小生成树
  • 最短路径
  • 矩阵的存储和运算

云计算

  • 云服务
    • SaaS
    • PaaS
    • IaaS
  • OpenStack
  • Docker