Hadoop Ecosystem

计算框架

Apache Hadoop 包括 HDFS、YARN 和 MapReduce

Apache Spark 包括 Spark SQL、Spark Streaming、Spark MLlib 和 Spark GraphX

相关博客:

Apache Flink 流处理框架

Apache Beam Google 开源的支持批处理和流处理的通用编程模型

存储

Apache Cassandra 非关系型数据库

相关博客:

Elasticsearch 搜索引擎

Redis 键值缓存

Alluxio 内存文件系统

Druid 时序数据库

OLAP 框架

Apache Hive

相关博客:

Presto Facebook 开源 SQL 查询框架

相关博客:

Apache Kylin OLAP 框架

管理与监控

Apache Ambari Hadoop 集群管理

Apache Zookeeper

Apache Oozie

Apache Airflow Airbnb 开源任务管理工具

数据可视化

Apache Zeppelin 笔记型交互式查询工具

Apache Superset Airbnb 开源 BI 系统

数据集成

Apache Flume

Apache Kafka

相关博客:

Apache Gobblin 分布式数据集成框架