学习 Griffin(一):简介

Apache Griffin 是构建在 Apache Hadoop 和 Apache Spark 之上的数据质量平台。

支持对批量数据和实时数据。

最初由 eBay 公司开发,2016 年 12 月 7 日成为 Apache 孵化项目,2018 年 11 月 21 日毕业成为 Apache 顶级项目。

国内使用 Apache Griffin 的公司有:华为、京东、美团、唯品会和网易等。

架构

Griffin 包含了以下组件:

  • 数据质量模型引擎
  • 数据收集层
  • 数据处理和存储层
  • Apache Griffin 服务

数据质量模型引擎

Griffin 由模型驱动,提供了多种数据质量维度:

  • Accuracy 准确性
  • Completeness 完整性
  • Validity 有效性
  • Timeliness 时效性
  • Anomaly detection 异常检测
  • Data Profiling 数据探查

数据收集层

对于批量模式,从 Hadoop 收集数据。

对于实时模式,从 Kafka 收集数据。

数据处理和存储层

对于批量分析,数据质量模型使用 Spark 计算 Hadoop 批量数据质量指标。

对于实时分析,数据质量模型使用 Spark 计算 Kafka 实时数据质量指标,并存储在 ES 中。

Apache Griffin 服务

RESTful API 接口和 Web UI。

Apache Griffin Architecture