学习 Apache Kafka(一):初识 Kafka

Apache Kafka 分布式消息队列,最初在 Linkedin(领英)内部由 Jay Kreps、Neha Narkhede 和 Jun Rao 开发,并于 2010 年在 GitHub 上开源 如今的 Kafka 已经不再单纯是一个消息队列,而是逐渐衍生成为流处理的平台,并以 Kafka »

Spark 的 Join 类型

Shuffled Hash Join Spark 默认的 Join 类型是 Shuffled Hash Join Shuffled Hash Join 分为两个阶段: Shuffle: 将具有相同 key 值的数据分配到同一个分区中 Join: 在本地,对数据集执行 join Sort Merge Join Sort »