【译】深入理解 Spark SQL 的 Catalyst 优化器

原文:Deep Dive into Spark SQL’s Catalyst Optimizer Spark SQL 是 Spark 最新且技术最复杂的组件之一。它同时支持 SQL 查询和新的 DataFrame API。Spark SQL 的核心是 Catalyst 优化器,它以一种全新的方式利用高级语言的特性(例如: »

Spark 应用开发过程

第一步:数据探索 使用 spark-shell 或者笔记型应用(如:Apache Zeppelin)进行数据探索,编写核心的组件或算法代码。 第二步:编码 新建工程,将编写的核心组件或算法代码移到工程中。工程结构按以下三大模块进行组织: Source 数据输入 Process 数据处理 Sink 数据输出 第三步:测试用例 选择 JUnit/ScalaTest »

学习 Avro(二):Spark Streaming 使用 Avro

思路 生产者使用 Avro 对数据进行序列化,发送数据到 Kafka 的指定 Topic 队列 消费者订阅 Kafka 指定 Topic 订阅,使用 Avro 对数据进行反序列化 生产者和消费者使用相同的 Avro Schema,保存在外部存储中,例如:Redis 等 序列化与反序列化 Bijection »