Spark 应用开发过程

第一步:数据探索 使用 spark-shell 或者笔记型应用(如:Apache Zeppelin)进行数据探索,编写核心的组件或算法代码。 第二步:编码 新建工程,将编写的核心组件或算法代码移到工程中。工程结构按以下三大模块进行组织: Source 数据输入 Process 数据处理 Sink 数据输出 第三步:测试用例 选择 JUnit/ScalaTest »

学习 Avro(二):Spark Streaming 使用 Avro

思路 生产者使用 Avro 对数据进行序列化,发送数据到 Kafka 的指定 Topic 队列 消费者订阅 Kafka 指定 Topic 订阅,使用 Avro 对数据进行反序列化 生产者和消费者使用相同的 Avro Schema,保存在外部存储中,例如:Redis 等 序列化与反序列化 Bijection »

学习 Guice(二):Spark 依赖注入实践

绑定 class ApplicationModule(spark: SparkSession, date: LocalDate) extends AbstractModule { override def configure(): Unit = { bind(classOf[SparkSession]).toInstance(spark) // ① bind(classOf[Source]).to(classOf[SourceImpl]) // ② bind(classOf[ »