学习 Avro(二):Spark Streaming 使用 Avro

思路 生产者使用 Avro 对数据进行序列化,发送数据到 Kafka 的指定 Topic 队列 消费者订阅 Kafka 指定 Topic 订阅,使用 Avro 对数据进行反序列化 生产者和消费者使用相同的 Avro Schema,保存在外部存储中,例如:Redis 等 序列化与反序列化 Bijection »

学习 Guice(二):Spark 依赖注入实践

绑定 class ApplicationModule(spark: SparkSession, date: LocalDate) extends AbstractModule { override def configure(): Unit = { bind(classOf[SparkSession]).toInstance(spark) // ① bind(classOf[Source]).to(classOf[SourceImpl]) // ② bind(classOf[ »

学习 Spark 2(四):Spark 读写 Hive

启用 Hive 在使用 Builder 模式 SparkSession.Builder 创建 SparkSession 实例,通过调用 enableHiveSupport() 即可启用 Hive: SparkSession.builder() .master("yarn") .appName(appName) .enableHiveSupport() .getOrCreate() 在使用 Oozie 运行 Spark »

Spark SQL 通过 JDBC 连接 SQL 数据库

连接配置 读数据: val df = spark.read .format("jdbc") .option("url", url) .option("username", username) .option("password", password) .option("driver", "com.mysql.jdbc.Driver") .option("dbtable", table) »