【译】深入理解 Spark SQL 的 Catalyst 优化器

原文:Deep Dive into Spark SQL’s Catalyst Optimizer Spark SQL 是 Spark 最新且技术最复杂的组件之一。它同时支持 SQL 查询和新的 DataFrame API。Spark SQL 的核心是 Catalyst 优化器,它以一种全新的方式利用高级语言的特性(例如: »

学习 Spark Streaming(二):集成 Drools 实现 CEP

CEP CEP(Complex Event Processing 复杂事件处理)是一种事件流处理方式,通过结合多个数据源来推断事件或者模式,从而发现更复杂的情况。 CEP 的一种实现为:流处理 + 规则引擎 添加依赖 Spark 依赖: <dependency> <groupId>org.apache.spark< »

Spark 应用开发过程

第一步:数据探索 使用 spark-shell 或者笔记型应用(如:Apache Zeppelin)进行数据探索,编写核心的组件或算法代码。 第二步:编码 新建工程,将编写的核心组件或算法代码移到工程中。工程结构按以下三大模块进行组织: Source 数据输入 Process 数据处理 Sink 数据输出 第三步:测试用例 选择 JUnit/ScalaTest »

学习 Guice(三):Spark 切面编程实践

定义注解 用于标注需要启用测量 Spark 指标的方法 @Retention(RetentionPolicy.RUNTIME) @Target(ElementType.METHOD) public @interface EnableMeasure {} 定义方法拦截器 class MeasureInterceptor extends MethodInterceptor { @Inject private var spark: SparkSession = _ override def invoke( »

学习 Hive(八):Hive JDBC

使用 Hive 的一个通用的场景是:应用通过 JDBC 连接 Hive ThriftServe2,通过 SQL 查询 Hive 数据 依赖 编辑 pom.xml 文件,添加依赖: <dependency> <groupId>org. »