Spark SQL 源码分析(二):SqlParser

SQL on Hadoop 按 SQL 解析可分为两大阵营: ANTLR Apache Calcite ANTLR 阵营的包括:Apache Hive、Apache Spark、Presto Apache Calcite 阵营的包括:Apache Flink、Apache Kylin SparkSession Spark 2. »

Spark SQL 源码分析(一):从 SQL 到 RDD

之前,曾经和同事讨论过一个问题:实现相同的逻辑,使用 RDD 一定比 SQL 执行速度更快么? 我的答案是:不一定。 至少在 Spark 2.0 之后,SQL 的执行速度是有可能比 RDD 更快的。 原因,是因为 SQL 最终生成的是经过优化的 RDD,如下图所示: 生成未解析的逻辑计划 »

学习 Flink(一):初识 Flink

Apache Flink 是在有界(bounded)和无界(unbounded)数据流之上进行有状态计算的框架和分布式处理引擎。 有界数据流,有始有终,之上的计算即为批处理。无界数据流,有始无终,之上的计算即为流处理。 Flink 采用了流优先的架构,批处理被作为流处理的特殊情况。 参考:The world beyond batch: Streaming 101 应用在运行基本的业务逻辑的过程中,需要记住事件或中间结果,以便在稍后访问。 »

学习 Alluxio(四):Java API

配置 配置 Alluxio Master 主机地址: Configuration.set(PropertyKey.MASTER_HOSTNAME, "alluxio_master"); 配置用户: Configuration.set(PropertyKey.SECURITY_LOGIN_USERNAME, "alluxio"); 默认会使用当前用户,如果当前用户没有权限,则会抛出异常 alluxio.exception.status. »

学习 Alluxio(三):HDFS 底层存储

Hadoop 版本 需要保证 Alluxio 编译使用的 Hadoop 版本与环境使用的 Hadoop 版本一致。可以选择在 Alluxio 下载页面 下载预编译版本,也可以在 Alluxio GitHub 页面 从源码编译。 以编译 Hadoop 2.7.1 版本的 Alluxio 为例: »