学习 Alluxio(一):初识 Alluxio

简介 Alluxio,之前叫 Tachyon,是一个基于内存的分布式文件系统。 使用场景: 经常访问的热数据 同时访问多个数据源(比如,同时访问 S3 和 HDFS) 多个任务之间共享数据 内存紧张任务的堆外内存 架构 Alluxio 采用了主从架构,和 HDFS 非常相似。 架构图如下所示: 参考:https://www.alluxio. »

学习 Spark 2(七):去重计数

去重计数(count distinct)通常用于计算集合中不重复元素的个数。例如:统计交易的商品数、网站的 UV 等。 HyperLogLog 一般情况下,去重计数的做法是维护元素集合 S,对于一个新的元素 e,如果 S 中包含元素 e 则加入集合 S,否则不加入,集合 S 的元素数量就是计数值。 然而, »

学习 ANTLR 4(一):初识 ANTLR 4

ANTLR 4 是什么? 官网:http://www.antlr.org/ ANTLR 是 ANother Tool for Language Recognition 的缩写 ANTLR 4 是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件 ANTLR 4 的开发流程: 定义 »

学习 Kylin(三):Cube 构建

完成 Cube 定义之后,此时的 Cube 状态是 DISABLED,需要对 Cube 进行构建,计算各个维度下的指标数据,才可以被查询引擎使用。 源码版本:2.3.1 构建步骤 源码 org.apache.kylin.engine.mr.BatchCubingJobBuilder2: public CubingJob »