学习 Druid(四):HDFS 数据摄入

由于业务调整,需要批量修正历史数据。 或者,在 Lambda 架构 中,使用 Druid 作为 Serving 层,使用 Flink 作为 Speed 层,使用 Spark 作为 Batch 层。 Druid 提供了两种批量数据摄入的方式: 原生批量摄入,适用于小批量和大批量数据索引; »

学习 Druid(六):Druid on Kubernetes

更新至 Druid 0.15.1 版本 Docker 镜像 Apache Druid 官方提供了 all-in-one 的 Docker 镜像,然而并不适合部署到 Kubernetes 集群。 以一个容器对应一个进程的原则,自己制作了 Docker 镜像,已上传至 Docker Hub: Router »

学习 Druid(五):集群调优

Historical 堆内存 Historical 堆内存的使用: 部分未合并的 Segment 查询结果; Lookup 映射; 缓存。 堆内存公式: (0.5GB * number of CPU cores) + (2 * total size of lookup maps) + druid.cache.sizeInBytes »

学习 Kubernetes(五):Job

Job 是 Kubernetes 用于运行短暂的(short living)任务的资源。 Job 类型 属性 .spec.completions 指定成功完成的 Pod 的数量; 属性 .spec.parallelism 指定并行运行的最大 Pod 的数量。 根据 completions 和 parallelism 参数, »