学习 Flink(十七):HyperLogLog 去重计数

在需要对数据进行去重计数的场景里,实现方式是将数据明细存储在集合的数据结构中。然而,随着数据随时间的不断累积,明细数据占用了大量的存储空间。使用 HyperLoglog 去重计数,在牺牲非常小准确性的情况下,可以极大的减少数据存储。 依赖 编辑 pom.xml 文件,添加依赖: <dependency> <groupId>net.agkn</groupId& »

学习 Flink(十六):Streaming Parquet File

更新至 Flink 1.8 版本 Flink 支持将流数据以文件的形式写入文件系统(HDFS、本地文件系统),支持 CSV、JSON 面向行的存储格式和 Parquet 面向列的存储格式。 应用场景:Flink 消费 Kafka 数据进行实时处理,并将结果以 Avro / Parquet 格式写入 HDFS。之后, »

学习 Flink(十四):REST API

更新至 Flink 1.8 版本 Flink 为 Web 仪表盘提供了 REST API,同时,我们也可以调用该 REST API 实现应用的部署和监控等功能。 默认,REST API 服务监听 8081 端口,编辑 conf/flink-conf.yml »