学习 Apache Kudu(一):环境搭建

Apache Kudu 位于 Hadoop 生态圈中的存储层,对实时数据进行快速处理 Kudu 不是文件格式 Kudu 不是运行在 HDFS 之上的应用 Kudu 不是 HDFS 或者 HBase 的替代 👇参考官方文档,以 CentOS 系统为例,说明如何安装部署 Kudu: 安装 Kudu »

Spark SQL 优化 count distinct

org.apache.spark.sql.functions 的 countDistinct 方法,可用于统计分组内不同值的数据 以统计页面的 PV 和 UV为例: // accessLogDF 页面的访问日志 accessLogDF.groupBy(accessLogDF("page_id")).agg( count("user_id") as "pv" »