学习 Hive(十一):视图

Hive 视图是逻辑视图,即只保存元数据不保存数据。视图是封装思想的体现,隐藏了视图复杂的处理(过滤、子查询、分组、连接等),简化了查询。视图是只读的。 视图定义 CREATE VIEW IF NOT EXISTS order_summary AS SELECT order_id, SUM(amount) AS »

学习 Hive(十):窗口函数

窗口函数语法: Function() OVER ([PARTITION BY <...>] [ORDER BY <...>] [Window Specification]) PARTITION BY 定义窗口分区,控制哪些数据行和当前数据行在同一个分区。 ORDER BY 定义窗口排序,控制分区内的排序方式,决定了当前行在分内的位置。 Window Specification 定义窗口帧,根据当前行的位置声明哪些行将包含在帧中。 »

学习 Hive(九):排序

ORDER BY Hive 中 ORDER BY 的行为与关系型数据库的 ORDER BY 行为一致,实现了数据集的全局排序,支持升序(ASC)和降序(DESC)。 SORT BY Hive 中的 SORT BY 实现了数据集的 Map 排序,为每个 reducer »

学习 Hive(八):Hive JDBC

使用 Hive 的一个通用的场景是:应用通过 JDBC 连接 Hive ThriftServe2,通过 SQL 查询 Hive 数据 启动服务 终端执行: hive --service hiveserver2 依赖 编辑 pom.xml 文件,添加依赖: <dependency& »

学习 Hive(七):跨集群备份

Hive 跨集群备份主要备份两类: 存储在 MySQL 中的元数据 存储在 HDFS 中的数据文件 也就是说,跨集群备份就是从一个集群把元数据和数据文件拷贝到另一个集群中 Hive 提供了 IMPORT/EXPORT 导入导出元数据和数据文件功能,HDFS 提供了 distcp 跨集群数据拷贝功能,结合这两个工具,就可以实现跨集群备份功能 全量备份 在主集群,导出全量数据到临时目录: hive -e »