学习 Hive(七):跨集群备份

Hive 跨集群备份主要备份两类: 存储在 MySQL 中的元数据 存储在 HDFS 中的数据文件 也就是说,跨集群备份就是从一个集群把元数据和数据文件拷贝到另一个集群中 Hive 提供了 IMPORT/EXPORT 导入导出元数据和数据文件功能,HDFS 提供了 distcp 跨集群数据拷贝功能,结合这两个工具,就可以实现跨集群备份功能 全量备份 在主集群,导出全量数据到临时目录: hive -e »

学习 Hive(六):HQL 实战与优化

实战 显示建表语句 show create table <库名>.<表名> 删除列 Hive 没有提供 ALTER TABLE DROP COLUMN 的功能,如果需要删除列,只能通过替换的方式实现: 列名 类型 name string birth »

学习 Hive(五):Hive MetaStore Java API

通过 Java 获取 Hive 元数据信息有两种方式: hive-metastore 包,通过 Hive Metastore Server 获取; hive-jdbc 包,通过 Hive ThriftServer2 获取。 对比两种方式,如果仅获取 Hive 元数据信息,而不操作底层数据,建议使用第一种方式。 启动服务 终端执行: »

学习 Presto(四):集成 Hive

Hive 简介 Apache Hive 主要由三部分组成: 数据,存储在 HDFS 的文件集,文件格式为 CSV、 ORA、Avro 或者 Parquet 等 元数据,保存在 MySQL 的表,记录了 Hive 表定义等元数据信息 执行引擎,默认为 MapReduce, »

学习 Spark 2(四):Spark 读写 Hive

启用 Hive 在使用 Builder 模式 SparkSession.Builder 创建 SparkSession 实例,通过调用 enableHiveSupport() 即可启用 Hive: SparkSession.builder() .master("yarn") .appName(appName) .enableHiveSupport() .getOrCreate() 在使用 Oozie 运行 Spark »