Spark 应用开发过程

第一步:数据探索 使用 spark-shell 或者笔记型应用(如:Apache Zeppelin)进行数据探索,编写核心的组件或算法代码。 第二步:编码 新建工程,将编写的核心组件或算法代码移到工程中。工程结构按以下三大模块进行组织: Source 数据输入 Process 数据处理 Sink 数据输出 第三步:测试用例 选择 JUnit/ScalaTest »

学习 Guice(三):Spark 切面编程实践

定义注解 用于标注需要启用测量 Spark 指标的方法 @Retention(RetentionPolicy.RUNTIME) @Target(ElementType.METHOD) public @interface EnableMeasure {} 定义方法拦截器 class MeasureInterceptor extends MethodInterceptor { @Inject private var spark: SparkSession = _ override def invoke( »

深入理解 Spark(二):Spark on YARN

总览 从 Spark 的角度看集群,集群的角色分为: Driver Executor 从 YARN 的角度看集群,集群的角色分为: Client ApplicationMaster Container Client 模式: Cluster 模式: Client 模式与 Cluster 模式的区别:在 Client 模式下 Spark »

深入理解 Spark 2(一):提交应用

当在命令行下执行 spark-submit 提交任务到 YARN 上的时候,Spark 究竟做了什么??? 接下来的深入理解 Spark 2 系列将从源码的角度,探索 Spark 2 内部的实现原理 源码基于当前最新版 Spark 2.3.0 spark-submit.sh 当在命令行下执行: spark-submit --master yarn »

学习 Hive(八):Hive JDBC

使用 Hive 的一个通用的场景是:应用通过 JDBC 连接 Hive ThriftServe2,通过 SQL 查询 Hive 数据 依赖 编辑 pom.xml 文件,添加依赖: <dependency> <groupId>org. »