学习 Spark MLlib(一):概览

Spark MLlib 是基于 Spark 的机器学习组件,包括两个包: ml 基于 DataFrame 的 API mllib 基于 RDD 的 API,处于维护模式 对比其它机器学习库,例如 scikit-learn,Spark MLlib 是一个分布式的机器学习库。 首先,Spark MLlib »

学习 Flink(八):Streaming Join

Streaming Join 与 Join 的区别,在于增加了时间维度。 Flink 支持两种类型的 Streaming Join: Window Join 窗口连接 Interval Join 间隔连接 示例数据流: 数据流 L ID NAME TIME 1 L1 12:00 »

学习 Flink(七):Flink on YARN

Flink 支持多种集群部署: Standalone Flink on YARN Flink on Mesos Flink on K8s 等等…… Flink on YARN 支持两种模式: 会话模式(Session Mode),在 YARN 上运行长期运行的 Flink 集群; 任务模式( »

学习 StreamSets(二):Oracle CDC Client

REDO LOG Redo Log 用于 Oracle 数据库实例失败恢复,记录了数据库修改历史。 通过执行 SQL 语句: SELECT log_mode FROM v$database; 查看是否开启 Redo Log,NOARCHIVELOG 意为未开启,ARCHIVELOG 意为已开启。 如果 Redo »

学习 Janino(一):初识 Janino

Janino 是一个极小、极快的 Java 编译器。 Janino 不仅可以像 JAVAC 一样将 Java 源码文件编译为字节码文件,还可以编译内存中的 Java 表达式、块、类和源码文件,加载字节码并在 JVM 中直接执行。 Janino 同样可以用于静态代码分析和代码操作。 在 Apache Spark 中,使用 »