学习 Livy(一):初识 Livy

除了 Apache Spark 本身提供的 spark-submit、spark-shell 和 ThriftServer 之外, Apache Livy 提供了另一种与 Spark 集群交互的方式,通过 REST 接口。 此外,Apache Livy 支持同时维护多个会话。 可以通过 REST 接口、Java/Scala »

机器学习算法(二):朴素贝叶斯

朴素贝叶斯是一个监督学习分类算法。 贝叶斯定理 贝叶斯定理由英国数学家托马斯·贝叶斯于 1763 年提出。 对于事件 A 和 B: $$P(A|B) = \frac {P(B|A)P(A)}{P(B)}$$ P(A) 称为先验概率(Prior Probability) »

2018 年终总结

工作 风雨之后又见🌈。 所在的大数据平台与 BI 方向,今年从最初的两个人扩充到了如今的三个人。 总结这一年的工作,主要达成了以下成就: 引入 Presto 即席查询引擎; 实现了基于 Lambda 架构的流处理; 自研 MySQL / Oracle 到 Apache Hive 数据集成服务 Corgi; 自研数据治理服务 Labrador; 使用 Kimball »

机器学习算法(一):K-means

K-means 算法是一种聚类算法,用于将数据集划分到 k 个簇中,使得每个点都属于离它最近的质心(Centroid)所属的簇中。 算法过程 值域范围内随机 k 个质心; 将点指派到距离最近的质心,形成 k 个簇; 计算每个簇所有点的均值,指定新的质心; 重复第 2 步和第 3 步,直到收敛或满足最大迭代次数。 算法描述 给定数据集 »

学习 Spark MLlib(一):概览

Spark MLlib 是基于 Spark 的机器学习组件,包括两个包: ml 基于 DataFrame 的 API mllib 基于 RDD 的 API,处于维护模式 对比其它机器学习库,例如 scikit-learn,Spark MLlib 是一个分布式的机器学习库。 首先,Spark MLlib »