学习 Spark MLlib 特征工程(三):Bucketizer 和 QuantileDiscretizer

Bucketizer 根据用户指定的分桶,将连续的特征转化为特征分桶。 定义分桶的条件: 分桶最小值必须小于 DataFrame 中的最小值; 分桶最大值必须大于 DataFrame 中的最大值; 分桶必须至少三个; 分桶必须严格递增。 举🌰 样例分桶: val splits = Array(Double.NegativeInfinity, -0.5, 0.0, 0.5, Double. »

学习 Spark MLlib 特征工程(一):RFormula

RFormula 借鉴了 R 语言的 R model formula 进行特征选择。RFormula 仅支持部分 R 操作,包括: ~ 分隔因变量(LHS 左侧)和自变量(RHS 右侧); + 合并变量,+0 意为移除截距; - 移除变量,-1 意为移除截距; »

学习 Spark MLlib(三):统计

相关性 Correlation 相关性,用于描述随机变量之间线性关系的强度和方向。org.apache.spark.ml.stat.Correlation 用于计算向量的相关性矩阵,支持皮尔森(pearson,默认)和斯皮尔曼(spearman)。相关系数的取值范围是 [-1, 1],取值 (0, 1] 代表正相关,取值 [-1, 0) »

学习 Spark MLlib(二):线性代数

Breeze Breeze 作为数值处理的底层线性代数库,Spark 包装了 Breeze 库实现了机器学习算法。 Breeze GitHub 地址:https://github.com/scalanlp/breeze 依赖 编辑 pom.xml 文件,添加依赖: <dependency> <groupId& »