加速 Spark 应用启动

执行 spark-shell --master yarn 或 spark-submit --master yarn 在 YARN 上启动 Spark 的时候,会将 {SPARK_HOME}/jars 目录下的 JAR 文件压缩成 ZIP 文件,上传至 HDFS /user/{user} »

Hadoop 文件格式

CSV CSV(Comma-Separated Value 逗号分隔值) 特性 文本文件 面向行 记录被分隔符分隔为字段 记录有着相同的字段序列 场景 易于解析,适用于从 Sqoop 导入到 HDFS 或从 HDFS 导出到数据库的文件格式 提示 文本编码 保证记录中的字段不包含分隔符(使用不常用的字符作为分隔符或者替换字段中的分隔符) 使用 Apache Commons »

学习 Spark 2(八):DataSet 创建

DataSet 是强类型的领域对象集,可以使用函数式(functional)或关系式(relational)操作,以并发的对 DataSet 进行转换。 DataFrame 是泛型为 Row 的 Dataset,即 Dataset[Row] 创建 Dataset 可以通过 spark.createDataFrame 和 spark.createDataset »