HDFS 日常运维

问题一:HDFS 读超时 堆栈信息: java.net.SocketTimeoutException: 60000 millis timeout while waiting for channel to be ready for read. ch : java.nio.channels.SocketChannel[connected local= »

Hadoop 文件格式

CSV CSV(Comma-Separated Value 逗号分隔值) 特性 文本文件 面向行 记录被分隔符分隔为字段 记录有着相同的字段序列 场景 易于解析,适用于从 Sqoop 导入到 HDFS 或从 HDFS 导出到数据库的文件格式 提示 文本编码 保证记录中的字段不包含分隔符(使用不常用的字符作为分隔符或者替换字段中的分隔符) 使用 Apache Commons »

Hadoop 分布式拷贝 distcp

使用 获取文件系统地址 hdfs getconf -confKey fs.defaultFS 拷贝 hadoop distcp hdfs://master1/from hdfs://master2/to 参考:http://hadoop.apache.org/docs/stable/hadoop-distcp/DistCp.html »

HDFS 快照

简介 HDFS 快照是 HDFS 某个时间点的只读拷贝。 HDFS 快照常用于数据备份、防止用户错误和灾难恢复。 管理操作 允许一个目录创建快照: hdfs dfsadmin -allowSnapshot <path> 注意:在所有快照被删除之前,允许创建快照的目录即不可以删除也不可以重命名 反之,取消: hdfs dfsadmin -disallowSnapshot <path& »

Hadoop 归档

归档 命令格式: hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest> 以归档 /test 目录下所有文件到 /user/lizhen »