hadoop调优
1 集群数据均衡
1 节点间数据均衡
(1)开启数据均衡命令
start-balancer.sh -threshold 10
(2)停止数据均衡命令
stop-balancer.sh
2 磁盘间数据均衡
(1)生成均衡计划(我们只有一块磁盘,不会生成计划)
hdfs diskbalancer -plan hadoop103
(2)执行均衡计划
hdfs diskbalancer -execute hadoop103.plan.json
(3)查看当前均衡任务的执行情况
hdfs diskbalancer -query hadoop103
(4)取消均衡任务
hdfs diskbalancer -cancel hadoop103.plan.json
2 数据压缩
https://cloud.tencent.com/developer/article/1417401
1 LZO压缩
LZO压缩文件的可切片特性依赖于其索引,故我们需要手动为LZO压缩文件创建索引。若无索引,则LZO文件的切片只有一个。
1 | [atguigu@hadoop102 bin]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /warehouse/gmall/ods/ods_log/dt=2020-06-14 |
3 Hadoop参数调优
https://developer.aliyun.com/article/566013
1)HDFS参数调优
2)YARN参数调优