当前位置: 首页 > 云计算, 分布式 > 正文

Hadoop数据倾斜,快速精确balance的方法

Hadoop集群Datanode数据倾斜,个别节点hdfs空间使用率达到95%以上,于是新增加了三个Datenode节点,由于任务还在跑,数据在不断增加中,这几个节点现有的200GB空间估计最多能撑20小时左右,所以必须要进行balance操作。

首先执行了一下balance操作:

通过观察磁盘使用情况,发现balance的速度明显跟不上新增数据的速度,这明显是药丸啊。。。!!!

跟踪了一下balance的日志,发现两个问题:
一是balance时原有的十几个节点都被列入了待balance的节点中,上面的数据分块移动到新增加的3个节点上,由于节点多,最迫切需要balance的几个节点轮到的机会很少;
二是balance的速度太慢了,Hadoop集群为了防止balance影响吞吐、I/O性能,默认balance的速度为1MB,这样一共8TB的数据需要balance,这需要太长时间了。

于是针对上述问题,进行了如下尝试:

    提高blance的速度,将默认的balance速度从1MB/s增大到50MB/s

    调整balance的平衡比例:

将原来的%5 提高到20%,调整原则就是尽量先让balance影响到最需要平衡数据的节点。

简单说明一下:原有集群的hdfs占用率为80%,新增加3个节点后,集群hdfs的整体占用量为70%, 如果比例是%5的话,那么原有节点都在这个调整范围内,所以各个节点都要被balance,而接受balance的节点只有三个,所以轮到迫切需要balance的节点的概率就比较小;
如果调整到20%,那么原来使用量小于90%的节点都不会被balance,那几台占用量90%以上的节点才会被最先balance,这样只有3个节点符合这个条件,balance的精确性就高了很多。

综合以上两点,balance的效果好多了,解决了最紧迫的节点的磁盘占满的问题,balance的速度终于快于新增数据,20%时需要balance的数据为6TB左右,待这次balance结束后,再运行一次%5的balance,还有2TB的数据要balance,这样经过两次的balance的操作,集群基本平衡了。

第一次balance前各各节点情况:

第一次balance:

第一次balance结束:

现在最近紧迫的几个几点已经被balance了,继续进行。。
第二次balance:

第二次balance结束:

第二次balance后各节点情况,集群已经基本平衡了:

其实操作起来非常简单,只需要两条命令即可。

网上也有同学说可以让某个hdfs空间最满的节点先做下线处理,做下decommission,格式化现有的数据盘,然后再重新加入到节点中来,这也是个方法,让hdfs缺失的一份数据平均分配到其他节点上,速度会比较快,不过我担心有些许风险,并没有采用。

本文固定链接: https://www.sudops.com/how-to-quick-smart-balance-hadoop-datanode.html | 运维·速度

该日志由 Fisher 于2016年11月14日发表在 云计算, 分布式 分类下, 你可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客。
原创文章转载请注明: Hadoop数据倾斜,快速精确balance的方法 | 运维·速度
关键字:

Hadoop数据倾斜,快速精确balance的方法:等您坐沙发呢!

发表评论


Time limit is exhausted. Please reload the CAPTCHA.

快捷键:Ctrl+Enter