之前的文章讲述了Kafka的分区重分配。这里讲述Kafka的优先副本选举方法,该办法可用于机器上副本的负载均衡,避免个别broker机器上leader副本过多导致数据写入压力过大。
首先,查看topic的partition分布情况
/opt/cloudera/parcels/KAFKA/lib/kafka/bin/kafka-topics.sh --zookeeper zk1:2181 --topic topic_replica_test --describe
也可以用kafka manager查看topic的partition分布情况,可以看到partition为2的分区leader上的副本并不是优先副本。
创建election.json文件
{"partitions":[{"topic":"topic_replica_test","partition":0},{"topic":"topic_replica_test","partition":1},{"topic":"topic_replica_test","partition":2}]}
使用election.json文件执行优先副本选举
/opt/cloudera/parcels/KAFKA/lib/kafka/bin/kafka-preferred-replica-election.sh --zookeeper zk1:2181 --path-to-json-file election.json
再次查看topic的partition分布情况,发现partition为2的分区leader已经调整成151为leader了。
/opt/cloudera/parcels/KAFKA/lib/kafka/bin/kafka-topics.sh --zookeeper zk1:2181 --topic topic_replica_test --describe
通过kafka manager可以看到,partition为2的分区,其Preferred Leaderd状态已经变成了true
Kafka有个参数可以控制优先副本选举,即auto.leader.rebalance.enable参数。在生产中,不建议将这个参数设置为true。因为自动发生的leader副本选举,在大数据量环境下,可能引发客户端阻塞。而且,Kafka是允许分区保持一定的不均衡的,单个topic的优先副本均衡,也并不能代表整个集群的优先副本均衡。
对于手动执行优先副本选举,也建议采取分批次的方式进行,避免同时进行多个大数据量topic的优先副本选举。
欢迎关注我的公众号“九万里大数据”,原创技术文章第一时间推送。