这里还会出现问题,就是roundbin分区算法,是全局的。当消息并发发送的时候,上一次发送失败的消息还是有可能被分配到那个连不上的broker上。我采取的解决方式是,消息发送失败的时候,将失败的分区号记在消息的meta结构中,然后自己实现一个分区选择器,这个分区选择器过滤掉消息的meta结构中记录的分区号,然后随机分配一个分区。
感谢 @半兽人 的帮助。通过这个问题我基本了解了kafka生产者发送消息的流程。这里总结下我的理解,有误请指正:
我这里的示例,实际就是某个broker不能访问了,但实际服务是还存在的。当某个消息发送失败时,协议层(kafka的发送逻辑)的重试逻辑是为这个消息对上一个分配的分区重试,而不是重新选择分区重试,因为协议层也不确定是不是用户又这个需求。
那我这里是希望重新选择分区进行发送的,所以应该在我的业务层,接收到消息发送失败后,重新对消息入栈发送。至于怎么保证不会再去尝试同一个分区,这个跟具体的分区选择算法相关。config.Producer.Partitioner 决定了用什么方式再去选择分区。最简单的是直接使用roundbin算法。
当业务层也进行了重试,重试若干次仍然失败后,那基本上能确定是所有的broker都访问不了了,由业务层进一步去确认该怎么处理。
重试次数默认是3的。就是不知道这个重试,是对同一个broker重试,还是会对其他broker重试?
“acks=1,这意味着leader写入消息到本地日志就立即响应,而不等待所有follower应答。在这种情况下,如果响应消息之后但follower还未复制之前leader立即故障,那么消息将会丢失。 ”, 我使用的默认配置就是这个。按照我这个示例得到的现象,S1的防火墙直接把C给拦截了,C是知道timeout了的。但是C却没有再去重试S2和S3,这是为什么呢?