返回到文章

采纳

编辑于

kafka节点重启后引发 UnknownTopicOrPartitionException: This server does not host this topic-partition 无法消费问题

kafka

环境

  • 本地环境:
  • 六节点的kafka集群
  • 版本1.1.0

背景

kafka-2节点在集群扩容的时候宕机,导致所有的topic的AR,ISR列表中都没有kafka-2,也就是说kafka-2一直是零负载的节点,但这件事情一直都没有发现

问题时间线:

  • 18:06 kafka-0因为OOM重启
  • 18:13 kafka-1因为OOM重启,重启后正常
  • 18:06 — 01:29 kafka-0 重启后服务端一直报错While recording the replica LEO, the partition ... hasn't been created. (这些topic一定都是存在的)
  • 18:06 — 01:29 kafka-3,4,5 服务端自kafka-0重启后一直报错:UnknownTopicOrPartitionException: This server does not host this topic-partition.
  • 01:29 发现客户端报错UnknownTopicOrPartitionException: This server does not host this topic-partition.,因为kafka-2不存在于任何AR,ISR中,误以为是kafka-2的问题,重启kafka-2节点。问题解决

疑问:

  • 为什么kafka-0重启后会报错并引发kafka-3,4,5报错?
  • 为什么看似毫无相干的kafka-2重启会解决所有的问题?